Google stellt Gemma 3 270M vor: kompaktes Modell für hocheffiziente KI
(developers.googleblog.com)- Gemma 3 270M ist ein leichtgewichtiges Modell mit 270 Millionen Parametern und bietet starke Instruction-Following-Fähigkeiten sowie Funktionen zur Textstrukturierung
- Mit einem großen Vokabular von 256k Tokens ist es stark bei der Verarbeitung seltener Tokens und als feinabstimmungsbasiertes Modell für bestimmte Domänen und Sprachen konzipiert
- Auf dem Pixel 9 Pro SoC verbraucht das INT4-quantisierte Modell bei 25 Dialogen nur 0,75 % Akku und bietet damit eine hervorragende Energieeffizienz
- Statt auf ein großes Allzweckmodell zu setzen, eignet es sich für eine Strategie mit vielen kleinen Spezialmodellen, um Geschwindigkeit, Kosten und Genauigkeit gleichzeitig zu optimieren
- Optimiert für On-Device-Ausführung, schnelle iterative Experimente und kostengünstigen Betrieb bei festen Aufgaben und damit geeignet für den Aufbau verschiedenster KI-Anwendungen
Überblick über Gemma 3 270M
- Ein neu vorgestelltes kleines Modell für spezialisiertes Fine-Tuning von Google nach Gemma 3 und Gemma 3 QAT
- Von den 270M Parametern entfallen 170 Millionen auf Embeddings und 100 Millionen auf Transformer-Blöcke
- Das große Vokabular mit 256k Tokens ermöglicht die Verarbeitung seltener und spezieller Tokens
- Sowohl eine vortrainierte (
pretrained) als auch eine instruction-getunte (instruction-tuned) Version werden angeboten
Hauptmerkmale
- Kompakte und zugleich leistungsstarke Architektur: ideal für domänen- oder sprachspezifisches Fine-Tuning
- Extreme Energieeffizienz: Auf dem Pixel 9 Pro SoC nutzt das INT4-Modell bei 25 Dialogen nur 0,75 % Akku
- Instruction-Following: eher für aufgabenorientierte Nutzung als für allgemeine Konversation optimiert und bereits im Grundzustand fähig, Anweisungen auszuführen
- Quantisierungsunterstützung (QAT): minimale Leistungseinbußen bei INT4-Präzision, geeignet für ressourcenbeschränkte Umgebungen
Die Philosophie „am richtigen Ort eingesetzt“
- Betont einen effizienzorientierten Ansatz beim KI-Design
- Kleine Modelle ermöglichen schnelle Antworten und einen kostengünstigen Betrieb
- Bei klar umrissenen Aufgaben wie Textklassifizierung oder Datenextraktion wird eine hohe Leistung erreicht
Praxisbeispiele
- Adaptive ML hat das Gemma-3-4B-Modell für die mehrsprachige Content-Moderation von SK Telecom feinabgestimmt und dabei eine Leistung über großen proprietären Modellen erzielt
- Das 270M-Modell skaliert diesen Ansatz auf kleinere Größen und ermöglicht die massenhafte Erstellung von „Expertenmodellen“ für spezialisierte Aufgabenbereiche
- Die webbasierte Bedtime Story Generator-App von Hugging Face kann mit Gemma 3 270M Inhalte in Echtzeit offline oder direkt im Webbrowser erzeugen
Geeignete Nutzungsszenarien
- Klare Aufgaben mit hohem Durchsatz: ideal für spezialisierte Aufgaben wie Sentiment-Analyse, Entity-Extraktion, Query-Routing, Texttransformation, kreative Generierung und Compliance-Prüfung
- Maximale Wirtschaftlichkeit und Geschwindigkeit: sehr kostengünstiger Betrieb auf leichter Infrastruktur oder On-Device bei unmittelbaren Reaktionszeiten
- Schnelle Entwicklung und Bereitstellung: durch die geringe Modellgröße lassen sich Fine-Tuning-Experimente sowie Optimierungs- und Testprozesse innerhalb weniger Stunden durchführen
- Datenschutz: Verarbeitung direkt auf dem Gerät ohne Übertragung in die Cloud, vorteilhaft für den Schutz sensibler Informationen
- Betrieb maßgeschneiderter Spezialmodelle: gleichzeitiger Aufbau und Rollout vieler Modelle für unterschiedliche Zwecke ohne hohe Budgetbelastung
Fine-Tuning und Deployment
- Das Modell kann über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Quellen heruntergeladen werden
- Unterstützung für verschiedene Inferenz-Tools wie Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras und MLX
- Vollständige Fine-Tuning-Guides auf Basis von Hugging Face, UnSloth und JAX werden bereitgestellt
- Flexible Bereitstellung von lokalen Umgebungen bis zu Google Cloud Run
Fazit
- Gemma 3 270M ist ein kleines, aber leistungsstarkes Foundation Model, das den Aufbau auf bestimmte Aufgaben optimierter KI-Lösungen beschleunigt
- Eine ideale Wahl für Entwickler, die niedrige Kosten, hohe Effizienz und schnelle Bereitstellung gleichzeitig anstreben
3 Kommentare
Wenn es sich als
.task-Datei erstellen ließe, würde ich es auf einem Android-Smartphone nach Herzenslust ausprobieren..Es gab wohl eine von jemandem erstellte
.task-Datei (nicht Web), also habe ich sie auf dem Smartphone ausprobiert. Sie antwortet knapp und schnell wirklich gut.Aber ich finde,
qwen3:0.6bist besser (auch wenn dieses Modell natürlich schwergewichtiger sein dürfte).Hacker-News-Kommentar
Ich habe diese Modelle mit einem großartigen Team entwickelt, und da sie im gesamten Open-Model-Ökosystem zum Download verfügbar sind, kann ich nur empfehlen, dass alle sie einmal ausprobieren. Wir haben sie so entworfen, dass sie gemessen an ihrer Größe leistungsstark sind und sich für passende Anwendungsfälle leicht von jedem feinabstimmen lassen. Dank der kleinen Modellgröße laufen sie auf unterschiedlichster Hardware, und auch das Fine-Tuning ist sehr günstig. Man kann es sogar selbst in weniger als 5 Minuten kostenlos in Colab ausprobieren. Als Orientierung bei der Wahl der passenden Gemma-Größe lohnt sich mein selbst aufgenommenes Video zu den Varianten von 1b bis 27b sowie zur kürzlich hinzugekommenen 270m-Version: YouTube-Link. Ich arbeite zwar als Forscher bei Google, aber alle Kommentare hier geben ausschließlich meine persönliche Meinung wieder. Ich werde möglichst viel teilen und mich dabei auf technische Fragen konzentrieren
Ich finde die Gemma-3-Modelle wirklich großartig. Auch die norwegische Textgenerierung ist ordentlich, und das Befolgen von Instruktionen klappt in den meisten Fällen gut. Allerdings scheint es Probleme im Zusammenhang mit Zensur zu geben: Gerade bei ernsten Themen verhält es sich deutlich konservativer als vorgegeben. Wenn man das Modell zum Beispiel bitten will zu klassifizieren, ob eine Chat-Nachricht in einem Spiel, in dem Spieler einander töten können, eine echte Drohung oder eine Drohung im Spiel ist, funktioniert das nicht gut. Selbst wenn man vorgibt, unklare Fälle als spielbezogen einzuordnen, scheint es sicherheitslastig verzerrt zu sein. Es gibt sogar Fälle, in denen es Hotline-Hinweise ausgibt. Das wirkt wie ein Effekt des Trainings auf sicheres Verhalten, deshalb würde mich interessieren, ob du den Grund kennst
Ich musste an den tollen Google-Ingenieur denken, den ich bei BSidesSF getroffen habe. Er hat meine Fragen sehr aufrichtig und ausführlich beantwortet, und als ich auf das Video geklickt habe, warst du das direkt! Das war ein sehr inspirierender Moment, danke
Ich würde mich freuen, wenn du reale Beispiele feinabgestimmter Versionen teilen könntest. Eine Beschreibung wäre schon gut, aber eine Demo oder sogar herunterladbare Modellgewichte wären noch besser, idealerweise im GGUF-Format
Das ist wirklich großartige Arbeit. Es ist selten, dass ein Modell in der 270M-Parameter-Klasse so effizient ausfällt. Auch die Architekturentscheidungen sind neu und spannend. Ich würde gern mehr Trainingsdetails hören. Allein die Embedding-Parameter liegen bei 170M, daher interessiert mich, wie ihr die Embedding-Matrix während des Trainings stabil gehalten habt, ohne dass es zu einem Embedding-Kollaps kam. Ich würde auch gern wissen, ob es Material zu internen Experimenten oder Performance-Trade-offs bei der Parameteraufteilung von 170m/100m gibt. Vielen Dank für die gesamte Modellreihe
Wirklich beeindruckende Arbeit. Für einmalige Aufgaben wie Zusammenfassungen oder Autovervollständigung wirkt dieses Modell sehr stark. Dass ihr schon zum Release eine quantization-aware-training-Version veröffentlicht habt, ist ebenfalls hervorragend, dadurch wurde das Modell noch kleiner
Mein Gespräch mit dem 270M-F16-Modell war beeindruckend. Auf die Frage „Welcher ist der zweithöchste Berg der Erde?“ antwortete es immer wieder „Everest“. Auf „Und der höchste?“ kam ebenfalls „Everest“. Auf „Der dritthöchste?“, „Der vierthöchste?“ kam jedes Mal wieder „Everest“. Als ich sagte „Du hast doch gerade schon gesagt, dass der Everest der höchste Berg ist“, reagierte es mit „Stimmt, Freude“. Selbst als ich weiter nach dem zweithöchsten Berg fragte, wiederholte es nur „Everest“. Erst als ich eine „Liste der Berge auf Platz 1 bis 5“ verlangte, änderte es seine Antwort zu 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley. Aber selbst auf „Dann ist der zweithöchste Berg doch K2, oder?“ antwortete es weiter mit „Everest“. Solche kleinen Modelle sind großartig, aber es fühlt sich wirklich an, als würde man mit einem Kleinkind sprechen
Dieses Modell hat rund 270M Parameter, also etwa ein Drittel von 1B. Im Kern macht es nur ein paar Matrixmultiplikationen, daher kann man nicht viel Wissen, Grammatik oder Konsistenz erwarten. Solche Modelle unter 1B sind spezialisierte Modelle, die für bestimmte Zwecke optimiert werden. Ein Beispiel wäre das Extrahieren von Informationen aus Kundenbewertungen in ein JSON-Objekt, also die Umwandlung von Eingabetext in eine Form, die ein Programm sinnvoll weiterverwenden kann. Für gute Ergebnisse muss man solche Modelle sehr aggressiv auf die erwarteten Daten feinabstimmen. Wenn ein 270MB-Modell durch Fine-Tuning am Ende das gewünschte Ergebnis liefert, gibt es keinen Grund, stattdessen ein allgemeines 32GB-Modell zu verwenden
Ergänzend dazu: Wir haben von Anfang an gar nicht auf perfekte faktische Genauigkeit abgezielt. Unabhängig von der Modellgröße sind diese Gewichte bereits festgeschrieben. Ich würde empfehlen, es an ein RAG-System anzubinden und sich auf externes Wissen zu stützen oder es direkt mit genau den gewünschten Fakten feinabzustimmen. Neues Wissen eignet es sich ebenfalls schnell an
Ein 270M-Modell für enzyklopädische Wissenstests zu verwenden, ist so, als würde man ein stark komprimiertes JPG anschauen und sagen: „Die Bildqualität ist aber schlecht“
Wenn ich mir den Prompt ansehe, scheint es um die Bewertung von Wissen zu gehen, aber dafür ist dieses Modell nicht gedacht. Wie im Blogpost erwähnt, „zeigt es hervorragende Leistung bei Genauigkeit, Geschwindigkeit und Kosten für Dinge wie Textklassifikation oder Datenextraktion“
Auf die Anfrage „Plane mir einen 2-Tage-Trip nach Paris“ gab es einen konkreten Reiseplan mit Sehenswürdigkeiten in Paris, Landmarks, Museumsbesuchen, vielfältigen kulinarischen Erlebnissen, Spaziergängen durch das Marais und das Quartier Latin sowie einem Besuch im Musée d’Orsay, alles mit zeitlicher Gliederung. Auch Reisetipps wurden sehr sorgfältig gegeben
Dieses Modell macht wirklich Spaß. Mit rund 241MB ist es winzig, extrem schnell und „halluziniert“ dabei fast alles völlig frei zusammen. Auf die Aufforderung „Erzeuge ein SVG eines Pelikans auf einem Fahrrad“ schrieb das Modell zum Beispiel ein Gedicht (etwa „Das ist eine Katze, mit großen Flügeln und glücklichem Schwanz“, „Das Fahrradlicht leuchtet hell“, „Es ist bereit für ein Abenteuer“ usw.). Ich habe mehrere Versuche als Gist hochgeladen. Ich hoffe, dass künftig feinabgestimmte Modelle erscheinen, die für ausgewählte Aufgaben brauchbare Ergebnisse liefern können
Über diesen Versuch musste ich laut lachen. Es erzeugt erst etwas, das wie ein Gedicht oder Lied wirkt, erklärt dann, wie jede Zeile im SVG umgesetzt wird, und endet mit „Dieser SVG-Code vermittelt die Szene klar und visuell“
Ich habe gesehen, dass du die GGUFs von ollama verwendest. Standardmäßig bekommt man dort das quantisierte Q4_0-Modell, aber mit
gemma3:270m-it-bf16oder den unsloth-GGUFs unterhf.co/unsloth/gemma-3-270m-it-GGUF:16kann man bessere Ergebnisse erzielenEs produziert zwar auch viele nutzlose Tokens, aber dafür wirklich gewaltige Mengen davon
Für einen Download von 241MB bräuchte man mehr als 170 Disketten
Auf die Frage „Wann wurde Julius Cäsar geboren?“ kam die Antwort „Julius Cäsar wurde in Rom geboren“. Wunderschön :D (nicht abwertend gemeint, sondern im Sinne von: Es braucht einfach noch mehr Arbeit beim Zähmen)
Ich finde, Apple sollte ebenfalls solche Modelle machen. Wenn das Ziel nicht darin besteht, Suchverträge durch AI-Verträge zu ersetzen, ist es sehr merkwürdig, dass Apple hier so unsichtbar ist. Tim Cook sagte zwar, das sei „eine Chance, die wir ergreifen müssen“, aber wenn man sich die jüngsten Schritte ansieht, wirkt es, als hätten sie die Richtung verloren. Weiter so, Google
Das wird in jedem HN-Thread zu LLMs gesagt: LLMs seien immer noch dumm und nutzlos. Dem stimme ich zwar nicht zu, aber es stimmt, dass bisher kein Unternehmen einen AI-Einsatz gefunden hat, dessen langfristiger Investitionswert klar ausreichend belegt wäre. Apple ist schon oft spät in Märkte eingestiegen, etwa bei MP3-Playern, Smartphones oder Smartwatches, und hat die Konkurrenz dann mit innovativen Produkten überrollt
Ein Modell auf GPT2-Niveau wird bereits für Apples Autovervollständigung verwendet mehr dazu
Wenn „solche“ Modelle SLMs (Small Language Models) sind, dann stimmt es, dass Apple schon seit Langem dazu forscht
Apple macht das ebenfalls. Es gibt offizielle Dokumentation dazu: Foundation Models Doc. Mit der aktuellen Beta kann man die API direkt aufrufen. Außerdem wird Fine-Tuning für Modelle offiziell unterstützt, die auf fast allen Geräten eingesetzt werden können: zugehörige Dokumentation
Apple wird solche Modelle nicht veröffentlichen. Wie man schon aus anderen Kommentaren sieht, ist die Leistung derzeit noch unzureichend. Es ist wirklich schwer, ein Modell zu finden, das in realer Nutzung mit vernünftiger Geschwindigkeit Tokens ausgibt, ohne dass das Gerät überhitzt oder Unsinn produziert (ich habe selbst mehrere ausprobiert). Apple bevorzugt nie unfertige oder unausgereifte Produkte und verschiebt einen Release dann lieber
Ich nutze DistilBERT für die Klassifikation von WordPress-Beiträgen. Es sind über 100.000 Datensätze, und nach dem Fine-Tuning lassen sich auch gut Reports erstellen. Selbst bei ungleichmäßiger Verteilung kann man mit einigen Tricks einiges ausgleichen. Ich will dieses Modell künftig als Ersatz testen und die Leistung vergleichen; wenn sich etwas ändert, werde ich es teilen
Mich würde interessieren, ob es realistische Fälle gibt, in denen Nutzer ein so kleines Modell tatsächlich feinabstimmen und produktiv einsetzen
Ich habe einmal mit einem kleinen Modell einen Reranker für ein RAG-System gebaut. Nach Kandidatengenerierung (Vektorsuche + BM25), Business-Logik und ACL-Filtern wurde mit dem Tiny-Modell gefiltert, ob die verbliebenen Text-Chunks tatsächlich zur Query passen. Das lief tatsächlich in Produktion, wurde aber später wieder entfernt, weil mit den wachsenden Kontextgrößen anderer Modelle Preis- und Qualitätsprobleme aufkamen. Trotzdem war es für eine Zeit lang wirklich im Einsatz
Unser Unternehmen skaliert derzeit so, dass zuerst ein kleines Modell vorsortiert und bei hoher Konfidenz dann ChatGPT zur Bestätigung genutzt wird. Wir wollen das auch auf Spracherkennung anwenden. Die bisherigen Open-Source-ML-Modelle haben Schwächen bei gemischten Sprachen, Satzlängen und bestimmten Domänen (zum Beispiel wenn sie nur auf Bibelübersetzungen trainiert wurden)
Wofür genau man es sonst verwenden würde, ist etwas unklar, aber für Tag-Generierung scheint es brauchbar zu sein. Encoder dieser Größenordnung sind bei bestimmten Aufgaben manchmal sogar deutlich überlegen
Wenn ich mich richtig erinnere, werden auf Android, insbesondere auf Pixel-Geräten, feinabgestimmte Gemma-Modelle für On-Device-Assistenten und Ähnliches eingesetzt
Für Kommentare auf 9gag.com
Im aktuellen Wettbewerb um Modelloptimierung habe ich mich gefragt, wie stark man die Parameterzahl reduzieren kann, wenn man unnötige Sprach- oder Domäneninformationen entfernt. Wenn man zum Beispiel nur Englisch unterstützt, könnte man dann Chinesisch oder europäische Sprachen weglassen und innerhalb derselben Parameterzahl mehr Aufgaben abdecken?
Genau diese Frage war einer der wichtigsten Punkte, über die wir beim Bau dieses Modells nachgedacht haben. Es gibt immer Trade-offs, je nachdem, „wie viele Aufgaben“ ein Modell „wie gut“ beherrschen soll. Man muss andere Daten und andere Trainingsstrategien wählen und dann die Leistung messen. Ich würde tatsächlich empfehlen, auf dem eigenen Task-Set selbst Modelle zu trainieren und die Performance-Trade-offs zu bewerten. Dadurch bekommt man ein direktes Gefühl dafür, wie sich die Fähigkeiten von LLMs verändern
In der Praxis ist es tatsächlich nicht so einfach. Dazu lohnt sich ein Blick auf Transfer Learning
Ich hätte wirklich nicht gedacht, dass ich 2025 ein veröffentlichtes LLM auf meinem iPhone in voller BF16-Präzision laufen lassen würde. Auf einem iPhone 16 Pro komme ich auf etwa 80 Tokens pro Sekunde
Als Ergänzung zum Artikel: Der genaue IFEval-Score von Gemma 3 270M beträgt 51,2. Qwen 3 befindet sich im Scatterplot bei (0.6, 59.2)
Es wird erwähnt, dass die Wahl des Prompts die Leistung dieses Modells enorm beeinflusst. NER oder POS-Tagging waren eher enttäuschend. Aber bei Übersetzungen nicht-indoeuropäischer Sprachen (zum Beispiel Thai oder Indonesisch nach Englisch) funktionierte es überraschend gut