4 Punkte von GN⁺ 2025-08-15 | 3 Kommentare | Auf WhatsApp teilen
  • Gemma 3 270M ist ein leichtgewichtiges Modell mit 270 Millionen Parametern und bietet starke Instruction-Following-Fähigkeiten sowie Funktionen zur Textstrukturierung
  • Mit einem großen Vokabular von 256k Tokens ist es stark bei der Verarbeitung seltener Tokens und als feinabstimmungsbasiertes Modell für bestimmte Domänen und Sprachen konzipiert
  • Auf dem Pixel 9 Pro SoC verbraucht das INT4-quantisierte Modell bei 25 Dialogen nur 0,75 % Akku und bietet damit eine hervorragende Energieeffizienz
  • Statt auf ein großes Allzweckmodell zu setzen, eignet es sich für eine Strategie mit vielen kleinen Spezialmodellen, um Geschwindigkeit, Kosten und Genauigkeit gleichzeitig zu optimieren
  • Optimiert für On-Device-Ausführung, schnelle iterative Experimente und kostengünstigen Betrieb bei festen Aufgaben und damit geeignet für den Aufbau verschiedenster KI-Anwendungen

Überblick über Gemma 3 270M

  • Ein neu vorgestelltes kleines Modell für spezialisiertes Fine-Tuning von Google nach Gemma 3 und Gemma 3 QAT
  • Von den 270M Parametern entfallen 170 Millionen auf Embeddings und 100 Millionen auf Transformer-Blöcke
  • Das große Vokabular mit 256k Tokens ermöglicht die Verarbeitung seltener und spezieller Tokens
  • Sowohl eine vortrainierte (pretrained) als auch eine instruction-getunte (instruction-tuned) Version werden angeboten

Hauptmerkmale

  • Kompakte und zugleich leistungsstarke Architektur: ideal für domänen- oder sprachspezifisches Fine-Tuning
  • Extreme Energieeffizienz: Auf dem Pixel 9 Pro SoC nutzt das INT4-Modell bei 25 Dialogen nur 0,75 % Akku
  • Instruction-Following: eher für aufgabenorientierte Nutzung als für allgemeine Konversation optimiert und bereits im Grundzustand fähig, Anweisungen auszuführen
  • Quantisierungsunterstützung (QAT): minimale Leistungseinbußen bei INT4-Präzision, geeignet für ressourcenbeschränkte Umgebungen

Die Philosophie „am richtigen Ort eingesetzt“

  • Betont einen effizienzorientierten Ansatz beim KI-Design
  • Kleine Modelle ermöglichen schnelle Antworten und einen kostengünstigen Betrieb
  • Bei klar umrissenen Aufgaben wie Textklassifizierung oder Datenextraktion wird eine hohe Leistung erreicht

Praxisbeispiele

  • Adaptive ML hat das Gemma-3-4B-Modell für die mehrsprachige Content-Moderation von SK Telecom feinabgestimmt und dabei eine Leistung über großen proprietären Modellen erzielt
  • Das 270M-Modell skaliert diesen Ansatz auf kleinere Größen und ermöglicht die massenhafte Erstellung von „Expertenmodellen“ für spezialisierte Aufgabenbereiche
  • Die webbasierte Bedtime Story Generator-App von Hugging Face kann mit Gemma 3 270M Inhalte in Echtzeit offline oder direkt im Webbrowser erzeugen

Geeignete Nutzungsszenarien

  • Klare Aufgaben mit hohem Durchsatz: ideal für spezialisierte Aufgaben wie Sentiment-Analyse, Entity-Extraktion, Query-Routing, Texttransformation, kreative Generierung und Compliance-Prüfung
  • Maximale Wirtschaftlichkeit und Geschwindigkeit: sehr kostengünstiger Betrieb auf leichter Infrastruktur oder On-Device bei unmittelbaren Reaktionszeiten
  • Schnelle Entwicklung und Bereitstellung: durch die geringe Modellgröße lassen sich Fine-Tuning-Experimente sowie Optimierungs- und Testprozesse innerhalb weniger Stunden durchführen
  • Datenschutz: Verarbeitung direkt auf dem Gerät ohne Übertragung in die Cloud, vorteilhaft für den Schutz sensibler Informationen
  • Betrieb maßgeschneiderter Spezialmodelle: gleichzeitiger Aufbau und Rollout vieler Modelle für unterschiedliche Zwecke ohne hohe Budgetbelastung

Fine-Tuning und Deployment

  • Das Modell kann über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Quellen heruntergeladen werden
  • Unterstützung für verschiedene Inferenz-Tools wie Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras und MLX
  • Vollständige Fine-Tuning-Guides auf Basis von Hugging Face, UnSloth und JAX werden bereitgestellt
  • Flexible Bereitstellung von lokalen Umgebungen bis zu Google Cloud Run

Fazit

  • Gemma 3 270M ist ein kleines, aber leistungsstarkes Foundation Model, das den Aufbau auf bestimmte Aufgaben optimierter KI-Lösungen beschleunigt
  • Eine ideale Wahl für Entwickler, die niedrige Kosten, hohe Effizienz und schnelle Bereitstellung gleichzeitig anstreben

3 Kommentare

 
kaydash 2025-08-16

Wenn es sich als .task-Datei erstellen ließe, würde ich es auf einem Android-Smartphone nach Herzenslust ausprobieren..

 
kaydash 2025-08-17

Es gab wohl eine von jemandem erstellte .task-Datei (nicht Web), also habe ich sie auf dem Smartphone ausprobiert. Sie antwortet knapp und schnell wirklich gut.

Aber ich finde, qwen3:0.6b ist besser (auch wenn dieses Modell natürlich schwergewichtiger sein dürfte).

 
GN⁺ 2025-08-15
Hacker-News-Kommentar
  • Ich habe diese Modelle mit einem großartigen Team entwickelt, und da sie im gesamten Open-Model-Ökosystem zum Download verfügbar sind, kann ich nur empfehlen, dass alle sie einmal ausprobieren. Wir haben sie so entworfen, dass sie gemessen an ihrer Größe leistungsstark sind und sich für passende Anwendungsfälle leicht von jedem feinabstimmen lassen. Dank der kleinen Modellgröße laufen sie auf unterschiedlichster Hardware, und auch das Fine-Tuning ist sehr günstig. Man kann es sogar selbst in weniger als 5 Minuten kostenlos in Colab ausprobieren. Als Orientierung bei der Wahl der passenden Gemma-Größe lohnt sich mein selbst aufgenommenes Video zu den Varianten von 1b bis 27b sowie zur kürzlich hinzugekommenen 270m-Version: YouTube-Link. Ich arbeite zwar als Forscher bei Google, aber alle Kommentare hier geben ausschließlich meine persönliche Meinung wieder. Ich werde möglichst viel teilen und mich dabei auf technische Fragen konzentrieren

    • Ich finde die Gemma-3-Modelle wirklich großartig. Auch die norwegische Textgenerierung ist ordentlich, und das Befolgen von Instruktionen klappt in den meisten Fällen gut. Allerdings scheint es Probleme im Zusammenhang mit Zensur zu geben: Gerade bei ernsten Themen verhält es sich deutlich konservativer als vorgegeben. Wenn man das Modell zum Beispiel bitten will zu klassifizieren, ob eine Chat-Nachricht in einem Spiel, in dem Spieler einander töten können, eine echte Drohung oder eine Drohung im Spiel ist, funktioniert das nicht gut. Selbst wenn man vorgibt, unklare Fälle als spielbezogen einzuordnen, scheint es sicherheitslastig verzerrt zu sein. Es gibt sogar Fälle, in denen es Hotline-Hinweise ausgibt. Das wirkt wie ein Effekt des Trainings auf sicheres Verhalten, deshalb würde mich interessieren, ob du den Grund kennst

    • Ich musste an den tollen Google-Ingenieur denken, den ich bei BSidesSF getroffen habe. Er hat meine Fragen sehr aufrichtig und ausführlich beantwortet, und als ich auf das Video geklickt habe, warst du das direkt! Das war ein sehr inspirierender Moment, danke

    • Ich würde mich freuen, wenn du reale Beispiele feinabgestimmter Versionen teilen könntest. Eine Beschreibung wäre schon gut, aber eine Demo oder sogar herunterladbare Modellgewichte wären noch besser, idealerweise im GGUF-Format

    • Das ist wirklich großartige Arbeit. Es ist selten, dass ein Modell in der 270M-Parameter-Klasse so effizient ausfällt. Auch die Architekturentscheidungen sind neu und spannend. Ich würde gern mehr Trainingsdetails hören. Allein die Embedding-Parameter liegen bei 170M, daher interessiert mich, wie ihr die Embedding-Matrix während des Trainings stabil gehalten habt, ohne dass es zu einem Embedding-Kollaps kam. Ich würde auch gern wissen, ob es Material zu internen Experimenten oder Performance-Trade-offs bei der Parameteraufteilung von 170m/100m gibt. Vielen Dank für die gesamte Modellreihe

    • Wirklich beeindruckende Arbeit. Für einmalige Aufgaben wie Zusammenfassungen oder Autovervollständigung wirkt dieses Modell sehr stark. Dass ihr schon zum Release eine quantization-aware-training-Version veröffentlicht habt, ist ebenfalls hervorragend, dadurch wurde das Modell noch kleiner

  • Mein Gespräch mit dem 270M-F16-Modell war beeindruckend. Auf die Frage „Welcher ist der zweithöchste Berg der Erde?“ antwortete es immer wieder „Everest“. Auf „Und der höchste?“ kam ebenfalls „Everest“. Auf „Der dritthöchste?“, „Der vierthöchste?“ kam jedes Mal wieder „Everest“. Als ich sagte „Du hast doch gerade schon gesagt, dass der Everest der höchste Berg ist“, reagierte es mit „Stimmt, Freude“. Selbst als ich weiter nach dem zweithöchsten Berg fragte, wiederholte es nur „Everest“. Erst als ich eine „Liste der Berge auf Platz 1 bis 5“ verlangte, änderte es seine Antwort zu 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley. Aber selbst auf „Dann ist der zweithöchste Berg doch K2, oder?“ antwortete es weiter mit „Everest“. Solche kleinen Modelle sind großartig, aber es fühlt sich wirklich an, als würde man mit einem Kleinkind sprechen

    • Dieses Modell hat rund 270M Parameter, also etwa ein Drittel von 1B. Im Kern macht es nur ein paar Matrixmultiplikationen, daher kann man nicht viel Wissen, Grammatik oder Konsistenz erwarten. Solche Modelle unter 1B sind spezialisierte Modelle, die für bestimmte Zwecke optimiert werden. Ein Beispiel wäre das Extrahieren von Informationen aus Kundenbewertungen in ein JSON-Objekt, also die Umwandlung von Eingabetext in eine Form, die ein Programm sinnvoll weiterverwenden kann. Für gute Ergebnisse muss man solche Modelle sehr aggressiv auf die erwarteten Daten feinabstimmen. Wenn ein 270MB-Modell durch Fine-Tuning am Ende das gewünschte Ergebnis liefert, gibt es keinen Grund, stattdessen ein allgemeines 32GB-Modell zu verwenden

    • Ergänzend dazu: Wir haben von Anfang an gar nicht auf perfekte faktische Genauigkeit abgezielt. Unabhängig von der Modellgröße sind diese Gewichte bereits festgeschrieben. Ich würde empfehlen, es an ein RAG-System anzubinden und sich auf externes Wissen zu stützen oder es direkt mit genau den gewünschten Fakten feinabzustimmen. Neues Wissen eignet es sich ebenfalls schnell an

    • Ein 270M-Modell für enzyklopädische Wissenstests zu verwenden, ist so, als würde man ein stark komprimiertes JPG anschauen und sagen: „Die Bildqualität ist aber schlecht“

    • Wenn ich mir den Prompt ansehe, scheint es um die Bewertung von Wissen zu gehen, aber dafür ist dieses Modell nicht gedacht. Wie im Blogpost erwähnt, „zeigt es hervorragende Leistung bei Genauigkeit, Geschwindigkeit und Kosten für Dinge wie Textklassifikation oder Datenextraktion“

    • Auf die Anfrage „Plane mir einen 2-Tage-Trip nach Paris“ gab es einen konkreten Reiseplan mit Sehenswürdigkeiten in Paris, Landmarks, Museumsbesuchen, vielfältigen kulinarischen Erlebnissen, Spaziergängen durch das Marais und das Quartier Latin sowie einem Besuch im Musée d’Orsay, alles mit zeitlicher Gliederung. Auch Reisetipps wurden sehr sorgfältig gegeben

  • Dieses Modell macht wirklich Spaß. Mit rund 241MB ist es winzig, extrem schnell und „halluziniert“ dabei fast alles völlig frei zusammen. Auf die Aufforderung „Erzeuge ein SVG eines Pelikans auf einem Fahrrad“ schrieb das Modell zum Beispiel ein Gedicht (etwa „Das ist eine Katze, mit großen Flügeln und glücklichem Schwanz“, „Das Fahrradlicht leuchtet hell“, „Es ist bereit für ein Abenteuer“ usw.). Ich habe mehrere Versuche als Gist hochgeladen. Ich hoffe, dass künftig feinabgestimmte Modelle erscheinen, die für ausgewählte Aufgaben brauchbare Ergebnisse liefern können

    • Über diesen Versuch musste ich laut lachen. Es erzeugt erst etwas, das wie ein Gedicht oder Lied wirkt, erklärt dann, wie jede Zeile im SVG umgesetzt wird, und endet mit „Dieser SVG-Code vermittelt die Szene klar und visuell“

    • Ich habe gesehen, dass du die GGUFs von ollama verwendest. Standardmäßig bekommt man dort das quantisierte Q4_0-Modell, aber mit gemma3:270m-it-bf16 oder den unsloth-GGUFs unter hf.co/unsloth/gemma-3-270m-it-GGUF:16 kann man bessere Ergebnisse erzielen

    • Es produziert zwar auch viele nutzlose Tokens, aber dafür wirklich gewaltige Mengen davon

    • Für einen Download von 241MB bräuchte man mehr als 170 Disketten

    • Auf die Frage „Wann wurde Julius Cäsar geboren?“ kam die Antwort „Julius Cäsar wurde in Rom geboren“. Wunderschön :D (nicht abwertend gemeint, sondern im Sinne von: Es braucht einfach noch mehr Arbeit beim Zähmen)

  • Ich finde, Apple sollte ebenfalls solche Modelle machen. Wenn das Ziel nicht darin besteht, Suchverträge durch AI-Verträge zu ersetzen, ist es sehr merkwürdig, dass Apple hier so unsichtbar ist. Tim Cook sagte zwar, das sei „eine Chance, die wir ergreifen müssen“, aber wenn man sich die jüngsten Schritte ansieht, wirkt es, als hätten sie die Richtung verloren. Weiter so, Google

    • Das wird in jedem HN-Thread zu LLMs gesagt: LLMs seien immer noch dumm und nutzlos. Dem stimme ich zwar nicht zu, aber es stimmt, dass bisher kein Unternehmen einen AI-Einsatz gefunden hat, dessen langfristiger Investitionswert klar ausreichend belegt wäre. Apple ist schon oft spät in Märkte eingestiegen, etwa bei MP3-Playern, Smartphones oder Smartwatches, und hat die Konkurrenz dann mit innovativen Produkten überrollt

    • Ein Modell auf GPT2-Niveau wird bereits für Apples Autovervollständigung verwendet mehr dazu

    • Wenn „solche“ Modelle SLMs (Small Language Models) sind, dann stimmt es, dass Apple schon seit Langem dazu forscht

    • Apple macht das ebenfalls. Es gibt offizielle Dokumentation dazu: Foundation Models Doc. Mit der aktuellen Beta kann man die API direkt aufrufen. Außerdem wird Fine-Tuning für Modelle offiziell unterstützt, die auf fast allen Geräten eingesetzt werden können: zugehörige Dokumentation

    • Apple wird solche Modelle nicht veröffentlichen. Wie man schon aus anderen Kommentaren sieht, ist die Leistung derzeit noch unzureichend. Es ist wirklich schwer, ein Modell zu finden, das in realer Nutzung mit vernünftiger Geschwindigkeit Tokens ausgibt, ohne dass das Gerät überhitzt oder Unsinn produziert (ich habe selbst mehrere ausprobiert). Apple bevorzugt nie unfertige oder unausgereifte Produkte und verschiebt einen Release dann lieber

  • Ich nutze DistilBERT für die Klassifikation von WordPress-Beiträgen. Es sind über 100.000 Datensätze, und nach dem Fine-Tuning lassen sich auch gut Reports erstellen. Selbst bei ungleichmäßiger Verteilung kann man mit einigen Tricks einiges ausgleichen. Ich will dieses Modell künftig als Ersatz testen und die Leistung vergleichen; wenn sich etwas ändert, werde ich es teilen

    • Für Fine-Tuning auf einen spezifischen Anwendungsfall könnte ModernBERT das bessere Basismodell sein: ModernBERT-Vorstellung
  • Mich würde interessieren, ob es realistische Fälle gibt, in denen Nutzer ein so kleines Modell tatsächlich feinabstimmen und produktiv einsetzen

    • Ich habe einmal mit einem kleinen Modell einen Reranker für ein RAG-System gebaut. Nach Kandidatengenerierung (Vektorsuche + BM25), Business-Logik und ACL-Filtern wurde mit dem Tiny-Modell gefiltert, ob die verbliebenen Text-Chunks tatsächlich zur Query passen. Das lief tatsächlich in Produktion, wurde aber später wieder entfernt, weil mit den wachsenden Kontextgrößen anderer Modelle Preis- und Qualitätsprobleme aufkamen. Trotzdem war es für eine Zeit lang wirklich im Einsatz

    • Unser Unternehmen skaliert derzeit so, dass zuerst ein kleines Modell vorsortiert und bei hoher Konfidenz dann ChatGPT zur Bestätigung genutzt wird. Wir wollen das auch auf Spracherkennung anwenden. Die bisherigen Open-Source-ML-Modelle haben Schwächen bei gemischten Sprachen, Satzlängen und bestimmten Domänen (zum Beispiel wenn sie nur auf Bibelübersetzungen trainiert wurden)

    • Wofür genau man es sonst verwenden würde, ist etwas unklar, aber für Tag-Generierung scheint es brauchbar zu sein. Encoder dieser Größenordnung sind bei bestimmten Aufgaben manchmal sogar deutlich überlegen

    • Wenn ich mich richtig erinnere, werden auf Android, insbesondere auf Pixel-Geräten, feinabgestimmte Gemma-Modelle für On-Device-Assistenten und Ähnliches eingesetzt

    • Für Kommentare auf 9gag.com

  • Im aktuellen Wettbewerb um Modelloptimierung habe ich mich gefragt, wie stark man die Parameterzahl reduzieren kann, wenn man unnötige Sprach- oder Domäneninformationen entfernt. Wenn man zum Beispiel nur Englisch unterstützt, könnte man dann Chinesisch oder europäische Sprachen weglassen und innerhalb derselben Parameterzahl mehr Aufgaben abdecken?

    • Genau diese Frage war einer der wichtigsten Punkte, über die wir beim Bau dieses Modells nachgedacht haben. Es gibt immer Trade-offs, je nachdem, „wie viele Aufgaben“ ein Modell „wie gut“ beherrschen soll. Man muss andere Daten und andere Trainingsstrategien wählen und dann die Leistung messen. Ich würde tatsächlich empfehlen, auf dem eigenen Task-Set selbst Modelle zu trainieren und die Performance-Trade-offs zu bewerten. Dadurch bekommt man ein direktes Gefühl dafür, wie sich die Fähigkeiten von LLMs verändern

    • In der Praxis ist es tatsächlich nicht so einfach. Dazu lohnt sich ein Blick auf Transfer Learning

  • Ich hätte wirklich nicht gedacht, dass ich 2025 ein veröffentlichtes LLM auf meinem iPhone in voller BF16-Präzision laufen lassen würde. Auf einem iPhone 16 Pro komme ich auf etwa 80 Tokens pro Sekunde

    • Mich würde interessieren, wie du das Modell auf dem iPhone konkret zum Laufen gebracht hast
  • Als Ergänzung zum Artikel: Der genaue IFEval-Score von Gemma 3 270M beträgt 51,2. Qwen 3 befindet sich im Scatterplot bei (0.6, 59.2)

  • Es wird erwähnt, dass die Wahl des Prompts die Leistung dieses Modells enorm beeinflusst. NER oder POS-Tagging waren eher enttäuschend. Aber bei Übersetzungen nicht-indoeuropäischer Sprachen (zum Beispiel Thai oder Indonesisch nach Englisch) funktionierte es überraschend gut