Google stellt Gemma 3 270M vor: kompaktes Modell für hocheffiziente KI

(developers.googleblog.com)

4 Punkte von GN⁺ 2025-08-15 | Noch keine Kommentare. | Auf WhatsApp teilen

Gemma 3 270M ist ein leichtgewichtiges Modell mit 270 Millionen Parametern und bietet starke Instruction-Following-Fähigkeiten sowie Funktionen zur Textstrukturierung
Mit einem großen Vokabular von 256k Tokens ist es stark bei der Verarbeitung seltener Tokens und als feinabstimmungsbasiertes Modell für bestimmte Domänen und Sprachen konzipiert
Auf dem Pixel 9 Pro SoC verbraucht das INT4-quantisierte Modell bei 25 Dialogen nur 0,75 % Akku und bietet damit eine hervorragende Energieeffizienz
Statt auf ein großes Allzweckmodell zu setzen, eignet es sich für eine Strategie mit vielen kleinen Spezialmodellen, um Geschwindigkeit, Kosten und Genauigkeit gleichzeitig zu optimieren
Optimiert für On-Device-Ausführung, schnelle iterative Experimente und kostengünstigen Betrieb bei festen Aufgaben und damit geeignet für den Aufbau verschiedenster KI-Anwendungen

Überblick über Gemma 3 270M

Ein neu vorgestelltes kleines Modell für spezialisiertes Fine-Tuning von Google nach Gemma 3 und Gemma 3 QAT
Von den 270M Parametern entfallen 170 Millionen auf Embeddings und 100 Millionen auf Transformer-Blöcke
Das große Vokabular mit 256k Tokens ermöglicht die Verarbeitung seltener und spezieller Tokens
Sowohl eine vortrainierte (pretrained) als auch eine instruction-getunte (instruction-tuned) Version werden angeboten

Kompakte und zugleich leistungsstarke Architektur: ideal für domänen- oder sprachspezifisches Fine-Tuning
Extreme Energieeffizienz: Auf dem Pixel 9 Pro SoC nutzt das INT4-Modell bei 25 Dialogen nur 0,75 % Akku
Instruction-Following: eher für aufgabenorientierte Nutzung als für allgemeine Konversation optimiert und bereits im Grundzustand fähig, Anweisungen auszuführen
Quantisierungsunterstützung (QAT): minimale Leistungseinbußen bei INT4-Präzision, geeignet für ressourcenbeschränkte Umgebungen

Betont einen effizienzorientierten Ansatz beim KI-Design
Kleine Modelle ermöglichen schnelle Antworten und einen kostengünstigen Betrieb
Bei klar umrissenen Aufgaben wie Textklassifizierung oder Datenextraktion wird eine hohe Leistung erreicht

Adaptive ML hat das Gemma-3-4B-Modell für die mehrsprachige Content-Moderation von SK Telecom feinabgestimmt und dabei eine Leistung über großen proprietären Modellen erzielt
Das 270M-Modell skaliert diesen Ansatz auf kleinere Größen und ermöglicht die massenhafte Erstellung von „Expertenmodellen“ für spezialisierte Aufgabenbereiche
Die webbasierte Bedtime Story Generator-App von Hugging Face kann mit Gemma 3 270M Inhalte in Echtzeit offline oder direkt im Webbrowser erzeugen

Klare Aufgaben mit hohem Durchsatz: ideal für spezialisierte Aufgaben wie Sentiment-Analyse, Entity-Extraktion, Query-Routing, Texttransformation, kreative Generierung und Compliance-Prüfung
Maximale Wirtschaftlichkeit und Geschwindigkeit: sehr kostengünstiger Betrieb auf leichter Infrastruktur oder On-Device bei unmittelbaren Reaktionszeiten
Schnelle Entwicklung und Bereitstellung: durch die geringe Modellgröße lassen sich Fine-Tuning-Experimente sowie Optimierungs- und Testprozesse innerhalb weniger Stunden durchführen
Datenschutz: Verarbeitung direkt auf dem Gerät ohne Übertragung in die Cloud, vorteilhaft für den Schutz sensibler Informationen
Betrieb maßgeschneiderter Spezialmodelle: gleichzeitiger Aufbau und Rollout vieler Modelle für unterschiedliche Zwecke ohne hohe Budgetbelastung

Das Modell kann über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Quellen heruntergeladen werden
Unterstützung für verschiedene Inferenz-Tools wie Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras und MLX
Vollständige Fine-Tuning-Guides auf Basis von Hugging Face, UnSloth und JAX werden bereitgestellt
Flexible Bereitstellung von lokalen Umgebungen bis zu Google Cloud Run

Gemma 3 270M ist ein kleines, aber leistungsstarkes Foundation Model, das den Aufbau auf bestimmte Aufgaben optimierter KI-Lösungen beschleunigt
Eine ideale Wahl für Entwickler, die niedrige Kosten, hohe Effizienz und schnelle Bereitstellung gleichzeitig anstreben