Wichtige Punkte:
Gemma 2 ist eine neue Familie leichtgewichtiger, hochmoderner offener Sprachmodelle im Bereich von 2 bis 27 Milliarden Parametern.
Modelle mit 9 Milliarden und 27 Milliarden Parametern sind derzeit verfügbar, das 2-Milliarden-Modell erscheint in Kürze.
Zentrale technische Verbesserungen:
- Wechsel zwischen lokaler und globaler Attention
- Grouped-Query Attention
- Knowledge Distillation für kleinere Modelle
Die Modelle liefern im Verhältnis zu ihrer Größe Spitzenleistung und sind mit 2- bis 3-mal größeren Modellen konkurrenzfähig.
Modellarchitektur:
- Decoder-only-Transformer-Architektur
- Kontextlänge von 8192 Token
- Abwechselnde Verwendung von lokalem Sliding Window (4096 Token) und globalen Attention-Layern
- Grouped-Query Attention (GQA)
- RMSNorm für die Layer-Normalisierung
Training:
- Das 27-Milliarden-Modell wurde mit 13 Billionen Token trainiert
- Das 9-Milliarden-Modell wurde mit 8 Billionen Token trainiert
- Das 2,6-Milliarden-Modell wurde mit 2 Billionen Token trainiert
- Datenquellen: Webdokumente, Code, wissenschaftliche Artikel
- Für die 2,6- und 9-Milliarden-Modelle wurde Knowledge Distillation eingesetzt
Leistung:
- Übertrifft vergleichbare offene Modelle in Benchmarks
- Bei einigen größeren Modellen konkurrenzfähig
- Starke Ergebnisse bei Fragebeantwortung, Reasoning, Mathematik, Naturwissenschaften und Coding-Tasks
Sicherheit & პასუხისმგung:
- Umfangreiche Sicherheitstests und Verfahren für verantwortungsvolle Bereitstellung durchgeführt
- Sicherheitsrichtlinien und Maßnahmen zur Risikominderung während des Trainings implementiert
- Toolkit für verantwortungsvolle generative KI für Entwickler bereitgestellt
6 Kommentare
Wird der Zeitpunkt kommen, an dem man LLMs allein mit einer CPU betreiben kann?
Mit etwa 20B lässt es sich auch nur mit der CPU ausreichend gut betreiben. Ab 60B wird es schwierig oder funktioniert nicht besonders gut. (Training ist wiederum ein ganz anderes Thema.) Probieren Sie Ollama einmal aus.
Ich hatte überhaupt kein Gefühl dafür, welche Anforderungen nötig sind, daher vielen Dank für den Rat. Mit einem Intel-Laptop der 11. Generation scheint es noch schwierig zu sein; ich werde es wohl entweder auf einem Virtualisierungsserver betreiben müssen.
Sie müssen nur LM Studio installieren.
Der Grund, warum ich sagte, dass es auf einem Notebook eher schwierig ist, liegt darin, dass die CPU-Auslastung auf allen Kernen 100 % erreicht und die Wärmeentwicklung so stark ist, dass es sich nicht angenehm anfühlt. LM Studio hat zwar eine Prompt-UI und ist dadurch gut nutzbar, aber den Anspruch an einen angenehmen Betrieb wird es wohl nicht erfüllen können.
Äh..? Das mache ich doch schon;;