- Eine Übersicht mit objektiven Informationen und der Entwicklung der Parametergröße und -architektur wichtiger großer Sprachmodelle wie GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan usw.
- GPT-2 (2019) hatte 130 Millionen bis 1,6 Milliarden Parameter, GPT-3 (2020) 175 Milliarden (175B) Parameter und Llama-3.1 (2024) 405 Milliarden (405B) Parameter – die Größe großer Modelle ist damit rasant gewachsen
- Mit dem Aufkommen der MoE-Architektur (Mixture of Experts) wurden Modelle auf GPT-3-Niveau und darüber als Open Source bzw. zum Download verfügbar; repräsentative Beispiele sind DeepSeek V3 Base (671 Milliarden), ERNIE-4.5 (424 Milliarden) und Mixtral-8x22B (141 Milliarden)
- Der Vergleich zwischen Dense-Modellen (alle Parameter werden verwendet) und MoE-Modellen (nur einige Experten-Parameter werden aktiviert) ist komplexer geworden, und ein praktischer Vergleich der tatsächlichen „Intelligenz“ ist nicht einfach
- In jüngster Zeit zeigen sich verschiedene Entwicklungstrends wie multimodale und mehrsprachige Unterstützung, neue Architekturen und der Einsatz synthetischer Daten
- Dieses Dokument fasst Fakten zur Größenentwicklung von Foundation Models (Basismodellen) bei großen Sprachmodellen (LLMs) in den letzten Jahren zusammen
- Im Fokus stehen nicht Chatbots oder Assistenten, sondern das eigentliche Modell als Textgenerierungs-Engine
Geschichte
- GPT-2(-medium, -large, -xl) (2019): jeweils 137 Millionen, 380 Millionen, 812 Millionen und 1,61 Milliarden Parameter
- Trainiert auf einem etwa 40 GB großen WebText-Datensatz (geschätzt 1 Milliarde Tokens)
- Die Liste der verwendeten Websites ist in
domains.txt einsehbar
- GPT-3(davinci, davinci-002) (2020): 175 Milliarden Parameter
- Trainiert auf rund 400 Milliarden Tokens aus CommonCrawl, WebText2, Books1·2, Wikipedia usw.
- Erforderte monatelanges Training mit Tausenden großen A100-GPUs
- GPT-3.5, GPT-4 (2022, 2023): Offizielle Informationen zu Architektur und Daten nicht veröffentlicht
Llama
- Llama ist eine von Meta (ehemals Facebook) entwickelte Serie großer Sprachmodelle, die wegen ihrer Open-Source-Orientierung und einer Struktur, die auch mit vergleichsweise geringen Ressourcen nutzbar ist, große Beachtung fand
- Die Entwicklung von Modellgröße (Parameterzahl), Trainingsdaten und Architektur prägte den Open-Source-Trend bei LLMs maßgeblich
-
Llama 1 (2023)
- 7B, 13B, 33B, 65B: bereitgestellt mit 7, 13, 33 und 65 Milliarden Parametern
- Trainingsdaten: 1,4 Billionen (1.4T) Tokens aus groß angelegten Textdaten (Books3, CommonCrawl usw.)
- Llama 65B war damals das größte offene Modell
- Books3 ist ein großer Datensatz, der ein wichtiger Auslöser für urheberrechtliche Debatten wurde
- Merkmale
- Auch auf relativ kleinen GPU-Setups lauffähig (selbst 65B lief auf 8 GPUs)
- Durch offene Gewichtungsverteilung breite Verbreitung abgeleiteter Modelle und Community-Experimente
-
Llama 2 (zweite Hälfte 2023)
- Bei der Veröffentlichung mit 7, 13 und 70 Milliarden Parametern verfügbar (7B, 13B, 70B)
- Auch eine dialogorientierte (Chatbot-)Version wurde veröffentlicht, mit Unterstützung für Fine-Tuning und RLHF (Reinforcement Learning from Human Feedback)
- Lizenz erlaubte Community- und kommerzielle Nutzung, wenn auch mit einigen Einschränkungen
-
Llama 3.1 (2024)
- 405B: 405 Milliarden Dense-Parameter (alle Parameter werden verwendet)
- Trainingsdaten: 2,87 Billionen Tokens + 800 Milliarden Long-Context + 40 Millionen Annealing (zusätzlich hochwertiger Code/Mathematik usw.) → insgesamt 3,67 Billionen Tokens
- Architektur
- Transformer-basiert; alle Parameter werden während der Inferenz gleichzeitig genutzt (Dense)
- Zusätzliche hochwertige Code- und Mathematikdaten maximieren wichtige Benchmark-Ergebnisse (Annealing)
- Merkmale
- Das neueste herunterladbare große Dense-Modell (Open Source)
- Meta legt die genaue Zusammensetzung des Datensatzes nicht öffentlich offen; möglicherweise sind teils urheberrechtlich umstrittene Daten wie Books3 enthalten
- In einigen Bewertungen mit stärkerer „Assistenten-Neigung“, also leicht abweichend von der Rolle als reine Text-Engine
-
Llama 4 (2025)
- Größtes Modell: 2 Billionen (2T) Parameter, MoE (Mixture-of-Experts-Architektur)
- A288B 16E: 28,8 Milliarden aktive Parameter, 16 Experten, wobei nur ein Teil der insgesamt 2 Billionen Parameter aktiviert wird
- Situation
- Das 2T-Modell ist nicht veröffentlicht (nur für interne Experimente); extern wurden nur abgeleitete/verkleinerte Versionen veröffentlicht (
maverick, scout usw.)
- Die abgeleiteten Modelle werden häufig als weniger „intelligent“ als das Original eingeschätzt
- Kontroversen um manipulierte Benchmark-Werte im Veröffentlichungsprozess (LMArena-Vorfall) führten zu Vertrauensverlust und Gerüchten über die Auflösung des Teams
- Merkmale der MoE-Architektur
- Da nur ein Teil der Experten-Parameter aktiviert wird, ist die Recheneffizienz pro Parameterzahl besser als bei Dense-Modellen
- Auch extrem große Modelle werden dadurch praktisch nutzbar (in verteilten Umgebungen und mit geringeren Ressourcen)
-
Bedeutung und Einfluss von Llama
- Die Llama-Serie trieb die Ausbreitung des Open-Source-Ökosystems und die breite Verfügbarkeit großer Sprachmodelle voran
- Mit der Veröffentlichung von Llama-3.1 405B wurde das Herunterladen und Experimentieren mit großen Modellen auf GPT-3/4-Niveau realistisch
- Die Einführung der MoE-Architektur belebte Training und Verbreitung extrem großer Modelle weiter (mit Einfluss auch auf DeepSeek, Mixtral usw.)
- Zugleich wird diskutiert, ob sich die Eigenschaften als „reines Sprachmodell“ durch Benchmark-Optimierung (Annealing), stärkere Assistenten-Ausrichtung usw. verändert haben
The desert – Lücke und Wandel bei großen Open-Source-Modellen
- Gemeint ist die lange Lücke, in der große Sprachmodelle auf dem Niveau von GPT-3 (175 Milliarden Parameter) oder darüber nicht als Open Source verfügbar waren
- In dieser Zeit (2020 bis Mitte 2023) wurden nur vergleichsweise kleinere Modelle wie Llama bis 70B veröffentlicht,
- Einige Projekte versuchten, die Leistung durch Fine-Tuning kleinerer Llama-Modelle (z. B. 70B) mit von GPT-3 erzeugten synthetischen Daten zu steigern
- Wenn jedoch von KI erzeugter Text erneut zum Training von KI verwendet wird, kann das zu einer Verschlechterung der Datenqualität („data degeneration“) führen
- Gründe für das langfristige Fehlen offener Modelle mit GPT-3-Niveau,
- waren unter anderem Trainingskosten (Infrastruktur mit Tausenden bis Zehntausenden GPUs), Datenbeschaffung und die schwierige Verteilung von Architekturen mit sehr vielen Parametern
- Mit der Veröffentlichung von Llama-3.1 405B (405 Milliarden Dense-Parameter) begann die eigentliche Open-Source-Ära extrem großer Modelle
- Kurz davor erschienen im Dezember 2023 Mistrals Mixtral-8x7B (MoE-Architektur, insgesamt 56 Milliarden Parameter) und im April 2024 Mixtral-8x22B (insgesamt 141 Milliarden, 39 Milliarden aktive Parameter)
- Durch den Einsatz der MoE-Architektur konnten große Modelle auf GPT-3-Niveau mit vergleichsweise geringen Ressourcen trainiert und verteilt werden
- Die MoE-Architektur verwendet mehrere Expertennetzwerke (Experts), von denen bei einer Inferenz nur einige aktiviert werden
- Dadurch lassen sich große Modelle mit weniger Ressourcen (Speicher und Rechenleistung) als bei einer Dense-Architektur betreiben
- Wegen Grenzen bei GPU-Anzahl und Speicher spielte MoE eine entscheidende Rolle für die Verbreitung großer offener Modelle
Aktuelle große MoE-Modelle
Deepseek V3 Base (2024)
- 671 Milliarden Parameter (MoE), 37 Milliarden aktiv, Training auf 14,8 Billionen hochwertigen Tokens
- Auch R1 (ein auf Inferenz spezialisiertes Modell) erschien; als herunterladbares Modell kam es als erstes in die Nähe von Leistung auf GPT-4-Niveau
- Unmittelbar nach der Veröffentlichung hatte es großen Einfluss auf den Markt, unter anderem mit einem vorübergehenden Rückgang der NVIDIA-(NVDA-)Aktie
- Danach erschienen nach und nach weitere aufstrebende große MoE-Modelle, auch aus China
- Einige Modelle führten zur Unterstützung von Multimodalität und Mehrsprachigkeit neue Datentypen für das Training ein
Databricks (DBRX, März 2024)
- 132 Milliarden Gesamtparameter, 36 Milliarden aktiv, 12 Billionen Tokens
- Auswahl von 4 aus 16 Experten (feiner aufgeteilt als bei Mistral und Grok)
Minimax (Januar 2025)
- 456 Milliarden Gesamtparameter, 45,9 Milliarden aktiv, Kontrolle der Trainingsdatenqualität durch eigenen Reward-Labeler
Dots (Juni 2025)
- 143 Milliarden Gesamtparameter, 14 Milliarden aktiv, 11,2 Billionen Tokens, 32K Kontext
- Top-6/128-Expertenstruktur, ähnliche Leistung wie Qwen2.5-72B
Hunyuan (Juni 2025)
- 80 Milliarden MoE, 13 Milliarden aktiv, 20 Billionen Tokens, 256K Kontext
- 8 nicht geteilte Experten aktiv, gemeinsam genutzte Experten immer aktiv
Ernie (Juni 2025)
- 424 Milliarden Gesamtparameter, 47 Milliarden aktiv, mehrere Billionen Tokens
Fazit und Ausblick
- Stand 2024–2025 werden viele extrem große Modelle auf GPT-3-Niveau (175 Milliarden) und darüber veröffentlicht
- 405B (405 Milliarden) ist das aktuelle Dense-Basismodell, während moderne MoE-Modelle ebenfalls größer und vielfältiger werden
- Der Leistungsvergleich Dense vs. MoE bleibt noch unklar; es braucht weitere Diskussionen über die Struktur und Größe, die für echte „Intelligenz“ erforderlich sind
- Neue Architekturen (RWKV, byte-latent, bitnet) und die Nutzung synthetischer Daten werden ebenfalls erprobt, doch die grundlegende Weiterentwicklung als reine Text-Engine bleibt weiterhin eine Aufgabe
- Die meisten großen Modelle werden zuletzt tendenziell für die Rolle eines „AI-Assistenten“ feinabgestimmt; es ist Zeit für die Suche nach alternativen LLM-Ansätzen
1 Kommentare
Hacker-News-Meinungen
Ich bin weiterhin weniger von einer rein technischen Sichtweise beeindruckt als von der Tatsache, wie viele Daten in diesen herunterladbaren Modellen komprimiert stecken. Gestern habe ich in einem Flugzeug ohne WLAN über Ollama das Modell gemma3:12b (8,1 GB) heruntergeladen und mit meinen Kindern allerlei Fragen ausprobiert. Bei ganz unterschiedlichen Fragen zu aktuellen Videospielen, Tieren oder Geschichte war es nicht perfekt, aber ich fand es wirklich erstaunlich, dass in so einer kleinen Datei so viel menschliches Wissen steckt und man sie sogar offline nutzen kann. Es ist verlustbehaftete Kompression, aber dass sich menschliches Wissen so stark verdichten lässt, ist verblüffend
Ich finde es wirklich spannend, wie mächtig Sprachmodelle als Kompressionswerkzeug sein können. Wenn man ein Modell für den Einsatz als Assistant trainiert, komprimiert es Assistant-Gesprächsprotokolle besser als gewöhnlichen Text. Es gibt eine Evaluation namens UncheatableEval, mit der sich die Kompressionsfähigkeit von Sprachmodellen auf verschiedene Aufgaben anwenden und erfassen lässt. Dieser Bewertungsmaßstab ist praktisch ein „nicht zu überlistender“ Test. Ich halte Kompressionsleistung für einen echten Benchmark, bei dem man nicht wie in einem Spiel tricksen kann
Ich empfehle das Kiwix-Projekt, mit dem man verschiedene Materialien offline herunterladen und nutzen kann. Es bietet auch Geräte an, auf denen Inhalte bereits vorinstalliert sind, für Orte mit instabiler oder gar keiner Internetverbindung
Als Referenz: In der englischen Wikipedia gibt es Stand 26. Juni 2025 mehr als 7 Millionen Artikel und 63 Millionen Seiten. Nur der Text umfasst etwa 156 GB, und mit allen Versionen zusammen liegt die gesamte Datenbankgröße bei rund 26 TB
8,1 GB sind wirklich viel. Das sind 64,8 Milliarden (64.800.000.000) Bit; 100 Bit oder 1.000 Bit kann man sich vielleicht noch vorstellen, aber 10.000, 1 Million, 64 Millionen und dann diese Zahl, die noch einmal 1.000-mal größer ist, fühlt sich wirklich enorm an
Das Feld, Sprachmodelle aus Sicht der Informationstheorie oder Kompression zu erforschen, ist noch klein, wird aber für Effizienz und Skalierbarkeit immer wichtiger. Ich habe heute eine entsprechende Diskussion geführt, wer Interesse hat, kann gerne hineinschauen
Deepseek v1 hat etwa 670 Milliarden Parameter und eine physische Größe von rund 1,4 TB. Wenn man alle bisher digitalisierten Bücher komprimiert, dürften es ein paar TB sein, das öffentliche Web etwa 50 TB, und alle englischen E-Texte als zip-Dateien lägen vermutlich in der Größenordnung O(100TB). Die aktuelle Modellgröße liegt damit bei etwa 1 % des Ganzen, und wir scheinen inzwischen in einen Bereich einzutreten, in dem weiteres Skalieren die Leistung nicht mehr in dem Maß steigert wie früher (siehe gpt4.5 vs 4o). Deshalb verlagern sich die Rechenkosten in letzter Zeit durch Reasoning-Modelle in Richtung Inference-Zeit. Um zusätzlichen Nutzen zu gewinnen, werden sich Modelle künftig voraussichtlich zu spezialisierten Modellen mit Fokus auf bestimmte Domänen entwickeln. 1 TB Inference-VRAM könnte ein mittelfristiges Ziel für hochwertige Open-Source-Modelle sein. Das wäre sogar auf KMU-Niveau erreichbar (vermutlich etwa 250B Parameter)
Wenn man Bilder und Videos hinzunimmt, klingen die obigen Schätzwerte vielleicht wie die alte Behauptung, 640 KB müssten doch reichen. Später würden Roboter, die die Welt selbst erkunden und Daten sammeln, noch mehr Informationen anhäufen. Ernsthaft gesagt dürfte das Hinzufügen von Bild- und Interaktionsdaten auch für die Textgenerierung erheblichen Nutzen bringen
Ich habe die tatsächlichen Zahlen einmal überschlagen. Ausgehend von 157 Millionen Papers und 52 Millionen Büchern, mit durchschnittlich 10.000 Wörtern pro Paper und 100.000 Wörtern pro Buch, und unter Verwendung von Beispiel-Buchdaten zur Ermittlung der Kompressionsrate, komme ich auf etwa 30 TB unkomprimiert und 5,5 TB komprimiert. Das ließe sich auf drei 2-TB-microSD-Karten speichern (insgesamt 750 Dollar)
Kleine Anmerkung: Für eine feste Speicherkapazität halte ich Big-O-Notation (O(100TB)) nicht für passend
Ich frage mich, ob sich die 50 TB auf die Library of Congress beziehen. Das gesamte Internet wäre deutlich größer
Mich würde interessieren, woher die Zahlen „alle digitalisierten Bücher komprimiert auf ein paar TB, das öffentliche Web 50 TB“ stammen. Falls es eine Quelle gibt, würde ich sie gern sehen. Ich habe einmal gelesen, dass alle schriftlichen Aufzeichnungen bis zum letzten Jahrhundert etwa 50 MB ausmachten, finde die Quelle aber nicht mehr, also erinnere ich mich womöglich falsch
Die Modellreihen Gemma und Gemini (Google) fehlen. Außerdem ist es schade, dass die T5-Reihe nicht erwähnt wird, obwohl sie für Transfer Learning und die Verbreitung des Feldes eine wichtige Rolle gespielt hat. T5 kann man als Ursprung vieler Konzepte sehen
Wer es visuell sehen möchte: Es gibt eine Grafik, die die Gesamtzahl der Parameter nach Jahr aufbereitet: Total Parameters vs. Release Year by Family
Diese Grafik zeigt sehr deutlich, was für ein gewaltiger Sprung GPT-3 war und dass danach lange Zeit niemand dieses Niveau erreicht hat
Wirklich großartiges Material. Danke fürs Erstellen. Ich habe im Kommentar zu meinem Beitrag einen Screenshot der Grafik mit Link und Credit hinterlassen
Wirklich ein guter Beitrag. Allerdings setzt er etwas voraus, dass nur solche extrem großen Sprachmodelle die wichtigste Innovation seien. Die großen Akteure waren eine Weile ziemlich still, und von außen betrachtet hat OpenAI durch sein Verhalten nur leichte Hinweise gegeben. Offenbar wurden viel größere Modelle gebaut, deren Ergebnisse aber enttäuschend waren, sodass die Experimente stillschweigend eingestellt wurden. Tatsächlich könnten die leistungsfähigsten aktuellen Reasoning-Modelle sogar kleiner sein als die veröffentlichten Riesenmodelle
Eine ironische Situation. Die Open-Source-Community hat mit 30B- bis 70B-Modellen, RLHF, synthetischen Daten und allerlei anderen Ansätzen versucht, GPT-3 (175B) einzuholen, aber die Lücke blieb bestehen. Am Ende stellte sich heraus, dass die eigentliche Modellgröße wirklich wichtig ist, und erst als wirklich riesige dichte Modelle (405B) oder MoE-Modelle (DeepSeek V3, DBRX usw.) auftauchten, gab es auch außerhalb geschlossener Labs GPT-4-artiges Reasoning
Ich stimme der Anmerkung nicht zu, dass „Open-Source-Modelle auf dem Weg zu GPT-3-Niveau meist 70B-Llama-Modelle mit von GPT-3 erzeugten synthetischen Daten trainiert hätten“. Wenn synthetische Daten immer zu schlechterer Leistung führen würden, würden AI-Labs sie niemals einsetzen. Tatsächlich werden damit bessere Modelle gebaut. Es gibt Arbeiten, in denen Leistungsabfall auftritt, wenn man ganz bewusst eine Trainingsschleife mit den eigenen Ausgaben aufzieht, aber das unterscheidet sich von der Art, wie AI-Labs synthetische Daten tatsächlich verwenden. Dass solche Papers populär werden, liegt auch daran, dass die Vorstellung einer „AI, die ihren eigenen Schwanz frisst und daran zugrunde geht“, einfach zu reizvoll ist
Ich finde es schade, dass Leute LLMs ständig als verlustbehaftete Kompression bezeichnen. Als grobe Analogie mag das stimmen, aber die genauere und interessantere Aussage ist, dass LLMs auch als verlustfreie (lossless) Kompressionsalgorithmen funktionieren. Zwei Beispiele: 1) Für beliebigen Text kann man arithmetische Kodierung mit Kosten nahe an der Log-Likelihood des LLM verwenden (vorausgesetzt, Sender und Empfänger haben dieselben LLM-Parameter). 2) Mit LLM und SGD (Trainingscode) lässt sich verlustfreie Kompression umsetzen (wobei die Modellparameter hier nicht zur Beschreibungslänge gezählt werden). Empfehlenswert ist Jack Raes Material „compression for AGI“
Bei Zahlen wie 1.61B fehlt mir das Gefühl dafür, wie groß die Datei tatsächlich ist oder wie viel VRAM man braucht. Mich interessieren der reale Speicherbedarf, die Hardware-Anforderungen, was ich heute kaufen und wofür ich es nutzen könnte und welche Modelle man in zehn Jahren wohl lokal laufen lassen kann
Bei 1 Byte pro Parameter (f8) sind das 1,6 GB, bei 2 Byte (f16) 2,3 GB. Zusätzlich zum Laden auf die GPU braucht man weiteren Speicher, daher fährt man grob mit dem Vierfachen der Parameterzahl gut. Also: für 2B Parameter sind 8 GB VRAM empfehlenswert
Die meisten Modelle werden in 16 Bit (2 Byte) trainiert. Ein Modell mit 1 Milliarde Parametern braucht dann 2 GB. Für den praktischen Einsatz reicht oft eine kleinere 8-Bit-Quantisierung, und der Leistungsverlust gegenüber 16 Bit ist meist gering. Damit ergibt sich überschlägig: 1B-Modell = 1 GB, 20B-Modell = 20 GB. Noch niedrigere Bitbreiten (5 Bit, 4 Bit usw.) können je nach Einsatzzweck ebenfalls gut praktikabel sein, wenn der Qualitätsverlust klein bleibt. Es gibt sogar Fälle, in denen direkt mit 4 Bit trainierte Modelle bessere Qualität zeigen als aus 16 Bit quantisierte Modelle. Bei großen Modellen ist der Flaschenhals nicht die VRAM-Kapazität, sondern die Bandbreite. Deshalb sind GPUs mit viel VRAM wichtig. Selbst mit 128 GB Arbeitsspeicher ist die GPU-CPU-Bandbreite zu gering; überschreitet man den GPU-Speicher, ist am Ende oft sogar die CPU langsamer. Eine GPU wie die RTX 5090 bietet 32 GB VRAM bei etwa 1 Tb/s Bandbreite. Apple-M-Serien liegen bei 512 Gb/s, AMD Strix Halo bietet 128 GB Unified Memory und 256 Gb/s Bandbreite. Für reale Erfahrungen mit LLMs auf Consumer-Hardware lohnt sich Reddit r/LocalLLaMA. Dort sind allerdings auch einige ziemlich extreme Bastelversuche dabei, also Vorsicht. Wie die Lage in zehn Jahren aussieht, ist nicht vorhersehbar. TSMC, Samsung und Intel konzentrieren sich alle auf die Massenproduktion von Flaggschiff-GPUs für die Nachfrage der Hyperscaler, und auch die Halbleiterindustrie insgesamt ist wegen vieler Variablen (Politik, Handel, AI, Black-Swan-Ereignisse usw.) schwer vorherzusagen.