Welches ist das leistungsfähigste KI-Modell, das sich in 5 Minuten auf einem Laptop trainieren lässt?

(seangoedecke.com)

2 Punkte von GN⁺ 2025-08-15 | Noch keine Kommentare. | Auf WhatsApp teilen

Auf einem MacBook Pro wurde in 5 Minuten ein GPT-artiges Transformer-Modell mit rund 1,8 Mio. Parametern auf etwa 20 Mio. TinyStories-Tokens trainiert und erreichte dabei ungefähr 9,6 Perplexity
Die wichtigsten Einschränkungen für ein Training in unter 5 Minuten sind Modellgröße und die verarbeitbare Token-Anzahl; größere Modelle konvergieren langsamer und profitieren bei wenig Daten weniger
Bei der Leistungsoptimierung war die Nutzung von MPS am effektivsten; ein kleines Modell zu wählen erwies sich als wirksamer als Kompilierung/Quantisierung/Gradient Accumulation oder Alternativen zu PyTorch
Ein einfaches und konsistentes Dataset wie TinyStories wirkt sich auf kleine Modelle positiver aus als enzyklopädische Daten
Die Transformer-Architektur zeigte unter den Bedingungen kleiner Modelle und kurzer Trainingszeit bessere Ergebnisse als LSTM oder diffusion

Überblick

Dieser Beitrag präsentiert die Ergebnisse eines Experiments zu dem leistungsfähigsten KI-Sprachmodell, das sich auf einem Laptop (MacBook Pro) in 5 Minuten trainieren lässt, sowie Erkenntnisse zu optimaler Trainingsstrategie, Dataset-Auswahl und Modellarchitektur.

Zusammenfassung der Experimentergebnisse

Ein GPT-artiges Transformer-Modell mit rund 1,8 Mio. Parametern wurde auf etwa 20 Mio. TinyStories-Daten trainiert und erreichte eine Perplexity von 9,6
Die generierten Beispiele sind kurz, aber konsistent in Form kleiner Geschichten, wobei die englische Grammatik überwiegend korrekt bleibt
Es wird betont, dass das Ergebnisniveau eines Modells, das in 5 Minuten trainiert wurde, praktischer war als erwartet

Hintergrund und Grenzen des Experiments

Das Experiment begann aus der eher unrealistischen Neugier heraus, in einer Laptop-Umgebung schnell ein leistungsfähiges Modell zu trainieren
Tatsächlich ließen sich in der Cloud mit leistungsstarken GPUs (z. B. H100) stärkere Modelle trainieren, doch die eigentliche Randbedingung des Experiments war die Zeit von 5 Minuten
Je größer das Modell, desto langsamer ist der Token-Durchsatz, was gute Ergebnisse innerhalb von 5 Minuten erschwert
- Zu kleine Modelle (z. B. 10K Parameter) können nicht genug Komplexität lernen
- Der praktische Bereich liegt bei Modellen mit etwa 1M bis 2M Parametern

Optimierung des Durchsatzes

Die Verwendung von MPS (Apples Metal Performance Shaders) war am effektivsten
Verschiedene mathematische Optimierungen wie torch.compile, float16, MLX usw. brachten weniger Leistungsgewinn als erwartet oder verschlechterten die Performance sogar
Gradient Accumulation dient zwar der Speicherverwaltung, führte in der Praxis jedoch zu deutlicher Verlangsamung
Das Modell muss in der Lage sein, Gewichte schnell im internen Speicher zu aktualisieren, um effizient zu sein

Auswahl des Datasets

Bei begrenzter Token-Anzahl (ca. 10 bis 20 Mio.) wurden zunächst einfache englische Wiki-Daten wie Simple English Wikipedia verwendet; das lieferte zwar grammatische Konsistenz, aber wenig semantische Kohärenz
- Wegen des Schwerpunkts auf Eigennamen und erzwungen wirkender Faktenaufzählungen waren die Grenzen bei der Erzeugung sinnvoller Inhalte deutlich
Mit dem TinyStories-Dataset waren die Ergebnisse deutlich konsistenter und inhaltlich sinnvoller, da die Erzählstruktur klar und die Sprache einfach ist
- Da es sich um Geschichten auf dem Niveau von Vierjährigen handelt, lernt auch ein kleines Modell daran gut

Tokenizer und Tokenisierung

Das Training des Tokenizers ist nicht in den 5 Minuten enthalten, und wegen des kleinen Datenumfangs besteht nur geringer Optimierungsbedarf
Das Lernen von Multi-Byte-Tokens ist für das Modell leichter

Experimente zur Modellarchitektur

Verwendung einer Transformer-Architektur (im GPT-2-Stil)
- Hyperparameter wie 2 bis 3 Layer, Aktivierungsfunktionen wie SwiGLU und Positional Embedding wurden angepasst
- LSTM kommt in der Leistung nahe heran, aber der Transformer ist bei der Perplexity überlegen
- Dropout, Mixture-of-Experts usw. sind bei dieser kleinen Größe ineffizient
- Curriculum Learning zeigte wegen der zu kurzen Trainingszeit kaum Wirkung
Versuch mit einem Diffusion-Modell (D3PM)
- Da natürliche Sprache aus diskreten Tokens besteht, entstanden im Diffusionsprozess nur bedeutungslose Zufallstokens, weshalb der Ansatz scheiterte
- Im Vergleich zu Transformer oder LSTM war es schwieriger, schnell eine Satzstruktur zu bilden

Zusammenhang zwischen Modellgröße und Token/Sekunde-Durchsatz

Modelle mit 1M bis 2M Parametern bilden den idealsten Sweet Spot
- Sind sie zu groß, ist innerhalb von 5 Minuten keine Konvergenz möglich; sind sie zu klein, stoßen sie unmittelbar nach Trainingsbeginn an Leistungsgrenzen
Das Chinchilla scaling law stimmt weitgehend mit den Experimentergebnissen überein
- Eine ideale Modellgröße von Gesamtzahl der Trainingstokens/20 wurde auch in diesem Experiment bestätigt

Fazit und Implikationen

Selbst in sehr kurzer Zeit und auf kleiner Hardware ist das Training eines konsistenten Storytelling-Modells möglich
Ein 5-Minuten-Training eignet sich nicht für die Entwicklung wirklich leistungsstarker Modelle, hat aber Bedeutung für Experimente zu kleinen, extrem leichtgewichtigen Modellen sowie zur Optimierung von Hardware und Architektur
Mit künftigen Fortschritten bei Laptop-GPUs und Modellstrukturen könnten sich die Fähigkeiten von Modellen, die in nur wenigen Minuten trainiert werden, weiter verbessern