Welches ist das leistungsfähigste KI-Modell, das sich in 5 Minuten auf einem Laptop trainieren lässt?
(seangoedecke.com)- Auf einem MacBook Pro wurde in 5 Minuten ein GPT-artiges Transformer-Modell mit rund 1,8 Mio. Parametern auf etwa 20 Mio. TinyStories-Tokens trainiert und erreichte dabei ungefähr 9,6 Perplexity
- Die wichtigsten Einschränkungen für ein Training in unter 5 Minuten sind Modellgröße und die verarbeitbare Token-Anzahl; größere Modelle konvergieren langsamer und profitieren bei wenig Daten weniger
- Bei der Leistungsoptimierung war die Nutzung von MPS am effektivsten; ein kleines Modell zu wählen erwies sich als wirksamer als Kompilierung/Quantisierung/Gradient Accumulation oder Alternativen zu PyTorch
- Ein einfaches und konsistentes Dataset wie TinyStories wirkt sich auf kleine Modelle positiver aus als enzyklopädische Daten
- Die Transformer-Architektur zeigte unter den Bedingungen kleiner Modelle und kurzer Trainingszeit bessere Ergebnisse als LSTM oder diffusion
Überblick
Dieser Beitrag präsentiert die Ergebnisse eines Experiments zu dem leistungsfähigsten KI-Sprachmodell, das sich auf einem Laptop (MacBook Pro) in 5 Minuten trainieren lässt, sowie Erkenntnisse zu optimaler Trainingsstrategie, Dataset-Auswahl und Modellarchitektur.
Zusammenfassung der Experimentergebnisse
- Ein GPT-artiges Transformer-Modell mit rund 1,8 Mio. Parametern wurde auf etwa 20 Mio. TinyStories-Daten trainiert und erreichte eine Perplexity von 9,6
- Die generierten Beispiele sind kurz, aber konsistent in Form kleiner Geschichten, wobei die englische Grammatik überwiegend korrekt bleibt
- Es wird betont, dass das Ergebnisniveau eines Modells, das in 5 Minuten trainiert wurde, praktischer war als erwartet
Hintergrund und Grenzen des Experiments
- Das Experiment begann aus der eher unrealistischen Neugier heraus, in einer Laptop-Umgebung schnell ein leistungsfähiges Modell zu trainieren
- Tatsächlich ließen sich in der Cloud mit leistungsstarken GPUs (z. B. H100) stärkere Modelle trainieren, doch die eigentliche Randbedingung des Experiments war die Zeit von 5 Minuten
- Je größer das Modell, desto langsamer ist der Token-Durchsatz, was gute Ergebnisse innerhalb von 5 Minuten erschwert
- Zu kleine Modelle (z. B. 10K Parameter) können nicht genug Komplexität lernen
- Der praktische Bereich liegt bei Modellen mit etwa 1M bis 2M Parametern
Optimierung des Durchsatzes
- Die Verwendung von MPS (Apples Metal Performance Shaders) war am effektivsten
- Verschiedene mathematische Optimierungen wie
torch.compile, float16, MLX usw. brachten weniger Leistungsgewinn als erwartet oder verschlechterten die Performance sogar - Gradient Accumulation dient zwar der Speicherverwaltung, führte in der Praxis jedoch zu deutlicher Verlangsamung
- Das Modell muss in der Lage sein, Gewichte schnell im internen Speicher zu aktualisieren, um effizient zu sein
Auswahl des Datasets
- Bei begrenzter Token-Anzahl (ca. 10 bis 20 Mio.) wurden zunächst einfache englische Wiki-Daten wie Simple English Wikipedia verwendet; das lieferte zwar grammatische Konsistenz, aber wenig semantische Kohärenz
- Wegen des Schwerpunkts auf Eigennamen und erzwungen wirkender Faktenaufzählungen waren die Grenzen bei der Erzeugung sinnvoller Inhalte deutlich
- Mit dem TinyStories-Dataset waren die Ergebnisse deutlich konsistenter und inhaltlich sinnvoller, da die Erzählstruktur klar und die Sprache einfach ist
- Da es sich um Geschichten auf dem Niveau von Vierjährigen handelt, lernt auch ein kleines Modell daran gut
Tokenizer und Tokenisierung
- Das Training des Tokenizers ist nicht in den 5 Minuten enthalten, und wegen des kleinen Datenumfangs besteht nur geringer Optimierungsbedarf
- Das Lernen von Multi-Byte-Tokens ist für das Modell leichter
Experimente zur Modellarchitektur
-
Verwendung einer Transformer-Architektur (im GPT-2-Stil)
- Hyperparameter wie 2 bis 3 Layer, Aktivierungsfunktionen wie SwiGLU und Positional Embedding wurden angepasst
- LSTM kommt in der Leistung nahe heran, aber der Transformer ist bei der Perplexity überlegen
- Dropout, Mixture-of-Experts usw. sind bei dieser kleinen Größe ineffizient
- Curriculum Learning zeigte wegen der zu kurzen Trainingszeit kaum Wirkung
-
Versuch mit einem Diffusion-Modell (D3PM)
- Da natürliche Sprache aus diskreten Tokens besteht, entstanden im Diffusionsprozess nur bedeutungslose Zufallstokens, weshalb der Ansatz scheiterte
- Im Vergleich zu Transformer oder LSTM war es schwieriger, schnell eine Satzstruktur zu bilden
Zusammenhang zwischen Modellgröße und Token/Sekunde-Durchsatz
- Modelle mit 1M bis 2M Parametern bilden den idealsten Sweet Spot
- Sind sie zu groß, ist innerhalb von 5 Minuten keine Konvergenz möglich; sind sie zu klein, stoßen sie unmittelbar nach Trainingsbeginn an Leistungsgrenzen
- Das Chinchilla scaling law stimmt weitgehend mit den Experimentergebnissen überein
- Eine ideale Modellgröße von Gesamtzahl der Trainingstokens/20 wurde auch in diesem Experiment bestätigt
Fazit und Implikationen
- Selbst in sehr kurzer Zeit und auf kleiner Hardware ist das Training eines konsistenten Storytelling-Modells möglich
- Ein 5-Minuten-Training eignet sich nicht für die Entwicklung wirklich leistungsstarker Modelle, hat aber Bedeutung für Experimente zu kleinen, extrem leichtgewichtigen Modellen sowie zur Optimierung von Hardware und Architektur
- Mit künftigen Fortschritten bei Laptop-GPUs und Modellstrukturen könnten sich die Fähigkeiten von Modellen, die in nur wenigen Minuten trainiert werden, weiter verbessern
Noch keine Kommentare.