2 Punkte von GN⁺ 2025-08-15 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Auf einem MacBook Pro wurde in 5 Minuten ein GPT-artiges Transformer-Modell mit rund 1,8 Mio. Parametern auf etwa 20 Mio. TinyStories-Tokens trainiert und erreichte dabei ungefähr 9,6 Perplexity
  • Die wichtigsten Einschränkungen für ein Training in unter 5 Minuten sind Modellgröße und die verarbeitbare Token-Anzahl; größere Modelle konvergieren langsamer und profitieren bei wenig Daten weniger
  • Bei der Leistungsoptimierung war die Nutzung von MPS am effektivsten; ein kleines Modell zu wählen erwies sich als wirksamer als Kompilierung/Quantisierung/Gradient Accumulation oder Alternativen zu PyTorch
  • Ein einfaches und konsistentes Dataset wie TinyStories wirkt sich auf kleine Modelle positiver aus als enzyklopädische Daten
  • Die Transformer-Architektur zeigte unter den Bedingungen kleiner Modelle und kurzer Trainingszeit bessere Ergebnisse als LSTM oder diffusion

Überblick

Dieser Beitrag präsentiert die Ergebnisse eines Experiments zu dem leistungsfähigsten KI-Sprachmodell, das sich auf einem Laptop (MacBook Pro) in 5 Minuten trainieren lässt, sowie Erkenntnisse zu optimaler Trainingsstrategie, Dataset-Auswahl und Modellarchitektur.

Zusammenfassung der Experimentergebnisse

  • Ein GPT-artiges Transformer-Modell mit rund 1,8 Mio. Parametern wurde auf etwa 20 Mio. TinyStories-Daten trainiert und erreichte eine Perplexity von 9,6
  • Die generierten Beispiele sind kurz, aber konsistent in Form kleiner Geschichten, wobei die englische Grammatik überwiegend korrekt bleibt
  • Es wird betont, dass das Ergebnisniveau eines Modells, das in 5 Minuten trainiert wurde, praktischer war als erwartet

Hintergrund und Grenzen des Experiments

  • Das Experiment begann aus der eher unrealistischen Neugier heraus, in einer Laptop-Umgebung schnell ein leistungsfähiges Modell zu trainieren
  • Tatsächlich ließen sich in der Cloud mit leistungsstarken GPUs (z. B. H100) stärkere Modelle trainieren, doch die eigentliche Randbedingung des Experiments war die Zeit von 5 Minuten
  • Je größer das Modell, desto langsamer ist der Token-Durchsatz, was gute Ergebnisse innerhalb von 5 Minuten erschwert
    • Zu kleine Modelle (z. B. 10K Parameter) können nicht genug Komplexität lernen
    • Der praktische Bereich liegt bei Modellen mit etwa 1M bis 2M Parametern

Optimierung des Durchsatzes

  • Die Verwendung von MPS (Apples Metal Performance Shaders) war am effektivsten
  • Verschiedene mathematische Optimierungen wie torch.compile, float16, MLX usw. brachten weniger Leistungsgewinn als erwartet oder verschlechterten die Performance sogar
  • Gradient Accumulation dient zwar der Speicherverwaltung, führte in der Praxis jedoch zu deutlicher Verlangsamung
  • Das Modell muss in der Lage sein, Gewichte schnell im internen Speicher zu aktualisieren, um effizient zu sein

Auswahl des Datasets

  • Bei begrenzter Token-Anzahl (ca. 10 bis 20 Mio.) wurden zunächst einfache englische Wiki-Daten wie Simple English Wikipedia verwendet; das lieferte zwar grammatische Konsistenz, aber wenig semantische Kohärenz
    • Wegen des Schwerpunkts auf Eigennamen und erzwungen wirkender Faktenaufzählungen waren die Grenzen bei der Erzeugung sinnvoller Inhalte deutlich
  • Mit dem TinyStories-Dataset waren die Ergebnisse deutlich konsistenter und inhaltlich sinnvoller, da die Erzählstruktur klar und die Sprache einfach ist
    • Da es sich um Geschichten auf dem Niveau von Vierjährigen handelt, lernt auch ein kleines Modell daran gut

Tokenizer und Tokenisierung

  • Das Training des Tokenizers ist nicht in den 5 Minuten enthalten, und wegen des kleinen Datenumfangs besteht nur geringer Optimierungsbedarf
  • Das Lernen von Multi-Byte-Tokens ist für das Modell leichter

Experimente zur Modellarchitektur

  • Verwendung einer Transformer-Architektur (im GPT-2-Stil)

    • Hyperparameter wie 2 bis 3 Layer, Aktivierungsfunktionen wie SwiGLU und Positional Embedding wurden angepasst
    • LSTM kommt in der Leistung nahe heran, aber der Transformer ist bei der Perplexity überlegen
    • Dropout, Mixture-of-Experts usw. sind bei dieser kleinen Größe ineffizient
    • Curriculum Learning zeigte wegen der zu kurzen Trainingszeit kaum Wirkung
  • Versuch mit einem Diffusion-Modell (D3PM)

    • Da natürliche Sprache aus diskreten Tokens besteht, entstanden im Diffusionsprozess nur bedeutungslose Zufallstokens, weshalb der Ansatz scheiterte
    • Im Vergleich zu Transformer oder LSTM war es schwieriger, schnell eine Satzstruktur zu bilden

Zusammenhang zwischen Modellgröße und Token/Sekunde-Durchsatz

  • Modelle mit 1M bis 2M Parametern bilden den idealsten Sweet Spot
    • Sind sie zu groß, ist innerhalb von 5 Minuten keine Konvergenz möglich; sind sie zu klein, stoßen sie unmittelbar nach Trainingsbeginn an Leistungsgrenzen
  • Das Chinchilla scaling law stimmt weitgehend mit den Experimentergebnissen überein
    • Eine ideale Modellgröße von Gesamtzahl der Trainingstokens/20 wurde auch in diesem Experiment bestätigt

Fazit und Implikationen

  • Selbst in sehr kurzer Zeit und auf kleiner Hardware ist das Training eines konsistenten Storytelling-Modells möglich
  • Ein 5-Minuten-Training eignet sich nicht für die Entwicklung wirklich leistungsstarker Modelle, hat aber Bedeutung für Experimente zu kleinen, extrem leichtgewichtigen Modellen sowie zur Optimierung von Hardware und Architektur
  • Mit künftigen Fortschritten bei Laptop-GPUs und Modellstrukturen könnten sich die Fähigkeiten von Modellen, die in nur wenigen Minuten trainiert werden, weiter verbessern

Noch keine Kommentare.

Noch keine Kommentare.