Ein LLM komplett von Grund auf trainieren
- Es gab viel Neugier auf die Erfahrungen von Reka beim erfolgreichen Training leistungsstarker multimodaler Sprachmodelle.
- Es werden die Herausforderungen und Erkenntnisse beim Aufbau der Infrastruktur und beim Training großer Sprach- und multimodaler Modelle von Grund auf geteilt.
- Es wird gehofft, dass dieser Beitrag für viele Menschen interessant und lehrreich ist.
Die Hardware-Lotterie im Zeitalter der LLMs
- Die erste unverzichtbare Voraussetzung für das Modelltraining ist die Sicherung von Rechenleistung.
- Die Instabilität von Compute-Anbietern sowie die Qualitätsunterschiede bei Clustern, Beschleunigern und Konnektivität waren überraschend.
- Die Qualitätsunterschiede bei der Hardware sind groß, und das fühlt sich beim Training tatsächlich wie eine „Hardware-Lotterie“ an.
GPU vs. TPU
- Bei Reka werden Modelle hauptsächlich mit GPUs trainiert.
- Im Vergleich zu den Erfahrungen mit TPUs bei Google war die Ausfallrate von GPUs überraschend.
- Die Kompetenz des Hardware-Teams ist wichtig, was das Konzept der „Hardware-Lotterie“ weiter unterstreicht.
Der Schmerz eines Multi-Cluster-Setups
- Das Konzept, neue Umgebungen über mehrere Cluster hinweg einrichten zu müssen, war ungewohnt.
- Es ist unvermeidlich, Accelerator-Pools über mehrere Cluster hinweg zu haben.
- Beim Umgang mit großen Datenmengen ist das unbequem, und Datenreplikation ist im großen Maßstab nicht einfach.
Wilder Code
- T5X und MeshTensorflow waren beliebte Codebasen, wurden aber außerhalb von Google nur wenig unterstützt und waren schwer zu verwenden.
- Deshalb fiel die Wahl auf das zugänglichere PyTorch.
- Es entstand der Eindruck, dass die Qualität externer Codebasen im Vergleich zu Googles internen deutlich zurückliegt.
Weniger prinzipientreu, mehr Yolo
- Eigentlich sollte man Modelle systematisch skalieren, aber in einem Startup gibt es weniger Rechenressourcen, daher gibt es viele Yolo-Runs.
- Es ist eine Herausforderung, mit begrenzten Versuchen leistungsstarke Modelle zu trainieren.
Zusammenfassung
- Die Erfahrungen in freier Wildbahn waren interessant, aber schmerzhaft.
- Wegen fehlender Compute-Ressourcen und instabiler Anbieter war es schwieriger als erwartet, doch mit technischer Stärke konnte man diese Hürden überwinden.
- Erzählt wird nur ein Teil des Weges, ein Unternehmen zu gründen, Kapital einzuwerben, Chips zu kaufen und mit Gemini pro/GPT 3.5 zu konkurrieren sowie viele andere zu übertreffen.
Meinung von GN⁺
- Dieser Artikel zeigt anschaulich die realen Probleme und Herausforderungen, mit denen Startups beim Training großer Sprachmodelle von Grund auf konfrontiert sind. Das kann insbesondere Junior-Softwareentwicklern realistische Einblicke geben.
- Die Bedeutung der Hardware-Auswahl sowie die Unterschiede bei Ausfallraten und Support-Niveau sind Punkte, die Startups oder kleinere Unternehmen unbedingt berücksichtigen sollten, wenn sie große Projekte starten.
- Der Artikel betont die technischen Einschränkungen, denen Startups im Vergleich zur Infrastruktur großer Unternehmen wie Google begegnen. Das zeigt, warum Startups bei Technologieentscheidungen vorsichtig sein müssen.
- Er deutet darauf hin, dass der Aufbau der nötigen Infrastruktur und Werkzeuge für das Training großer Modelle in Startups sehr komplex und schwierig sein kann. Das ist ein wichtiger Faktor bei der Wahl von Cloud-Anbietern oder der Entscheidung für eigene Hardware.
- Trotz technischer Probleme und Herausforderungen vermittelt der Artikel die positive Botschaft, dass Startups Schwierigkeiten mit technischer Stärke überwinden und erfolgreiche Ergebnisse erzielen können.
1 Kommentare
Hacker-News-Kommentare