5 Punkte von GN⁺ 2024-03-08 | 1 Kommentare | Auf WhatsApp teilen

Ein LLM komplett von Grund auf trainieren

  • Es gab viel Neugier auf die Erfahrungen von Reka beim erfolgreichen Training leistungsstarker multimodaler Sprachmodelle.
  • Es werden die Herausforderungen und Erkenntnisse beim Aufbau der Infrastruktur und beim Training großer Sprach- und multimodaler Modelle von Grund auf geteilt.
  • Es wird gehofft, dass dieser Beitrag für viele Menschen interessant und lehrreich ist.

Die Hardware-Lotterie im Zeitalter der LLMs

  • Die erste unverzichtbare Voraussetzung für das Modelltraining ist die Sicherung von Rechenleistung.
  • Die Instabilität von Compute-Anbietern sowie die Qualitätsunterschiede bei Clustern, Beschleunigern und Konnektivität waren überraschend.
  • Die Qualitätsunterschiede bei der Hardware sind groß, und das fühlt sich beim Training tatsächlich wie eine „Hardware-Lotterie“ an.

GPU vs. TPU

  • Bei Reka werden Modelle hauptsächlich mit GPUs trainiert.
  • Im Vergleich zu den Erfahrungen mit TPUs bei Google war die Ausfallrate von GPUs überraschend.
  • Die Kompetenz des Hardware-Teams ist wichtig, was das Konzept der „Hardware-Lotterie“ weiter unterstreicht.

Der Schmerz eines Multi-Cluster-Setups

  • Das Konzept, neue Umgebungen über mehrere Cluster hinweg einrichten zu müssen, war ungewohnt.
  • Es ist unvermeidlich, Accelerator-Pools über mehrere Cluster hinweg zu haben.
  • Beim Umgang mit großen Datenmengen ist das unbequem, und Datenreplikation ist im großen Maßstab nicht einfach.

Wilder Code

  • T5X und MeshTensorflow waren beliebte Codebasen, wurden aber außerhalb von Google nur wenig unterstützt und waren schwer zu verwenden.
  • Deshalb fiel die Wahl auf das zugänglichere PyTorch.
  • Es entstand der Eindruck, dass die Qualität externer Codebasen im Vergleich zu Googles internen deutlich zurückliegt.

Weniger prinzipientreu, mehr Yolo

  • Eigentlich sollte man Modelle systematisch skalieren, aber in einem Startup gibt es weniger Rechenressourcen, daher gibt es viele Yolo-Runs.
  • Es ist eine Herausforderung, mit begrenzten Versuchen leistungsstarke Modelle zu trainieren.

Zusammenfassung

  • Die Erfahrungen in freier Wildbahn waren interessant, aber schmerzhaft.
  • Wegen fehlender Compute-Ressourcen und instabiler Anbieter war es schwieriger als erwartet, doch mit technischer Stärke konnte man diese Hürden überwinden.
  • Erzählt wird nur ein Teil des Weges, ein Unternehmen zu gründen, Kapital einzuwerben, Chips zu kaufen und mit Gemini pro/GPT 3.5 zu konkurrieren sowie viele andere zu übertreffen.

Meinung von GN⁺

  • Dieser Artikel zeigt anschaulich die realen Probleme und Herausforderungen, mit denen Startups beim Training großer Sprachmodelle von Grund auf konfrontiert sind. Das kann insbesondere Junior-Softwareentwicklern realistische Einblicke geben.
  • Die Bedeutung der Hardware-Auswahl sowie die Unterschiede bei Ausfallraten und Support-Niveau sind Punkte, die Startups oder kleinere Unternehmen unbedingt berücksichtigen sollten, wenn sie große Projekte starten.
  • Der Artikel betont die technischen Einschränkungen, denen Startups im Vergleich zur Infrastruktur großer Unternehmen wie Google begegnen. Das zeigt, warum Startups bei Technologieentscheidungen vorsichtig sein müssen.
  • Er deutet darauf hin, dass der Aufbau der nötigen Infrastruktur und Werkzeuge für das Training großer Modelle in Startups sehr komplex und schwierig sein kann. Das ist ein wichtiger Faktor bei der Wahl von Cloud-Anbietern oder der Entscheidung für eigene Hardware.
  • Trotz technischer Probleme und Herausforderungen vermittelt der Artikel die positive Botschaft, dass Startups Schwierigkeiten mit technischer Stärke überwinden und erfolgreiche Ergebnisse erzielen können.

1 Kommentare

 
GN⁺ 2024-03-08
Hacker-News-Kommentare
  • Ein Startup ist hier als eine Organisation mit wenigen Mitarbeitenden und viel Kapital gemeint, die in einen Trainings-Cluster investiert. Im Artikel wird erklärt, dass viele Startups und etablierte Unternehmen stattdessen Server mieten und betreiben. Die meisten Hersteller von LLMs (Large Language Models) trainieren mit ähnlicher Hardware und Daten auf Text- und Bilddaten. Jedes LLM hat seine eigene besondere „Geheimzutat“, die Unterschiede in der Qualität der Ausgaben erzeugt. Insgesamt wirkt dieser Prozess jedoch wie eine energieintensive Doppelarbeit.
  • Dieser Beitrag handelt von den Erfahrungen von Yi Tay, der bei Google technischer Leiter für PaLM, UL2, Flan und Bard war, Mitgründer von Reka wurde und nun als unabhängiges Startup ein LLM trainiert. Das Gespräch, das Yi Tay dazu gebracht hat, diesen Beitrag zu schreiben, ist hier dokumentiert.
  • Durch diesen Beitrag habe ich zum ersten Mal von Reka.ai erfahren. Die LLMs von Reka.ai wurden auf Hacker News bisher kaum diskutiert. Aus Neugier habe ich die Chat-Oberfläche von Reka Flash im Vergleich zu ChatGPT 4, Gemini Advanced, Claude 3 und Mistral Large getestet. Die Ergebnisse sind hier. Insgesamt ist Reka Flash weder auffällig schlechter noch besser als die anderen LLMs. Für ein sicheres Urteil wären natürlich mehr Tests nötig.
  • Der Autor geht offenbar davon aus, dass Leserinnen und Leser „die Wildnis“ als „außerhalb von Google“ verstehen. Der Text zollt Googles Infrastruktur- und Hardware-Teams viel Anerkennung, und ich würde gern die Perspektive eines Google-Insiders lesen, der solche Arbeit anderswo macht.
  • Die Hauptseite von Reka.AI sieht nach einem typischen, tokenbasierten ChatGPT-Klon aus, also einem LLM. Wodurch es sich von anderen Unternehmen unterscheidet, ist nicht klar. Die Preise scheinen in etwa auf dem Niveau von ChatGPT 3.5-Turbo zu liegen.
  • Ein LLM von Grund auf zu trainieren, ist für Geschwindigkeit und Reichweite der Weiterentwicklung von KI ebenso wichtig wie Verbesserungen der Rohhardware. Der Blog ist interessant, aber etwas oberflächlich und nicht sehr technisch; für jemanden mit Erfahrung im Umgang mit GPU-Clustern gibt es dort nichts Überraschendes. Ich kann nicht klar erkennen, warum man außerhalb von Google für LLMs eher Jax als PyTorch empfehlen würde. Ich hoffe, dieses neue Unternehmen veröffentlicht einen technischeren Bericht über sein Trainingsabenteuer.
  • Es wird nur ein kleiner Teil der Geschichte erzählt: ein Unternehmen gründen, Kapital einsammeln, Chips kaufen und in weniger als einem Jahr ein LLM auf GPT-3.5-Niveau aufbauen, das viele andere Produkte übertrifft. Ich frage mich, welches Budget dafür für Chips bzw. Cloud-GPUs nötig war. Vielleicht grob 2 bis 5 Millionen US-Dollar?
  • Eine große Frage ist, wie kleine Startups ohne passenden Hintergrund oder entsprechende Laufbahn überhaupt Finanzierung für LLM-Produkte sichern. Die Welt der LLM-Startups wirkt ähnlich wie die Welt von Hedgefonds und Private Equity, in der die Voraussetzung für Seed-/Finanzierungsrunden ein prestigeträchtiger beruflicher Werdegang sowie ein belastbares Investorennetzwerk ist, das bereit ist zu investieren, noch bevor ein Produkt startet.
  • Ich frage mich, ob der Titel nicht eher „from the ground up“ statt „ground zero“ heißen sollte.
  • Der Teil über den Trainingsdatenprozess ist sehr interessant, aber ich würde gern noch mehr darüber hören.