Mark-Zuckerberg-Interview – Llama 3 und warum ein 10-Milliarden-Dollar-Modell als Open Source veröffentlicht wurde

xguru · 2024-04-21T13:19:58+09:00

Im Interview mit Dwarkesh Patel sprach er über Llama 3, Open Source auf dem Weg zu AGI, Custom Silicon und Energiegrenzen beim Skalieren; hier eine kurze Zusammenfassung des gesamten Skripts Llama 3 Meta hat das Open-Source-Modell Llama 3 veröffentlicht und will damit die neue Version von Meta AI antreiben Meta AI zielt darauf ab, der intelligenteste und frei nutzbare AI-Assistent zu werden Llama 3 wird als Dense-Modell in den Größen 8B, 70B und 405B angeboten, wobei 405B noch trainiert wird Es gibt eine Roadmap für neue Releases mit Multimodalität, Mehrsprachigkeit und größerem Kontextfenster; 405B soll noch in diesem Jahr ausgerollt werden 405B befindet sich derzeit im Training, hat 85 MMLU erreicht und dürfte bei mehreren Benchmarks führend sein Das 8B-Llama-3-Modell erreicht nahezu die Leistung des größten Llama-2-Modells Auch 70B ist stark und liegt bereits bei 82 MMLU GPU Meta sicherte sich H100-GPUs im Jahr 2022, als die Aktie stark einbrach, um Reels aufzubauen Die Infrastruktur begrenzte, wie schnell man zu TikTok aufschließen konnte; um nie wieder in so eine Lage zu geraten, bestellte Meta die doppelte Menge Man erwartete zwar, dass dies künftig für das Training großer Modelle nötig sein würde, dachte damals aber nur an Content-Empfehlungen Rückblickend war es eine sehr gute Entscheidung, und sie war möglich, weil man im Rückstand war Es war nicht so etwas wie: „Ah, ich war meiner Zeit zu weit voraus.“ Tatsächlich enden viele gute Entscheidungen bei uns deshalb gut, weil wir vorher etwas vermasselt haben und denselben Fehler nicht wiederholen wollten Bedeutung von Coding- und Reasoning-Fähigkeiten auf dem Weg zu AGI (Artificial General Intelligence) Meta erkennt, dass Coding- und Reasoning-Fähigkeiten wichtig sind, damit Modelle reale Anwendungsfälle lösen können, selbst wenn sie nicht direkt Coding-Fragen gestellt bekommen Das Endziel ist, AGI zu lösen und Modelle in die Lage zu versetzen, komplexe mehrstufige Aufgaben auszuführen AGI wird erreicht werden, indem schrittweise verschiedene Fähigkeiten wie Multimodalität, Emotionsverständnis und Memory ergänzt werden Engpässe bei Energie und Skalierbarkeit Der exponentielle Fortschritt bei der Modellgröße kann weitergehen, wird aber irgendwann auf Engpässe bei Energie und Infrastruktur stoßen Viele Rechenzentren liegen derzeit bei etwa 50 Megawatt oder 100 MW, große Rechenzentren bei 150 MW Man wird jedoch beginnen, Rechenzentren in Größenordnungen von 300 MW, 500 MW oder 1 GW zu bauen (1-GW-Größe gibt es noch nicht, aber bald) Bei 1 GW würde man für das Modelltraining allerdings Kapazitäten in der Größenordnung eines Kernkraftwerks brauchen, und der Aufbau solcher Gigawatt-Cluster würde wegen strenger Genehmigungsverfahren Jahre dauern Bedeutung der AI-Revolution AI ist so grundlegend wie die Erschaffung des Computings selbst, wird unsere Arbeitsweise verändern und neue kreative Werkzeuge liefern Auf kosmischen Zeitskalen wird der Fortschritt schnell sein, aber wegen der Engpässe wird es nicht über Nacht zu einer Intelligenzexplosion kommen Es fühlt sich an, als könnten Intelligenz und Bewusstsein bzw. Agency voneinander getrennt werden, und das könnte ein sehr wertvolles Werkzeug sein Open Source und Machtbalance Mächtige AI in den Händen weniger könnte genauso riskant sein wie breite Verfügbarkeit Wir sind klar pro Open Source, haben aber nicht alles offengelegt, was wir tun Durch Open Source kann die Community Modelle verbessern und für ausgewogenere Wettbewerbsbedingungen sorgen Wenn sich an einem Punkt jedoch eine qualitative Veränderung der Fähigkeiten ergibt und wir entscheiden, dass Open Source nicht angemessen ist, dann werden wir es nicht Open Source machen. Alles ist sehr schwer vorherzusagen Meta orientiert sich an Open Source, solange es verantwortungsvoll und hilfreich ist, und kann Cloud-Anbietern Kosten für die Nutzung des Modells berechnen Kurzfristig liegt der Fokus auf der Minderung realer Schäden durch Missbrauch von Modellen, langfristig auf existenziellen Risiken Warum ein 10-Milliarden-Dollar-Modell Open Source gemacht wurde Das Ärgerliche am mobilen Ökosystem ist, dass es mit Apple und Google zwei Gatekeeper-Unternehmen gibt Diese beiden Unternehmen sagen dir, was du bauen kannst Es gibt auch den wirtschaftlichen Aspekt, dass sie Geld abschöpfen, wenn wir etwas bauen, aber noch ärgerlicher ist die qualitative Seite Oft haben wir Funktionen veröffentlicht oder wollten sie veröffentlichen, und Apple sagte: „Nein, das kann nicht veröffentlicht werden“ Das ist wirklich frustrierend, und die Frage ist, ob wir dieselbe Welt auch bei AI wollen Könnten einige wenige Unternehmen mit Closed Models die APIs kontrollieren und dir sagen, was du bauen kannst? Man kann sagen, dass es wertvoll ist, selbst Modelle zu bauen, damit wir nicht in so eine Lage geraten Wir wollen nicht, dass irgendein anderes Unternehmen uns sagt, was wir bauen dürfen Und aus Open-Source-Sicht wollen auch viele Entwickler vermutlich nicht, dass solche Unternehmen festlegen, was sie bauen dürfen Dann ist die Frage, welches Ökosystem darum herum entsteht Was ist das interessante Neue? Wie stark kann es unsere Produkte verbessern? Ich denke, man kann von der Community oft wertvolle Beiträge bekommen, die helfen, bessere Produkte zu bauen – ähnlich wie bei Datenbanken, Caching-Systemen oder Architektur Dann bleiben die app-spezifischen Dinge, die wir tun, weiterhin differenzierend und werden nicht grundlegend entwertet Wir werden weiterhin das tun können, was wir tun Weil es Open Source ist, werden sowohl unsere Systeme als auch die der Community besser Aber es gibt auch eine andere mögliche Welt Vielleicht rückt das Modell selbst näher an das Produkt heran Dann dürfte die ökonomische Rechnung schwieriger werden, weil man sich mit oder ohne Open Source stärker commoditisiert Aber nach allem, was wir bisher sehen, befinden wir uns offenbar nicht in diesem Bereich Monetarisierung des Modells Ist zu erwarten, dass die Lizenzierung des Modells an Cloud-Anbieter erhebliche Umsätze bringt? Llama hat in vieler Hinsicht eine sehr permissive Open-Source-Lizenz Für große Unternehmen, die es nutzen, gibt es jedoch Einschränkungen. Deshalb haben wir diese Beschränkung eingeführt Wir versuchen nicht, sie von der Nutzung abzuhalten; wenn sie aber im Grunde das von uns Gebaute nehmen und damit durch Weiterverkauf Geld verdienen wollen, sollen sie mit uns sprechen Bei Microsoft Azure oder Amazon sollte es beim Weiterverkauf des Modells eine Umsatzbeteiligung geben Deshalb sollen sie vorab mit uns reden; so läuft das Bei Llama-2 haben wir daher im Grunde mit allen großen Cloud-Unternehmen Verträge abgeschlossen, und Llama-2 wird auf allen Clouds als Hosting-Service angeboten Je größere Modelle wir veröffentlichen, desto größer wird auch dieses Thema werden Das ist nicht unser Hauptgeschäft, aber wenn diese Unternehmen unser Modell verkaufen, ist es sinnvoll, dass wir an diesem Vorteil in irgendeiner Form beteiligt werden Custom Silicon Meta entwickelt Custom Silicon, um große Modelle effizient auszuführen Nicht für Llama-4, aber man hat zunächst Custom Silicon gebaut, das Inferenz für Ranking- und Empfehlungs-Workloads übernehmen kann, etwa für Reels, News Feed Ads und Ähnliches Dadurch, dass man das auf eigenes Silicon verlagern konnte, lassen sich die teureren NVIDIA-GPUs jetzt nur noch fürs Training einsetzen Langfristig hofft man, selbst Silicon zu entwickeln, das zunächst für einfacheres Training und später für das Training wirklich großer Modelle genutzt werden kann Bis dahin kann man sagen, dass das Programm ziemlich gut läuft, systematisch ausgerollt wird und es eine langfristige Roadmap gibt

(dwarkeshpatel.com)

30 Punkte von xguru 2024-04-21 | 4 Kommentare | Auf WhatsApp teilen

Im Interview mit Dwarkesh Patel sprach er über Llama 3, Open Source auf dem Weg zu AGI, Custom Silicon und Energiegrenzen beim Skalieren; hier eine kurze Zusammenfassung des gesamten Skripts

Llama 3

Meta hat das Open-Source-Modell Llama 3 veröffentlicht und will damit die neue Version von Meta AI antreiben
Meta AI zielt darauf ab, der intelligenteste und frei nutzbare AI-Assistent zu werden
Llama 3 wird als Dense-Modell in den Größen 8B, 70B und 405B angeboten, wobei 405B noch trainiert wird
Es gibt eine Roadmap für neue Releases mit Multimodalität, Mehrsprachigkeit und größerem Kontextfenster; 405B soll noch in diesem Jahr ausgerollt werden
405B befindet sich derzeit im Training, hat 85 MMLU erreicht und dürfte bei mehreren Benchmarks führend sein
Das 8B-Llama-3-Modell erreicht nahezu die Leistung des größten Llama-2-Modells
Auch 70B ist stark und liegt bereits bei 82 MMLU

GPU

Meta sicherte sich H100-GPUs im Jahr 2022, als die Aktie stark einbrach, um Reels aufzubauen
Die Infrastruktur begrenzte, wie schnell man zu TikTok aufschließen konnte; um nie wieder in so eine Lage zu geraten, bestellte Meta die doppelte Menge
Man erwartete zwar, dass dies künftig für das Training großer Modelle nötig sein würde, dachte damals aber nur an Content-Empfehlungen
Rückblickend war es eine sehr gute Entscheidung, und sie war möglich, weil man im Rückstand war
Es war nicht so etwas wie: „Ah, ich war meiner Zeit zu weit voraus.“
Tatsächlich enden viele gute Entscheidungen bei uns deshalb gut, weil wir vorher etwas vermasselt haben und denselben Fehler nicht wiederholen wollten

Bedeutung von Coding- und Reasoning-Fähigkeiten auf dem Weg zu AGI (Artificial General Intelligence)

Meta erkennt, dass Coding- und Reasoning-Fähigkeiten wichtig sind, damit Modelle reale Anwendungsfälle lösen können, selbst wenn sie nicht direkt Coding-Fragen gestellt bekommen
Das Endziel ist, AGI zu lösen und Modelle in die Lage zu versetzen, komplexe mehrstufige Aufgaben auszuführen
AGI wird erreicht werden, indem schrittweise verschiedene Fähigkeiten wie Multimodalität, Emotionsverständnis und Memory ergänzt werden

Engpässe bei Energie und Skalierbarkeit

Der exponentielle Fortschritt bei der Modellgröße kann weitergehen, wird aber irgendwann auf Engpässe bei Energie und Infrastruktur stoßen
Viele Rechenzentren liegen derzeit bei etwa 50 Megawatt oder 100 MW, große Rechenzentren bei 150 MW
Man wird jedoch beginnen, Rechenzentren in Größenordnungen von 300 MW, 500 MW oder 1 GW zu bauen (1-GW-Größe gibt es noch nicht, aber bald)
Bei 1 GW würde man für das Modelltraining allerdings Kapazitäten in der Größenordnung eines Kernkraftwerks brauchen, und der Aufbau solcher Gigawatt-Cluster würde wegen strenger Genehmigungsverfahren Jahre dauern

Bedeutung der AI-Revolution

AI ist so grundlegend wie die Erschaffung des Computings selbst, wird unsere Arbeitsweise verändern und neue kreative Werkzeuge liefern
Auf kosmischen Zeitskalen wird der Fortschritt schnell sein, aber wegen der Engpässe wird es nicht über Nacht zu einer Intelligenzexplosion kommen
Es fühlt sich an, als könnten Intelligenz und Bewusstsein bzw. Agency voneinander getrennt werden, und das könnte ein sehr wertvolles Werkzeug sein

Open Source und Machtbalance

Mächtige AI in den Händen weniger könnte genauso riskant sein wie breite Verfügbarkeit
Wir sind klar pro Open Source, haben aber nicht alles offengelegt, was wir tun
Durch Open Source kann die Community Modelle verbessern und für ausgewogenere Wettbewerbsbedingungen sorgen
Wenn sich an einem Punkt jedoch eine qualitative Veränderung der Fähigkeiten ergibt und wir entscheiden, dass Open Source nicht angemessen ist, dann werden wir es nicht Open Source machen. Alles ist sehr schwer vorherzusagen
Meta orientiert sich an Open Source, solange es verantwortungsvoll und hilfreich ist, und kann Cloud-Anbietern Kosten für die Nutzung des Modells berechnen
Kurzfristig liegt der Fokus auf der Minderung realer Schäden durch Missbrauch von Modellen, langfristig auf existenziellen Risiken

Warum ein 10-Milliarden-Dollar-Modell Open Source gemacht wurde

Das Ärgerliche am mobilen Ökosystem ist, dass es mit Apple und Google zwei Gatekeeper-Unternehmen gibt
Diese beiden Unternehmen sagen dir, was du bauen kannst
Es gibt auch den wirtschaftlichen Aspekt, dass sie Geld abschöpfen, wenn wir etwas bauen, aber noch ärgerlicher ist die qualitative Seite
Oft haben wir Funktionen veröffentlicht oder wollten sie veröffentlichen, und Apple sagte: „Nein, das kann nicht veröffentlicht werden“
Das ist wirklich frustrierend, und die Frage ist, ob wir dieselbe Welt auch bei AI wollen
Könnten einige wenige Unternehmen mit Closed Models die APIs kontrollieren und dir sagen, was du bauen kannst?
Man kann sagen, dass es wertvoll ist, selbst Modelle zu bauen, damit wir nicht in so eine Lage geraten
Wir wollen nicht, dass irgendein anderes Unternehmen uns sagt, was wir bauen dürfen
Und aus Open-Source-Sicht wollen auch viele Entwickler vermutlich nicht, dass solche Unternehmen festlegen, was sie bauen dürfen
Dann ist die Frage, welches Ökosystem darum herum entsteht
- Was ist das interessante Neue?
- Wie stark kann es unsere Produkte verbessern?
Ich denke, man kann von der Community oft wertvolle Beiträge bekommen, die helfen, bessere Produkte zu bauen – ähnlich wie bei Datenbanken, Caching-Systemen oder Architektur
Dann bleiben die app-spezifischen Dinge, die wir tun, weiterhin differenzierend und werden nicht grundlegend entwertet
Wir werden weiterhin das tun können, was wir tun
Weil es Open Source ist, werden sowohl unsere Systeme als auch die der Community besser
Aber es gibt auch eine andere mögliche Welt
Vielleicht rückt das Modell selbst näher an das Produkt heran
Dann dürfte die ökonomische Rechnung schwieriger werden, weil man sich mit oder ohne Open Source stärker commoditisiert
Aber nach allem, was wir bisher sehen, befinden wir uns offenbar nicht in diesem Bereich

Monetarisierung des Modells

Ist zu erwarten, dass die Lizenzierung des Modells an Cloud-Anbieter erhebliche Umsätze bringt?
Llama hat in vieler Hinsicht eine sehr permissive Open-Source-Lizenz
Für große Unternehmen, die es nutzen, gibt es jedoch Einschränkungen. Deshalb haben wir diese Beschränkung eingeführt
Wir versuchen nicht, sie von der Nutzung abzuhalten; wenn sie aber im Grunde das von uns Gebaute nehmen und damit durch Weiterverkauf Geld verdienen wollen, sollen sie mit uns sprechen
Bei Microsoft Azure oder Amazon sollte es beim Weiterverkauf des Modells eine Umsatzbeteiligung geben
Deshalb sollen sie vorab mit uns reden; so läuft das
Bei Llama-2 haben wir daher im Grunde mit allen großen Cloud-Unternehmen Verträge abgeschlossen, und Llama-2 wird auf allen Clouds als Hosting-Service angeboten
Je größere Modelle wir veröffentlichen, desto größer wird auch dieses Thema werden
Das ist nicht unser Hauptgeschäft, aber wenn diese Unternehmen unser Modell verkaufen, ist es sinnvoll, dass wir an diesem Vorteil in irgendeiner Form beteiligt werden

Custom Silicon

Meta entwickelt Custom Silicon, um große Modelle effizient auszuführen
Nicht für Llama-4, aber man hat zunächst Custom Silicon gebaut, das Inferenz für Ranking- und Empfehlungs-Workloads übernehmen kann, etwa für Reels, News Feed Ads und Ähnliches
Dadurch, dass man das auf eigenes Silicon verlagern konnte, lassen sich die teureren NVIDIA-GPUs jetzt nur noch fürs Training einsetzen
Langfristig hofft man, selbst Silicon zu entwickeln, das zunächst für einfacheres Training und später für das Training wirklich großer Modelle genutzt werden kann
Bis dahin kann man sagen, dass das Programm ziemlich gut läuft, systematisch ausgerollt wird und es eine langfristige Roadmap gibt

4 Kommentare

laeyoung 2024-04-22

„Wenn es 1 GW sind, braucht man allein für das Training des Modells ein Kernkraftwerk in der Größenordnung eines Atomkraftwerks.“

Um Foundation-Modelle zu trainieren, braucht man jetzt also offenbar eine Art Nuklearprogramm (?).

tsboard 2024-04-22

Es scheint, als hätte er sich viele Gedanken gemacht. Die klare Abneigung gegen Google und Apple, die die Plattform in der Hand halten, ist durchaus nachvollziehbar.

daejin 2024-04-22

Der Abschnitt „Warum ein 10-Milliarden-Dollar-Modell Open Source gemacht wurde“ ist zwar nur ein zusammengefasster Text, enthält aber dennoch einige erhellende Punkte.

realg 2024-04-21

Vielen Dank für die guten Inhalte.