- Nvidia-CEO Jensen Huang war im All-In-Podcast zu Gast und sprach in einem Interview über ein breites Themenspektrum, darunter die Übernahme von Groq, die Explosion der Inferenz, Physical AI, Agent Computing und die PR-Krise der AI-Branche
- Nvidia hat sich von einem GPU-Unternehmen zu einem AI-Factory-Unternehmen entwickelt und ergänzt seine heterogene Computing-Architektur für die Verarbeitung von Agenten um Groq-LPUs, BlueField, CPUs und Netzwerkprozessoren
- Er bewertet Open Claw als Blaupause für das Betriebssystem des modernen AI-Computings und definiert es als den ersten persönlichen AI-Computer mit Speichersystem, Skills, Scheduling und IO-Subsystem
- Physical AI ist ein Markt von 50 Billionen Dollar, den die Tech-Industrie erstmals adressiert, und wächst exponentiell ausgehend von einem Geschäft, das sich derzeit einem Volumen von rund 10 Milliarden Dollar pro Jahr nähert
- Zur PR-Krise der AI-Branche warnt er vor den negativen Auswirkungen extremer und apokalyptischer Aussagen von Tech-Führungskräften auf politische Entscheidungsträger und die Öffentlichkeit und fordert eine zurückhaltendere und ausgewogenere Kommunikation
Übernahme von Groq und die Explosion der Inferenz
- Die Kerntechnologie des vor zweieinhalb Jahren vorgestellten Betriebssystems für AI Factories, Dynamo, ist disaggregated inference, also ein Verfahren, bei dem die Inferenz-Pipeline aufgeteilt und auf unterschiedlichen GPUs ausgeführt wird
- Dieses Konzept des disaggregated computing führte zur Übernahme von Mellanox; heute ist Nvidias Computing über GPU, CPU, Switches, Scale-up-/Scale-out-Switches und Netzwerkprozessoren hinweg verteilt
- Mit Groq kommt nun eine Struktur hinzu, in der geeignete Workloads auf den jeweils passenden Chip gelegt werden
- Mit dem Übergang ins Zeitalter der Agentenverarbeitung steigen die Anforderungen an Arbeitsgedächtnis, Langzeitgedächtnis, Tool-Nutzung und Storage stark an
- Große Modelle, kleine Modelle, Diffusionsmodelle und autoregressive Modelle existieren im Rechenzentrum nebeneinander
- Vera Rubin ist ein System, das dafür ausgelegt wurde, diese extrem vielfältigen Workloads auszuführen
- Zum bisherigen 1-Rack-Aufbau kommen 4 weitere Racks hinzu, wodurch Nvidias TAM um etwa 33 bis 50 % steigt
- Der zusätzliche Anteil besteht aus Storage-Prozessoren (BlueField), Groq-Prozessoren, CPUs und Netzwerkprozessoren
- Man darf den Preis eines Rechenzentrums nicht mit den Kosten pro Token gleichsetzen
- Eine 50-Milliarden-Dollar-Factory kann die günstigsten Tokens produzieren, und zwar wegen einer 10-fach höheren Durchsatz-Effizienz
- 20 Milliarden Dollar entfallen auf Grundstück, Strom und Shell-Kosten; Storage, Networking, CPU, Server und Kühlung werden ohnehin benötigt
- Ob ein GPU-Preis bei 1x oder 0,5x liegt, macht etwa 50 gegenüber 40 Milliarden aus und ist im Verhältnis zum 10-fachen Durchsatz kein großer Anteil
- Letztes Jahr sagte er voraus, dass die Inferenz um 1.000-fach steigen werde; nun werde sie eher in Richtung millionenfach, milliardenfach gehen
- Damals konzentrierte sich die Welt auf Pre-Scaling und Training, heute wächst die Inferenz explosionsartig und der Zustand ist inference constrained
Entscheidungen im wertvollsten Unternehmen der Welt
- Die Rolle des CEO besteht darin, Vision und Strategie zu definieren und auf Basis der Informationen hervorragender Informatiker und Ingenieure die Zukunft zu gestalten
- Zentrale Kriterien: Ist es wahnsinnig schwer? Ist es etwas, das noch nie zuvor gelungen ist? Passt es zu Nvidias besonderer Superkraft?
- Wenn etwas leicht ist, gibt es viele Wettbewerber, deshalb sollte man es meiden
- Extrem schwierige Aufgaben bringen Leid mit sich, deshalb muss man den Prozess genießen können
Der 50-Billionen-Dollar-Markt der Physical AI und Open Claw
- Physical AI ist für die Tech-Industrie die erste Gelegenheit, eine Industrie im Umfang von 50 Billionen Dollar zu adressieren
- Vor 10 Jahren begonnen, heute ein exponentiell wachsendes Geschäft mit einem Jahresvolumen von annähernd 10 Milliarden Dollar
- Drei Arten von Computing-Systemen
- Erstens: Computer für Training und Entwicklung von AI-Modellen
- Zweitens: Computer zur Evaluierung — Bewertung von Robotern und Autos in virtuellen Umgebungen, die den Gesetzen der Physik folgen (Omniverse)
- Drittens: Edge-Robotics-Computer — für autonome Fahrzeuge, Roboter, Teddybären usw.
- Es wird daran gearbeitet, Mobilfunk-Basisstationen in einen Teil der AI-Infrastruktur zu verwandeln
- Die Telekommunikationsbranche im Umfang von 2 Billionen Dollar wird zu einer Erweiterung der AI-Infrastruktur werden
- Digitale Biologie steht kurz vor ihrem ChatGPT-Moment
- Das Verständnis von Genen, Proteinen, Zellrepräsentationen und Dynamiken könnte in 2 bis 5 Jahren möglich werden
- Innerhalb von 5 Jahren wird die digitale Biologie im Gesundheitswesen einen Wendepunkt erreichen
- Open Claw ist der dritte von drei Wendepunkten der vergangenen zwei Jahre
- Erster: ChatGPT — brachte generative AI ins öffentliche Bewusstsein
- Zweiter: o1/o3 — Reasoning und evidenzbasierte Information als Wendepunkt des ökonomischen Modells
- Dritter: Claude Code — das erste nützliche Agentensystem, aber auf Unternehmen begrenzt; Open Claw prägt das Konzept des AI-Agenten ins öffentliche Bewusstsein ein
- Die Struktur des Computing-Modells von Open Claw
- Speichersystem: Scratchpad (Kurzzeitgedächtnis), Dateisystem
- Skills: Ausführung verschiedener Anwendungstypen über APIs
- Ressourcenmanagement und Scheduling: Cronjobs, Agent Spawn, Task-Zerlegung
- IO-Subsystem: Ein- und Ausgabe, WhatsApp-Anbindung usw.
- Diese vier Elemente definieren grundlegend einen Computer → der erste Open-Source-Personal-AI-Computer
- Beitrag zu Governance und Sicherheit von Agentensoftware
- Richtlinien, die den gleichzeitigen Zugriff auf sensible Informationen, die Ausführung von Code und externe Kommunikation nicht in allen drei Punkten zugleich erlauben
- Peter Steinberger und Nvidia-Ingenieure haben zur Härtung der Sicherheit beigetragen
Die PR-Krise der AI und die Kommunikationsprobleme bei Anthropic
- AI ist weder ein biologisches Wesen noch ein Außerirdischer noch ein bewusstes System, sondern Computersoftware
- Die Aussage „wir verstehen überhaupt nichts davon“ ist nicht richtig; wir verstehen über diese Technologie sehr viel
- Politische Entscheidungsträger müssen kontinuierlich informiert werden, und Apokalyptik und Extremismus dürfen politische Entscheidungen nicht beeinflussen
- Gleichzeitig entwickelt sich die Technologie sehr schnell, daher darf Politik der Technologie nicht zu weit vorauslaufen
- Die größte nationale Sicherheitsbedenken der USA: dass andere Länder AI übernehmen, während die USA gegenüber AI wütend, ängstlich oder paranoid werden und sie deshalb nicht übernehmen
- Zu Anthropic: Die Technologie sei hervorragend, und der Fokus auf Security und Safety verdiene Respekt
- Es sei jedoch gut, vor Risiken zu warnen, aber weniger gut, Menschen Angst zu machen
- Extreme und katastrophale Aussagen ohne Belege könnten schädlicher sein, als viele denken
- Als Tech-Führungskraft müsse man das Gewicht der eigenen Worte kennen und zurückhaltender, moderater, ausgewogener und nachdenklicher sein
- Die Zustimmung zu AI in den USA liegt bei 17 %, und es besteht die Gefahr, denselben Weg wie die Kernenergie zu gehen und ausgebremst zu werden
- Während in China 100 Kernspaltungsreaktoren gebaut werden, sind es in den USA 0
- Es wird sogar über Moratorien für Rechenzentren gesprochen
Umsatzkraft, Token-Budgets der Mitarbeitenden und die Zukunft der Agenten
- Ranking bei der Nutzung von AI-Modellen: Platz 1 OpenAI, Platz 2 Open Source (mit sehr großem Abstand), Platz 3 Anthropic
- Steigende Computing-Nachfrage
- Generativ → Reasoning: etwa 100-fach
- Reasoning → Agenten: etwa 100-fach
- In zwei Jahren ist das Computing um das 10.000-Fache gestiegen
- Menschen zahlen für Informationen, aber für Arbeit zahlen sie noch mehr
- Agentensysteme erledigen Arbeit → der Verbrauch ist derzeit um etwa das 100-Fache gestiegen, ohne dass die Skalierung überhaupt richtig begonnen hat
- Von Nvidias 43.000 Mitarbeitenden sind etwa 38.000 Ingenieure
- Wenn ein Ingenieur mit 500.000 Dollar Gehalt pro Jahr nur 5.000 Dollar für Tokens ausgibt, ist das ein großes Problem
- Erwartet werde ein Token-Verbrauch von mindestens 250.000 Dollar
- Das sei so, als würde ein Chipdesigner sagen: „Ich benutze nur Papier und Bleistift, ich brauche keine CAD-Tools“
- Beispiel Auto Research
- Forschung, die auf einem Desktop in 30 Minuten durchgeführt wurde, entspreche üblicherweise einer PhD-Arbeit, die 7 Jahre dauert
- Von GitHub herunterladen und lokal ausführen, mit Ergebnissen auf dem Niveau wissenschaftlicher Journale
- Ein Tool mit 600 Zeilen Code, das an einem Wochenende veröffentlicht wurde
- Die künftige Arbeitsweise: Statt Code direkt zu schreiben, werden Ideen, Architekturen und Spezifikationen formuliert, Teams organisiert und Bewertungskriterien definiert
- Jeder Ingenieur wird 100 Agenten haben
Die Zukunft der Enterprise-Software
- Gegen die Sichtweise, dass die Enterprise-IT-Softwarebranche zerstört werde
- Enterprise-Software war bislang durch Personal und Seats begrenzt
- Bald werden 100-mal mehr Agenten bestehende Tools wie SQL, Vektor-Datenbanken, Blender oder Photoshop nutzen
- Bestehende Tools erledigen ihre Aufgaben gut und dienen als Kanal, um das Arbeitsergebnis in einer Form auszudrücken, die der Nutzer kontrollieren kann
Open Source, globale Verbreitung und Lieferketten Iran/Taiwan
- Modelle sind Technologie, kein Produkt, und Technologie, kein Service
- Sowohl proprietäre als auch Open-Source-Modelle sind beide grundlegend notwendig (nicht A oder B, sondern A und B)
- Allgemeine Nutzer bevorzugen universelle Intelligenz auf der horizontalen Ebene wie ChatGPT, Claude oder Gemini
- Branchenspezifische Domain-Expertise und Spezialisierung sind nur mit offenen Modellen möglich
- Open-Source-Modelle liegen nahe an der Frontier, und selbst wenn sie diese erreichen, werden Modell-Services weiterhin florieren
- Stand der globalen Verbreitung
- Die Verbreitungsregeln aus der Biden-Ära seien eine Politik der antiamerikanischen AI-Verbreitung gewesen
- Präsident Trump wolle die weltweite Führung der US-Tech-Industrie und die Verbreitung ihrer Technologie
- Nvidia hat im zweitgrößten Markt der Welt (China) 95 % Marktanteil aufgegeben und steht derzeit bei 0 %
- Man habe eine von Secretary Lutnik genehmigte Lizenz erhalten, bekomme Kaufaufträge chinesischer Unternehmen und fahre die Lieferkette wieder hoch
- Perspektive der nationalen Sicherheit
- Wenn man kleine Motoren, Seltene Erden, Kommunikationsnetze und nachhaltige Energie nicht kontrolliert, wird die nationale Sicherheit geschwächt
- Die AI-Industrie dürfe nicht denselben Weg gehen wie Solar, Seltene Erden, Magnete, Motoren oder Telekommunikation
- Wünschenswert sei, dass der amerikanische Tech-Stack (vom Chip über Computing-Systeme bis zur Plattform) 90 % der Welt ausmacht
- Taiwan: Die Reindustrialisierung der USA müsse so schnell wie möglich vorangetrieben werden, während die strategische Partnerschaft und Freundschaft mit der taiwanischen Lieferkette gesichert werde, um in Arizona, Texas und Kalifornien schnell zu fertigen
- Erforderlich sei eine Diversifizierung der Lieferkette nach Südkorea, Japan und Europa
- Während Diversifizierung und Resilienz aufgebaut werden, seien Geduld und Zurückhaltung nötig
- Helium: Könnte ein Problem werden, aber es gibt in der Lieferkette wahrscheinlich genügend Puffer
Plattformen für autonomes Fahren und Wettbewerb
- „Alles, was sich bewegt, wird irgendwann vollständig oder teilweise autonom werden“
- Nvidia baut keine autonomen Fahrzeuge selbst, sondern ermöglicht es allen Autoherstellern, sie zu bauen
- Es baut alle drei Komponenten: Trainingscomputer, Simulations-/Evaluierungscomputer und Fahrzeugcomputer
- Das weltweit erste inferenzbasierte autonome Fahrzeug — das Alpommyo-System, das komplexe Szenarien in einfache Szenarien zerlegt und erkundet
- Tesla kauft nur Trainingscomputer, andere Unternehmen nutzen den gesamten Stack — ein flexibles Kooperationsmodell
- Situationen, in denen Kunden zu Wettbewerbern werden, etwa Google TPU oder Amazon Inferentia/Tranium
- Nvidias Selbstvertrauen: Solange man mit der besten Technologie konkurriert und schnell läuft, ist der Kauf bei Nvidia wirtschaftlich am sinnvollsten
- Die einzige Architektur, die in allen Clouds existiert — von der Cloud über On-Premises und Fahrzeuge bis in jede Region und sogar ins All
- Rund 40 % des Geschäfts könnten Kunden ohne Full Stack zum Aufbau einer kompletten AI Factory gar nicht nutzen
- Gründe für den Ausbau des Marktanteils
- Anthropic migriert zu Nvidia, Meta ebenfalls, dazu das Wachstum offener Modelle — alles auf Nvidia-Basis
- Wachstum bei Unternehmen, Industrie und Edge außerhalb der Cloud
- AWS kündigte an, in den kommenden Jahren 1 Million Chips zu kaufen
- Zu Analystenprognosen einer Wachstumsverlangsamung (30 % im nächsten Jahr, danach 20 %, 7 % im Jahr 2029)
- Sie verstehen Größe und Reichweite von AI nicht
- Die meisten glauben, AI existiere nur bei den fünf größten Hyperscalern, tatsächlich ist sie viel breiter verteilt
Rechenzentren im All, AI-Healthcare und Robotik
- Rechenzentren im All
- Nvidia ist bereits im All präsent — strahlungsgehärtetes CUDA verarbeitet auf Satelliten weltweit bereits Bilddaten und AI-Bildverarbeitung
- Statt alle Daten aus dem All zur Erde zu schicken, ist es sinnvoll, die Bildverarbeitung direkt im All vorzunehmen
- Im All gibt es reichlich Energie, aber keine Kühlung durch Leitung oder Konvektion → nur Strahlung ist möglich, daher ist eine sehr große Oberfläche nötig
- Die Erforschung einer Architektur für Rechenzentren im All werde voraussichtlich Jahre dauern
- AI-Healthcare in drei Bereichen
- AI-Biologie: biologisches Verhalten mit AI darstellen und vorhersagen → Wirkstoffforschung
- AI-Agenten: etwa zur Diagnoseunterstützung — Beispiele sind Open Evidence und Hypocratic
- Physical AI: AI, die physikalische Gesetze versteht → Robotik-Chirurgie usw.
- Künftig wird jedes Gerät im Krankenhaus wie Ultraschall oder CT agentifiziert — eine sichere Version von Open Claw wird in alle Geräte eingebettet
- Robotik
- Die USA haben diese Industrie weitgehend erfunden, waren aber etwa 5 Jahre vor dem Aufkommen der Schlüsseltechnologie (dem Gehirn = AI) erschöpft
- Vom leistungsfähigen Machbarkeitsnachweis bis zum praktikablen Produkt braucht Technologie nicht mehr als 2 bis 3 Zyklen (3 bis 5 Jahre)
- China ist weltführend bei Mikroelektronik, Motoren, Seltenen Erden und Magneten → die globale Robotikindustrie hängt stark von Chinas Ökosystem und Lieferkette ab
- Roboter ermöglichen Dinge, die Einzelpersonen nicht unabhängig leisten können, und werden zur größten Freisetzung wirtschaftlicher Mobilität und Prosperität
- In den USA fehlen derzeit Millionen Arbeitskräfte, daher wird Robotik dringend gebraucht
- Virtuelle Präsenz durch Roboter, Reisen mit Lichtgeschwindigkeit sowie die Kolonisierung von Mond und Mars werden dadurch ermöglicht
Umsatzpotenzial von OpenAI/Anthropic und der AI-Moat
- Dario Amodei prognostiziert bis 2027/28 Hunderte Milliarden Dollar und bis 2030 1 Billion Dollar an AI-Umsatz außerhalb der Infrastruktur
- Jensen hält das für sehr konservativ und erwartet, dass Anthropic deutlich besser abschneiden wird
- Ein noch nicht berücksichtigter Teil: Alle Enterprise-Software-Unternehmen werden Value-added-Reseller von Tokens von Anthropic und OpenAI
- Das Go-to-Market werde sich logarithmisch skalieren
- Der Moat im AI-Zeitalter ist tiefe Spezialisierung
- Universelle Modelle werden mit Agentensystemen verbunden, viele Modelle werden von Unternehmen selbst trainierte spezialisierte Sub-Agenten sein
- Botschaft an Gründer: Kennt eure eigene Vertikale tiefer als jeder andere und injiziert dieses Wissen, wenn sich die Tools weiterentwickeln
- Je schneller ein Agent mit Kunden verbunden wird, desto stärker greift das Flywheel, wodurch der Agent besser wird
- Im Gegensatz zu heutigen horizontalen Plattformen und Customizing-Modellen entsteht eine Chance für Plattformunternehmen, zu Experten und Vertikal-Domain-Experten zu werden
Ratschläge für junge Menschen im AI-Zeitalter
- Empfohlen werden tiefe Naturwissenschaften, tiefe Mathematik und Sprachkompetenz
- Da Sprache die Programmiersprache der AI ist, könnte jemand mit einem Studium der englischen Literatur am erfolgreichsten sein
- Unabhängig von der Ausbildung sollte man ein tiefgehender Experte in der Nutzung von AI werden
- Nicht zu stark vorzugeben (overprescribe) und AI Spielraum für Innovation und Kreativität zu lassen, während man sie dennoch zum gewünschten Ergebnis führt, ist eine Kunst
- Beispiel Radiologen
- Vor 10 Jahren hieß es, Computer Vision werde die Radiologie vollständig ersetzen → Computer Vision wurde zu 100 % integriert
- Dennoch ist die Zahl der Radiologen sogar gestiegen, weil die Nachfrage stark gewachsen ist
- Schnellere Scans führen zu mehr Scans → mehr behandelte Patienten → höhere Umsätze für Krankenhäuser
- Die Tasks eines Berufs ändern sich, sein Zweck bleibt erhalten
- Wenn die Produktivität steigt, wird ein Land wohlhabender und kann mehr Lehrkräfte in Klassenzimmern einsetzen sowie allen Schülern personalisierte Curricula anbieten
- Jobveränderungen sind unvermeidlich, etwa wenn durch autonomes Fahren 10 bis 15 Millionen Fahrerjobs betroffen sind
- Chauffeure könnten sich zu Mobilitätsassistenten weiterentwickeln — während das Auto selbst fährt, übernehmen sie verschiedene Aufgaben für Fahrgäste
- Ähnlich wie der Autopilot im Flugzeug mehr Piloten hervorgebracht hat
5 Kommentare
Ab 24:28 wird es beeindruckend.
Machen wir einmal dieses Gedankenexperiment.
Nehmen wir an, es gibt einen Softwareentwickler oder AI-Forscher mit einem Jahresgehalt von 500.000 Dollar. Solche Fälle sind bei uns nicht ungewöhnlich.
Dann würde ich diesen Ingenieur mit 500.000 Dollar Jahresgehalt am Jahresende fragen:
„Wie viel haben Sie dieses Jahr für Tokens ausgegeben?“
Wenn die Person dann antwortet: „5.000 Dollar“, wäre ich wirklich fassungslos.
Wenn dieser Ingenieur mit 500.000 Dollar Gehalt nicht mindestens 250.000 Dollar an Tokens verbraucht hat, würde ich das äußerst ernst nehmen.
Das ist nicht anders, als wenn einer unserer Chipdesigner sagt:
„Ich benutze einfach nur Papier und Bleistift. Ich glaube nicht, dass ich CAD-Tools brauche.“
Das bedeutet, dass sich unsere gesamte Sicht darauf, was Spitzenkräfte ausmacht, gerade grundlegend verändert.
Das ist ähnlich wie das, was wir gelernt haben, als LeBron James anfing, jedes Jahr 1 Million Dollar dafür auszugeben, seinen Körper zu pflegen und in Form zu halten.
Warum sollten wir solchen herausragenden Wissensarbeitern also keine übermenschlichen Fähigkeiten in die Hand geben?
Wenn wir also 2 bis 3 Jahre in die Zukunft blicken,
wie effizient wird dann eine einzelne Spitzenkraft bei Nvidia arbeiten?
Und was wird sie überhaupt alles leisten können?
Zuerst wird der Gedanke verschwinden: „Wow, das ist zu schwierig.“
Auch der Gedanke „Das dauert viel zu lange“ wird verschwinden.
Und auch der Gedanke „Dafür braucht man zu viele Leute“ wird verschwinden.
Zu groß, zu schwer, dauert zu lange.
All diese Gedanken verschwinden.
Am Ende bleibt die Kreativität.
Es bleibt nur noch die Frage, was Sie sich ausdenken können.
Dann lautet die Frage jetzt diese:
Wie arbeiten wir mit diesen Agenten zusammen?
Letztlich ist das eine neue Art des Computerprogrammierens.
Früher haben wir den Code selbst geschrieben.
Künftig werden wir Ideen schreiben, Architekturen schreiben und Spezifikationen schreiben.
Wir werden Teams organisieren,
definieren, wie gute und schlechte Ergebnisse bewertet werden,
festlegen, was ein hervorragendes Ergebnis ist,
bestimmen, wie wir gemeinsam iterativ verbessern,
und wie wir Brainstorming betreiben.
Genau das ist wirklich wichtig.
Und ich denke,
in Zukunft wird jeder Ingenieur 100 Agenten unter sich haben.
Ich verstehe, was damit gemeint ist, aber es war schon immer dumm, Ingenieure nach der Anzahl der Codezeilen zu bewerten. Es scheint wirklich schwierig zu sein, gute Metriken zu finden.
Sollten wir einen Ingenieur mit einem Jahresgehalt von 500.000 Dollar nicht eher fragen: „Was haben Sie dieses Jahr entwickelt, und wie hat das zum operativen Gewinn des Unternehmens beigetragen?“ statt: „Wie viele Tokens haben Sie verbraucht?“
Man sollte nicht fragen: „Wie viele Tokens haben Sie verbraucht?“, sondern ob man sie sinnvoll nutzt.
Dass nur 5.000 Dollar ausgegeben wurden, kann man eher als Maßstab dafür verstehen, dass zu wenig ausgegeben wurde.
Das ist letztlich nichts anderes, als zu sagen:
„Ich verwende einfach nur Papier und Bleistift. CAD-Tools brauche ich wohl nicht.“
Ein anderes Beispiel wäre etwa die Frage: „Gibt es unter den Mitarbeitenden jemanden, der in Excel nur Summenformeln verwendet?“