Nvidia-Chef Jensen Huang kündigt neuen AI-Chip Blackwell an: „Wir brauchen eine größere GPU“
(cnbc.com)- Angesichts der explosionsartig gestiegenen Nachfrage nach Nvidia-GPUs seit dem AI-Boom soll die neue Generation Blackwell die Position des Unternehmens als Anbieter für Training und Bereitstellung großer Modelle weiter stärken
- Der erste Blackwell-Chip GB200 soll Ende dieses Jahres ausgeliefert werden und steigert die AI-Leistung gegenüber der Hopper-Generation mit H100 von 4 Petaflops auf 20 Petaflops
- GB200 kombiniert zwei B200-Blackwell-GPUs mit einer Arm-basierten Grace-CPU; Amazon, Google, Microsoft und Oracle wollen Cloud-Zugang dazu verkaufen
- Die neue Software NIM erleichtert die Bereitstellung von AI-Inferenz auch auf bestehenden Nvidia-GPUs; die Nvidia-Enterprise-Lizenz kostet 4.500 US-Dollar pro GPU und Jahr
- Nvidia verstärkt über den Chipverkauf hinaus seine Strategie einer Softwareplattform, die Kunden im Nvidia-Ökosystem halten soll statt zu konkurrierenden Chips zu wechseln
Blackwell-Ankündigung und Nvidias Rolle als AI-Zulieferer
- Nvidia hat am 18. März 2024 auf einer Entwicklerkonferenz in San Jose eine neue Generation von AI-Chips und Software zum Ausführen von AI-Modellen angekündigt
- Zum Zeitpunkt der Ankündigung konkurrierten Unternehmen und Softwareanbieter weiterhin darum, sich aktuelle Hopper H100- und ähnliche Chips zu sichern
- Jensen Huang sagte: „Hopper ist großartig, aber wir brauchen eine größere GPU.“
- Nachdem OpenAIs ChatGPT Ende 2022 den AI-Boom ausgelöst hatte, verfünffachte sich die Nvidia-Aktie, und der Gesamtumsatz stieg auf mehr als das Dreifache
- Unternehmen wie Microsoft und Meta gaben Milliarden Dollar für Nvidias High-End-Server-GPUs aus
- Die Nvidia-Aktie fiel im nachbörslichen Handel am Montag um mehr als 1 %
-
Aufbau und Leistung von GB200
- Die neue Generation der AI-Grafikprozessoren heißt Blackwell, und der erste Blackwell-Chip ist der GB200
- Nvidia erneuert seine GPU-Architektur etwa alle zwei Jahre und liefert dabei große Leistungssprünge
- Die 2022 vorgestellte Hopper-Architektur kam in Chips wie dem H100 zum Einsatz, und viele der im vergangenen Jahr vorgestellten AI-Modelle wurden auf Hopper-Basis trainiert
- Die AI-Leistung des Blackwell-basierten GB200 beträgt 20 Petaflops und liegt damit über den 4 Petaflops des H100
- Die erhöhte Rechenleistung kann von AI-Unternehmen genutzt werden, um größere und komplexere Modelle zu trainieren
- Der Chip enthält eine Transformer Engine zum Ausführen transformerbasierter AI, einer der Kerntechnologien hinter ChatGPT
- Die Blackwell-GPU wird von TSMC gefertigt und kombiniert zwei separat hergestellte Dies zu einem Chip
-
Server und Cloud-Angebot
- Der GB200 kombiniert zwei B200-Blackwell-GPUs mit einer Arm-basierten Grace-CPU
- Nvidia bietet außerdem den vollständigen Server GB200 NVLink 2 an, der 72 Blackwell-GPUs mit weiteren Nvidia-Komponenten bündelt
- Amazon, Google, Microsoft und Oracle wollen Zugang zum GB200 als Cloud-Service verkaufen
- Amazon Web Services will einen Server-Cluster mit 20.000 GB200-Chips aufbauen
- Dieses System kann ein Modell mit 27 Billionen Parametern bereitstellen und ist damit deutlich größer als GPT-4, das Berichten zufolge 1,7 Billionen Parameter hat
- Nvidia nannte keinen Preis für den GB200 oder Systeme, die ihn einsetzen
- Analystenschätzungen zufolge kostet der Hopper-basierte H100 25.000 bis 40.000 US-Dollar pro Chip, komplette Systeme kosten bis zu 200.000 US-Dollar
- Nvidia will den B200-Grafikprozessor auch als vollständiges System verkaufen, das ein ganzes Server-Rack belegt
NIM und Nvidias Plattformstrategie
- Nvidia ergänzt sein Nvidia-Enterprise-Softwareabonnement um ein neues Produkt namens NIM (Nvidia Inference Microservice)
- NIM soll Inferenz, also den Ausführungsprozess von AI-Software, auf bestehenden Nvidia-GPUs einfacher machen
- Inferenz erfordert weniger Rechenleistung als das anfängliche Training neuer AI-Modelle
- Ziel ist es, dass Unternehmen die bereits vorhanderten Hunderte Millionen Nvidia-GPUs weiter nutzen können
- NIM richtet sich vor allem an Unternehmen, die eigene AI-Modelle betreiben wollen, statt AI-Ergebnisse als Service von Firmen wie OpenAI zuzukaufen
- Eine zentrale Strategie ist es, Käufer Nvidia-basierter Server an ein Nvidia Enterprise-Abonnement zu binden
- Die Lizenzkosten liegen bei 4.500 US-Dollar pro GPU und Jahr
-
Modellbereitstellung und Einsatz durch Entwickler
- Nvidia will mit AI-Unternehmen wie Microsoft und Hugging Face zusammenarbeiten, damit AI-Modelle auf der gesamten Palette kompatibler Nvidia-Chips laufen
- Entwickler können mit NIM Modelle effizient auf eigenen Servern oder cloudbasierten Nvidia-Servern ausführen, ohne lange Einrichtungsprozesse
- Manuvir Das sagte, es gehe darum, in bestehendem Code nur eine Zeile zu ändern, die bisher OpenAI aufrief, sodass sie stattdessen auf das von Nvidia gelieferte NIM zeigt
- Laut Nvidia hilft die Software beim Ausführen von AI nicht nur auf Cloud-Servern, sondern auch auf Laptops mit GPU
-
Vom Chipunternehmen zur Softwareplattform
- NIM ist ein Produkt, das Kunden einen weiteren Grund gibt, bei Nvidia-Chips zu bleiben statt zu Konkurrenzprodukten zu wechseln
- Nvidia bleibt nicht nur ein austauschbarer Chipzulieferer, sondern entwickelt sich stärker zu einem Plattformanbieter, auf dessen Software andere Unternehmen aufbauen können
- Huang sagte: „Blackwell ist nicht der Name eines Chips, sondern der Name einer Plattform.“
- Das sagte, früher sei das kommerziell verkaufbare Produkt die GPU gewesen und Software habe vor allem geholfen, diese GPUs zu nutzen; inzwischen verfüge Nvidia aber über ein kommerzielles Softwaregeschäft
2 Kommentare
Dies ist eine mit corely.ai zusammengefasste CNET-Videozusammenfassung (https://www.youtube.com/watch?v=bMIRhOXAjYk)
Meinungen auf Hacker News
Wenn man sich die Keynote vor Ort und die Inhalte der Konferenz ansieht, bewegt sich Nvidia, wie es gute Hardware-Anbieter oft tun, weiter nach oben im Stack.
Natürlich werden sie weiterhin größere Hardware bauen, aber der Kern ist, dass sie mit NIM so etwas wie Docker für LLMs entwickeln. Sie bauen ein Container-System auf, mit dem man NIM herunterladen oder kaufen und einfach auf Nvidia-Hardware deployen kann. Es wird spannend zu beobachten, welche Auswirkungen das auf AI-Startups haben wird.
Die größere Bedrohung besteht darin, dass die Kernfunktion eines Geschäfts in Mainstream-Software integriert wird. So wie das iPhone heute Hintergründe entfernen kann und damit die Nachfrage nach kostenpflichtiger Hintergrundentfernung verschwunden ist: Wenn ein AI-Produkt leicht als eine Funktion in bestehende Produktivitäts-Apps eingebaut werden kann, läuft dieses Geschäft auf geliehener Zeit.
Geht es um AI-as-a-Service-Startups, die „Infrastruktur“ anbieten?
Die Richtung, dass „Nvidia sich von einem Chip-Zulieferer nach Söldnerart eher zu einem Plattformanbieter entwickelt, auf dem andere Unternehmen Software bauen können, ähnlich wie Microsoft oder Apple“, ist aus Wachstumsperspektive nachvollziehbar.
Als Plattformdienst für AI wäre das für Nvidia profitabler, aber es ist schwierig, das mit bestehenden Partnerschaften wie AWS und Microsoft in Einklang zu bringen. Ich denke, wir werden künftig Übernahmen oder maßgeschneiderte Lösungen für den Wettbewerb sehen. Zum Glück für Nvidia hängt ein großer Teil von AI noch immer von CUDA ab, was die weitere Entwicklung interessant macht.
Sie haben nicht genug Hebelwirkung, um Kunden in die eine Richtung zu zwingen, und es wäre einfacher, einfach nur GPUs zu verkaufen. Aber sie scheinen zu wissen: Anspruchsvolle Kunden können auf andere Chips umsteigen, während eine Plattform kleinere Kunden bindet.
Wenn Nvidia wollte, könnte es den Standard freiwillig öffnen, um solche Klagen zu vermeiden; persönlich hielte ich das für die kluge Entscheidung. Historisch haben sich aber fast alle Unternehmen statt freiwilliger Öffnung für den Weg über Klagen entschieden.
Selbst wenn AWS eine eigene Hardware- und Softwarelösung für neuronale Netze hat, kann es Jahre, vielleicht Jahrzehnte dauern, sich von der CUDA-Plattform zu lösen.
Microsoft hat Partnerschaften sowohl mit OpenAI als auch mit Mistral. Es gibt keine Garantie, dass die heutige Bequemlichkeit auch in Zukunft erhalten bleibt, und Nvidia weiß das sehr genau.
Was ist FP4, 4-Bit-Gleitkomma? Falls ja, war die Vergleichsgrafik [0] mit 30-fach gegenüber Hopper etwas irreführend.
[0] https://youtu.be/Y2F8yisiS6E?t=4698
Manche bringen das mit diesem Paper [1] zu 4-Bit-LLMs in Verbindung; einer der Autoren ist auch Nvidia-Mitarbeiter.
1: https://arxiv.org/pdf/2310.16836.pdf
Wenn es Hardware gibt, die bei FP4 überwältigend stark ist, nutzt man sie und bekommt einen Geschwindigkeitsgewinn bei minimalem Genauigkeitsverlust. Da steckt zwar Marketing-Kreativität drin, aber als Maß für tatsächliche Nutzung ist es nicht völlig falsch.
Wurde auch schon in einem früheren Beitrag behandelt: https://news.ycombinator.com/item?id=37930663
Im Grunde ist es eher so, als würde man zwei Hopper nebeneinander auf einen leicht verbesserten Prozessknoten setzen; das ist also nicht überraschend. Wenn man solche neuen Funktionen oder den größeren Speicher nicht nutzt, wirken etwa 2,5-fach plausibler.
Vor ein paar Jahren haben sie Bright Cluster Manager übernommen; wer wird wohl das nächste Übernahmeziel? Es sieht so aus, als wollten sie Kunden den gesamten Stack anbieten.
Wir leben in einer Zeit, in der zweistellige Petaflops in Serie produziert werden.
„Die Rechenleistung, die nötig ist, um die relevanten Aktivitäten des menschlichen Gehirns zu replizieren, wurde von verschiedenen Autoren auf Werte zwischen 10^12 und 10^28 FLOPS geschätzt.“ Ein Petaflop entspricht 10^15. Verrückte Zeiten.
Für Masayoshi Son von Softbank ist das schade. 2019 hielt er Nvidia-Anteile im Wert von 3,1 Milliarden Dollar; heute wären sie mit dem 19-Fachen rund 60 Milliarden Dollar wert.
Er war extrem optimistisch in Bezug auf AI und Robotik, war seiner Zeit aber zu weit voraus.
Bedeutet „Plattformunternehmen“ hier Multi-Chip?
Das wirkt logisch, weil es zunehmend unrealistisch wird, so viele Transistoren auf einen einzelnen Die zu pressen.
Es geht in die Richtung, hochwertige Anwendungen an proprietäre Chassis, proprietäre Cluster-Interconnects und proprietäre Middleware zu binden. Das erinnert an die Mellanox-Übernahme.
Zur Hardware gehören GPU, NVLINK als GPU-zu-GPU-Fabric, CPU, NIC, InfiniBand als Netzwerk-Fabric und Switches. Dazu kommen mehrere Ebenen von Software-Stacks wie CUDA, Riva, Megatron und Omniverse, zu denen Nvidia beiträgt und die das Unternehmen vorantreibt, damit andere darauf aufbauen.
Man muss sich nur vorstellen, AWS würde auch noch alle Computer der Welt verkaufen. Die Struktur läuft nun darauf hinaus, dass man sie nur noch dort mieten kann.
Ich frage mich, wann die Branche anfangen wird, sich mit dem Skalierbarkeitsproblem von LLMs zu befassen. Aus Nvidias Sicht ist es natürlich profitabel, immer größere und bessere GPUs herauszubringen, aber was ist das gemeinsame Interesse?
Es ist bereits bewiesen, dass gute Sprachmodelle möglich sind, wenn genügend Ressourcen vorhanden sind. Die Aufgabe besteht nun darin, diese Modelle in Lösungen zu bringen, die für durchschnittliche Use Cases keine kaum vorstellbaren Ressourcenmengen erfordern.
Das ist nicht nur ein Problem von AI, sondern ein Problem der gesamten Software, die wir nutzen. Es gibt nur zwei Gruppen, die optimieren und Systeme kleiner machen wollen: leidenschaftliche Programmierer und Leute, die dafür bezahlt werden. Zum Beispiel Softwareteams von Smartphone-Herstellern.
Im nachbörslichen Handel hat sich der Aktienkurs nicht bewegt. Viele hatten erwartet, dass er nach einer großen Ankündigung kräftig springt.
Allerdings ist die Aktie wirklich lächerlich hoch bewertet.
Kurzfristig werden Microsoft und OpenAI diese Chips nutzen, aber langfristig werden sie sich das ansehen, eigene Chips entwickeln und ihre Abhängigkeit von Nvidia verringern wollen; wenn die Verträge auslaufen, werden sie bereit sein zu wechseln.
Es wird behauptet, der Stromverbrauch sei um den Faktor 25 reduziert worden. Kann das überhaupt stimmen? Weiß jemand, woher diese Zahl stammt?
Ich denke allerdings, dass es auch ein Tippfehler sein könnte. Vermutlich ist es ein Vergleich, der Flüssigkühlung gegenüber Luftkühlung mit einbezieht.
[1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
Vielleicht ist damit gemeint, dass man durch die 5-fache Leistungssteigerung effizienter wird und nun nicht mehr 1,7 Billionen, sondern 27 Billionen Parameter verwenden kann, sodass dieselbe Arbeitslast in 1/25 der Zeit erledigt wird und man das deshalb als geringeren Stromverbrauch bezeichnet. Wie gesagt: Ich bin skeptisch, dass die maximale Leistungsaufnahme selbst um den Faktor 25 niedriger ist.