2 Punkte von GN⁺ 2024-03-19 | 2 Kommentare | Auf WhatsApp teilen
  • Angesichts der explosionsartig gestiegenen Nachfrage nach Nvidia-GPUs seit dem AI-Boom soll die neue Generation Blackwell die Position des Unternehmens als Anbieter für Training und Bereitstellung großer Modelle weiter stärken
  • Der erste Blackwell-Chip GB200 soll Ende dieses Jahres ausgeliefert werden und steigert die AI-Leistung gegenüber der Hopper-Generation mit H100 von 4 Petaflops auf 20 Petaflops
  • GB200 kombiniert zwei B200-Blackwell-GPUs mit einer Arm-basierten Grace-CPU; Amazon, Google, Microsoft und Oracle wollen Cloud-Zugang dazu verkaufen
  • Die neue Software NIM erleichtert die Bereitstellung von AI-Inferenz auch auf bestehenden Nvidia-GPUs; die Nvidia-Enterprise-Lizenz kostet 4.500 US-Dollar pro GPU und Jahr
  • Nvidia verstärkt über den Chipverkauf hinaus seine Strategie einer Softwareplattform, die Kunden im Nvidia-Ökosystem halten soll statt zu konkurrierenden Chips zu wechseln

Blackwell-Ankündigung und Nvidias Rolle als AI-Zulieferer

  • Nvidia hat am 18. März 2024 auf einer Entwicklerkonferenz in San Jose eine neue Generation von AI-Chips und Software zum Ausführen von AI-Modellen angekündigt
  • Zum Zeitpunkt der Ankündigung konkurrierten Unternehmen und Softwareanbieter weiterhin darum, sich aktuelle Hopper H100- und ähnliche Chips zu sichern
  • Jensen Huang sagte: „Hopper ist großartig, aber wir brauchen eine größere GPU.“
  • Nachdem OpenAIs ChatGPT Ende 2022 den AI-Boom ausgelöst hatte, verfünffachte sich die Nvidia-Aktie, und der Gesamtumsatz stieg auf mehr als das Dreifache
    • Unternehmen wie Microsoft und Meta gaben Milliarden Dollar für Nvidias High-End-Server-GPUs aus
    • Die Nvidia-Aktie fiel im nachbörslichen Handel am Montag um mehr als 1 %
  • Aufbau und Leistung von GB200

    • Die neue Generation der AI-Grafikprozessoren heißt Blackwell, und der erste Blackwell-Chip ist der GB200
    • Nvidia erneuert seine GPU-Architektur etwa alle zwei Jahre und liefert dabei große Leistungssprünge
    • Die 2022 vorgestellte Hopper-Architektur kam in Chips wie dem H100 zum Einsatz, und viele der im vergangenen Jahr vorgestellten AI-Modelle wurden auf Hopper-Basis trainiert
    • Die AI-Leistung des Blackwell-basierten GB200 beträgt 20 Petaflops und liegt damit über den 4 Petaflops des H100
    • Die erhöhte Rechenleistung kann von AI-Unternehmen genutzt werden, um größere und komplexere Modelle zu trainieren
    • Der Chip enthält eine Transformer Engine zum Ausführen transformerbasierter AI, einer der Kerntechnologien hinter ChatGPT
    • Die Blackwell-GPU wird von TSMC gefertigt und kombiniert zwei separat hergestellte Dies zu einem Chip
  • Server und Cloud-Angebot

    • Der GB200 kombiniert zwei B200-Blackwell-GPUs mit einer Arm-basierten Grace-CPU
    • Nvidia bietet außerdem den vollständigen Server GB200 NVLink 2 an, der 72 Blackwell-GPUs mit weiteren Nvidia-Komponenten bündelt
    • Amazon, Google, Microsoft und Oracle wollen Zugang zum GB200 als Cloud-Service verkaufen
    • Amazon Web Services will einen Server-Cluster mit 20.000 GB200-Chips aufbauen
    • Dieses System kann ein Modell mit 27 Billionen Parametern bereitstellen und ist damit deutlich größer als GPT-4, das Berichten zufolge 1,7 Billionen Parameter hat
    • Nvidia nannte keinen Preis für den GB200 oder Systeme, die ihn einsetzen
    • Analystenschätzungen zufolge kostet der Hopper-basierte H100 25.000 bis 40.000 US-Dollar pro Chip, komplette Systeme kosten bis zu 200.000 US-Dollar
    • Nvidia will den B200-Grafikprozessor auch als vollständiges System verkaufen, das ein ganzes Server-Rack belegt

NIM und Nvidias Plattformstrategie

  • Nvidia ergänzt sein Nvidia-Enterprise-Softwareabonnement um ein neues Produkt namens NIM (Nvidia Inference Microservice)
  • NIM soll Inferenz, also den Ausführungsprozess von AI-Software, auf bestehenden Nvidia-GPUs einfacher machen
    • Inferenz erfordert weniger Rechenleistung als das anfängliche Training neuer AI-Modelle
    • Ziel ist es, dass Unternehmen die bereits vorhanderten Hunderte Millionen Nvidia-GPUs weiter nutzen können
  • NIM richtet sich vor allem an Unternehmen, die eigene AI-Modelle betreiben wollen, statt AI-Ergebnisse als Service von Firmen wie OpenAI zuzukaufen
  • Eine zentrale Strategie ist es, Käufer Nvidia-basierter Server an ein Nvidia Enterprise-Abonnement zu binden
    • Die Lizenzkosten liegen bei 4.500 US-Dollar pro GPU und Jahr
  • Modellbereitstellung und Einsatz durch Entwickler

    • Nvidia will mit AI-Unternehmen wie Microsoft und Hugging Face zusammenarbeiten, damit AI-Modelle auf der gesamten Palette kompatibler Nvidia-Chips laufen
    • Entwickler können mit NIM Modelle effizient auf eigenen Servern oder cloudbasierten Nvidia-Servern ausführen, ohne lange Einrichtungsprozesse
    • Manuvir Das sagte, es gehe darum, in bestehendem Code nur eine Zeile zu ändern, die bisher OpenAI aufrief, sodass sie stattdessen auf das von Nvidia gelieferte NIM zeigt
    • Laut Nvidia hilft die Software beim Ausführen von AI nicht nur auf Cloud-Servern, sondern auch auf Laptops mit GPU
  • Vom Chipunternehmen zur Softwareplattform

    • NIM ist ein Produkt, das Kunden einen weiteren Grund gibt, bei Nvidia-Chips zu bleiben statt zu Konkurrenzprodukten zu wechseln
    • Nvidia bleibt nicht nur ein austauschbarer Chipzulieferer, sondern entwickelt sich stärker zu einem Plattformanbieter, auf dessen Software andere Unternehmen aufbauen können
    • Huang sagte: „Blackwell ist nicht der Name eines Chips, sondern der Name einer Plattform.“
    • Das sagte, früher sei das kommerziell verkaufbare Produkt die GPU gewesen und Software habe vor allem geholfen, diese GPUs zu nutzen; inzwischen verfüge Nvidia aber über ein kommerzielles Softwaregeschäft

2 Kommentare

 
corelyai 2024-03-20
  • Nvidia-Entwicklerkonferenz: Vorstellung des Blackwell-Chips und künftiger Technologien
  • Nvidia stellte Blackwell vor, eine innovative Plattform mit 28 Milliarden Transistoren auf zwei benachbarten Dies, um einen einzigen riesigen Chip zu schaffen, der 10 Terabyte Daten pro Sekunde überträgt, und bietet Formfaktor-Kompatibilität mit Hopper.
  • Der MVY-Link-Switch von Blackwell mit 50 Milliarden Transistoren ermöglicht Hochgeschwindigkeitskommunikation zwischen GPUs und macht es möglich, Exaflop-AI-Systeme in einem einzigen Rack aufzubauen.
  • Nvidia kündigte Partnerschaften mit AWS, Google, Oracle und Microsoft an, um verschiedene AI-Services zu beschleunigen und Nvidia-Technologie in diese Plattformen zu integrieren.
  • Nvidia stellte eine AI Foundry vor, die mit Unternehmen wie SAP, ServiceNow, Cohesity, Snowflake und Dell zusammenarbeitet, um Generative-AI-Lösungen und AI-Fabriken aufzubauen.
  • Durch das Streaming von Omniverse Cloud auf Vision Pro wird eine nahtlose Integration und ein reibungsloser Workflow zwischen verschiedenen Design-Tools unterstützt; außerdem stellt Nvidia Project Groot, Isaac Lab und OSMO für AI-basierte Roboter vor.
  • Disneys von Jetson angetriebener bdx-Roboter hatte einen Gastauftritt und demonstrierte Lernfähigkeiten in Isaac Sim.

Dies ist eine mit corely.ai zusammengefasste CNET-Videozusammenfassung (https://www.youtube.com/watch?v=bMIRhOXAjYk)

 
GN⁺ 2024-03-19
Meinungen auf Hacker News
  • Wenn man sich die Keynote vor Ort und die Inhalte der Konferenz ansieht, bewegt sich Nvidia, wie es gute Hardware-Anbieter oft tun, weiter nach oben im Stack.
    Natürlich werden sie weiterhin größere Hardware bauen, aber der Kern ist, dass sie mit NIM so etwas wie Docker für LLMs entwickeln. Sie bauen ein Container-System auf, mit dem man NIM herunterladen oder kaufen und einfach auf Nvidia-Hardware deployen kann. Es wird spannend zu beobachten, welche Auswirkungen das auf AI-Startups haben wird.

    • Auf die meisten Consumer-AI-Angebote dürfte das kaum Auswirkungen haben. Denn UI und Komfort sind dort bereits wichtige Verkaufsargumente.
      Die größere Bedrohung besteht darin, dass die Kernfunktion eines Geschäfts in Mainstream-Software integriert wird. So wie das iPhone heute Hintergründe entfernen kann und damit die Nachfrage nach kostenpflichtiger Hintergrundentfernung verschwunden ist: Wenn ein AI-Produkt leicht als eine Funktion in bestehende Produktivitäts-Apps eingebaut werden kann, läuft dieses Geschäft auf geliehener Zeit.
    • Es gibt auch eine Open-Source-Alternative: https://github.com/geniusrise
    • Ich verfolge nicht jede Entwicklung im AI-Bereich; mich würde interessieren, welche Art von AI-Startup hier gemeint ist.
      Geht es um AI-as-a-Service-Startups, die „Infrastruktur“ anbieten?
  • Die Richtung, dass „Nvidia sich von einem Chip-Zulieferer nach Söldnerart eher zu einem Plattformanbieter entwickelt, auf dem andere Unternehmen Software bauen können, ähnlich wie Microsoft oder Apple“, ist aus Wachstumsperspektive nachvollziehbar.
    Als Plattformdienst für AI wäre das für Nvidia profitabler, aber es ist schwierig, das mit bestehenden Partnerschaften wie AWS und Microsoft in Einklang zu bringen. Ich denke, wir werden künftig Übernahmen oder maßgeschneiderte Lösungen für den Wettbewerb sehen. Zum Glück für Nvidia hängt ein großer Teil von AI noch immer von CUDA ab, was die weitere Entwicklung interessant macht.

    • Nvidia scheint sich auf eine Welt vorzubereiten, in der die Hälfte der Kunden, die Hyperscaler, nur GPUs und CUDA nutzen, während der lange Rest der Kunden eine profitablere Plattform weiter oben im Stack verwendet.
      Sie haben nicht genug Hebelwirkung, um Kunden in die eine Richtung zu zwingen, und es wäre einfacher, einfach nur GPUs zu verkaufen. Aber sie scheinen zu wissen: Anspruchsvolle Kunden können auf andere Chips umsteigen, während eine Plattform kleinere Kunden bindet.
    • Am Ende wird es meiner Ansicht nach Kartellklagen geben, Nvidia wird aufgefordert werden, den CUDA-Standard zu öffnen, und danach wird AMD zum Wettbewerber.
      Wenn Nvidia wollte, könnte es den Standard freiwillig öffnen, um solche Klagen zu vermeiden; persönlich hielte ich das für die kluge Entscheidung. Historisch haben sich aber fast alle Unternehmen statt freiwilliger Öffnung für den Weg über Klagen entschieden.
    • AWS treibt ARM stark voran, aber die Leute kaufen weiterhin x86/x64-Compute in großen Mengen.
      Selbst wenn AWS eine eigene Hardware- und Softwarelösung für neuronale Netze hat, kann es Jahre, vielleicht Jahrzehnte dauern, sich von der CUDA-Plattform zu lösen.
    • Wenn AMD-/Intel-GPUs so leistungsfähig und verbreitet wären wie Nvidia, hätten Microsoft und AWS auch mit ihnen Partnerschaften geschlossen.
      Microsoft hat Partnerschaften sowohl mit OpenAI als auch mit Mistral. Es gibt keine Garantie, dass die heutige Bequemlichkeit auch in Zukunft erhalten bleibt, und Nvidia weiß das sehr genau.
  • Was ist FP4, 4-Bit-Gleitkomma? Falls ja, war die Vergleichsgrafik [0] mit 30-fach gegenüber Hopper etwas irreführend.
    [0] https://youtu.be/Y2F8yisiS6E?t=4698

    • FP4 ist 4-Bit-Gleitkomma und doppelt so schnell wie 8-Bit-Gleitkomma. Es gibt auch FP6; das rechnet zwar nicht schneller als FP8, kann aber die bessere Speicherbandbreite und Cache-Nutzung eines 6-Bit-Formats ausnutzen.
      Manche bringen das mit diesem Paper [1] zu 4-Bit-LLMs in Verbindung; einer der Autoren ist auch Nvidia-Mitarbeiter.
      1: https://arxiv.org/pdf/2310.16836.pdf
    • Es ist nur teilweise irreführend. Denn bei LLMs ist FP4 nicht nur halb so nützlich wie FP8.
      Wenn es Hardware gibt, die bei FP4 überwältigend stark ist, nutzt man sie und bekommt einen Geschwindigkeitsgewinn bei minimalem Genauigkeitsverlust. Da steckt zwar Marketing-Kreativität drin, aber als Maß für tatsächliche Nutzung ist es nicht völlig falsch.
    • https://arxiv.org/pdf/2310.10537.pdf
      Wurde auch schon in einem früheren Beitrag behandelt: https://news.ycombinator.com/item?id=37930663
    • Ich frage mich, wie 4 Bit ausreichen können. Werden Zwischenberechnungen mit größerer Breite ausgeführt und dann wieder auf FP4 heruntergesetzt?
    • Genau. Es ging um eine präzisionsbewusste Transformer Engine, und die kann den Einsatz von FP4 erleichtern, ist aber unter gleichen Bedingungen nicht 30-mal schneller.
      Im Grunde ist es eher so, als würde man zwei Hopper nebeneinander auf einen leicht verbesserten Prozessknoten setzen; das ist also nicht überraschend. Wenn man solche neuen Funktionen oder den größeren Speicher nicht nutzt, wirken etwa 2,5-fach plausibler.
  • Vor ein paar Jahren haben sie Bright Cluster Manager übernommen; wer wird wohl das nächste Übernahmeziel? Es sieht so aus, als wollten sie Kunden den gesamten Stack anbieten.

    • Canonical wäre ein naheliegender Kandidat. Canonical hat in den letzten Jahren versucht, Ubuntu und andere Tools in der Enterprise-Welt auszubauen, hatte damit aber keinen großen Erfolg, und ein erheblicher Teil der Nvidia-Development-Kits ist um Ubuntu herum gebaut.
    • Run:AI https://news.ycombinator.com/item?id=39738342
    • Sie könnten auch Anthropic oder Mistral übernehmen und AGI/ASI bauen.
  • Wir leben in einer Zeit, in der zweistellige Petaflops in Serie produziert werden.
    „Die Rechenleistung, die nötig ist, um die relevanten Aktivitäten des menschlichen Gehirns zu replizieren, wurde von verschiedenen Autoren auf Werte zwischen 10^12 und 10^28 FLOPS geschätzt.“ Ein Petaflop entspricht 10^15. Verrückte Zeiten.

    • Ich wäre begeistert, wenn man damit ein realisierbares Fusionskraftwerk entwerfen würde. Wenn das meiste davon für Ad-Targeting genutzt wird, wäre ich ziemlich enttäuscht.
  • Für Masayoshi Son von Softbank ist das schade. 2019 hielt er Nvidia-Anteile im Wert von 3,1 Milliarden Dollar; heute wären sie mit dem 19-Fachen rund 60 Milliarden Dollar wert.
    Er war extrem optimistisch in Bezug auf AI und Robotik, war seiner Zeit aber zu weit voraus.

    • Kleine Korrektur: Masayoshi Son
  • Bedeutet „Plattformunternehmen“ hier Multi-Chip?
    Das wirkt logisch, weil es zunehmend unrealistisch wird, so viele Transistoren auf einen einzelnen Die zu pressen.

    • Das große Bild der Produktfamilie kenne ich nicht gut, aber wenn man sich die physischen Kennzahlen und die Konfiguration ansieht, mit denen Jensen geprahlt hat, scheint es im Grunde auf ein Mainframe-artiges Spiel hinauszulaufen.
      Es geht in die Richtung, hochwertige Anwendungen an proprietäre Chassis, proprietäre Cluster-Interconnects und proprietäre Middleware zu binden. Das erinnert an die Mellanox-Übernahme.
    • Gemeint sind alle wichtigen Chips, die für große Rechenzentren nötig sind, sowie ein beträchtlicher Teil der darüberliegenden Software-Schichten.
      Zur Hardware gehören GPU, NVLINK als GPU-zu-GPU-Fabric, CPU, NIC, InfiniBand als Netzwerk-Fabric und Switches. Dazu kommen mehrere Ebenen von Software-Stacks wie CUDA, Riva, Megatron und Omniverse, zu denen Nvidia beiträgt und die das Unternehmen vorantreibt, damit andere darauf aufbauen.
    • Nein, das bedeutet Rent-Seeking.
      Man muss sich nur vorstellen, AWS würde auch noch alle Computer der Welt verkaufen. Die Struktur läuft nun darauf hinaus, dass man sie nur noch dort mieten kann.
  • Ich frage mich, wann die Branche anfangen wird, sich mit dem Skalierbarkeitsproblem von LLMs zu befassen. Aus Nvidias Sicht ist es natürlich profitabel, immer größere und bessere GPUs herauszubringen, aber was ist das gemeinsame Interesse?
    Es ist bereits bewiesen, dass gute Sprachmodelle möglich sind, wenn genügend Ressourcen vorhanden sind. Die Aufgabe besteht nun darin, diese Modelle in Lösungen zu bringen, die für durchschnittliche Use Cases keine kaum vorstellbaren Ressourcenmengen erfordern.

    • Verschwenderische Softwareentwicklung ist einfach und hält den Entwicklungsdrang aufrecht. Solange Wachstum König ist, schlägt schnell und schmutzig immer ein gut optimiertes kleines System.
      Das ist nicht nur ein Problem von AI, sondern ein Problem der gesamten Software, die wir nutzen. Es gibt nur zwei Gruppen, die optimieren und Systeme kleiner machen wollen: leidenschaftliche Programmierer und Leute, die dafür bezahlt werden. Zum Beispiel Softwareteams von Smartphone-Herstellern.
  • Im nachbörslichen Handel hat sich der Aktienkurs nicht bewegt. Viele hatten erwartet, dass er nach einer großen Ankündigung kräftig springt.

    • Der Aktienkurs ist kein guter kurzfristiger Indikator für Nvidias Entwicklungsstand, und das gilt für jedes Unternehmen. Nvidia macht seine Arbeit ausgesprochen gut.
      Allerdings ist die Aktie wirklich lächerlich hoch bewertet.
    • Bei einer Marktkapitalisierung von 2 Billionen Dollar ist bereits alles eingepreist.
    • Wer so einen Kurssprung will, wartet wohl auf die Guidance. Im Moment ist die Aktie extrem überkauft und tut sich schwer, über 1.000 Dollar je Aktie hinauszukommen.
      Kurzfristig werden Microsoft und OpenAI diese Chips nutzen, aber langfristig werden sie sich das ansehen, eigene Chips entwickeln und ihre Abhängigkeit von Nvidia verringern wollen; wenn die Verträge auslaufen, werden sie bereit sein zu wechseln.
    • Nvidia ist kein Geheimtipp. Wenn in der Aktie verborgener Wert steckt, ist er wahrscheinlich schon größtenteils eingepreist.
    • Außerdem hat sie auch während des regulären Handels an Kraft verloren. Sie war möglicherweise so überhitzt, dass inzwischen keine Nachricht sie noch weiter nach oben treiben konnte.
  • Es wird behauptet, der Stromverbrauch sei um den Faktor 25 reduziert worden. Kann das überhaupt stimmen? Weiß jemand, woher diese Zahl stammt?

    • Die Zahl stammt von hier [1]. Im Grunde ist es ein Vergleich zwischen H-100-Racks und B-8-Racks.
      Ich denke allerdings, dass es auch ein Tippfehler sein könnte. Vermutlich ist es ein Vergleich, der Flüssigkühlung gegenüber Luftkühlung mit einbezieht.
      [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
    • Hast du das im verlinkten Artikel gelesen? Ich konnte es nicht finden.
      Vielleicht ist damit gemeint, dass man durch die 5-fache Leistungssteigerung effizienter wird und nun nicht mehr 1,7 Billionen, sondern 27 Billionen Parameter verwenden kann, sodass dieselbe Arbeitslast in 1/25 der Zeit erledigt wird und man das deshalb als geringeren Stromverbrauch bezeichnet. Wie gesagt: Ich bin skeptisch, dass die maximale Leistungsaufnahme selbst um den Faktor 25 niedriger ist.