Die Zukunft des Compute: Nvidias Krone gerät ins Wanken

(mohitdagarwal.substack.com)

2 Punkte von GN⁺ 2025-04-24 | 3 Kommentare | Auf WhatsApp teilen

NVIDIA ist dank des AI-Booms und seines GPU-Monopols schnell gewachsen, doch die langfristige Stellung des Unternehmens ist durch die Entwicklung eigener Chips und Vertikalisierungsstrategien großer Cloud-Konzerne bedroht
Die GPU-Nachfrage von Startups und unabhängigen Cloud-Anbietern sinkt, und die Verschlechterung der Profitabilität von Geschäftsmodellen mit hoher NVIDIA-Abhängigkeit wird sichtbar
Google, Amazon, Microsoft und Meta reduzieren ihre Abhängigkeit von NVIDIA rasch durch leistungsstarke maßgeschneiderte Chips und vertikal integrierte Systeme
Verteilte Infrastruktur und clusterverbindungsbasierte Optimierung werden zu Kernelementen des AI-Trainings, was einen strukturellen Wandel darstellt, auf den NVIDIA nur schwer reagieren kann
NVIDIA versucht mit Verbesserungen bei Hardware und Software gegenzusteuern, doch im Vergleich zu den tiefgreifenden Vertikalisierungsstrategien der Hyperscaler besteht die Möglichkeit einer schwindenden Wettbewerbsfähigkeit

Von NVIDIAs Dominanz zur Krise: Der Umbruch im Markt für AI-Computing

NVIDIA wuchs schnell durch den AI-Boom, das GPU-Monopol und die Lieferung von DGX-Servern und erzielte damit die Rekordleistung einer Steigerung der Marktkapitalisierung um 2 Billionen Dollar in 13 Monaten
Doch die H100-Generation markiert den Höhepunkt der Profitabilität, während die später eingeführte B200-Serie mit sinkender Profitabilität und steigenden Fertigungskosten einhergeht
Langfristig wird NVIDIAs Monopolstruktur erschüttert, weil Hyperscaler ihre Nachfrage bündeln und sich durch die Entwicklung maßgeschneiderter Chips Wettbewerbsvorteile sichern

Neuordnung der AI-Nachfrage und Schrumpfung des Startup-Markts

Mehr als die Hälfte der Rechenzentrumsnachfrage von NVIDIA stammt von Hyperscalern wie Google, Microsoft, Amazon und Meta
Die übrige Nachfrage kam von Startups, VCs und kleineren Cloud-Unternehmen, doch durch übermäßige GPU-Käufe ist der ROI niedrig, und das GPU-Vermietungsgeschäft schreibt Verluste
Kleinere spezialisierte Modelle wie BloombergGPT tun sich am Markt schwer, während sich geschlossene große API-basierte Modelle als Standard etablieren
Unabhängige Clouds wie Coreweave und Lambda geraten trotz NVIDIA-Unterstützung wegen mangelnder Wirtschaftlichkeit, sinkender Profitabilität und nachlassender Nachfrage in die Krise
Die Preise für GPU-Miete sind stark gefallen auf 1,99 Dollar pro Stunde, der ROE liegt bei unter 10 % – ein nicht tragfähiges Niveau

Die Strategie der Hyperscaler bei der Entwicklung maßgeschneiderter Chips

Google TPU hat bereits die 6. Generation erreicht und ersetzt NVIDIA in Modellen wie Gemini-Ultra, bei DeepMind und YouTube bereits vollständig
Amazons Trainium und Inferentia ersetzen in Zusammenarbeit mit Anthropic Inference und Training großer Modelle und bieten mit dem Neuron SDK eine ohne CUDA funktionierende Plattform
Microsofts Maia-Beschleuniger und Cobalt-CPU werden für interne AI-Workloads eingesetzt und erhöhen mit einem Triton-basierten SDK die Wahrscheinlichkeit, CUDA zu ersetzen
Meta betreibt über den MTIA-Chip AI-Funktionen in Instagram und WhatsApp auf eigenen Chips, und auch Teile des Trainings von Llama 3.1 werden auf Basis eigener Chips ausgeführt
Diese Entwicklung passt besser zu einer auf Inference ausgerichteten AI-Marktstruktur, und künftig könnte GPU-basierte Inference von maßgeschneiderten Chips oder sogar CPU-basierten Lösungen verdrängt werden

Der Wandel zu einer systemzentrierten Struktur und NVIDIAs Grenzen

Hyperscaler konzentrieren sich stärker auf die Optimierung des Gesamtsystems als auf die Leistung eines einzelnen Chips
Google verbindet große Mengen kleinerer TPUs und nutzt ein eigenes optisches Netzwerk (Apollo) sowie eine Torus-Netzwerktopologie, um Energieverbrauch und Latenz zu minimieren
Microsoft baut ein Glasfasernetzwerk und ColorZ-Transceiver auf, um Training über mehrere Rechenzentren hinweg zu ermöglichen und sich gegenüber NVIDIA eine kostengünstige Hochleistungsinfrastruktur zu sichern
Dadurch setzt sich eine verteilte Struktur, bei der mehrere kleinere Rechenzentren per Netzwerk zum Training verbunden werden, zunehmend als Standard durch
Um Stromengpässe und Grenzen beim Infrastrukturausbau zu überwinden, werden landesweite Verbindungen von Rechenzentren vorangetrieben (z. B. die Wiederinbetriebnahme von Three Mile Island durch Microsoft oder die Übernahme eines Kernkraftwerks durch AWS)

NVIDIAs Reaktion bei Hardware und Software und die strukturellen Schwierigkeiten

NVIDIA versucht mit GB200-Servern, Spectrum-X, DCGM und RAS gegenzusteuern
Netzwerkdesigns auf Basis von InfiniBand sind bei großen Clustern verwundbar und weisen Defizite bei fehlertolerantem Design auf
Googles Pathways und Microsofts Singularity haben Vorteile bei eigenen fehlertoleranten Systemen und der Erkennung von GPU-Speicherfehlern
NVIDIAs Kubernetes-basiertes BaseCommand ist bei Skalierbarkeit und Integration den Hyperscaler-Systemen Borg, MegaScaler und anderen unterlegen
Als Nachzügler bei Kühlsystemen ist NVIDIA gegenüber Google bei Energieeffizienz, Lebensdauer und Flächeneffizienz im Nachteil (z. B. Google PUE 1,1 vs. NVIDIA 1,4 oder mehr)

Fazit

NVIDIA verfügt weiterhin über starke GPU-Leistung, hat jedoch bei Systemoptimierung, Infrastrukturintegration und Kosteneffizienz strukturelle Nachteile gegenüber Hyperscalern
Die Hyperscaler haben bereits eine vertikale Integration von Chips über Infrastruktur bis zur Software vollendet und damit die Möglichkeit einer vollständigen Ablösung geschaffen
Ohne den Abschied von der früheren GPU-zentrierten Strategie und eine Innovation des Gesamtsystems droht NVIDIA, seine nachhaltige Führungsrolle im künftigen Markt für AI-Computing nur schwer behaupten zu können

3 Kommentare

kandk 2025-04-24

Eine Person hier, die wegen Google Tensor, Tesla Dojo und AMD keine Nvidia-Aktien gekauft hat..

kimjoin2 2025-04-24

Mich würden auch die Nachteile von „maßgeschneiderten Chips der Hyperscaler“ interessieren.
Es wirkt, als würden sie so dargestellt, als seien sie in jeder Hinsicht überlegen.

GN⁺ 2025-04-24

Hacker-News-Kommentare

Es gibt die Meinung, dass dies ein weiterer Artikel ist, der auf der Annahme basiert, dass Wettbewerber plötzlich erfolgreich werden und Nvidia bedrohen, während Nvidia selbst nichts tut
- Pessimisten gegenüber Nvidia könnten irgendwann einmal recht haben, aber bisher lagen sie oft falsch
Obwohl die Aktie von Marvell in diesem Jahr um mehr als 50 % gefallen ist, bleibt die Nachfrage nach Nvidias GPUs weiterhin stark
- Es wird betont, dass die von der Cloud bereitgestellten Funktionen nicht durch GPUs ersetzt werden können
- Es wird Jensens Vision zugestimmt, dass Nvidia ein Unternehmen im Wert von 10 Billionen Dollar werden könnte
- Es wird die Möglichkeit erwähnt, dass Nvidia AI-Phones, konkurrierende LLM-Dienste, AI-PCs, autonome Fahrzeuge und Roboter auf den Markt bringen könnte
- So wie Warren Buffet bereut hat, nicht in Google und Apple investiert zu haben, wird die aktuelle Situation als ähnlich angesehen
Es gibt die Meinung, dass Services Nvidia schützen werden
- Das Unternehmen besitzt das Ökosystem mit CUDA, InfiniBand, NGC und NVLink und muss dieses durch zusätzliche Anwendungen wie AI Foundry weiter ausbauen
- Mit kundenspezifischem Design und Beratung für GPU-Projekte kann das Unternehmen Einnahmen erzielen, wenn sich der Markt verlangsamt
Es gibt die Meinung, dass Nvidias strategische Position unterschätzt wird
- Nvidia muss das Hardware-Spiel nicht für immer gewinnen, sondern baut den gesamten AI-Stack auf
- Es ist das einzige Unternehmen, das Hardware, Networking, Software, Modelle und Entwickler-Tools umfassend anbietet
- Nvidia baut eine integrierte Plattform auf, und diese wird zum Industriestandard werden
Es gibt die Meinung, dass AMD mit Nvidia eine geheime Vereinbarung getroffen hat und diese Situation absichtlich herbeiführt
- Nvidia teilt sich bei TSMC eine exklusive Position mit Apple
Nvidia wechselt von einem funktionalen Monopol zu einer Situation, in der es konkurrieren muss
- Das ist nicht ideal, aber auch kein tödlicher Schlag
Es gibt die Meinung, dass die H100-Generation die höchste Preissetzungsmacht zeigt und aufgrund fehlender Alternativen weiterhin Gewinne erzielen wird
- Es gibt Zweifel an der langfristigen Beständigkeit
- Hyperscaler bündeln die AI-Nachfrage und treiben die Entwicklung konkurrenzfähiger Chips voran
- Es gibt auch andere Unternehmen, die große GPU-Farmen aufbauen
Es gibt die Meinung, dass die Qualitätskontrolle von Nvidias GPU-Treibern nachlässt
- Da die Produkte jedoch seit einigen Jahren ausverkauft sind, ist es schwer zu sagen, dass die Qualitätskontrolle tatsächlich nachgelassen hat