Nvidia schlägt ein monströses CPU-System für Windows-PCs vor
(twitter.com/lemire)- NVIDIAs Hochleistungssystem für Windows-PCs setzt auf eine Chip-Konfiguration, bei der sich CPU und GPU 128 GB Shared Memory teilen und bis zu 6.144 CUDA-Kerne bereitstehen
- Die CPU verfügt über 10 Performance-Kerne und 10 Effizienz-Kerne; die Performance-Kerne basieren auf Cortex-X925, und SVE2 liegt im Vergleich unter aktuellen AMD-Chips, aber über Apple Silicon
- Das zentrale Unterscheidungsmerkmal ist Unified Memory, bei dem CPU- und GPU-Speicher nicht getrennt sind; es ist zwar langsamer als dedizierter GPU-Speicher, zielt aber auf die nötige Bandbreite und Kostenstruktur für die Ausführung lokaler AI-Modelle ab
- Zur Nachfrage nach lokal laufenden AI-Modellen gibt es die Sichtweise, dass es sich noch um eine Nischenanwendung handelt, aber auch die Einschätzung, dass 128 GB Shared Memory bei Experimenten im studentischen Maßstab wichtiger sein könnten als die Spitzen-TFLOPs der GPU
- Vergleichsgrößen sind AMD Strix Halo, Intels Xe3P AI GPU und AVX-512 in aktuellen AMD-Prozessoren; dazu kommt die Einschränkung, dass verlöteter RAM später kaum austauschbar ist
Systemspezifikationen und Speicherarchitektur
- Das von Nvidia vorgeschlagene CPU-System für Windows-PCs bietet 128 GB Shared Memory und eine Konfiguration mit bis zu 6.144 aktuellen CUDA-Kernen
- Die CPU ist mit 10 Performance-Kernen und 10 Effizienz-Kernen ausgestattet; die Performance-Kerne basieren auf Cortex-X925
- Ein Vergleich besagt, dass SVE2 im Cortex-X925 laut Spezifikation unter aktuellen AMD-Chips liegt, aber besser als Apple Silicon ist
- Aktuelle AMD-Prozessoren unterstützen sämtlich AVX-512; im Vergleich gilt AVX-512 als deutlich stärker als SVE2 im Cortex-X925, verarbeitet mehr Daten und ist vielseitiger
- Intel zeigt sich bislang zurückhaltend, AVX-512 in Consumer-Systemen anzubieten
- Die 128 GB Unified Memory arbeiten als gemeinsamer Pool statt mit getrenntem Speicher für CPU und GPU; das entspricht dem Weg, den Apple bereits vor einigen Jahren eingeschlagen hat
- Unified Memory wird immer populärer; es ist zwar nicht schneller als dedizierter GPU-Speicher, hat aber den Vorteil, günstig genug zu sein, um ausreichend Bandbreite für lokal laufende AI-Modelle bereitzustellen
- In Unified RAM müssen Daten nicht zwischen CPU und GPU verschoben werden, und weil alles in einem einzigen Speicherpool liegt, fühlt es sich wie eine Zero-Copy-Operation an
- Spannend bleibt, wie Intel und AMD darauf reagieren werden
Verschiedene begleitende Meinungen
- Wie groß die Nachfrage nach lokal laufenden AI-Modellen sein wird, ist unklar; bislang ist das noch eine Nischenanwendung
- Es gibt die Einschätzung, dass das System eine gute Maschine für Videospiele sein könnte, aber auch den Einwand, dass es nicht für Gaming, sondern für große Modelle ausgelegt sei und daher beim Spielen wohl nicht so gut abschneiden dürfte wie erwartet
- Bei Experimenten im studentischen Maßstab könnten 128 GB Shared Memory wichtiger sein als die Spitzen-TFLOPs der GPU; das könnte verändern, welche Modelle und Workloads sich lokal testen lassen
- Ein Trade-off ist, dass der RAM später nicht ausgetauscht werden kann, weil alles verlötet ist
- Beim Speicherbedarf gibt es Meinungen, dass 128 GB zu wenig seien und man lieber 256 GB oder 512 GB hätte; für ein AI-"Biest" seien mindestens 512 GB nötig, manche wünschen sich sogar eine Option mit 1 TB Unified Memory
- Die kurze Antwort des Autors auf die Frage, warum 128 GB gewählt wurden, lautet: "Kosten"
- In Bezug auf das Betriebssystem wird Bedauern geäußert und behauptet, dass darauf kein "normales Windows" laufe; als Alternative wird eine Linux-Installation vorgeschlagen
- AMD Strix Halo ist ein ähnliches Produkt mit 128 GB Unified Memory und großer iGPU und dient mit AVX-512 aus Desktop-Zen-5 als Vergleichsmaßstab
- Erfahrungen aus mehreren Monaten mit AMD Strix Halo in einem Home-Lab für lokale LLMs zeigen, dass Prosumer-taugliche LLM-Ausführung möglich ist, der eigentliche Flaschenhals aber die Speicherbandbreite bleibt
- Für den neuen Nvidia-Chip wird daher eine Speicherbandbreite von mehr als 300 GB/s gefordert
- Eine RTX5090 könnte günstiger für schnellere kleinere Modelle sein, wenn bereits ein Desktop vorhanden ist; die betreffende Board-Familie wäre eher für größere lokale Modelle geeignet
- Vorteile lokaler AI-Ausführung sind, dass geheime oder Kundendaten nicht an Dritte mit unklarer Verantwortlichkeit geschickt werden, dass SaaS-Abos und Token-Preise vermieden werden und dass ein lokales Modell aus dem Nutzungsverhalten am PC lernen und Aufgaben ausführen kann
- Lokale Modelle könnten als für den Nutzer unsichtbare Funktionen arbeiten; Aufgaben mit höherem Intelligenzbedarf oder größerem Kontext könnten remote ausgelagert werden
- Entscheidend ist weniger das lokale Modell selbst als vielmehr die Softwareplattform, die integrierte AI-Anwendungen unterstützt und den Desktop relevant hält
- Als Beispiel für einen lokalen AI-Anwendungsfall beim Start von Google Chrome wird auf die Dokumentation zu built-in AI von Chrome verwiesen
- Als Vergleichspunkt zur Intel Xe3P AI GPU werden genannt: 160 GB LPDDR5X, eine mögliche Erweiterung auf bis zu 480 GB, ein 640-Bit-Speicherinterface und eine PCIe-x16-Konfiguration: https://tomshardware.com/pc-components/gpus/…
1 Kommentare
Hacker-News-Kommentare
Ein gemeinsamer Speicherpool dürfte besonders bei Systemarchitekturen außerhalb des Rechenzentrums weiter ein "Game Changer" sein.
Selbst moderne Spiele oder Consumer-Workloads nutzen in der Praxis weder die PCIe-Bandbreite der GPU noch die GDDR-Speicherbandbreite vollständig aus, und auch bei lokaler AI ist schnellerer Speicher für Durchschnittsnutzer oft kein großer Vorteil.
Gemeinsamer Speicher optimiert die Auslastung je nach Bedarf und senkt in kleinen oder tragbaren Geräten die Gesamtkosten für Speicher, weil man sich keine getrennte GDDR/DDR-Bestückung überlegen muss.
Der Nachteil ist die Sicherheit: Seitenkanalangriffe auf Speicher auf GPU- oder CPU-Seite könnten dann auch die jeweils andere Seite kompromittieren. Deshalb dürfte künftig speichersicheres Design wichtiger werden, was für Rust-Befürworter wie eine positive Entwicklung wirken dürfte.
Bei Spielen geht es nicht darum, die Hardware zu sättigen, sondern innerhalb des Frame-Time-Budgets konsistente Ausgabe zu liefern.
Selbst wenn man eine 5090 in Spielen auslasten wollte, wäre der Zielmarkt klein, und die tatsächlichen Systeme der Nutzer müssen die Framerate auch mit realistischen Spezifikationen halten können, nicht nur auf Testgeräten.
Einer der größten Unterschiede zwischen Konsolen und PCs der aktuellen Generation ist gerade der gemeinsame Speicher.
Bei 99 % der Workloads wird mindestens um eine Größenordnung mehr Systemspeicher als GPU-Speicher benötigt, und die meisten Systeme brauchen für Video oder Browsing kaum mehr als ein Mindestmaß an GPU-Speicher.
Nur weil neue Anwendungsfälle auftauchen, wird die Struktur nicht komplett auf den Kopf gestellt; wenn man heute 128 GB braucht und lokale AI ebenfalls 128 GB braucht, dann braucht man für dieselben Dinge weiterhin 256 GB.
Eigentlich klingt das eher wie das Argument, gar nicht erst so teuren Speicher für die GPU zu verwenden, was für reine Inferenz vielleicht sogar stimmen könnte.
Bei einer Unified-Memory-Architektur gibt man viel Leistung auf; in manchen Situationen ist das sinnvoll, aber es ist keine Universallösung.
Ich weiß nicht, wie viele Leute lokal AI-Modelle ausführen, und es wirkt noch wie eine Nische, aber wenn man sich aktuelle Gemma-Releases ansieht, steigt die Wahrscheinlichkeit, einige Modelle schon aus Kostengründen lokal laufen zu lassen.
Mit Blick auf Unternehmenssicherheit gilt das umso mehr. Ich verstehe aber nicht wirklich, warum so eine Architektur gut fürs Gaming sein soll, daher zweifle ich am Gesamtsatz im Original.
Außerdem wirken Formulierungen wie "Top 2 % der Wissenschaftler weltweit laut Stanford/Elsevier 2025, Top-1000-Entwickler auf GitHub" eher abschreckend, wenn man sie überall dranschreibt.
Ich habe es auf mehreren M5 MacBooks eingesetzt, und bei vielen Aufgaben war es tatsächlich nützlich.
Es ersetzt kein Modell auf dem Niveau von Opus oder Sonnet der aktuellen Generation, ist aber gemessen an seiner Größe überraschend gut und wirkt etwa auf dem Stand der Sonnet-4-Zeit oder leicht davor.
Bei Tool-Calling, Coding und agentischen Aufgaben ist es deutlich stabiler als Gemma-Modelle und insbesondere mit MTP auch schneller.
Ich verstehe nicht, warum hier nicht wie bei anderen Compute-Workloads Skaleneffekte gelten sollten.
Ich will die Arbeit des Autors nicht schlechtreden, aber der Text wirkt so, als sei er nicht wirklich tief eingestiegen, sondern habe nur ein Datenblatt gelesen.
Die mobile 5070 hat zwar dieselbe Kernzahl, aber die gemeinsame Spitzenbandbreite und die gemeinsame Spitzen-TDP liegen jeweils nur bei etwa zwei Dritteln, daher könnte die reine GPU-Leistung ungefähr nur halb so hoch sein wie bei einer dedizierten Einheit.
Apple hat zwar kein SVE2, aber dafür proprietäres AMX und SME, und ich verstehe nicht, warum SVE2 schneller sein sollte als SME.
Der einzelne Kerntyp wird erwähnt, die Gesamtkonfiguration aber nicht, und wie sich DGX Spark gegen Apple-Chips schlägt, ist eigentlich schon seit einem Jahr bekannt.
Die CPU liegt grob auf M3-Pro-Niveau, die GPU-Compute-Leistung ohne Berücksichtigung der Bandbreite zwischen M4 Pro und M4 Max, und der eigentliche Vorteil ist nur, dass es CUDA ausführt.
Zum Release dürfte das gegenüber Apple wahrscheinlich 2 bis 3 Generationen und gegenüber AMD 1 Generation zurückliegen, und der NIC zum Zusammenschalten, der eine weitere Stärke von DGX Spark war, fehlt hier ebenfalls.
Auf Spark ist das deutlich schneller als auf einem M5 Max, und wenn man mit demselben Modell, derselben Quantisierung, derselben Anfrage und möglichst identischen vllm-Einstellungen vergleicht, beendet ein einzelner Spark bei Aufgaben mit großen Prompts und geringer Cache-Wahrscheinlichkeit oft schon die Antwort, bevor das MBP überhaupt mit dem Prefill fertig ist.
Dort ist Apple im Vorteil, aber die GPU-Compute-Leistung von Spark liegt deutlich über den 17 FP32 TFLOPS des M5 Max, ungefähr beim Doppelten.
Es hat wie die Desktop-5070 6144 CUDA-Kerne und ist im Grunde eine durch langsameren Speicher und niedrigere TDP gebremste Form davon, sodass es gegenüber den 31 FP32 TFLOPS der 5070 bei ungefähr 29,7 liegt.
Insgesamt ist Spark okay, aber nicht großartig.
Es wirkt, als habe man einen Chip, den die Branche schon lange kennt, erst jetzt entdeckt, kenne Konkurrenzprodukte fast gar nicht und poste dann Begriffe wie "BEAST" und "GAME CHANGER".
Auch DGX Spark war kein wirklicher Game Changer, sondern für die meisten eher eine große Enttäuschung, und ich glaube nicht, dass ein teurer Nvidia-Laptop die Lage grundlegend verändern wird.
Qualcomm Snapdragon X2 Elite Extreme liegt bei der Single-Core-CPU-Leistung deutlich vor dem Nvidia-Chip und schlägt auch die Spitzenprodukte von Intel und AMD
Er hat außerdem Unified Memory und ist der einzige CPU, der sowohl bei CPU-Leistung als auch bei Energieeffizienz in derselben Liga wie Apples M-Serie spielt
Man kann ihn nicht erst Ende dieses Jahres, sondern schon jetzt in Laptops kaufen, aber die Leute unterschätzen Qualcomm
Wenn Linux nicht unterstützt wird, ist das fast bedeutungslos, und die zwei wichtigen Plattformen in diesem Bereich sind Linux und Darwin
Bei Qualcomm ist es wie früher bei AMD im GPU-Bereich über Jahrzehnte: viele Ankündigungen und viele Internetfans, die die Webseiten gelesen haben, aber sobald man es tatsächlich zum Laufen bringen will, wird es zum Albtraum
Das Snapdragon X Elite läuft unter Linux nicht, also ist es als Plattform nutzlos, und engagierte Nutzer haben sogar M1 besser zum Laufen gebracht, sodass man statt Qualcomm eher einen alten Mac nutzt
Der Vergleich sollte eher mit dem X930 oder C1 im Mediatek Dimensity 9500 erfolgen, also mit der Richtung Snapdragon 8 Elite Gen 5 / X2 Elite
Qualcomm hat zwar noch einen Leistungsvorsprung, aber der schrumpft, und noch wichtiger ist, dass Nvidia das Ökosystem deutlich besser aufbaut
Nvidia hat viel bessere Vertriebskanäle und Partner, aufgebaut auf dem PC-Gaming-GPU-Geschäft, und die Beziehungen zu Spieleentwicklern sind in der Branche unmatched
Qualcomm hat weder bei PC- noch bei Server-CPUs bislang wirkliche Umsetzungskraft gezeigt
Die schlimmen Erfahrungen aus der Vergangenheit sind einfach zu zahlreich, als dass die Leute nicht zögern würden, und obwohl es wirkt, als gäbe man sich jetzt mehr Mühe, wird es Zeit brauchen, den Ruf im PC-Markt wiederherzustellen
Die Pressemitteilung zu den tatsächlichen Geräten ist hier
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
Ich war überrascht, dass kaum jemand darauf hingewiesen hat, dass Microsoft und besonders NVIDIA im Grunde Geräte herausbringen, die mit verbrauchsabhängigen Cloud-AI-Modellen kollidieren
Wenn man sich andere Ankündigungen und Signale ansieht, etwa besseres offline BYOK für Copilot oder die Idee einer unbegrenzten AI-Zukunft, scheinen beide Unternehmen verstanden zu haben, dass reine Cloud-AI weder nachhaltig ist noch ihnen grundsätzlich nützt
Trotzdem fällt auf, wie sehr man mit solchen Produkten OpenAI schwächen will
Microsoft drückt stark in Richtung lokaler AI
Ich bin mir nicht sicher, ob lokale LLMs breite Akzeptanz finden werden, solange die Preise nicht wirklich steigen
Es ergibt Sinn, günstigere gehostete kleine Modelle wie Sonnet oder Kimi zu nutzen, und diese Geräte werden kaum Modelle auf Kimi-Niveau ausführen können, obwohl genau das ungefähr die Untergrenze für Agentenarbeit jenseits von Spielzeug ist
5.000 $ auszugeben, nur um ein 20-$-Abo zu vermeiden, ergibt außerhalb spezieller Sicherheitsgründe keinen großen Sinn
Hast du schon einmal Dungeon Crawler Carl gesehen?
Die meisten scheinen nicht richtig zu verstehen, was solche Laptops bieten werden
Vor lokaler AI wird man wahrscheinlich zuerst hybride AI verwenden
Große Modelle lokal laufen zu lassen ist unrealistisch, aber wenn man sich einen Agenten-Workflow vorstellt, bei dem ein Teil in der Cloud und kleinere Aufgaben lokal laufen, ist das eine hervorragende Kombination
Für grundlegende Aufgaben braucht man keine Modelle wie Opus/Code/DeepSeek/Kimi; Modelle wie Gemma4:12b/Qwen-27b können das lokal mit viel geringerer Latenz erledigen
Einen Laptop, der ein großes Remote-Modell mit fünf lokalen, domänenspezifischen Modellen kombinieren kann, würde ich sofort verwenden wollen
Ich kann mir vorstellen, dass OpenCode mit einem kleinen Modell entscheidet, welche Aufgaben lokal laufen sollen und ob es dafür ein passendes lokales Modell gibt oder ob stattdessen ein Cloud-Modell genutzt werden soll
Meine Sorge ist, ob diese Hardware stark genug ist, um schnelles Wechseln lokaler Modelle zu verkraften; wahrscheinlich nicht, aber ich hoffe, ich liege falsch
Auch Frontier-Modelle erzielen inzwischen mit nur 200.000 Tokens bessere Benchmarks, und bei der Distillation bleibt noch viel Luft nach oben
Ich weiß nicht, was daran ein „Monster“ sein soll
300 GB/s Speicherbandbreite liegt nur etwas über den 256 GB/s von AMD Strix Halo und ist bei derselben Konfiguration mit 128 GB RAM nicht einmal halb so viel wie die 614 GB/s des M5 Max 128GB
Da die meisten Interessierten wohl AI-Enthusiasten sind, wird die Speicherbandbreite hervorgehoben, und obendrein ist es auch noch Windows
Selbst ein 256k-Token-Workflow, der auf dem M5 bis zum ersten Token fast die doppelte Zeit brauchen würde, ließe sich realistisch ausführen
AMD kann auf x86-Geräten alles ausführen, Apple pflegt den gesamten MacOS-Stack, aber Nvidia schafft es pro Jetson-Generation kaum, überhaupt eine Ubuntu-Version ordentlich zu unterstützen, was ziemlich peinlich ist
Es wäre schön, wenn sie die ständig beschworenen Agenten tatsächlich für die Arbeit an der Betriebssystem-Unterstützung einsetzen würden
Ich frage mich wirklich, worin sich das von etwas wie AMD Ryzen AI Max unterscheidet, das man schon jetzt kaufen kann und das 128 GB Unified Memory unterstützt
Ich weiß nicht, wer im Jahr 2026 noch so auf „Windows-PC“ fixiert ist.
Es ist einfach ein Personal Computer und kann normalerweise problemlos mehrere Betriebssysteme ausführen.
Der Ausdruck „Windows-PC“ klingt, als hätte man Geld von Microsoft bekommen oder als würde jemand über Technik sprechen, indem er Bilder in ein Word-Dokument einfügt und verschickt.
Es gibt keinen Grund, den Reiz eines geräteunabhängigen Geräts zwanghaft an ein miserables Betriebssystem zu ketten.
Dort werden wahrscheinlich mehr PCs gekauft als in allen übrigen Märkten zusammen.
Selbst im Privatbereich dürfte der Anteil der Leute, die Windows und ein anderes Betriebssystem im Dual-Boot nutzen, verschwindend gering sein.
„Windows-PC“ ist eine ziemlich vernünftige Bezeichnung, um zwischen „von Apple hergestellt“ und „von allen anderen hergestellt“ zu unterscheiden, und der Markt für PCs, die nicht von Apple stammen und auf denen standardmäßig nicht Windows läuft, ist wirklich klein.
Ehrlich gesagt wirkt es seltsam, bei diesem Thema so aggressiv zu reagieren.
Das Wort PC ist mehrdeutig: Es kann alle Personal Computer im ursprünglichen Sinn meinen oder die IBM-PC-Familie im Gegensatz zum Mac.
Man kann an die Werbung „I'm a Mac, I'm a PC“ denken.
Wenn man einfach nur PC sagt, sind die Leute heute tatsächlich unsicher, welche Bedeutung gemeint ist, und „IBM PC“ ist veraltet, „IBM PC clone“ noch schlimmer.
Deshalb ist „Windows-PC“ ein ziemlich brauchbarer Name, und „Nicht-Mac-PC“ klingt auch nicht besonders gut.
Man muss das nicht extra beleidigend formulieren.
Der Grund, warum Windows im Unternehmensumfeld oder bei manchen Desktop-Systemen zu Hause, etwa fürs Gaming, genutzt wird, ist weiterhin Hardware- und Software-Kompatibilität.
Man nutzt es bei der Arbeit, weil dort Windows-Programme entwickelt werden, und verwendet auch Treiber, die es für Win-for-ARM noch nicht gibt.
Deshalb bedeutet „Windows-PC“ für die meisten immer noch ein x64-Windows-PC.
Falls die Windows-Arm64-Kompatibilität nicht ausreicht, braucht man ohnehin neue Software und neue Hardware, sodass die Leute am Ende vielleicht Windows selbst verlassen — genau darin liegt das Risiko für Microsoft.
Ein verfluchter Nvidia-Hackintosh wäre zwar ziemlich komisch.
Für normale Nutzer gibt es bei Computer-Betriebssystemen drei Optionen: Windows, Apple und ChromeOS. Nvidia wird nicht auf ChromeOS setzen, und Apple hasst Nvidia, also bleibt als vermarktbares normales Betriebssystem nur Windows.
Das Marketing macht klar, dass diese Geräte keine billigen Chromebooks sind, die vielen Leuten das Desktop-Erlebnis verdorben haben.
Qualcomm hat Linux-Support versprochen und ist daran gescheitert, und wer sich an diesem Versprechen die Finger verbrannt hat, wird diese Hardware wohl kaum noch einmal kaufen wollen.
Wenn man einen Windows-PC verspricht, gibt es auch weniger Anlass, sich darüber zu beklagen, dass Linux, FreeBSD oder SerenityOS nicht booten, und nach Qualcomms Scheitern scheint Nvidia damit wahrscheinlich die richtige Entscheidung zu treffen.