Die Rückkehr der CPU: Ausblick auf den Rechenzentrums-CPU-Markt 2026

(newsletter.semianalysis.com)

5 Punkte von GN⁺ 2026-02-10 | Noch keine Kommentare. | Auf WhatsApp teilen

Durch die explosionsartige Nachfrage nach Reinforcement Learning und agentischem AI-Inferencing rückt die Rolle der CPU im Rechenzentrum wieder stark in den Vordergrund, was zu Veränderungen im bislang GPU-zentrierten Investitionsfluss führt
Intel erlebt Ende 2025 einen unerwarteten sprunghaften Anstieg der Server-CPU-Nachfrage, baut 2026 die Investitionen in Foundry-Anlagen aus und verlagert Wafer für PCs auf Server
AMD Venice führt auf Basis des N2-Prozesses von TSMC ein 256-Kern-Zen6c-CCD und ein Mesh-Netzwerk ein, wodurch sich der Vorsprung gegenüber Intel bei Leistung und Energieeffizienz voraussichtlich weiter vergrößert
Mit NVIDIA, AWS, Microsoft, Google, ARM und anderen wächst das Lager der hyperscalereigenen ARM-CPUs deutlich, wodurch die x86-Monopolstruktur schnell aufbricht
Einschließlich Huawei Kunpeng 950 wird 2026 ein Jahr beispiellosen Wettbewerbs, in dem alle Anbieter eine neue CPU-Generation gleichzeitig auf den Markt bringen

Wandel und Evolution der Rolle von Rechenzentrums-CPUs

Von der PC-Ära bis zum Dotcom-Zeitalter
- In den 1990er Jahren entstand durch die steigende Leistung von PC-Prozessoren eine Nachfrage, Mainframes und Workstations zu ersetzen; Intel stieg mit Pentium Pro (1995) und der Xeon-Marke (1998) in den Servermarkt ein
- Im Internetzeitalter der 2000er Jahre wuchs der Markt für Rechenzentrums-CPUs durch Web 2.0, E-Commerce und die Verbreitung von Smartphones zu einem Milliardenmarkt
- Nach dem Ende des GHz-Wettbewerbs folgten Designinnovationen wie Multi-Core-CPUs, die Integration des Speichercontrollers (AMD) und die direkte PCIe-Anbindung
- SMT (Simultaneous Multi-Threading) wurde sowohl von Intel als auch von AMD eingeführt und steigerte die Parallelverarbeitungsleistung
Das Zeitalter von Virtualisierung, Cloud Computing und Hyperscalern
- Mit dem Aufkommen von Public Cloud in den späten 2000er Jahren, etwa AWS, erfolgte der Wechsel von einem CapEx- zu einem OpEx-Modell, das sich bis hin zu Serverless Computing (AWS Lambda usw.) weiterentwickelte
- Hardware-Virtualisierung der CPU wurde zur zentralen Grundlage der Cloud; Hypervisoren (wie VMware ESXi) betreiben auf einer einzelnen CPU viele unabhängige VMs
- 2018 rückte durch die Schwachstellen Spectre und Meltdown die Notwendigkeit in den Vordergrund, SMT zu deaktivieren, was zu Leistungsverlusten von bis zu 30 % führte
  - Angriffe über Branch Prediction machten Cloud-Sicherheitsbedrohungen zur Realität
Das Zeitalter der Integration von AI-GPU und CPU
- In den fünf Jahren vor dem Start von ChatGPT (November 2022) lieferte Intel mehr als 100 Millionen Xeon Scalable CPUs aus
- Das Training und Inferencing von AI-Modellen wird auf den großen Vektoreinheiten und Tensor Cores von GPUs 100- bis 1000-mal effizienter ausgeführt
- Im Vergleich zu GPUs ist die Matrixrechenleistung von CPUs extrem gering, sodass sie auf eine unterstützende Rolle zurückgestuft wurden und Strom vorrangig GPUs zugewiesen wird
- Der CPU-Einsatz differenziert sich in zwei Richtungen:
  - Head Node: Versorgung und Management der GPUs mit Daten; benötigt hohe Core-Leistung, große Caches und High-Bandwidth Memory (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 usw.)
  - Cloud-native Socket-Konsolidierung: Zur Maximierung der Energieeffizienz werden ältere Server im Verhältnis von mehr als 10:1 durch aktuelle CPUs ersetzt; Millionen von Intel-Cascade-Lake-Servern, die während der COVID-Zeit gekauft wurden, werden ausgemustert
Das Zeitalter von Reinforcement Learning und Agenten
- Im "Fairwater"-Rechenzentrum von Microsoft für OpenAI unterstützt ein 48-MW-Gebäude für CPU und Storage einen 295-MW-GPU-Cluster; Zehntausende CPUs verarbeiten Daten im Petabyte-Bereich
- In Reinforcement-Learning- (RL-) Umgebungen werden große Mengen an CPU-Leistung benötigt, um von Modellen erzeugte Aktionen auszuführen und Belohnungen zu berechnen, etwa für das Kompilieren, Verifizieren und Interpretieren von Code sowie für den Tool-Einsatz
  - Da sich die GPU-Leistung deutlich schneller verbessert als die CPU-Leistung, könnte sich das Leistungs-/Energieverhältnis von CPU zu GPU in der Rubin-Generation künftig auf 1:6 oder mehr ausweiten
- RAG-Modelle und agentische Modelle führen in großem Maßstab API-Aufrufe, Internetsuchen und Datenbankabfragen aus, wodurch die Nachfrage nach universell einsetzbaren CPUs stark steigt
- AWS und Azure bauen in großem Umfang eigene Graviton- und Cobalt-CPUs sowie x86-Server auf
- Frontier-AI-Labore sehen sich mit einem Mangel an CPUs für RL-Training konfrontiert und konkurrieren direkt mit Cloud-Anbietern um die Beschaffung allgemeiner x86-Server
- Intel prüft wegen unerwarteter Lagerbestandserschöpfung Preiserhöhungen für Xeon und beschafft zusätzliche Produktionswerkzeuge
- AMD baut seine Lieferkapazitäten aus und prognostiziert für 2026 beim Server-CPU-TAM ein Wachstum im "starken zweistelligen" Bereich

Die Geschichte der Interconnects für Multicore-CPUs

Frühe Crossbar-Designs und ihre Grenzen
- Bei frühen Dual-Core-Prozessoren (Intel Pentium D, AMD Athlon 64 X2, 2005) Verbindung über FSB (Front Side Bus) oder ein On-Die-NoC
- Beim Crossbar-Ansatz steigt die Zahl der Verbindungen mit wachsender Kernzahl stark an (2 Kerne = 1, 4 Kerne = 6, 6 Kerne = 15, 8 Kerne = 28), sodass 4 Kerne die praktische Grenze darstellten
- AMD Istanbul (2009) wurde auf eine 6-Wege-Crossbar erweitert, Magny-Cours (2010) auf 12 Kerne mit Dual-Die und Interlagos auf 16 Kerne
Intels Ringbus-Architektur
- Intel führte den Ringbus mit Nehalem-EX (2010) ein, integrierte 8 Kerne auf einem einzelnen Die und schloss IMC sowie QPI-Links ein
- Gegenläufig rotierende Doppelringe reduzierten Latenz und Überlastung, doch die Core-to-Core-Zugriffslatenz war nicht einheitlich (NUMA)
- Ivy Bridge-EX: 15 Kerne durch 3 Spalten, 5 Zeilen und 3 „virtuelle Ringe“
- Haswell/Broadwell: zwei unabhängige Ringbusse für 18 bis 24 Kerne, allerdings traten beim Durchlaufen eines gepufferten Switches zwischen den Ringen Latenzen von über 100 ns auf
  - Mit der Konfiguration „Cluster on Die“ konnten 2 NUMA-Knoten getrennt werden
Intels Mesh-Architektur
- 2016 führte Intel mit Xeon Phi "Knights Landing" einen Mesh-Interconnect ein, 2017 wurde er auf Skylake-X Xeon Scalable (28 Kerne) ausgeweitet
- In einer 2D-Gitteranordnung wurden Kerne, L3-Cache-Slices, PCIe-I/O, IMC und Beschleuniger an jedem Mesh-Stop platziert
- Der Modus Sub-NUMA Clustering (SNC) teilte das Mesh in Quadranten auf und verringerte so die durchschnittliche Latenz
- Skylake-X: 6x6-Mesh, Mesh-Takt von 2,4 GHz und damit eine durchschnittliche Latenz ähnlich wie bei Broadwells Dual-Ring
- Ice Lake: mit dem Wechsel auf 10 nm auf ein 8x7-Mesh und bis zu 40 Kerne erweitert (Reticle-Grenze)
Verteiltes Mesh über EMIB
- Sapphire Rapids: Auf dem Intel-7-Knoten waren mit einem einzelnen monolithischen Die nur 34 Kerne möglich, durch zusätzliche AMX-Engines wuchs die Kernfläche
  - Mit EMIB Advanced Packaging wurden 4 Dies verbunden, eine 8x12-Mesh-Konfiguration realisiert und 60 Kerne erreicht (rund 1600 mm² Silizium)
  - Die durchschnittliche Core-to-Core-Latenz verschlechterte sich von 47 ns (Skylake) auf 59 ns
  - Der private L2-Cache jedes Kerns wurde auf 2 MB erhöht (gesamt L2 > L3: 120 MB vs. 112,5 MB)
  - Das Produkt wurde bis Stepping E5 über Jahre verzögert; ursprünglich für 2021 geplant, erschien es erst Anfang 2023
- Emerald Rapids (Ende 2023): Zahl der Dies auf 2 reduziert, 66 Kerne (maximal 64 aktiv), L3-Cache auf 320 MB und damit fast verdreifacht
Das heterogene verteilte Design von Xeon 6
- Auf der Xeon-6-Plattform 2024 wurden I/O und Compute heterogen getrennt: I/O-Dies in Intel 7, Compute-Dies in Intel 3
- Konfigurationen mit P-Core Granite Rapids und E-Core Sierra Forest lassen sich mischen
- Granite Rapids-AP Xeon 6900P: 10x19-Mesh mit 3 Compute-Dies, 132 Kerne (maximal 128 aktiv)
- Sierra Forest: 4 E-Cores zu einem Cluster gebündelt, 144 Kerne in einem 8x6-Mesh; die Einführung blieb jedoch begrenzt, da Hyperscaler bereits AMD- und eigene ARM-CPUs einsetzen
  - Das Dual-Die-Design Sierra Forest-AP mit 288 Kernen (Xeon 6900E) blieb auf Kleinserienproduktion beschränkt
Die Grenzen von Clearwater Forest
- Xeon 6+ Clearwater Forest-AP: Mit Intels Foveros Direct Hybrid Bonding werden 18A-Core-Dies auf einen Base-Die in Intel 3 gestapelt, womit 288 Kerne erreicht werden
- Komplexes Design aus 12 Compute-Dies mit je 24 Kernen
- Wegen Integrationsproblemen bei Foveros Direct von H2 2025 auf H1 2026 verschoben
- Die Zugriffsbandbreite pro 4-Core-Cluster auf L3 und Mesh des Base-Die liegt bei nur 35 GB/s
- Trotz eines Abstands von zwei Jahren gegenüber Sierra Forest beträgt die Leistungssteigerung bei gleicher Kernzahl nur 17 %
- Intel erwähnte Clearwater Forest in der Ergebnispräsentation für Q4 2025 kaum; möglich ist ein Einsatz eher als Vehicle zum Lernen der Foveros-Direct-Ausbeute als für eine hochvolumige Produktion

AMDs Zen-Interconnect-Architektur

EPYC Naples (2017)
- AMDs Rückkehr ins Rechenzentrum erreichte mit 4 „Zeppelin“-Dies in einer MCM-Konfiguration 32 Kerne
- Jeder Die enthielt 2 CCX (4 Kerne + 8 MB L3, per Crossbar verbunden), zwischen den Dies liefen Infinity Fabric on Package (IFOP)-Links
- Durch das Fehlen eines einheitlichen L3-Caches und zahlreiche NUMA-Domänen (intra-CCX, inter-CCX, Die-zu-Die, inter-Socket) gab es große Latenzunterschiede
- Intel verspottete das Design als „4 zusammengeklebte Desktop-Dies“, tatsächlich war es ein ressourceneffizientes Design eines kleinen Teams
Die Entwicklung seit EPYC Rome (2019)
- Rome: 8 8-Core-CCDs um einen zentralen I/O-Die angeordnet; die CCDs wurden bei TSMC in N7 gefertigt, der I/O-Die bei GlobalFoundries in 12 nm
  - Die gesamte Kommunikation zwischen den CCX lief funktional als 16 NUMA-Knoten mit je 4 Kernen über GMI-Links durch den I/O-Die
- Milan (2021): CCX-Größe auf 8 Kerne erweitert und Ringbus übernommen, bei Wiederverwendung des I/O-Die von Rome
- Genoa (2022): 12 CCDs, Turin (2024): bis zu 16 CCDs für 128 Kerne (EPYC 9755), Upgrade auf DDR5 und PCIe5
- Zentrale Vorteile des Chiplet-Designs: Mit einem einzigen CCD-Tape-out lässt sich die komplette Kernzahl-Produktpalette aufbauen, kleine Dies begünstigen Ausbeute und Time-to-Market
- Mit den kompakten Kernvarianten Zen 4c und Zen 5c werden auch Bergamo (Zen 4c) und Turin-Dense (192 Kerne) auf derselben Plattform angeboten

Intels Diamond-Rapids-Architektur

Struktur aus 4 CBB-Dies (Core Building Block), die 2 IMH-Dies (I/O and Memory Hub) umgeben, äußerlich ähnlich zu AMDs Design
In jedem CBB werden 32 Dual-Core-Module (DCM) in Intel 18A-P gefertigt und per Hybrid Bonding auf einen Base-Die in Intel 3-PT gesetzt
- Zwei Kerne teilen sich einen gemeinsamen L2-Cache, ein Design, das an die Dunnington-Generation von 2008 erinnert
Insgesamt 256 Kerne, bei Mainstream-SKUs werden jedoch maximal 192 Kerne aktiviert erwartet
IMH-Die: 16 Kanäle DDR5, PCIe 6 (mit CXL3-Unterstützung), Intel Data Path Accelerator (QAT, DLB, IAA, DSA)
Statt EMIB werden lange Leiterbahnen auf dem Package-Substrat für die Verbindung zwischen den Dies genutzt, sodass jedes CBB direkt auf beide IMHs zugreifen kann
- Allerdings wird eine deutlich verschlechterte Latenz bei CBB-übergreifenden Zugriffen erwartet
Das Problem der SMT-Abschaffung
- Nach Spectre/Meltdown entfernt Intel SMT auf P-Cores, beginnend 2024 im Client-Bereich mit Lion Cove
- Im Rechenzentrum ist maximaler Durchsatz entscheidend, was für Diamond Rapids zu einer ernsten Schwäche wird
- Gegenüber Granite Rapids mit 128 Kernen/256 Threads dürfte Diamond Rapids mit 192 Kernen/192 Threads nur rund 40 % Leistungsplus erreichen
- Die Mainstream-Plattform Diamond Rapids-SP mit 8 Kanälen wurde vollständig gestrichen, womit bis mindestens 2028 eine neue Generation für dieses Marktsegment fehlt
  - Dadurch entgeht Intel der Markt für Allzweck-Computing-CPUs, die für den Einsatz von AI-Tools und Context Storage benötigt werden

AMD-Venice-Architektur

AMD setzt erstmals Advanced Packaging ein und verbindet CCD und I/O-Die über High-Speed-Short-Range-Links
Durch zusätzliche Shoreline-Verbindungen für die CCD-Links wird der zentrale I/O-Hub in zwei Dies aufgeteilt, wodurch zusätzliche NUMA-Domänen zwischen beiden Chipseiten entstehen
16 Speicherkanäle (mehr als die 12 Kanäle von Genoa), MRDIMM-12800-Multiplexspeicher mit 1,64 TB/s Bandbreite (2,67-fach gegenüber Turin)
Einführung eines Mesh-Netzwerks innerhalb des CCD: 32 Zen6c-Kerne in einem 4x8-Raster, gefertigt in TSMC-N2
Mit 8 CCDs insgesamt 256 Kerne, ein Plus von einem Drittel gegenüber Turin-Dense mit 192 Kernen
Zen6c erhält pro Kern die vollen 4 MB L3-Cache (beim vorherigen Zen5c die Hälfte), 128 MB Cache-Bereich pro CCD
Low-Core-/High-Clock-„-F“-SKU für AI-Head-Nodes: nutzt 12-Kern-Zen6-CCD für Desktop/Mobile, bis zu 96 Kerne
Neben dem I/O-Die, nahe den DDR5-Schnittstellen, sorgen acht kleine IPDs (Integrated Passive Device) für eine stabilere Stromversorgung
Venice-Leistung und neue Instruktionen
- Das Topmodell mit 256 Kernen erreicht in SPECrate®2017_int_base gegenüber Turin mit 192 Kernen mehr als die 1,7-fache Leistung pro Watt
- Deutlich höhere IPC-Verbesserungen (Instructions per Clock) in der Zen-6-Mikroarchitektur
- Neue AI-Datentyp-Instruktionen: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (Bit-Matrix-Multiplikation)
  - BMM: speichert 16x16-Binärmatrizen in FPU-Registern und führt BMM-Akkumulationen per OR- und XOR-Operationen aus
  - Effizient etwa für Verilog-Simulationen, für LLMs wegen unzureichender Präzision aber voraussichtlich nur begrenzt einsetzbar
- Während AMDs Turin mit 96 Kernen auf dem Niveau von Intels Granite Rapids mit 128 Kernen liegt, dürfte sich der Leistungsabstand zwischen Venice und Diamond Rapids weiter vergrößern
- Während Intel seinen 8-Kanal-Prozessor gestrichen hat, führt AMD die neue Venice-SP8-Plattform mit 8 Kanälen ein und bietet als Nachfolger von EPYC 8004 Siena bis zu 128 Zen-6c-Kerne
  - Erwartet wird ein wachsender AMD-Marktanteil im Enterprise-Markt, einem traditionellen Intel-Stärkefeld

NVIDIA Grace und Vera

Grace CPU
- Entwickelt für GPU-Head-Nodes und erweiterten GPU-Speicher; über NVLink-C2C (bidirektional 900 GB/s) kann die GPU mit voller Bandbreite auf den CPU-Speicher zugreifen
- Nutzt LPDDR5X-Speicher auf Mobile-Niveau, 500 GB/s Bandbreite über einen 512-Bit-Speicherbus, bis zu 480 GB pro CPU
- 72 ARM-Neoverse-V2-Kerne aktiv (von 76), 6x7-Mesh, 117 MB L3-Cache
- Das Mesh-Netzwerk bietet 3,2 TB/s bidirektional aufgeteilte Bandbreite und ist auf Datenfluss spezialisiert
- Mikroarchitektonischer Flaschenhals: Sinkt die Branch Target Buffer-Effizienz bei mehr als 24 Regionen, bricht die Leistung stark ein; bei mehr als 32 Regionen wird der gesamte 64-MB-Puffer geleert
  - In nicht optimiertem HPC-Code führt das zu 50 % Leistungsverlust und wirkt sich auch auf AI-Workloads von GB200/GB300 aus
Vera CPU (2026)
- Für die Rubin-Plattform steigt die C2C-Bandbreite auf 1,8 TB/s und verdoppelt sich damit
- 1,5 TB Speicher und 1,2 TB/s Bandbreite über acht 128-Bit-SOCAMM-Module
- 91 Kerne (88 aktiv) in einem 7x13-Mesh, 162 MB L3-Cache
- CoWoS-R-Packaging: ein Compute-Die in Reticle-Größe auf 3 nm + vier LPDDR5-Speicher-Dies + ein PCIe6/CXL3-I/O-Die (insgesamt 6 Dies)
- Rückkehr zu den hauseigenen Olympus-Kernen, weg von den Leistungsengpässen der Neoverse-Kerne
  - 88 Kerne/176 Threads (mit SMT), ARMv9.2, FPU mit 6x 128b-Ports (statt 4 bei Neoverse V2)
  - Unterstützung für ARM-SVE2-FP8-Operationen, 2 MB L2-Cache pro Kern (doppelt so viel wie bei Grace)
  - Insgesamt doppelte Leistung

AWS Graviton5

AWS war der erste Hyperscaler, der eine eigene CPU erfolgreich in der Cloud eingesetzt hat, gestützt auf die Übernahme von Annapurna Labs und ARM Neoverse CSS
Graviton2: Große Rabatte während des COVID-Booms förderten die Umstellung auf ARM, 64 Neoverse-N1-Kerne
Graviton3: Mit Neoverse V1 verdoppelte Floating-Point-Leistung pro Kern, EMIB-Chiplet-Design, DDR5 und PCIe5 ein Jahr vor AMD und Intel eingeführt
Graviton4: 96 Neoverse-V2-Kerne, 12 Speicherkanäle, 96 PCIe5-Lanes, Dual-Socket-Support
Graviton5 (Preview im Dezember 2025): 192 Neoverse-V3-Kerne, TSMC 3 nm, 172 Milliarden Transistoren
- 192 MB L3-Cache (stark erhöht gegenüber 36 MB bei Graviton4), 12-Kanal-DDR5-8800
- Upgrade auf PCIe6, aber Reduzierung der Lanes von 96 auf 64 (Kostenoptimierung für ungenutzte Lanes)
- 8x12-Mesh, zwei Kerne teilen sich einen Mesh-Stop, auf mehrere Compute-Dies aufgeteilt und mit neuer Packaging-Strategie
AWS nutzt intern Tausende Graviton-CPUs für CI/CD und EDA und setzt sie für das Design der nächsten Generation von Graviton, Trainium und Nitro ein (eigenes Dogfooding)
Der Trainium3-Beschleuniger nutzt Graviton-CPUs als Head-Nodes (1 CPU : 4 XPU)

Microsoft Cobalt 200

Erscheint Ende 2025 als Nachfolger von Cobalt 100 (2023, 128 Neoverse-N2-Kerne)
132 Neoverse-V3-Kerne, 3 MB L2-Cache pro Kern, zwei Compute-Dies in TSMC 3 nm
8x8-Mesh pro Die, 72 Kerne gedruckt/66 aktiv, 192 MB L3-Cache, 6-Kanal-DDR5, 64 PCIe6-Lanes
50 % Leistungsplus gegenüber Cobalt 100
Ausschließlich für Azure-Allzweck-CPU-Computing-Services, nicht für AI-Head-Nodes (Microsoft Maia 200 setzt auf Intel Granite Rapids)

Google Axion C4A, N4A

2024 angekündigt, 2025 allgemein verfügbar, Googles Einstieg in den Markt für GCP-Custom-Silicon-CPUs
Axion C4A: bis zu 72 Neoverse-V2-Kerne, 8-Kanal-DDR5, PCIe5, monolithischer 5-nm-Die (81 Kerne gedruckt, 9x9-Mesh)
- Vermutlich ein neues 3-nm-Die-Design für Ende 2025 in Preview gezeigte Bare-Metal-Instanzen mit 96 Kernen
Axion N4A: für kosteneffizientes Scale-out, 64 Neoverse-N3-Kerne, Full-Custom-Design in TSMC 3 nm
Google stellt seine interne Infrastruktur (Gmail, YouTube, Google Play usw.) auf ARM um und plant, Axion künftig auch als Head-Node für TPU-Cluster einzusetzen

Ampere Computing und die SoftBank-Übernahme

Als Pionier für Merchant-ARM-Silizium ging Ampere eine Partnerschaft mit Oracle ein und forderte mit Altra (80 Kerne) und Altra Max (128 Kerne) die x86-Dominanz heraus
- Neoverse-N1-Kerne, eigenes Mesh-Interconnect (4-Kern-Cluster), 8-Kanal-DDR4, 128 PCIe4-Lanes, Single-Die in TSMC 7 nm
AmpereOne: 5-nm-Fertigung, 192 Kerne, ausgelagertes I/O-Chiplet (DDR5, PCIe), MCM-Design ohne Interposer
- Custom-ARM-Kerne (optimiert auf Kerndichte) + 2 MB L2-Cache (zur Entschärfung des Noisy-Neighbor-Problems)
- Geplante Varianten durch Chiplet-Wiederverwendung wie 12-Kanal-AmpereOne-M und 3-nm-AmpereOne-MX mit 256 Kernen
2025 von SoftBank für 6,5 Milliarden Dollar übernommen, um CPU-Designpersonal für das Stargate-Venture zu sichern
Gründe für das Scheitern von Ampere:
- Die Altra-Generation kam zu früh, als ARM-native Software noch nicht ausgereift war
- AmpereOne war durch zahlreiche Verzögerungen erst in der zweiten Jahreshälfte 2024 verfügbar; zu diesem Zeitpunkt waren Hyperscaler-ARM-CPUs bereits in vollem Gang und AMD bot 192 Kerne mit 3- bis 4-fach höherer Pro-Kern-Leistung
- Oracles Ausgaben für Ampere-CPUs: FY2023 48 Millionen Dollar → FY2024 3 Millionen Dollar → FY2025 3,7 Millionen Dollar, also ein massiver Rückgang

ARM Phoenix

ARM steigt 2026 in das Geschäft mit vollständigem Design und Vertrieb von Rechenzentrums-CPUs ein und tritt damit in direkten Wettbewerb zu bestehenden Neoverse-CSS-Lizenzkunden
Bisher wurden in Rechenzentrums-CPUs und -DPUs mehr als 1 Milliarde Neoverse-Kerne eingesetzt, dazu kommen 21 CSS-Lizenzen für 12 Unternehmen
Die Royalty-Erlöse im Rechenzentrum sind gegenüber dem Vorjahr auf mehr als das Doppelte gewachsen; in den kommenden Jahren dürfte CSS mehr als 50 % der Royalty-Erlöse ausmachen
Phoenix: 128 Neoverse-V3-Kerne, ARM-CMN-Mesh, zwei Half-Reticle-Dies in TSMC-3nm
- 12-Kanal-DDR5 (8400MT/s), 96 Lanes PCIe Gen 6, TDP auf 250 bis 350 W konfigurierbar
- Erster Kunde ist Meta; auch OpenAI (Stargate/SoftBank-Venture) und Cloudflare gelten als potenzielle Kunden
- Mit dem auf PCIe6 basierenden Accelerator Enablement Kit ist eine kohärente Shared-Memory-Anbindung von XPUs möglich

Huawei Kunpeng

Kunpeng 920 und 920B
- Frühe Generationen (Hi1610 bis Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920 (2019): 64-Kern-Custom-CPU TaiShan V110, zwei TSMC-7nm-Compute-Dies, CoWoS-S-Packaging (erste CPU mit CoWoS-S)
  - 8-Kanal-DDR4, 40 PCIe4-Lanes, integriertes Dual-100GbE
  - Durch US-Sanktionen wurde die Belieferung durch TSMC gestoppt, die nächste Generation Kunpeng 930 erschien nicht
- Kunpeng 920B (2024): TaiShan V120-Kerne mit SMT-Unterstützung, pro Die 10 Cluster mit je 4 Kernen (insgesamt 80 Kerne/160 Threads)
  - 8-Kanal-DDR5, separates I/O-Die-Layout, Redesign im SMIC-N+2-Prozess (nach 5 Jahren Pause)
Kunpeng 950 (2026)
- 192 Kerne der neuen LinxiCore mit SMT-Unterstützung, zusätzlich wird eine kleinere Version mit 96 Kernen produziert
- TaiShan 950 SuperPoD-Rack-Konfiguration: 16 Dual-Socket-Server, bis zu 48 TB DDR5 (vermutlich 12 Kanäle)
- OLTP-Datenbankleistung gegenüber Kunpeng 920B um das 2,9-Fache verbessert (auf Basis von GaussDB Multi-Write)
- Geplante Einführung in Datenbankservern nach Art von Oracle Exadata sowie im chinesischen Finanzsektor
- Produktion vermutlich im SMIC-N+3-Prozess
Kunpeng 960 (Roadmap 2028)
- High-Performance-Version: 96 Kerne/192 Threads, für AI-Head-Nodes und Datenbanken, Leistung pro Kern um mehr als 50 % gesteigert
- High-Density-Version: mehr als 256 Kerne für Virtualisierung und Cloud
- Im chinesischen CPU-Markt für Hyperscaler wird ein erheblicher Marktanteil erwartet

Die Rückkehr der CPU: Ausblick auf den Rechenzentrums-CPU-Markt 2026

Wandel und Evolution der Rolle von Rechenzentrums-CPUs

Von der PC-Ära bis zum Dotcom-Zeitalter

Das Zeitalter von Virtualisierung, Cloud Computing und Hyperscalern

Das Zeitalter der Integration von AI-GPU und CPU

Das Zeitalter von Reinforcement Learning und Agenten

Die Geschichte der Interconnects für Multicore-CPUs

Frühe Crossbar-Designs und ihre Grenzen

Intels Ringbus-Architektur

Intels Mesh-Architektur

Verteiltes Mesh über EMIB

Das heterogene verteilte Design von Xeon 6

Die Grenzen von Clearwater Forest

AMDs Zen-Interconnect-Architektur

EPYC Naples (2017)

Die Entwicklung seit EPYC Rome (2019)

Intels Diamond-Rapids-Architektur

Das Problem der SMT-Abschaffung

AMD-Venice-Architektur

Venice-Leistung und neue Instruktionen

NVIDIA Grace und Vera

Grace CPU

Vera CPU (2026)

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A, N4A

Ampere Computing und die SoftBank-Übernahme

ARM Phoenix

Huawei Kunpeng

Kunpeng 920 und 920B

Kunpeng 950 (2026)

Kunpeng 960 (Roadmap 2028)

Verwandte Beiträge

Noch keine Kommentare.