- Durch die explosionsartige Nachfrage nach Reinforcement Learning und agentischem AI-Inferencing rückt die Rolle der CPU im Rechenzentrum wieder stark in den Vordergrund, was zu Veränderungen im bislang GPU-zentrierten Investitionsfluss führt
- Intel erlebt Ende 2025 einen unerwarteten sprunghaften Anstieg der Server-CPU-Nachfrage, baut 2026 die Investitionen in Foundry-Anlagen aus und verlagert Wafer für PCs auf Server
- AMD Venice führt auf Basis des N2-Prozesses von TSMC ein 256-Kern-Zen6c-CCD und ein Mesh-Netzwerk ein, wodurch sich der Vorsprung gegenüber Intel bei Leistung und Energieeffizienz voraussichtlich weiter vergrößert
- Mit NVIDIA, AWS, Microsoft, Google, ARM und anderen wächst das Lager der hyperscalereigenen ARM-CPUs deutlich, wodurch die x86-Monopolstruktur schnell aufbricht
- Einschließlich Huawei Kunpeng 950 wird 2026 ein Jahr beispiellosen Wettbewerbs, in dem alle Anbieter eine neue CPU-Generation gleichzeitig auf den Markt bringen
Wandel und Evolution der Rolle von Rechenzentrums-CPUs
-
Von der PC-Ära bis zum Dotcom-Zeitalter
- In den 1990er Jahren entstand durch die steigende Leistung von PC-Prozessoren eine Nachfrage, Mainframes und Workstations zu ersetzen; Intel stieg mit Pentium Pro (1995) und der Xeon-Marke (1998) in den Servermarkt ein
- Im Internetzeitalter der 2000er Jahre wuchs der Markt für Rechenzentrums-CPUs durch Web 2.0, E-Commerce und die Verbreitung von Smartphones zu einem Milliardenmarkt
- Nach dem Ende des GHz-Wettbewerbs folgten Designinnovationen wie Multi-Core-CPUs, die Integration des Speichercontrollers (AMD) und die direkte PCIe-Anbindung
- SMT (Simultaneous Multi-Threading) wurde sowohl von Intel als auch von AMD eingeführt und steigerte die Parallelverarbeitungsleistung
-
Das Zeitalter von Virtualisierung, Cloud Computing und Hyperscalern
- Mit dem Aufkommen von Public Cloud in den späten 2000er Jahren, etwa AWS, erfolgte der Wechsel von einem CapEx- zu einem OpEx-Modell, das sich bis hin zu Serverless Computing (AWS Lambda usw.) weiterentwickelte
- Hardware-Virtualisierung der CPU wurde zur zentralen Grundlage der Cloud; Hypervisoren (wie VMware ESXi) betreiben auf einer einzelnen CPU viele unabhängige VMs
- 2018 rückte durch die Schwachstellen Spectre und Meltdown die Notwendigkeit in den Vordergrund, SMT zu deaktivieren, was zu Leistungsverlusten von bis zu 30 % führte
- Angriffe über Branch Prediction machten Cloud-Sicherheitsbedrohungen zur Realität
-
Das Zeitalter der Integration von AI-GPU und CPU
- In den fünf Jahren vor dem Start von ChatGPT (November 2022) lieferte Intel mehr als 100 Millionen Xeon Scalable CPUs aus
- Das Training und Inferencing von AI-Modellen wird auf den großen Vektoreinheiten und Tensor Cores von GPUs 100- bis 1000-mal effizienter ausgeführt
- Im Vergleich zu GPUs ist die Matrixrechenleistung von CPUs extrem gering, sodass sie auf eine unterstützende Rolle zurückgestuft wurden und Strom vorrangig GPUs zugewiesen wird
- Der CPU-Einsatz differenziert sich in zwei Richtungen:
- Head Node: Versorgung und Management der GPUs mit Daten; benötigt hohe Core-Leistung, große Caches und High-Bandwidth Memory (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 usw.)
- Cloud-native Socket-Konsolidierung: Zur Maximierung der Energieeffizienz werden ältere Server im Verhältnis von mehr als 10:1 durch aktuelle CPUs ersetzt; Millionen von Intel-Cascade-Lake-Servern, die während der COVID-Zeit gekauft wurden, werden ausgemustert
-
Das Zeitalter von Reinforcement Learning und Agenten
- Im "Fairwater"-Rechenzentrum von Microsoft für OpenAI unterstützt ein 48-MW-Gebäude für CPU und Storage einen 295-MW-GPU-Cluster; Zehntausende CPUs verarbeiten Daten im Petabyte-Bereich
- In Reinforcement-Learning- (RL-) Umgebungen werden große Mengen an CPU-Leistung benötigt, um von Modellen erzeugte Aktionen auszuführen und Belohnungen zu berechnen, etwa für das Kompilieren, Verifizieren und Interpretieren von Code sowie für den Tool-Einsatz
- Da sich die GPU-Leistung deutlich schneller verbessert als die CPU-Leistung, könnte sich das Leistungs-/Energieverhältnis von CPU zu GPU in der Rubin-Generation künftig auf 1:6 oder mehr ausweiten
- RAG-Modelle und agentische Modelle führen in großem Maßstab API-Aufrufe, Internetsuchen und Datenbankabfragen aus, wodurch die Nachfrage nach universell einsetzbaren CPUs stark steigt
- AWS und Azure bauen in großem Umfang eigene Graviton- und Cobalt-CPUs sowie x86-Server auf
- Frontier-AI-Labore sehen sich mit einem Mangel an CPUs für RL-Training konfrontiert und konkurrieren direkt mit Cloud-Anbietern um die Beschaffung allgemeiner x86-Server
- Intel prüft wegen unerwarteter Lagerbestandserschöpfung Preiserhöhungen für Xeon und beschafft zusätzliche Produktionswerkzeuge
- AMD baut seine Lieferkapazitäten aus und prognostiziert für 2026 beim Server-CPU-TAM ein Wachstum im "starken zweistelligen" Bereich
Die Geschichte der Interconnects für Multicore-CPUs
-
Frühe Crossbar-Designs und ihre Grenzen
- Bei frühen Dual-Core-Prozessoren (Intel Pentium D, AMD Athlon 64 X2, 2005) Verbindung über FSB (Front Side Bus) oder ein On-Die-NoC
- Beim Crossbar-Ansatz steigt die Zahl der Verbindungen mit wachsender Kernzahl stark an (2 Kerne = 1, 4 Kerne = 6, 6 Kerne = 15, 8 Kerne = 28), sodass 4 Kerne die praktische Grenze darstellten
- AMD Istanbul (2009) wurde auf eine 6-Wege-Crossbar erweitert, Magny-Cours (2010) auf 12 Kerne mit Dual-Die und Interlagos auf 16 Kerne
-
Intels Ringbus-Architektur
- Intel führte den Ringbus mit Nehalem-EX (2010) ein, integrierte 8 Kerne auf einem einzelnen Die und schloss IMC sowie QPI-Links ein
- Gegenläufig rotierende Doppelringe reduzierten Latenz und Überlastung, doch die Core-to-Core-Zugriffslatenz war nicht einheitlich (NUMA)
- Ivy Bridge-EX: 15 Kerne durch 3 Spalten, 5 Zeilen und 3 „virtuelle Ringe“
- Haswell/Broadwell: zwei unabhängige Ringbusse für 18 bis 24 Kerne, allerdings traten beim Durchlaufen eines gepufferten Switches zwischen den Ringen Latenzen von über 100 ns auf
- Mit der Konfiguration „Cluster on Die“ konnten 2 NUMA-Knoten getrennt werden
-
Intels Mesh-Architektur
- 2016 führte Intel mit Xeon Phi "Knights Landing" einen Mesh-Interconnect ein, 2017 wurde er auf Skylake-X Xeon Scalable (28 Kerne) ausgeweitet
- In einer 2D-Gitteranordnung wurden Kerne, L3-Cache-Slices, PCIe-I/O, IMC und Beschleuniger an jedem Mesh-Stop platziert
- Der Modus Sub-NUMA Clustering (SNC) teilte das Mesh in Quadranten auf und verringerte so die durchschnittliche Latenz
- Skylake-X: 6x6-Mesh, Mesh-Takt von 2,4 GHz und damit eine durchschnittliche Latenz ähnlich wie bei Broadwells Dual-Ring
- Ice Lake: mit dem Wechsel auf 10 nm auf ein 8x7-Mesh und bis zu 40 Kerne erweitert (Reticle-Grenze)
-
Verteiltes Mesh über EMIB
- Sapphire Rapids: Auf dem Intel-7-Knoten waren mit einem einzelnen monolithischen Die nur 34 Kerne möglich, durch zusätzliche AMX-Engines wuchs die Kernfläche
- Mit EMIB Advanced Packaging wurden 4 Dies verbunden, eine 8x12-Mesh-Konfiguration realisiert und 60 Kerne erreicht (rund 1600 mm² Silizium)
- Die durchschnittliche Core-to-Core-Latenz verschlechterte sich von 47 ns (Skylake) auf 59 ns
- Der private L2-Cache jedes Kerns wurde auf 2 MB erhöht (gesamt L2 > L3: 120 MB vs. 112,5 MB)
- Das Produkt wurde bis Stepping E5 über Jahre verzögert; ursprünglich für 2021 geplant, erschien es erst Anfang 2023
- Emerald Rapids (Ende 2023): Zahl der Dies auf 2 reduziert, 66 Kerne (maximal 64 aktiv), L3-Cache auf 320 MB und damit fast verdreifacht
-
Das heterogene verteilte Design von Xeon 6
- Auf der Xeon-6-Plattform 2024 wurden I/O und Compute heterogen getrennt: I/O-Dies in Intel 7, Compute-Dies in Intel 3
- Konfigurationen mit P-Core Granite Rapids und E-Core Sierra Forest lassen sich mischen
- Granite Rapids-AP Xeon 6900P: 10x19-Mesh mit 3 Compute-Dies, 132 Kerne (maximal 128 aktiv)
- Sierra Forest: 4 E-Cores zu einem Cluster gebündelt, 144 Kerne in einem 8x6-Mesh; die Einführung blieb jedoch begrenzt, da Hyperscaler bereits AMD- und eigene ARM-CPUs einsetzen
- Das Dual-Die-Design Sierra Forest-AP mit 288 Kernen (Xeon 6900E) blieb auf Kleinserienproduktion beschränkt
-
Die Grenzen von Clearwater Forest
- Xeon 6+ Clearwater Forest-AP: Mit Intels Foveros Direct Hybrid Bonding werden 18A-Core-Dies auf einen Base-Die in Intel 3 gestapelt, womit 288 Kerne erreicht werden
- Komplexes Design aus 12 Compute-Dies mit je 24 Kernen
- Wegen Integrationsproblemen bei Foveros Direct von H2 2025 auf H1 2026 verschoben
- Die Zugriffsbandbreite pro 4-Core-Cluster auf L3 und Mesh des Base-Die liegt bei nur 35 GB/s
- Trotz eines Abstands von zwei Jahren gegenüber Sierra Forest beträgt die Leistungssteigerung bei gleicher Kernzahl nur 17 %
- Intel erwähnte Clearwater Forest in der Ergebnispräsentation für Q4 2025 kaum; möglich ist ein Einsatz eher als Vehicle zum Lernen der Foveros-Direct-Ausbeute als für eine hochvolumige Produktion
AMDs Zen-Interconnect-Architektur
-
EPYC Naples (2017)
- AMDs Rückkehr ins Rechenzentrum erreichte mit 4 „Zeppelin“-Dies in einer MCM-Konfiguration 32 Kerne
- Jeder Die enthielt 2 CCX (4 Kerne + 8 MB L3, per Crossbar verbunden), zwischen den Dies liefen Infinity Fabric on Package (IFOP)-Links
- Durch das Fehlen eines einheitlichen L3-Caches und zahlreiche NUMA-Domänen (intra-CCX, inter-CCX, Die-zu-Die, inter-Socket) gab es große Latenzunterschiede
- Intel verspottete das Design als „4 zusammengeklebte Desktop-Dies“, tatsächlich war es ein ressourceneffizientes Design eines kleinen Teams
-
Die Entwicklung seit EPYC Rome (2019)
- Rome: 8 8-Core-CCDs um einen zentralen I/O-Die angeordnet; die CCDs wurden bei TSMC in N7 gefertigt, der I/O-Die bei GlobalFoundries in 12 nm
- Die gesamte Kommunikation zwischen den CCX lief funktional als 16 NUMA-Knoten mit je 4 Kernen über GMI-Links durch den I/O-Die
- Milan (2021): CCX-Größe auf 8 Kerne erweitert und Ringbus übernommen, bei Wiederverwendung des I/O-Die von Rome
- Genoa (2022): 12 CCDs, Turin (2024): bis zu 16 CCDs für 128 Kerne (EPYC 9755), Upgrade auf DDR5 und PCIe5
- Zentrale Vorteile des Chiplet-Designs: Mit einem einzigen CCD-Tape-out lässt sich die komplette Kernzahl-Produktpalette aufbauen, kleine Dies begünstigen Ausbeute und Time-to-Market
- Mit den kompakten Kernvarianten Zen 4c und Zen 5c werden auch Bergamo (Zen 4c) und Turin-Dense (192 Kerne) auf derselben Plattform angeboten
Intels Diamond-Rapids-Architektur
- Struktur aus 4 CBB-Dies (Core Building Block), die 2 IMH-Dies (I/O and Memory Hub) umgeben, äußerlich ähnlich zu AMDs Design
- In jedem CBB werden 32 Dual-Core-Module (DCM) in Intel 18A-P gefertigt und per Hybrid Bonding auf einen Base-Die in Intel 3-PT gesetzt
- Zwei Kerne teilen sich einen gemeinsamen L2-Cache, ein Design, das an die Dunnington-Generation von 2008 erinnert
- Insgesamt 256 Kerne, bei Mainstream-SKUs werden jedoch maximal 192 Kerne aktiviert erwartet
- IMH-Die: 16 Kanäle DDR5, PCIe 6 (mit CXL3-Unterstützung), Intel Data Path Accelerator (QAT, DLB, IAA, DSA)
- Statt EMIB werden lange Leiterbahnen auf dem Package-Substrat für die Verbindung zwischen den Dies genutzt, sodass jedes CBB direkt auf beide IMHs zugreifen kann
- Allerdings wird eine deutlich verschlechterte Latenz bei CBB-übergreifenden Zugriffen erwartet
-
Das Problem der SMT-Abschaffung
- Nach Spectre/Meltdown entfernt Intel SMT auf P-Cores, beginnend 2024 im Client-Bereich mit Lion Cove
- Im Rechenzentrum ist maximaler Durchsatz entscheidend, was für Diamond Rapids zu einer ernsten Schwäche wird
- Gegenüber Granite Rapids mit 128 Kernen/256 Threads dürfte Diamond Rapids mit 192 Kernen/192 Threads nur rund 40 % Leistungsplus erreichen
- Die Mainstream-Plattform Diamond Rapids-SP mit 8 Kanälen wurde vollständig gestrichen, womit bis mindestens 2028 eine neue Generation für dieses Marktsegment fehlt
- Dadurch entgeht Intel der Markt für Allzweck-Computing-CPUs, die für den Einsatz von AI-Tools und Context Storage benötigt werden
AMD-Venice-Architektur
- AMD setzt erstmals Advanced Packaging ein und verbindet CCD und I/O-Die über High-Speed-Short-Range-Links
- Durch zusätzliche Shoreline-Verbindungen für die CCD-Links wird der zentrale I/O-Hub in zwei Dies aufgeteilt, wodurch zusätzliche NUMA-Domänen zwischen beiden Chipseiten entstehen
- 16 Speicherkanäle (mehr als die 12 Kanäle von Genoa), MRDIMM-12800-Multiplexspeicher mit 1,64 TB/s Bandbreite (2,67-fach gegenüber Turin)
- Einführung eines Mesh-Netzwerks innerhalb des CCD: 32 Zen6c-Kerne in einem 4x8-Raster, gefertigt in TSMC-N2
- Mit 8 CCDs insgesamt 256 Kerne, ein Plus von einem Drittel gegenüber Turin-Dense mit 192 Kernen
- Zen6c erhält pro Kern die vollen 4 MB L3-Cache (beim vorherigen Zen5c die Hälfte), 128 MB Cache-Bereich pro CCD
- Low-Core-/High-Clock-„-F“-SKU für AI-Head-Nodes: nutzt 12-Kern-Zen6-CCD für Desktop/Mobile, bis zu 96 Kerne
- Neben dem I/O-Die, nahe den DDR5-Schnittstellen, sorgen acht kleine IPDs (Integrated Passive Device) für eine stabilere Stromversorgung
-
Venice-Leistung und neue Instruktionen
- Das Topmodell mit 256 Kernen erreicht in SPECrate®2017_int_base gegenüber Turin mit 192 Kernen mehr als die 1,7-fache Leistung pro Watt
- Deutlich höhere IPC-Verbesserungen (Instructions per Clock) in der Zen-6-Mikroarchitektur
- Neue AI-Datentyp-Instruktionen: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (Bit-Matrix-Multiplikation)
- BMM: speichert 16x16-Binärmatrizen in FPU-Registern und führt BMM-Akkumulationen per OR- und XOR-Operationen aus
- Effizient etwa für Verilog-Simulationen, für LLMs wegen unzureichender Präzision aber voraussichtlich nur begrenzt einsetzbar
- Während AMDs Turin mit 96 Kernen auf dem Niveau von Intels Granite Rapids mit 128 Kernen liegt, dürfte sich der Leistungsabstand zwischen Venice und Diamond Rapids weiter vergrößern
- Während Intel seinen 8-Kanal-Prozessor gestrichen hat, führt AMD die neue Venice-SP8-Plattform mit 8 Kanälen ein und bietet als Nachfolger von EPYC 8004 Siena bis zu 128 Zen-6c-Kerne
- Erwartet wird ein wachsender AMD-Marktanteil im Enterprise-Markt, einem traditionellen Intel-Stärkefeld
NVIDIA Grace und Vera
-
Grace CPU
- Entwickelt für GPU-Head-Nodes und erweiterten GPU-Speicher; über NVLink-C2C (bidirektional 900 GB/s) kann die GPU mit voller Bandbreite auf den CPU-Speicher zugreifen
- Nutzt LPDDR5X-Speicher auf Mobile-Niveau, 500 GB/s Bandbreite über einen 512-Bit-Speicherbus, bis zu 480 GB pro CPU
- 72 ARM-Neoverse-V2-Kerne aktiv (von 76), 6x7-Mesh, 117 MB L3-Cache
- Das Mesh-Netzwerk bietet 3,2 TB/s bidirektional aufgeteilte Bandbreite und ist auf Datenfluss spezialisiert
- Mikroarchitektonischer Flaschenhals: Sinkt die Branch Target Buffer-Effizienz bei mehr als 24 Regionen, bricht die Leistung stark ein; bei mehr als 32 Regionen wird der gesamte 64-MB-Puffer geleert
- In nicht optimiertem HPC-Code führt das zu 50 % Leistungsverlust und wirkt sich auch auf AI-Workloads von GB200/GB300 aus
-
Vera CPU (2026)
- Für die Rubin-Plattform steigt die C2C-Bandbreite auf 1,8 TB/s und verdoppelt sich damit
- 1,5 TB Speicher und 1,2 TB/s Bandbreite über acht 128-Bit-SOCAMM-Module
- 91 Kerne (88 aktiv) in einem 7x13-Mesh, 162 MB L3-Cache
- CoWoS-R-Packaging: ein Compute-Die in Reticle-Größe auf 3 nm + vier LPDDR5-Speicher-Dies + ein PCIe6/CXL3-I/O-Die (insgesamt 6 Dies)
- Rückkehr zu den hauseigenen Olympus-Kernen, weg von den Leistungsengpässen der Neoverse-Kerne
- 88 Kerne/176 Threads (mit SMT), ARMv9.2, FPU mit 6x 128b-Ports (statt 4 bei Neoverse V2)
- Unterstützung für ARM-SVE2-FP8-Operationen, 2 MB L2-Cache pro Kern (doppelt so viel wie bei Grace)
- Insgesamt doppelte Leistung
AWS Graviton5
- AWS war der erste Hyperscaler, der eine eigene CPU erfolgreich in der Cloud eingesetzt hat, gestützt auf die Übernahme von Annapurna Labs und ARM Neoverse CSS
- Graviton2: Große Rabatte während des COVID-Booms förderten die Umstellung auf ARM, 64 Neoverse-N1-Kerne
- Graviton3: Mit Neoverse V1 verdoppelte Floating-Point-Leistung pro Kern, EMIB-Chiplet-Design, DDR5 und PCIe5 ein Jahr vor AMD und Intel eingeführt
- Graviton4: 96 Neoverse-V2-Kerne, 12 Speicherkanäle, 96 PCIe5-Lanes, Dual-Socket-Support
- Graviton5 (Preview im Dezember 2025): 192 Neoverse-V3-Kerne, TSMC 3 nm, 172 Milliarden Transistoren
- 192 MB L3-Cache (stark erhöht gegenüber 36 MB bei Graviton4), 12-Kanal-DDR5-8800
- Upgrade auf PCIe6, aber Reduzierung der Lanes von 96 auf 64 (Kostenoptimierung für ungenutzte Lanes)
- 8x12-Mesh, zwei Kerne teilen sich einen Mesh-Stop, auf mehrere Compute-Dies aufgeteilt und mit neuer Packaging-Strategie
- AWS nutzt intern Tausende Graviton-CPUs für CI/CD und EDA und setzt sie für das Design der nächsten Generation von Graviton, Trainium und Nitro ein (eigenes Dogfooding)
- Der Trainium3-Beschleuniger nutzt Graviton-CPUs als Head-Nodes (1 CPU : 4 XPU)
Microsoft Cobalt 200
- Erscheint Ende 2025 als Nachfolger von Cobalt 100 (2023, 128 Neoverse-N2-Kerne)
- 132 Neoverse-V3-Kerne, 3 MB L2-Cache pro Kern, zwei Compute-Dies in TSMC 3 nm
- 8x8-Mesh pro Die, 72 Kerne gedruckt/66 aktiv, 192 MB L3-Cache, 6-Kanal-DDR5, 64 PCIe6-Lanes
- 50 % Leistungsplus gegenüber Cobalt 100
- Ausschließlich für Azure-Allzweck-CPU-Computing-Services, nicht für AI-Head-Nodes (Microsoft Maia 200 setzt auf Intel Granite Rapids)
Google Axion C4A, N4A
- 2024 angekündigt, 2025 allgemein verfügbar, Googles Einstieg in den Markt für GCP-Custom-Silicon-CPUs
- Axion C4A: bis zu 72 Neoverse-V2-Kerne, 8-Kanal-DDR5, PCIe5, monolithischer 5-nm-Die (81 Kerne gedruckt, 9x9-Mesh)
- Vermutlich ein neues 3-nm-Die-Design für Ende 2025 in Preview gezeigte Bare-Metal-Instanzen mit 96 Kernen
- Axion N4A: für kosteneffizientes Scale-out, 64 Neoverse-N3-Kerne, Full-Custom-Design in TSMC 3 nm
- Google stellt seine interne Infrastruktur (Gmail, YouTube, Google Play usw.) auf ARM um und plant, Axion künftig auch als Head-Node für TPU-Cluster einzusetzen
Ampere Computing und die SoftBank-Übernahme
- Als Pionier für Merchant-ARM-Silizium ging Ampere eine Partnerschaft mit Oracle ein und forderte mit Altra (80 Kerne) und Altra Max (128 Kerne) die x86-Dominanz heraus
- Neoverse-N1-Kerne, eigenes Mesh-Interconnect (4-Kern-Cluster), 8-Kanal-DDR4, 128 PCIe4-Lanes, Single-Die in TSMC 7 nm
- AmpereOne: 5-nm-Fertigung, 192 Kerne, ausgelagertes I/O-Chiplet (DDR5, PCIe), MCM-Design ohne Interposer
- Custom-ARM-Kerne (optimiert auf Kerndichte) + 2 MB L2-Cache (zur Entschärfung des Noisy-Neighbor-Problems)
- Geplante Varianten durch Chiplet-Wiederverwendung wie 12-Kanal-AmpereOne-M und 3-nm-AmpereOne-MX mit 256 Kernen
- 2025 von SoftBank für 6,5 Milliarden Dollar übernommen, um CPU-Designpersonal für das Stargate-Venture zu sichern
- Gründe für das Scheitern von Ampere:
- Die Altra-Generation kam zu früh, als ARM-native Software noch nicht ausgereift war
- AmpereOne war durch zahlreiche Verzögerungen erst in der zweiten Jahreshälfte 2024 verfügbar; zu diesem Zeitpunkt waren Hyperscaler-ARM-CPUs bereits in vollem Gang und AMD bot 192 Kerne mit 3- bis 4-fach höherer Pro-Kern-Leistung
- Oracles Ausgaben für Ampere-CPUs: FY2023 48 Millionen Dollar → FY2024 3 Millionen Dollar → FY2025 3,7 Millionen Dollar, also ein massiver Rückgang
ARM Phoenix
- ARM steigt 2026 in das Geschäft mit vollständigem Design und Vertrieb von Rechenzentrums-CPUs ein und tritt damit in direkten Wettbewerb zu bestehenden Neoverse-CSS-Lizenzkunden
- Bisher wurden in Rechenzentrums-CPUs und -DPUs mehr als 1 Milliarde Neoverse-Kerne eingesetzt, dazu kommen 21 CSS-Lizenzen für 12 Unternehmen
- Die Royalty-Erlöse im Rechenzentrum sind gegenüber dem Vorjahr auf mehr als das Doppelte gewachsen; in den kommenden Jahren dürfte CSS mehr als 50 % der Royalty-Erlöse ausmachen
- Phoenix: 128 Neoverse-V3-Kerne, ARM-CMN-Mesh, zwei Half-Reticle-Dies in TSMC-3nm
- 12-Kanal-DDR5 (8400MT/s), 96 Lanes PCIe Gen 6, TDP auf 250 bis 350 W konfigurierbar
- Erster Kunde ist Meta; auch OpenAI (Stargate/SoftBank-Venture) und Cloudflare gelten als potenzielle Kunden
- Mit dem auf PCIe6 basierenden Accelerator Enablement Kit ist eine kohärente Shared-Memory-Anbindung von XPUs möglich
Huawei Kunpeng
-
Kunpeng 920 und 920B
- Frühe Generationen (Hi1610 bis Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920 (2019): 64-Kern-Custom-CPU TaiShan V110, zwei TSMC-7nm-Compute-Dies, CoWoS-S-Packaging (erste CPU mit CoWoS-S)
- 8-Kanal-DDR4, 40 PCIe4-Lanes, integriertes Dual-100GbE
- Durch US-Sanktionen wurde die Belieferung durch TSMC gestoppt, die nächste Generation Kunpeng 930 erschien nicht
- Kunpeng 920B (2024): TaiShan V120-Kerne mit SMT-Unterstützung, pro Die 10 Cluster mit je 4 Kernen (insgesamt 80 Kerne/160 Threads)
- 8-Kanal-DDR5, separates I/O-Die-Layout, Redesign im SMIC-N+2-Prozess (nach 5 Jahren Pause)
-
Kunpeng 950 (2026)
- 192 Kerne der neuen LinxiCore mit SMT-Unterstützung, zusätzlich wird eine kleinere Version mit 96 Kernen produziert
- TaiShan 950 SuperPoD-Rack-Konfiguration: 16 Dual-Socket-Server, bis zu 48 TB DDR5 (vermutlich 12 Kanäle)
- OLTP-Datenbankleistung gegenüber Kunpeng 920B um das 2,9-Fache verbessert (auf Basis von GaussDB Multi-Write)
- Geplante Einführung in Datenbankservern nach Art von Oracle Exadata sowie im chinesischen Finanzsektor
- Produktion vermutlich im SMIC-N+3-Prozess
-
Kunpeng 960 (Roadmap 2028)
- High-Performance-Version: 96 Kerne/192 Threads, für AI-Head-Nodes und Datenbanken, Leistung pro Kern um mehr als 50 % gesteigert
- High-Density-Version: mehr als 256 Kerne für Virtualisierung und Cloud
- Im chinesischen CPU-Markt für Hyperscaler wird ein erheblicher Marktanteil erwartet
Noch keine Kommentare.