Wie man GPUs versteht

(jax-ml.github.io)

6 Punkte von GN⁺ 2025-08-21 | Noch keine Kommentare. | Auf WhatsApp teilen

GPUs spielen im modernen Machine Learning eine zentrale Rolle und bestehen aus einer Struktur, die zahlreiche auf schnelle Matrixmultiplikation spezialisierte Streaming Multiprocessors (SMs) mit HBM (High Bandwidth Memory) kombiniert
Die SMs einer GPU sind in Tensor Cores (Matrixmultiplikation) und CUDA Cores (Vektoroperationen) gegliedert und unterstützen massive Parallelverarbeitung sowie flexible Programmierung
GPU und TPU unterscheiden sich in interner Struktur und Netzwerkaufbau; GPUs bieten eine hohe Allgemeinheit und Skalierbarkeit, erfordern aber mehr Überlegungen, um optimale Leistung zu erreichen
Innerhalb eines Nodes ermöglichen NVLink und NVSwitch ultraschnelle Kommunikation zwischen GPUs, während zwischen Nodes Netzwerke wie InfiniBand große verteilte Trainingsläufe unterstützen
Kollektivoperationen (Collectives) auf GPUs (z. B. AllReduce, AllGather) hängen leistungsmäßig stark von Hardwarestruktur und Netzwerkebene ab und liegen in der Praxis tendenziell unter der theoretischen Bandbreite

Was ist eine GPU?

Moderne ML-(Machine-Learning-)GPUs (z. B. H100, B200) kombinieren Dutzende bis Hunderte auf Matrixmultiplikation spezialisierte Streaming Multiprocessors (SMs) mit schnellem HBM-Speicher
Jeder SM enthält Tensor Cores (Matrixmultiplikation), Warp Scheduler (Vektoroperationen) und SMEM (On-Chip-Cache)
Anders als bei einer TPU ermöglichen GPUs mit mehr als 100 SMs flexiblere und stärker parallelisierte Verarbeitung

Details zur SM-Struktur

Ein SM ist in 4 Subpartitionen unterteilt; jede Subpartition enthält jeweils Tensor Cores, CUDA Cores (Vektoroperationen), Warp Scheduler, Register File usw.
CUDA Cores sind für Vektor-Arithmetik (SIMD/SIMT) zuständig, Tensor Cores sind auf Matrixmultiplikation spezialisiert
Die FLOPs der Tensor Cores sind überwältigend höher, und bei Berechnungen mit niedrigerer Präzision steigt der Durchsatz weiter
Aktuelle GPUs (z. B. B200) verfügen zusätzlich über großes TMEM, um umfangreiche Eingaben für Tensor Cores zu unterstützen

Die Flexibilität der CUDA Cores

Die CUDA Cores einer GPU verwenden das SIMT-Modell (Single Instruction Multiple Threads), bei dem ein Befehl parallel auf viele Threads ausgeführt wird
Jeder Thread besitzt einen eigenen Befehlszeiger (Program Counter) und bietet damit Flexibilität etwa für bedingte Verzweigungen; viele Verzweigungen innerhalb eines Warps führen jedoch zu Leistungseinbußen
Jeder CUDA Core kann seinen Zustand und Speicherzugriffe individuell handhaben (TPUs können nur zusammenhängenden Speicher verarbeiten)

Scheduling/Parallelität

Ein SM plant viele Warps (bis zu 64) zur gleichzeitigen Ausführung ein, wobei jeder Warp Scheduler jeweils ein Programm gleichzeitig ausführt
Diese Struktur ermöglicht GPUs eine hohe Parallelität bei gleichzeitig beträchtlicher Flexibilität

Speicherstruktur der GPU

Bei GPUs ist HBM der größte Speicher; daneben gibt es eine Speicherhierarchie aus L2/L1 (SMEM)/TMEM/Registern

Zusammenfassung aktueller GPU-Spezifikationen

Anzahl der SMs (Streaming Multiprocessors), Takt, Speicher, FLOPs und Bandbreite (BW) unterscheiden sich je nach Modell
Speicherkapazität (HBM), Bandbreite und FLOPs (Floating Point/Ganzzahl/niedrige Präzision) steigen von Generation zu Generation
Wichtige Merkmale aus der Tabelle (ausgelassen): Blackwell (B200) bietet HBM 192GB, HBM-BW 8.0TB/s, FP8-FLOPs 4.5e15 usw.
Der Hardware-Fortschritt zeigt sich klar in jeder Generation, etwa bei Register- und On-Chip-Cache-(SMEM-)Kapazität sowie der Ergänzung von TMEM

GPU/TPU-Vergleich

GPUs sind allgemein einsetzbar und in viele kleine SMs (parallele Einheiten) modularisiert; sie bieten viel Hardwarekontrolle, sind aber schwieriger zu verstehen und zu optimieren
TPUs bestehen aus wenigen großen Tensor Cores und vielen Vektor-ALUs (VPUs); durch die Steuerung über einen einzelnen Thread kann die Hardware einfacher und kostengünstiger sein
Daher ist bei TPUs Compiler-Optimierung unverzichtbar, während GPUs mehrere Kernel unabhängig ausführen können, was die Nutzung erleichtert
Beim Verhältnis von Leistung zu Preis bietet die aktuelle H200-GPU etwa doppelt so viele FLOPs/s wie eine TPU v5p, 1,5-mal so viel HBM, kostet aber etwa 2,5-mal so viel
TPUs verfügen über viel und schnelles VMEM (On-Chip-Cache), was etwa bei der Inferenz von LLMs große Vorteile bringen kann

Kernaussagen aus dem GPU-Hardware-Quiz Q&A

Das H100 hat insgesamt 16.896 fp32-CUDA-Cores (132 SM x 4 x 32), das B200 18.944
Die FLOPs für Vektoroperationen liegen beim H100 bei maximal rund 33,5TFLOPs/s und damit 30-mal unter den Matrixmultiplikations-FLOPs der Tensor Cores (990TFLOPs/s)
Die kombinierte Kapazität von L1/SMEM und Registern im H100 beträgt 66MB, TPU-VMEM 120MB
Das Verhältnis von Bandwidth (Bandbreite) zu FLOPs (theoretische Rechenintensität) liegt bei H100/B200 jeweils bei etwa 280–300 und ist damit ähnlich wie bei TPUs

GPU-Networking (Kommunikationsstruktur)

Node-/Cluster-Struktur

GPU-Nodes sind meist in Gruppen von 8 GPUs aufgebaut und über NVLink (ultraschnell) sowie NVSwitch (Switch) mit voller Bandbreite direkt verbunden
Zwischen Nodes ist Scale-out über InfiniBand (oder Ethernet usw.) möglich
Aktuelle GPUs (Blackwell) unterstützen Architekturen, die sich auf bis zu 72 Nodes erweitern lassen

Merkmale nach Netzwerkebene

Innerhalb eines Nodes (NVLink-Bereich): Egress pro GPU 450GB/s (H100), 900GB/s (B200), bis zu 1,6TB/s pro NVSwitch
Oberhalb des Nodes (InfiniBand Leaf/Spine): Struktur mit Leaf Switches (8) bis Spine Switches (16), wobei theoretisch 400GB/s Full Bandwidth zwischen GPU und GPU erhalten bleiben
In großen Architekturen wie SuperPod mit 1024 GPUs (128 Nodes) oder GB200 (72-GPU-Node) steigt die Bandbreite um das 9-Fache (3600GB/s)

Wichtige Punkte zur Netzwerkleistung

Die theoretische Netzwerkstruktur (Full Fat Tree) ist so ausgelegt, dass auch zwischen Node und Node maximale Bandbreite bereitgestellt wird
Wegen Hardware-Port-Beschränkungen wird bei einer Skalierung auf 1024–4096 GPUs eine mehrstufige Struktur mit zusätzlichen Spine-/Core-Switches verwendet
Der Wechsel von Bandbreite innerhalb des Nodes (450GB/s) zu Bandbreite zwischen Nodes (400GB/s) führt zu Leistungsunterschieden bei Kollektivoperationen

Struktur von Kollektivoperationen (Collectives)

Unterstützung für übergeordnete Kollektivoperationen wie AllGather, AllReduce (Summierung) und AllToAll (Verteilung)
Innerhalb eines Nodes sind über NVLink direkte Verbindungen mit optimaler Leistung möglich (theoretische B/W), zwischen Nodes läuft die Kommunikation über InfiniBand
Verwendet werden Bibliotheken wie NVIDIA NCCL und NVSHMEM

Leistungsanalyse von Kollektivoperationen

AllGather/ReduceScatter: per Ring-Verfahren mit B/W (450GB/s beim H100) implementiert; bei kleinen Nachrichten ist auch ein Tree-Verfahren möglich
AllToAll: Jede GPU sendet direkt an die jeweilige Ziel-GPU; da die Bandbreite durch N geteilt wird, ist es innerhalb eines Nodes theoretisch doppelt so schnell
Tatsächliche Messungen zeigen bei AllReduce etwa 370GB/s und erreichen damit nicht das Hardware-Maximum
Im Vergleich zu TPUs wird die Peak Bandwidth der Hardware erst bei großen Datenmengen (zig MB bis GB) annähernd erreicht

Zusammenfassung und Erkenntnisse

GPUs punkten mit Allgemeinheit und Skalierbarkeit, aber je nach Hardware- und Netzwerkstruktur sind Leistungsoptimierung und Beobachtbarkeit anspruchsvoller als bei TPUs
Networking (Intra-Node/NVLink/InfiniBand/Leaf/Spine usw.) ist entscheidend für die Leistung großer Trainingsläufe; auf die Differenz zwischen realer und theoretischer Bandbreite muss geachtet werden
Das Verständnis von Kollektivoperationen und Netzwerkstrukturen ist ein wesentlicher Faktor für das Training/Serving extrem großer verteilter Modelle
Um Engpässe und optimale Bedingungen zu identifizieren, ist ein Vorgehen erforderlich, das auf praktischen Benchmarks und einem Verständnis der Hardwaredetails basiert

Wie man GPUs versteht

Was ist eine GPU?

Details zur SM-Struktur

Die Flexibilität der CUDA Cores

Scheduling/Parallelität

Speicherstruktur der GPU

Zusammenfassung aktueller GPU-Spezifikationen

GPU/TPU-Vergleich

Kernaussagen aus dem GPU-Hardware-Quiz Q&A

GPU-Networking (Kommunikationsstruktur)

Node-/Cluster-Struktur

Merkmale nach Netzwerkebene

Wichtige Punkte zur Netzwerkleistung

Struktur von Kollektivoperationen (Collectives)

Leistungsanalyse von Kollektivoperationen

Zusammenfassung und Erkenntnisse

Verwandte Beiträge

Noch keine Kommentare.