NVIDIA veröffentlicht die H200 Tensor Core GPU

(nvidia.com)

4 Punkte von GN⁺ 2023-11-15 | 1 Kommentare | Auf WhatsApp teilen

Die leistungsstärkste GPU der Welt

Die NVIDIA H200 Tensor Core GPU beschleunigt generative KI- und High-Performance-Computing-(HPC-)Workloads mit leistungsbestimmender Performance und Speicherkapazität.
Als erste GPU mit HBM3e treibt die H200 die Beschleunigung von generativer KI und Large Language Models (LLMs) sowie HPC-Workloads für wissenschaftliches Rechnen voran.

Mehr Leistung auf Basis der NVIDIA Hopper-Architektur

NVIDIA HGX H200 auf Basis der NVIDIA Hopper™-Architektur ist mit der NVIDIA H200 Tensor Core GPU ausgestattet, die über fortschrittlichen Speicher für die Verarbeitung großer Datenmengen verfügt.

Verbesserte Performance in der Praxis

Die Inferenz mit Llama2 70B ist 1,9-mal schneller, die Inferenz mit GPT-3 175B 1,6-mal schneller.
High-Performance Computing ist bis zu 110-mal schneller als mit der CPU.

Höhere Leistung sowie größerer und schnellerer Speicher

Die NVIDIA H200 bietet 141 GB HBM3e-Speicher und eine Speicherbandbreite von 4,8 TB/s, beschleunigt damit generative KI und LLMs, erhöht die Energieeffizienz und senkt die Gesamtbetriebskosten.

Erkenntnisse durch leistungsstarke LLM-Inferenz

KI-Inferenzbeschleuniger müssen bei der Bereitstellung für große Nutzerbasen maximalen Durchsatz und die niedrigsten Gesamtbetriebskosten liefern.
Die H200 bietet bei der Verarbeitung von LLMs bis zu doppelt so hohe Inferenzgeschwindigkeiten wie die H100 GPU.

Beschleunigung von High-Performance Computing

Speicherbandbreite ist für HPC-Anwendungen entscheidend, da sie schnellere Datenübertragungen ermöglicht und komplexe Verarbeitungsengpässe reduziert.
Die hohe Speicherbandbreite der H200 macht Datenzugriff und -manipulation effizienter und ermöglicht Ergebnisse, die bis zu 110-mal schneller sind als mit der CPU.

Senkung von Energieverbrauch und TCO

Mit der Einführung der H200 erreichen Energieeffizienz und TCO ein neues Niveau.
Sie liefert hervorragende Leistung innerhalb desselben Leistungsprofils und bietet damit umweltfreundlichere und wirtschaftlichere Vorteile.

Performance

Die NVIDIA Hopper-Architektur bietet beispiellose Leistungssteigerungen und hebt die Performance-Maßstäbe durch kontinuierliche Softwareverbesserungen für die H100 weiter an.
Die Einführung der H200 setzt diese Leistungssteigerungen fort und sichert durch laufende Verbesserungen der unterstützten Software die aktuelle und künftige Führungsposition bei der Performance.

Bereit für Unternehmen: KI-Software vereinfacht Entwicklung und Bereitstellung

Die NVIDIA H200 zusammen mit NVIDIA AI Enterprise vereinfacht den Aufbau einer KI-fähigen Plattform und beschleunigt die Entwicklung und Bereitstellung von KI wie generativer KI, Computer Vision und Sprach-KI.
Sie bieten Sicherheit, Verwaltbarkeit, Stabilität und Support auf Enterprise-Niveau, damit schneller umsetzbare Erkenntnisse gewonnen und konkreter Geschäftswert schneller erreicht werden können.

Technische Daten der NVIDIA H200 Tensor Core GPU

Formfaktor: H200 SXM
FP64: 34 TFLOPS
FP64 Tensor Core: 67 TFLOPS
FP32: 67 TFLOPS
TF32 Tensor Core: 989 TFLOPS
BFLOAT16 Tensor Core: 1.979 TFLOPS
FP16 Tensor Core: 1.979 TFLOPS
FP8 Tensor Core: 3.958 TFLOPS
INT8 Tensor Core: 3.958 TFLOPS
GPU-Speicher: 141 GB
GPU-Speicherbandbreite: 4,8 TB/s
Decoder: 7 NVDEC
Maximale Thermal Design Power (TDP): bis zu 700 W (konfigurierbar)
Multi-Instance-GPU: bis zu 7 MIGs mit jeweils 16,5 GB

Meinung von GN⁺

Der wichtigste Punkt in diesem Artikel ist, dass NVIDIA mit der H200 Tensor Core GPU die leistungsstärkste GPU der Welt für KI- und HPC-Workloads vorgestellt hat. Es wird erwartet, dass diese GPU nicht nur die Beschleunigung von generativer KI und Large Language Models vorantreibt, sondern auch zur Weiterentwicklung von HPC-Workloads für wissenschaftliches Rechnen beiträgt. Dieser technologische Fortschritt dürfte auch für Softwareingenieurinnen und Softwareingenieure am Anfang ihrer Laufbahn interessant sein und hat das Potenzial, Projekte, an denen sie arbeiten, grundlegend zu verändern. Der fortschrittliche Speicher und die Rechenleistung der H200 ermöglichen schnellere Berechnungen, eine höhere Energieeffizienz und niedrigere TCO, was die Weiterentwicklung in den Bereichen KI und wissenschaftliche Forschung voraussichtlich beschleunigen wird.

1 Kommentare

GN⁺ 2023-11-15

Hacker-News-Kommentare

Der H200-GPU-Die ist identisch mit dem des H100, verwendet aber durchgängig schnellere 24-GB-Speicher-Stacks.

NVIDIAs H200-Beschleuniger basiert auf demselben Silizium wie der H100 141GB, ist also kein neues Silizium, wie die Nvidia-Website andeutet.
Neugier darauf, ob andere Chip-Hersteller NVIDIA im AI-Bereich in den nächsten Jahren einholen oder überholen könnten.

Es wird die Frage aufgeworfen, ob NVIDIAs Führungsposition und Expertise im AI-Bereich in den kommenden Jahren von anderen Chip-Herstellern herausgefordert werden kann oder ob ihr Vorsprung uneinholbar ist.
Die Leistungssteigerungen von NVIDIA in kurzer Zeit sind beeindruckend, zugleich besteht das Bedürfnis nach weiteren Wettbewerbern in diesem Bereich.

Neben dem Eindruck über die Leistungsfortschritte, die NVIDIA in kurzer Zeit erzielt hat, wird die Hoffnung geäußert, dass andere Wettbewerber wie AMD in diesem Markt stärker auftreten.
Frage zu den für Inferenz verwendeten Metriken und ob man auch beim Training ähnliche Leistungssteigerungen erwarten sollte.

Es werden vor allem Leistungsmetriken für die Inferenzphase von AI-Modellen genannt; gefragt wird, ob sich in der Trainingsphase der Modelle ähnliche Leistungssteigerungen zeigen werden.
Frage nach der Positionierung des H200 im Vergleich zum B100, der im selben Jahr erscheint.

Wenn der B100 im selben Jahr erscheint und die doppelte Leistung bietet, stellt sich die Frage nach Rolle und Preis des H200.
Schock über den Preis des H100-GPU und die Frage nach den Kosten für den Einsatz bei persönlichen Experimenten und Hackathons.

Überraschung über den unerwartet hohen Preis des H100-GPU und die Frage, wie teuer der H200 wäre, wenn man ihn für persönliche Experimente und Hackathons nutzen möchte.
Auf Mobilgeräten ist der tatsächlich sichtbare Bildschirmbereich durch Cookie-Banner und Werbebanner stark eingeschränkt.

Es wird darauf hingewiesen, dass im mobilen Umfeld der tatsächlich sichtbare Bereich einer Webseite wegen Cookie-Bannern und Werbebannern nur ein Viertel des Bildschirms ausmacht.
Es gibt keine Erklärung für den Begriff „GPU“, und es fehlt jegliche integrierte Videoausgabe.

Es wird erwähnt, dass die GPU keine integrierte Videoausgabe besitzt.
Bitte um Erklärung, was auf dem Foto zu sehen ist, mit der Bemerkung, es sehe aus wie eine Stadt oder ein Gebäude aus Blade Runner.

Da schwer zu verstehen ist, welche Komponenten auf dem Foto zu sehen sind, wird um eine Erklärung gebeten; zugleich wird der Eindruck geäußert, es erinnere an eine Stadt oder ein Gebäude aus Blade Runner.
Frage, ob die Grenzen der Inferenzgeschwindigkeit auf Speicherbandbreite oder Rechenleistung zurückzuführen sind.

Es wird gefragt, ob der begrenzende Faktor für die Inferenzgeschwindigkeit bei AI-Modellen die Speicherbandbreite oder die Rechenleistung ist.