Googles Flüssigkeitskühlung: auf der Hot Chips 2025 vorgestellt

(chipsandcheese.com)

4 Punkte von GN⁺ 2025-08-26 | Noch keine Kommentare. | Auf WhatsApp teilen

Flüssigkeitskühlung verbreitet sich rasant, um die Abwärmeprobleme von Hochleistungschips in Rechenzentren zu lösen
Mit einer etwa 4.000-mal höheren Wärmeleitfähigkeit als Luft setzt Google sie aktiv ein, insbesondere um den durch den AI-Boom gestiegenen Kühlbedarf für TPUs zu decken
Google betreibt rackbasierte Flüssigkeitskühlkreisläufe auf Basis von CDUs (Coolant Distribution Units) und verbessert damit Wartbarkeit und Skalierbarkeit
Techniken wie Split-Flow-Cold-Plates und Bare-Die-Kühlung (TPUv4) aus dem High-Performance-PC-Markt werden auf Rechenzentrumsmaßstab übertragen
Flüssigkeitskühlung ist mit unter 5 % des Stromverbrauchs von Lüftern effizient; gegen Probleme wie Lecks oder mikrobielles Wachstum kombiniert Google gründliche Validierung, Benachrichtigungssysteme und vorbeugende Wartung
Auch NVIDIA, Rebellions AI und andere setzen auf Flüssigkeitskühlung, wodurch sich der Trend zur Standardisierung der Rechenzentrumskühlung beschleunigt

Notwendigkeit und Hintergrund der Flüssigkeitskühlung

Flüssigkeitskühlung ist unter PC-Enthusiasten gut bekannt und hat auch in Unternehmens-Computing-Umgebungen eine lange Geschichte
Durch den steigenden Stromverbrauch moderner AI- und Machine-Learning-Workloads hat ihre Bedeutung in Rechenzentren zuletzt stark zugenommen
Google hebt hervor, dass die Wärmeleitfähigkeit von Wasser etwa 4.000-mal höher ist als die von Luft, und nutzt dies als Antwort auf die hohe Abwärme aktueller Chips
Auf der Hot Chips 2025 stellte Google einen rechenzentrumsweiten Ansatz zur Flüssigkeitskühlung für TPUs (Machine-Learning-Beschleuniger) vor

Google setzt seit 2018 Flüssigkeitskühlung für TPUs ein und hat das System durch zahlreiche Tests und Verbesserungen weiterentwickelt
Die aktuelle Kühllösung ist nicht auf einzelne Server beschränkt, sondern legt einen Flüssigkeitskühlkreislauf über das gesamte Rack
Ein Kühlrack besteht aus 6 CDUs (Coolant Distribution Units), die eine ähnliche Rolle wie Radiator-Pumpen-Kombinationen im PC-Bereich übernehmen
Flexible Schläuche und Quick-Disconnect-Kupplungen verbessern die Wartungsfreundlichkeit und erhöhen die Toleranz bei der Installation
Schon mit 5 von 6 CDUs ist ausreichende Kühlung möglich, sodass für die Wartung einer Einheit kein kompletter Betriebsstopp erforderlich ist

Die CDU tauscht nur Wärme zwischen dem internen Kühlmittel und dem externen Versorgungswasser des Rechenzentrums aus; die beiden Flüssigkeiten vermischen sich nicht direkt
Das aus der CDU kommende Kühlmittel wird über einen Manifold auf zahlreiche TPU-Server verteilt
Die TPU-Chips sind seriell verbunden; das gesamte Kühlbudget wird nach dem Wärmebedarf des letzten Chips im Kreislauf bemessen

Durch den Einsatz einer Split-Flow-Cold-Plate-Struktur wird eine bessere Kühlleistung als bei herkömmlichen geradlinigen Designs erreicht
Zusätzlich kommt Bare-Die-Kühlung zum Einsatz (TPUv4, während frühere TPUv3-Modelle lidded waren), ähnlich dem „Delidding“, das anspruchsvolle PC-Enthusiasten zur Verbesserung der Wärmeübertragung verwenden
TPUv4 benötigt diese zusätzliche Kühlmethode, weil seine Leistungsaufnahme 1,6-mal höher ist als bei v3

Der Stromverbrauch der Flüssigkeitskühlpumpen liegt bei weniger als 5 % des Stromverbrauchs herkömmlicher luftgekühlter Lüfter
Googles System setzt auf Water-to-Water-Wärmeaustausch, sodass die eigentliche Kühlleistung größtenteils von den Pumpen erbracht wird
In PC-Enthusiasten-Umgebungen bleibt meist die Kombination aus Lüfter und Radiator bestehen, weshalb der Stromvorteil dort nicht so groß ist wie im Rechenzentrum

Aus Sicht der Wartung bestehen auch im Rechenzentrumsmaßstab die üblichen Risiken wassergekühlter Systeme wie mikrobielles Wachstum oder Leckagen
Mit Quick-Disconnect-Fittings, Reserve-CDUs und weiteren Wartungshilfen zielt Google auf unterbrechungsfreie Verwaltung im großen Maßstab ab
Durch vorbeugende Wartung, Lecktests, die Erkennung verschiedenster Anomaliesignale und systematische Reaktionsprotokolle sichert Google unternehmensweite Konsistenz und Zuverlässigkeit
Das steht im Kontrast zu den oft informellen Wartungspraktiken einzelner PC-Enthusiasten

Auch NVIDIA, Rebellions AI und andere präsentierten auf der Hot Chips 2025 verschiedene externe Flüssigkeitskühlsysteme
- NVIDIA-GB300-Server: externe Flüssigkeitskühlports zusammen mit Lüftern
- Rebellions AI, ein koreanisches Unternehmen, demonstrierte einen Prototyp seines neuen ML-Beschleunigers REBEL Quad mit einem ähnlichen Ansatz aus Kühler und Chiller
Der Anstieg von AI-Workloads dürfte die Nachfrage nach und die Einführung von Flüssigkeitskühlung für Rechenzentren auch künftig weiter beschleunigen