- Flüssigkeitskühlung verbreitet sich rasant, um die Abwärmeprobleme von Hochleistungschips in Rechenzentren zu lösen
- Mit einer etwa 4.000-mal höheren Wärmeleitfähigkeit als Luft setzt Google sie aktiv ein, insbesondere um den durch den AI-Boom gestiegenen Kühlbedarf für TPUs zu decken
- Google betreibt rackbasierte Flüssigkeitskühlkreisläufe auf Basis von CDUs (Coolant Distribution Units) und verbessert damit Wartbarkeit und Skalierbarkeit
- Techniken wie Split-Flow-Cold-Plates und Bare-Die-Kühlung (TPUv4) aus dem High-Performance-PC-Markt werden auf Rechenzentrumsmaßstab übertragen
- Flüssigkeitskühlung ist mit unter 5 % des Stromverbrauchs von Lüftern effizient; gegen Probleme wie Lecks oder mikrobielles Wachstum kombiniert Google gründliche Validierung, Benachrichtigungssysteme und vorbeugende Wartung
- Auch NVIDIA, Rebellions AI und andere setzen auf Flüssigkeitskühlung, wodurch sich der Trend zur Standardisierung der Rechenzentrumskühlung beschleunigt
Notwendigkeit und Hintergrund der Flüssigkeitskühlung
- Flüssigkeitskühlung ist unter PC-Enthusiasten gut bekannt und hat auch in Unternehmens-Computing-Umgebungen eine lange Geschichte
- Durch den steigenden Stromverbrauch moderner AI- und Machine-Learning-Workloads hat ihre Bedeutung in Rechenzentren zuletzt stark zugenommen
- Google hebt hervor, dass die Wärmeleitfähigkeit von Wasser etwa 4.000-mal höher ist als die von Luft, und nutzt dies als Antwort auf die hohe Abwärme aktueller Chips
- Auf der Hot Chips 2025 stellte Google einen rechenzentrumsweiten Ansatz zur Flüssigkeitskühlung für TPUs (Machine-Learning-Beschleuniger) vor
Aufbau von Googles Flüssigkeitskühlsystem
- Google setzt seit 2018 Flüssigkeitskühlung für TPUs ein und hat das System durch zahlreiche Tests und Verbesserungen weiterentwickelt
- Die aktuelle Kühllösung ist nicht auf einzelne Server beschränkt, sondern legt einen Flüssigkeitskühlkreislauf über das gesamte Rack
- Ein Kühlrack besteht aus 6 CDUs (Coolant Distribution Units), die eine ähnliche Rolle wie Radiator-Pumpen-Kombinationen im PC-Bereich übernehmen
- Flexible Schläuche und Quick-Disconnect-Kupplungen verbessern die Wartungsfreundlichkeit und erhöhen die Toleranz bei der Installation
- Schon mit 5 von 6 CDUs ist ausreichende Kühlung möglich, sodass für die Wartung einer Einheit kein kompletter Betriebsstopp erforderlich ist
Wärmeaustausch und Chip-Layout
- Die CDU tauscht nur Wärme zwischen dem internen Kühlmittel und dem externen Versorgungswasser des Rechenzentrums aus; die beiden Flüssigkeiten vermischen sich nicht direkt
- Das aus der CDU kommende Kühlmittel wird über einen Manifold auf zahlreiche TPU-Server verteilt
- Die TPU-Chips sind seriell verbunden; das gesamte Kühlbudget wird nach dem Wärmebedarf des letzten Chips im Kreislauf bemessen
Optimierung der Kühltechnik
- Durch den Einsatz einer Split-Flow-Cold-Plate-Struktur wird eine bessere Kühlleistung als bei herkömmlichen geradlinigen Designs erreicht
- Zusätzlich kommt Bare-Die-Kühlung zum Einsatz (TPUv4, während frühere TPUv3-Modelle lidded waren), ähnlich dem „Delidding“, das anspruchsvolle PC-Enthusiasten zur Verbesserung der Wärmeübertragung verwenden
- TPUv4 benötigt diese zusätzliche Kühlmethode, weil seine Leistungsaufnahme 1,6-mal höher ist als bei v3
Energieeffizienz und Wärmetransport
- Der Stromverbrauch der Flüssigkeitskühlpumpen liegt bei weniger als 5 % des Stromverbrauchs herkömmlicher luftgekühlter Lüfter
- Googles System setzt auf Water-to-Water-Wärmeaustausch, sodass die eigentliche Kühlleistung größtenteils von den Pumpen erbracht wird
- In PC-Enthusiasten-Umgebungen bleibt meist die Kombination aus Lüfter und Radiator bestehen, weshalb der Stromvorteil dort nicht so groß ist wie im Rechenzentrum
Wartung, Zuverlässigkeit und Sicherheit
- Aus Sicht der Wartung bestehen auch im Rechenzentrumsmaßstab die üblichen Risiken wassergekühlter Systeme wie mikrobielles Wachstum oder Leckagen
- Mit Quick-Disconnect-Fittings, Reserve-CDUs und weiteren Wartungshilfen zielt Google auf unterbrechungsfreie Verwaltung im großen Maßstab ab
- Durch vorbeugende Wartung, Lecktests, die Erkennung verschiedenster Anomaliesignale und systematische Reaktionsprotokolle sichert Google unternehmensweite Konsistenz und Zuverlässigkeit
- Das steht im Kontrast zu den oft informellen Wartungspraktiken einzelner PC-Enthusiasten
Branchentrends und der AI-Boom
- Auch NVIDIA, Rebellions AI und andere präsentierten auf der Hot Chips 2025 verschiedene externe Flüssigkeitskühlsysteme
- NVIDIA-GB300-Server: externe Flüssigkeitskühlports zusammen mit Lüftern
- Rebellions AI, ein koreanisches Unternehmen, demonstrierte einen Prototyp seines neuen ML-Beschleunigers REBEL Quad mit einem ähnlichen Ansatz aus Kühler und Chiller
- Der Anstieg von AI-Workloads dürfte die Nachfrage nach und die Einführung von Flüssigkeitskühlung für Rechenzentren auch künftig weiter beschleunigen
Noch keine Kommentare.