Googles Flüssigkeitskühlung: auf der Hot Chips 2025 vorgestellt
(chipsandcheese.com)- Flüssigkeitskühlung verbreitet sich rasant, um die Abwärmeprobleme von Hochleistungschips in Rechenzentren zu lösen
- Mit einer etwa 4.000-mal höheren Wärmeleitfähigkeit als Luft setzt Google sie aktiv ein, insbesondere um den durch den AI-Boom gestiegenen Kühlbedarf für TPUs zu decken
- Google betreibt rackbasierte Flüssigkeitskühlkreisläufe auf Basis von CDUs (Coolant Distribution Units) und verbessert damit Wartbarkeit und Skalierbarkeit
- Techniken wie Split-Flow-Cold-Plates und Bare-Die-Kühlung (TPUv4) aus dem High-Performance-PC-Markt werden auf Rechenzentrumsmaßstab übertragen
- Flüssigkeitskühlung ist mit unter 5 % des Stromverbrauchs von Lüftern effizient; gegen Probleme wie Lecks oder mikrobielles Wachstum kombiniert Google gründliche Validierung, Benachrichtigungssysteme und vorbeugende Wartung
- Auch NVIDIA, Rebellions AI und andere setzen auf Flüssigkeitskühlung, wodurch sich der Trend zur Standardisierung der Rechenzentrumskühlung beschleunigt
Notwendigkeit und Hintergrund der Flüssigkeitskühlung
- Flüssigkeitskühlung ist unter PC-Enthusiasten gut bekannt und hat auch in Unternehmens-Computing-Umgebungen eine lange Geschichte
- Durch den steigenden Stromverbrauch moderner AI- und Machine-Learning-Workloads hat ihre Bedeutung in Rechenzentren zuletzt stark zugenommen
- Google hebt hervor, dass die Wärmeleitfähigkeit von Wasser etwa 4.000-mal höher ist als die von Luft, und nutzt dies als Antwort auf die hohe Abwärme aktueller Chips
- Auf der Hot Chips 2025 stellte Google einen rechenzentrumsweiten Ansatz zur Flüssigkeitskühlung für TPUs (Machine-Learning-Beschleuniger) vor
Aufbau von Googles Flüssigkeitskühlsystem
- Google setzt seit 2018 Flüssigkeitskühlung für TPUs ein und hat das System durch zahlreiche Tests und Verbesserungen weiterentwickelt
- Die aktuelle Kühllösung ist nicht auf einzelne Server beschränkt, sondern legt einen Flüssigkeitskühlkreislauf über das gesamte Rack
- Ein Kühlrack besteht aus 6 CDUs (Coolant Distribution Units), die eine ähnliche Rolle wie Radiator-Pumpen-Kombinationen im PC-Bereich übernehmen
- Flexible Schläuche und Quick-Disconnect-Kupplungen verbessern die Wartungsfreundlichkeit und erhöhen die Toleranz bei der Installation
- Schon mit 5 von 6 CDUs ist ausreichende Kühlung möglich, sodass für die Wartung einer Einheit kein kompletter Betriebsstopp erforderlich ist
Wärmeaustausch und Chip-Layout
- Die CDU tauscht nur Wärme zwischen dem internen Kühlmittel und dem externen Versorgungswasser des Rechenzentrums aus; die beiden Flüssigkeiten vermischen sich nicht direkt
- Das aus der CDU kommende Kühlmittel wird über einen Manifold auf zahlreiche TPU-Server verteilt
- Die TPU-Chips sind seriell verbunden; das gesamte Kühlbudget wird nach dem Wärmebedarf des letzten Chips im Kreislauf bemessen
Optimierung der Kühltechnik
- Durch den Einsatz einer Split-Flow-Cold-Plate-Struktur wird eine bessere Kühlleistung als bei herkömmlichen geradlinigen Designs erreicht
- Zusätzlich kommt Bare-Die-Kühlung zum Einsatz (TPUv4, während frühere TPUv3-Modelle lidded waren), ähnlich dem „Delidding“, das anspruchsvolle PC-Enthusiasten zur Verbesserung der Wärmeübertragung verwenden
- TPUv4 benötigt diese zusätzliche Kühlmethode, weil seine Leistungsaufnahme 1,6-mal höher ist als bei v3
Energieeffizienz und Wärmetransport
- Der Stromverbrauch der Flüssigkeitskühlpumpen liegt bei weniger als 5 % des Stromverbrauchs herkömmlicher luftgekühlter Lüfter
- Googles System setzt auf Water-to-Water-Wärmeaustausch, sodass die eigentliche Kühlleistung größtenteils von den Pumpen erbracht wird
- In PC-Enthusiasten-Umgebungen bleibt meist die Kombination aus Lüfter und Radiator bestehen, weshalb der Stromvorteil dort nicht so groß ist wie im Rechenzentrum
Wartung, Zuverlässigkeit und Sicherheit
- Aus Sicht der Wartung bestehen auch im Rechenzentrumsmaßstab die üblichen Risiken wassergekühlter Systeme wie mikrobielles Wachstum oder Leckagen
- Mit Quick-Disconnect-Fittings, Reserve-CDUs und weiteren Wartungshilfen zielt Google auf unterbrechungsfreie Verwaltung im großen Maßstab ab
- Durch vorbeugende Wartung, Lecktests, die Erkennung verschiedenster Anomaliesignale und systematische Reaktionsprotokolle sichert Google unternehmensweite Konsistenz und Zuverlässigkeit
- Das steht im Kontrast zu den oft informellen Wartungspraktiken einzelner PC-Enthusiasten
Branchentrends und der AI-Boom
- Auch NVIDIA, Rebellions AI und andere präsentierten auf der Hot Chips 2025 verschiedene externe Flüssigkeitskühlsysteme
- NVIDIA-GB300-Server: externe Flüssigkeitskühlports zusammen mit Lüftern
- Rebellions AI, ein koreanisches Unternehmen, demonstrierte einen Prototyp seines neuen ML-Beschleunigers REBEL Quad mit einem ähnlichen Ansatz aus Kühler und Chiller
- Der Anstieg von AI-Workloads dürfte die Nachfrage nach und die Einführung von Flüssigkeitskühlung für Rechenzentren auch künftig weiter beschleunigen
1 Kommentare
Hacker-News-Kommentare
Ich erinnere mich an ein Interview mit dem SVP, der früher den Aufbau von Azure-Rechenzentren leitete. Besonders hängen geblieben ist mir seine Aussage, dass ihm die Arbeit viel leichter fiel, als ihm irgendwann klar wurde, dass er nicht mehr im Computergeschäft tätig war, sondern im industriellen Kühlgeschäft. Beim Lesen dieses Artikels musste ich sofort daran denken.
Mainframes (S/3x0, Cray usw.) nutzen seit über 50 Jahren in großem Umfang Wasserkühlung, und auch HPC-Rechenzentren auf Supercomputer-Niveau setzen seit mindestens 20 Jahren auf Flüssigkeitskühlung. Deshalb wirkt es etwas seltsam, das Design eines Rechenzentrums von der Größe Googles mit dem Cooling von PC-Enthusiasten zu vergleichen. Das ist entweder ein Vergessen der Vergangenheit oder ein völlig falscher Vergleich.
Theoretisch ist die Kühlung eines Rechenzentrums einfach: CPUs laufen bei 60–70 Grad, draußen liegt die Temperatur meist unter 30 Grad, also „fließt“ die Wärme mit etwas Hilfe von Lüftern und Pumpen von selbst nach unten. Das Problem bei Luftkühlung ist, dass die Mitarbeiter in der Anlage dieselbe Luft atmen müssen, die auch zur Kühlung der Computer verwendet wird. Höhere Kühltemperaturen sind nicht gut für die Gesundheit des Personals. (Wir betreiben Hot Aisles selbst im Winter bei rund 100F und kühlen mit Heat Exchangern für jeweils drei Racks über externes Chillerwasser.) Wenn die Außentemperatur steigt, muss die Kühlflüssigkeit noch heißer werden, um die Wärme überhaupt noch sauber aus dem Gebäude zu bekommen, und dann braucht man zwingend einen Chiller. Bei starker Hitze steigt der Energieverbrauch ebenfalls massiv. Wenn man ein ganzes Rechenzentrum vollständig auf Flüssigkeitskühlung umstellt, könnte man die Temperatur des aus den Racks kommenden Kühlmittels deutlich anheben und vermutlich selbst an den heißesten Tagen ohne Chiller Wärme abführen. Derzeit kühlen wir nur einen Teil flüssig, und die Kühlmitteltemperatur ist durch die Hot-Aisle-Temperatur begrenzt. Schon diese Temperatur fühlt sich ziemlich heiß an.
Im Artikel war die Rede davon, TPU-Chips in Serie zu schalten und das Kühlmittel durch einen Loop zu führen, wobei die Kapazität auf die Temperatur des letzten Chips ausgelegt wird. Wenn vier Chips jeweils 250W abgeben und die Pumpe 1 Liter Wasser pro Minute fördert, dann muss der Auslass gegenüber dem Einlass um 14 Grad heißer sein. Das gilt wegen der spezifischen Wärmekapazität von Wasser unabhängig davon, ob seriell oder parallel.
Ich habe nicht mehr dieselben hohen Erwartungen an Googles Infrastruktur wie früher. Weil Google weiterhin Schritte unternimmt, die die Freiheit des Internets verletzen, ist meine Sympathie stark gesunken. Deshalb löst inzwischen auch etwas wie ihr Flüssigkeitskühlsystem bei mir kaum noch Reaktion aus. Je nach Details mag das schwierig sein, aber besonders innovativ wirkt es auf mich nicht. Falls ein Google-Mitarbeiter das liest und sich davon getroffen fühlt: Für mich ist das kein Problem einzelner Personen, sondern von Google selbst. Vielleicht wäre es eine Überlegung wert, coole Arbeit anderswo zu machen.
Das erinnert mich an einen interessanten Fall, den ich bei B1M gesehen habe: Das olympische Schwimmbecken in Paris soll durch die Wärme des Internets beheizt werden. YouTube-Video
Ich sehe oft Bemerkungen darüber, dass AI Wasser verschwendet, und frage mich, ob das hier auch in diese Richtung geht. Weiß jemand, ob die CDU innerhalb der Anlage Wasser für Verdunstungskühlung nutzt?
Ich frage mich, wie wirtschaftlich Wasserkühlung ist: Ist Flüssigkeitskühlung vorteilhaft geworden, weil Chips teurer sind und deshalb schneller laufen müssen? Oder weil Rechenzentrumsfläche teuer ist und man die Dichte erhöhen muss? Oder weil kürzere Signalwege (1 Fuß = 1 Nanosekunde) die Recheneffizienz entsprechend steigern?
Theoretisch könnten auch PC-Nutzer ihr Kühlwasser durch den Toilettenspülkasten zirkulieren lassen und so bei jedem Spülen effizient kühlen. Die Zukunft ist genau hier.
Ich habe zwischen 2006 und 2012 häufig in Rechenzentren gearbeitet und musste oft spät nachts hinfahren. Rechenzentren sind eine unangenehmere Umgebung, als man denkt. Es wäre schön gewesen, wenn die Kühlung leiser und weniger extrem gewesen wäre. Dass sich Ports und Ähnliches auf der Rückseite befinden, liegt genau daran, dass dort die Luft angesaugt wird. Ich habe mich oft auf die warme Seite gestellt, um mir die Hände zu wärmen.