4 Punkte von GN⁺ 2025-08-26 | 1 Kommentare | Auf WhatsApp teilen
  • Flüssigkeitskühlung verbreitet sich rasant, um die Abwärmeprobleme von Hochleistungschips in Rechenzentren zu lösen
  • Mit einer etwa 4.000-mal höheren Wärmeleitfähigkeit als Luft setzt Google sie aktiv ein, insbesondere um den durch den AI-Boom gestiegenen Kühlbedarf für TPUs zu decken
  • Google betreibt rackbasierte Flüssigkeitskühlkreisläufe auf Basis von CDUs (Coolant Distribution Units) und verbessert damit Wartbarkeit und Skalierbarkeit
  • Techniken wie Split-Flow-Cold-Plates und Bare-Die-Kühlung (TPUv4) aus dem High-Performance-PC-Markt werden auf Rechenzentrumsmaßstab übertragen
  • Flüssigkeitskühlung ist mit unter 5 % des Stromverbrauchs von Lüftern effizient; gegen Probleme wie Lecks oder mikrobielles Wachstum kombiniert Google gründliche Validierung, Benachrichtigungssysteme und vorbeugende Wartung
  • Auch NVIDIA, Rebellions AI und andere setzen auf Flüssigkeitskühlung, wodurch sich der Trend zur Standardisierung der Rechenzentrumskühlung beschleunigt

Notwendigkeit und Hintergrund der Flüssigkeitskühlung

  • Flüssigkeitskühlung ist unter PC-Enthusiasten gut bekannt und hat auch in Unternehmens-Computing-Umgebungen eine lange Geschichte
  • Durch den steigenden Stromverbrauch moderner AI- und Machine-Learning-Workloads hat ihre Bedeutung in Rechenzentren zuletzt stark zugenommen
  • Google hebt hervor, dass die Wärmeleitfähigkeit von Wasser etwa 4.000-mal höher ist als die von Luft, und nutzt dies als Antwort auf die hohe Abwärme aktueller Chips
  • Auf der Hot Chips 2025 stellte Google einen rechenzentrumsweiten Ansatz zur Flüssigkeitskühlung für TPUs (Machine-Learning-Beschleuniger) vor

Aufbau von Googles Flüssigkeitskühlsystem

  • Google setzt seit 2018 Flüssigkeitskühlung für TPUs ein und hat das System durch zahlreiche Tests und Verbesserungen weiterentwickelt
  • Die aktuelle Kühllösung ist nicht auf einzelne Server beschränkt, sondern legt einen Flüssigkeitskühlkreislauf über das gesamte Rack
  • Ein Kühlrack besteht aus 6 CDUs (Coolant Distribution Units), die eine ähnliche Rolle wie Radiator-Pumpen-Kombinationen im PC-Bereich übernehmen
  • Flexible Schläuche und Quick-Disconnect-Kupplungen verbessern die Wartungsfreundlichkeit und erhöhen die Toleranz bei der Installation
  • Schon mit 5 von 6 CDUs ist ausreichende Kühlung möglich, sodass für die Wartung einer Einheit kein kompletter Betriebsstopp erforderlich ist

Wärmeaustausch und Chip-Layout

  • Die CDU tauscht nur Wärme zwischen dem internen Kühlmittel und dem externen Versorgungswasser des Rechenzentrums aus; die beiden Flüssigkeiten vermischen sich nicht direkt
  • Das aus der CDU kommende Kühlmittel wird über einen Manifold auf zahlreiche TPU-Server verteilt
  • Die TPU-Chips sind seriell verbunden; das gesamte Kühlbudget wird nach dem Wärmebedarf des letzten Chips im Kreislauf bemessen

Optimierung der Kühltechnik

  • Durch den Einsatz einer Split-Flow-Cold-Plate-Struktur wird eine bessere Kühlleistung als bei herkömmlichen geradlinigen Designs erreicht
  • Zusätzlich kommt Bare-Die-Kühlung zum Einsatz (TPUv4, während frühere TPUv3-Modelle lidded waren), ähnlich dem „Delidding“, das anspruchsvolle PC-Enthusiasten zur Verbesserung der Wärmeübertragung verwenden
  • TPUv4 benötigt diese zusätzliche Kühlmethode, weil seine Leistungsaufnahme 1,6-mal höher ist als bei v3

Energieeffizienz und Wärmetransport

  • Der Stromverbrauch der Flüssigkeitskühlpumpen liegt bei weniger als 5 % des Stromverbrauchs herkömmlicher luftgekühlter Lüfter
  • Googles System setzt auf Water-to-Water-Wärmeaustausch, sodass die eigentliche Kühlleistung größtenteils von den Pumpen erbracht wird
  • In PC-Enthusiasten-Umgebungen bleibt meist die Kombination aus Lüfter und Radiator bestehen, weshalb der Stromvorteil dort nicht so groß ist wie im Rechenzentrum

Wartung, Zuverlässigkeit und Sicherheit

  • Aus Sicht der Wartung bestehen auch im Rechenzentrumsmaßstab die üblichen Risiken wassergekühlter Systeme wie mikrobielles Wachstum oder Leckagen
  • Mit Quick-Disconnect-Fittings, Reserve-CDUs und weiteren Wartungshilfen zielt Google auf unterbrechungsfreie Verwaltung im großen Maßstab ab
  • Durch vorbeugende Wartung, Lecktests, die Erkennung verschiedenster Anomaliesignale und systematische Reaktionsprotokolle sichert Google unternehmensweite Konsistenz und Zuverlässigkeit
  • Das steht im Kontrast zu den oft informellen Wartungspraktiken einzelner PC-Enthusiasten

Branchentrends und der AI-Boom

  • Auch NVIDIA, Rebellions AI und andere präsentierten auf der Hot Chips 2025 verschiedene externe Flüssigkeitskühlsysteme
    • NVIDIA-GB300-Server: externe Flüssigkeitskühlports zusammen mit Lüftern
    • Rebellions AI, ein koreanisches Unternehmen, demonstrierte einen Prototyp seines neuen ML-Beschleunigers REBEL Quad mit einem ähnlichen Ansatz aus Kühler und Chiller
  • Der Anstieg von AI-Workloads dürfte die Nachfrage nach und die Einführung von Flüssigkeitskühlung für Rechenzentren auch künftig weiter beschleunigen

1 Kommentare

 
GN⁺ 2025-08-26
Hacker-News-Kommentare
  • Ich erinnere mich an ein Interview mit dem SVP, der früher den Aufbau von Azure-Rechenzentren leitete. Besonders hängen geblieben ist mir seine Aussage, dass ihm die Arbeit viel leichter fiel, als ihm irgendwann klar wurde, dass er nicht mehr im Computergeschäft tätig war, sondern im industriellen Kühlgeschäft. Beim Lesen dieses Artikels musste ich sofort daran denken.

  • Mainframes (S/3x0, Cray usw.) nutzen seit über 50 Jahren in großem Umfang Wasserkühlung, und auch HPC-Rechenzentren auf Supercomputer-Niveau setzen seit mindestens 20 Jahren auf Flüssigkeitskühlung. Deshalb wirkt es etwas seltsam, das Design eines Rechenzentrums von der Größe Googles mit dem Cooling von PC-Enthusiasten zu vergleichen. Das ist entweder ein Vergessen der Vergangenheit oder ein völlig falscher Vergleich.

    • Dank des Hinweises von bri3d wurde mir klar, dass Googles Fall weniger neuartig ist, als ich zunächst verstanden hatte. Der Innovationspunkt ist nicht „sie verwenden Wasser“, sondern dass die Chiller, die die Server kühlen, außerhalb der Anlage installiert sind. Die meisten Mainframes transportieren die interne Wärme per Wasserkühlung nach außen, wo dann Heat Sinks oder Lüfter die Wärme abführen. Google lässt hingegen Kühlwasser direkt durch jeden Server zirkulieren, mithilfe riesiger Chiller für die gesamte Anlage statt innerhalb des Gebäudes. Das zurückkehrende heiße Wasser wird in Chiller-Türmen wieder abgekühlt. Luftbasierte Kühlung ist damit praktisch vollständig eliminiert, abgesehen von den Chiller-Türmen. Es betrifft nicht nur einige Server oder Racks, sondern das gesamte Rechenzentrum gleichzeitig. Ich frage mich, wie sie Wartung an den Chillern oder Pumpenausfälle handhaben; für unterbrechungsfreien Betrieb dürfte es enorme Redundanz geben. AWS hat ein ähnliches System eingeführt, und die Erklärbilder sind klar, daher lohnt ein Blick darauf: AWS-Artikel zur Flüssigkeitskühlung in Rechenzentren
    • Google hat historisch auf billige Standardhardware gesetzt, daher überrascht mich dieser Wandel nicht. Es ist ähnlich wie bei x86-Servern, die über Jahrzehnte hinweg Mainframe-Funktionen wie Virtualisierung absorbiert haben: zugehöriger Blog
    • Im Artikel hieß es: „Flüssigkeitskühlung ist PC-Enthusiasten vertraut und auch im Enterprise Computing ein altes Konzept.“ Rechenzentren folgten zwar dem Trend zu passiver Kühlung auf Serverebene und höheren Betriebstemperaturen, aber das hier ist ein Beispiel, das diesen Trend deutlich umkehrt. Wahrscheinlich ist Kühlung pro Reihe (per-row cooling) ein Hauptgrund.
    • Es wurde gesagt, dass HPC-Rechenzentren seit über 20 Jahren Flüssigkeitskühlung nutzen, aber war das nicht meist an Teilen wie Rack-Türen angebracht? Erst bei Servern der jüngeren zweiten Generation scheint echte Direct Liquid Cooling (DLC) tatsächlich ins Innere der Server gelangt zu sein. Durch Intels High-End-CPUs wurde das gewissermaßen erzwungen. Die Einführung in bestehende Rechenzentren war schwierig und hat viele Kopfschmerzen bereitet, und wegen leckender Kühl-Bags mussten auch zahlreiche Serviceanfragen gestellt werden (Hersteller nicht offengelegt).
    • Hyperscale-Rechenzentren müssen ihre Leistungsdichte normalerweise nicht maximieren, und höhere Dichte bringt viele Probleme mit sich, die Designer eher vermeiden. Dass moderne HPC-Cluster so stark auf Dichte achten, könnte in Wahrheit die falsche Perspektive sein. Bei ML-Workloads gibt es allerdings den Vorteil, dass physische Nähe die Effizienz der Interconnects verbessert.
  • Theoretisch ist die Kühlung eines Rechenzentrums einfach: CPUs laufen bei 60–70 Grad, draußen liegt die Temperatur meist unter 30 Grad, also „fließt“ die Wärme mit etwas Hilfe von Lüftern und Pumpen von selbst nach unten. Das Problem bei Luftkühlung ist, dass die Mitarbeiter in der Anlage dieselbe Luft atmen müssen, die auch zur Kühlung der Computer verwendet wird. Höhere Kühltemperaturen sind nicht gut für die Gesundheit des Personals. (Wir betreiben Hot Aisles selbst im Winter bei rund 100F und kühlen mit Heat Exchangern für jeweils drei Racks über externes Chillerwasser.) Wenn die Außentemperatur steigt, muss die Kühlflüssigkeit noch heißer werden, um die Wärme überhaupt noch sauber aus dem Gebäude zu bekommen, und dann braucht man zwingend einen Chiller. Bei starker Hitze steigt der Energieverbrauch ebenfalls massiv. Wenn man ein ganzes Rechenzentrum vollständig auf Flüssigkeitskühlung umstellt, könnte man die Temperatur des aus den Racks kommenden Kühlmittels deutlich anheben und vermutlich selbst an den heißesten Tagen ohne Chiller Wärme abführen. Derzeit kühlen wir nur einen Teil flüssig, und die Kühlmitteltemperatur ist durch die Hot-Aisle-Temperatur begrenzt. Schon diese Temperatur fühlt sich ziemlich heiß an.

    • Die Sichtweise „CPU 60–70 Grad, außen unter 30 Grad, also läuft die Wärme einfach von selbst ab“ ist nicht ganz richtig. In der Praxis muss die von der CPU unter Last erzeugte Wärme an die Umgebung abgegeben werden, und wenn die thermische Impedanz zu hoch ist, kann die CPU überhitzen und ausfallen.
    • Ein Supercomputer, den IBM vor 15 Jahren an der ETH Zürich installierte, nutzte 60 Grad heißes Kühlwasser und war über Radiatoren direkt mit dem Warmwassersystem des Gebäudes verbunden: Aquasar-Überblick
    • Ich frage mich, ob irgendwann zur maximalen Kühlungseffizienz die Beschäftigten in Rechenzentren sogar in so etwas wie Hitzeschutzanzügen hineingehen müssen.
  • Im Artikel war die Rede davon, TPU-Chips in Serie zu schalten und das Kühlmittel durch einen Loop zu führen, wobei die Kapazität auf die Temperatur des letzten Chips ausgelegt wird. Wenn vier Chips jeweils 250W abgeben und die Pumpe 1 Liter Wasser pro Minute fördert, dann muss der Auslass gegenüber dem Einlass um 14 Grad heißer sein. Das gilt wegen der spezifischen Wärmekapazität von Wasser unabhängig davon, ob seriell oder parallel.

    • Bei einer Serienschaltung kann die Wärmeübertragung am letzten Chip schlechter sein als bei einer Parallelschaltung, weil das Wasser dort bereits heißer ist als am Anfang. Der Temperaturunterschied ist kleiner, also wird die Wärme langsamer abgeführt.
    • Tatsächlich muss man je nach Serien- oder Parallelaufbau die Flussgeschwindigkeit unterschiedlich berechnen. Aus Engineering-Sicht entsteht dadurch ein realer Unterschied.
    • Wenn der Druck hoch genug ist, sind deutlich mehr als 1 Liter pro Minute Durchfluss möglich. Im Serverbereich liegt die Leistung grob beim Zehnfachen eines Desktop-Systems mit 18W.
    • Bei einer Serienschaltung werden manche Chips „überkühlt“, und wenn man sich am heißesten Chip orientiert, braucht man mehr Kühlmittel.
  • Ich habe nicht mehr dieselben hohen Erwartungen an Googles Infrastruktur wie früher. Weil Google weiterhin Schritte unternimmt, die die Freiheit des Internets verletzen, ist meine Sympathie stark gesunken. Deshalb löst inzwischen auch etwas wie ihr Flüssigkeitskühlsystem bei mir kaum noch Reaktion aus. Je nach Details mag das schwierig sein, aber besonders innovativ wirkt es auf mich nicht. Falls ein Google-Mitarbeiter das liest und sich davon getroffen fühlt: Für mich ist das kein Problem einzelner Personen, sondern von Google selbst. Vielleicht wäre es eine Überlegung wert, coole Arbeit anderswo zu machen.

  • Das erinnert mich an einen interessanten Fall, den ich bei B1M gesehen habe: Das olympische Schwimmbecken in Paris soll durch die Wärme des Internets beheizt werden. YouTube-Video

  • Ich sehe oft Bemerkungen darüber, dass AI Wasser verschwendet, und frage mich, ob das hier auch in diese Richtung geht. Weiß jemand, ob die CDU innerhalb der Anlage Wasser für Verdunstungskühlung nutzt?

    • Die CDU wird innerhalb des Rechenzentrums installiert und überträgt nur Wärme vom Rack-Kühlmittel auf das Facility-Kühlmittel. Draußen gibt es eine Wärmeaustauschanlage, und dabei wird oft Wasser auf Cooling Towers gesprüht, um per Verdunstung zu kühlen. Das variiert zwar von Rechenzentrum zu Rechenzentrum, aber Facility Cooling gibt es immer. Die Diskussion darüber, dass AI Wasser „verschwendet“, ermüdet mich etwas. Wasser wird im Kreislauf nur an die Stelle verschoben, an der es effizienter eingesetzt werden kann. Sinnvoller wäre die Debatte wohl, wenn Wasserkosten und externe Effekte im Markt tatsächlich abgebildet würden. In den USA besteht das Problem darin, dass Wasserpreise, Wasserrechte und der tatsächliche Nutzen von Wasser nicht sauber miteinander verknüpft sind.
    • AWS hat dazu kürzlich ebenfalls einen ähnlichen Artikel veröffentlicht: AWS-Artikel zur Flüssigkeitskühlung in Rechenzentren. Ich habe allerdings noch keine Fallbeschreibung gesehen, in der klar erklärt wird, wie das abgeführte heiße Wasser wieder abgekühlt und erneut verwendet wird. Genau das interessiert mich am meisten.
    • Zu der Frage, dass AI Wasser nutzt, sieht man fast nie konkrete Zahlen oder Gespräche, sondern nur vage Aussagen in der Art, Wasser werde genutzt wie Straßen von Autos genutzt werden. Das erzeugt den Eindruck, Wasser werde tatsächlich verschwendet. Wenn es klare Daten gäbe, müsste man es nicht so vage andeuten. Wenn Wasser wirklich verbraucht wird, dann dadurch, dass es in einen Zustand übergeht, in dem es nicht mehr als Trinkwasser nutzbar ist, als Dampf verschwindet oder in Schlamm und Ähnlichem gebunden und nicht rückgewinnbar wird. Ich würde gern wissen, ob so etwas tatsächlich passiert und ob es wirklich ein Problem ist. Ohne Daten kreisen nur bedeutungslose Zahlen herum, und das ist frustrierend.
    • Dazu gibt es einen passenden Artikel: Texas-AI-Rechenzentren und das Thema Wasserverschwendung
  • Ich frage mich, wie wirtschaftlich Wasserkühlung ist: Ist Flüssigkeitskühlung vorteilhaft geworden, weil Chips teurer sind und deshalb schneller laufen müssen? Oder weil Rechenzentrumsfläche teuer ist und man die Dichte erhöhen muss? Oder weil kürzere Signalwege (1 Fuß = 1 Nanosekunde) die Recheneffizienz entsprechend steigern?

    • Ein erheblicher Teil des gesamten Stromverbrauchs eines Rechenzentrums entfällt auf Kühlung. Schon eine bessere Kühleffizienz senkt direkt die Kosten.
    • Der Einfluss der Kabellänge ist in Wirklichkeit sehr klein. Selbst die besten Interconnect-Fabrics liegen bei Ping-Pong-Zeiten (Request/Response-Roundtrip) im Bereich von 1 Mikrosekunde, und Längenänderungen im Fußbereich entsprechen nur einigen Dutzend Nanosekunden. Selbst wenn man in einem großen Cluster die Dichte verdoppelt, steigt die Signallatenz im Roundtrip nur um etwa 60 Nanosekunden, also weniger als 6 % von 1 Mikrosekunde. Für reale Anwendungen hat das keinen großen Einfluss. Höhere Dichte kann allerdings helfen, mehr Chips direkt über Backplanes oder Kupferstecker zu verbinden.
    • In der Praxis ist es eher eine Mischung aus Grund 2 und 3. Chips werden immer kleiner und verbrauchen immer mehr Strom, also werden sie auch heißer, und die vielen Lüfter verbrauchen zusätzlich wieder mehr Strom. Flüssigkeitskühlung ist Direct Chip-to-Liquid Cooling, wodurch Lüfter, Klimaanlagen und zusätzlicher Umwälzaufwand reduziert werden. Siehe dazu den Artikel von ServeTheHome: Analyse des Stromverbrauchseinflusses von Flüssigkeitskühlung bei Supermicro
    • Bei klassischen Computing-Workloads kenne ich mich nicht gut genug aus, aber bei speicherzentrierten Berechnungen wie mit TPUs halte ich Unterschiede in den Leitungslängen für durchaus wichtig.
    • Die Chips müssen über Ultrafast-Netzwerke verbunden werden, daher ist hohe Dichte wichtig.
  • Theoretisch könnten auch PC-Nutzer ihr Kühlwasser durch den Toilettenspülkasten zirkulieren lassen und so bei jedem Spülen effizient kühlen. Die Zukunft ist genau hier.

  • Ich habe zwischen 2006 und 2012 häufig in Rechenzentren gearbeitet und musste oft spät nachts hinfahren. Rechenzentren sind eine unangenehmere Umgebung, als man denkt. Es wäre schön gewesen, wenn die Kühlung leiser und weniger extrem gewesen wäre. Dass sich Ports und Ähnliches auf der Rückseite befinden, liegt genau daran, dass dort die Luft angesaugt wird. Ich habe mich oft auf die warme Seite gestellt, um mir die Hände zu wärmen.