4 Punkte von GN⁺ 2025-08-26 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Flüssigkeitskühlung verbreitet sich rasant, um die Abwärmeprobleme von Hochleistungschips in Rechenzentren zu lösen
  • Mit einer etwa 4.000-mal höheren Wärmeleitfähigkeit als Luft setzt Google sie aktiv ein, insbesondere um den durch den AI-Boom gestiegenen Kühlbedarf für TPUs zu decken
  • Google betreibt rackbasierte Flüssigkeitskühlkreisläufe auf Basis von CDUs (Coolant Distribution Units) und verbessert damit Wartbarkeit und Skalierbarkeit
  • Techniken wie Split-Flow-Cold-Plates und Bare-Die-Kühlung (TPUv4) aus dem High-Performance-PC-Markt werden auf Rechenzentrumsmaßstab übertragen
  • Flüssigkeitskühlung ist mit unter 5 % des Stromverbrauchs von Lüftern effizient; gegen Probleme wie Lecks oder mikrobielles Wachstum kombiniert Google gründliche Validierung, Benachrichtigungssysteme und vorbeugende Wartung
  • Auch NVIDIA, Rebellions AI und andere setzen auf Flüssigkeitskühlung, wodurch sich der Trend zur Standardisierung der Rechenzentrumskühlung beschleunigt

Notwendigkeit und Hintergrund der Flüssigkeitskühlung

  • Flüssigkeitskühlung ist unter PC-Enthusiasten gut bekannt und hat auch in Unternehmens-Computing-Umgebungen eine lange Geschichte
  • Durch den steigenden Stromverbrauch moderner AI- und Machine-Learning-Workloads hat ihre Bedeutung in Rechenzentren zuletzt stark zugenommen
  • Google hebt hervor, dass die Wärmeleitfähigkeit von Wasser etwa 4.000-mal höher ist als die von Luft, und nutzt dies als Antwort auf die hohe Abwärme aktueller Chips
  • Auf der Hot Chips 2025 stellte Google einen rechenzentrumsweiten Ansatz zur Flüssigkeitskühlung für TPUs (Machine-Learning-Beschleuniger) vor

Aufbau von Googles Flüssigkeitskühlsystem

  • Google setzt seit 2018 Flüssigkeitskühlung für TPUs ein und hat das System durch zahlreiche Tests und Verbesserungen weiterentwickelt
  • Die aktuelle Kühllösung ist nicht auf einzelne Server beschränkt, sondern legt einen Flüssigkeitskühlkreislauf über das gesamte Rack
  • Ein Kühlrack besteht aus 6 CDUs (Coolant Distribution Units), die eine ähnliche Rolle wie Radiator-Pumpen-Kombinationen im PC-Bereich übernehmen
  • Flexible Schläuche und Quick-Disconnect-Kupplungen verbessern die Wartungsfreundlichkeit und erhöhen die Toleranz bei der Installation
  • Schon mit 5 von 6 CDUs ist ausreichende Kühlung möglich, sodass für die Wartung einer Einheit kein kompletter Betriebsstopp erforderlich ist

Wärmeaustausch und Chip-Layout

  • Die CDU tauscht nur Wärme zwischen dem internen Kühlmittel und dem externen Versorgungswasser des Rechenzentrums aus; die beiden Flüssigkeiten vermischen sich nicht direkt
  • Das aus der CDU kommende Kühlmittel wird über einen Manifold auf zahlreiche TPU-Server verteilt
  • Die TPU-Chips sind seriell verbunden; das gesamte Kühlbudget wird nach dem Wärmebedarf des letzten Chips im Kreislauf bemessen

Optimierung der Kühltechnik

  • Durch den Einsatz einer Split-Flow-Cold-Plate-Struktur wird eine bessere Kühlleistung als bei herkömmlichen geradlinigen Designs erreicht
  • Zusätzlich kommt Bare-Die-Kühlung zum Einsatz (TPUv4, während frühere TPUv3-Modelle lidded waren), ähnlich dem „Delidding“, das anspruchsvolle PC-Enthusiasten zur Verbesserung der Wärmeübertragung verwenden
  • TPUv4 benötigt diese zusätzliche Kühlmethode, weil seine Leistungsaufnahme 1,6-mal höher ist als bei v3

Energieeffizienz und Wärmetransport

  • Der Stromverbrauch der Flüssigkeitskühlpumpen liegt bei weniger als 5 % des Stromverbrauchs herkömmlicher luftgekühlter Lüfter
  • Googles System setzt auf Water-to-Water-Wärmeaustausch, sodass die eigentliche Kühlleistung größtenteils von den Pumpen erbracht wird
  • In PC-Enthusiasten-Umgebungen bleibt meist die Kombination aus Lüfter und Radiator bestehen, weshalb der Stromvorteil dort nicht so groß ist wie im Rechenzentrum

Wartung, Zuverlässigkeit und Sicherheit

  • Aus Sicht der Wartung bestehen auch im Rechenzentrumsmaßstab die üblichen Risiken wassergekühlter Systeme wie mikrobielles Wachstum oder Leckagen
  • Mit Quick-Disconnect-Fittings, Reserve-CDUs und weiteren Wartungshilfen zielt Google auf unterbrechungsfreie Verwaltung im großen Maßstab ab
  • Durch vorbeugende Wartung, Lecktests, die Erkennung verschiedenster Anomaliesignale und systematische Reaktionsprotokolle sichert Google unternehmensweite Konsistenz und Zuverlässigkeit
  • Das steht im Kontrast zu den oft informellen Wartungspraktiken einzelner PC-Enthusiasten

Branchentrends und der AI-Boom

  • Auch NVIDIA, Rebellions AI und andere präsentierten auf der Hot Chips 2025 verschiedene externe Flüssigkeitskühlsysteme
    • NVIDIA-GB300-Server: externe Flüssigkeitskühlports zusammen mit Lüftern
    • Rebellions AI, ein koreanisches Unternehmen, demonstrierte einen Prototyp seines neuen ML-Beschleunigers REBEL Quad mit einem ähnlichen Ansatz aus Kühler und Chiller
  • Der Anstieg von AI-Workloads dürfte die Nachfrage nach und die Einführung von Flüssigkeitskühlung für Rechenzentren auch künftig weiter beschleunigen

Noch keine Kommentare.

Noch keine Kommentare.