- Mit steigender Leistungsdichte von AI-Servern ist Kühlung zum zentralen Engpass bei Kosten und Wasserverbrauch von Rechenzentren geworden; NVIDIA setzt bei der Rubin-Generation auf ein Design, das Kühlflüssigkeit mit bis zu 45 °C betreibt
- Die AI-Infrastruktur der Rubin-Generation nutzt eine Architektur mit 100 % Flüssigkeitskühlung, die Chips und Netzwerkkomponenten ohne Lüfter kühlt und auf geschlossene Kreisläufe sowie Dry Cooler setzt
- In günstigen Klimazonen lässt sich der Wasserverbrauch herkömmlicher Kühlturm-basierter Systeme von rund 2,6 Millionen Gallonen pro Megawatt und Jahr nahezu auf null senken – bis zu 100 % Einsparung
- Die 45-°C-Kühlflüssigkeit nimmt Wärme vom Chip auf und tritt mit etwa 55 °C aus, bleibt dabei aber innerhalb validierter Betriebsgrenzen; Server sind weniger auf kalte Luft angewiesen
- Vollständige Flüssigkeitskühlung reduziert Lüfter, Kalt-/Warmgänge und den Platzbedarf für Luftkühlungsinfrastruktur, erhöht die Rack-Dichte und senkt damit die Belastung durch Kühlkosten angesichts der wachsenden Nachfrage nach AI-Computing
100 % Flüssigkeitskühlung der Rubin-Generation
- NVIDIAs neueste AI-Server können Kühlflüssigkeit mit bis zu 45 °C, also 113 °F, betreiben
- Die NVIDIA-AI-Infrastruktur der Rubin-Generation erreicht 100 % Flüssigkeitskühlung, bei der alle Chips und Netzwerkkomponenten flüssig gekühlt werden
- Im gesamten System gibt es keine Lüfter
- Die Kühlung erfolgt in einem geschlossenen Kreislauf
- Dieser Ansatz ist Teil des NVIDIA DSX AI Factory Reference Designs, das Best Practices für Design, Aufbau und Betrieb des AI-Factory-Infrastruktur-Stacks enthält
- Während jede Generation die Rechenleistung pro Watt steigert, kann vollständig flüssigkeitsgekühlte AI-Compute-Infrastruktur den Energieverbrauch für Kühlung in Hyperscale-Rechenzentren deutlich senken
Architektur zur Senkung von Wasser- und Stromverbrauch
- Das NVIDIA DSX AI Factory Reference Design zielt auf null Wasserverbrauch ab und soll hohen Stromverbrauch sowie nahezu den gesamten Wasserverbrauch reduzieren
- Ein auf Dry Coolern basierendes Design ist ein geschlossenes Kreislaufsystem und nutzt keine Verdunstungskühlung mit Wasser
- In manchen Klimazonen könnten Chiller nur an etwa 1 % des Jahres erforderlich sein
- Historisch machte Kühlung bis zu 40 % des Stromverbrauchs von Rechenzentren aus
- Branchenschätzungen zufolge senkt eine Erhöhung der Chiller-Anlagentemperatur um 1 °C die Energiekosten für Kühlung um etwa 4 %
- Eine Hyperscale-Anlage der 50-MW-Klasse kann durch den Umstieg auf Flüssigkeitskühlungsinfrastruktur jährlich mehr als 4 Millionen US-Dollar an kühlungsbezogenen Energie- und Wasserkosten einsparen
- In günstigen Klimazonen ermöglicht eine 45-°C-Flüssigkeitskühlungsarchitektur einen Betrieb ohne Chiller und kann den Wasserverbrauch herkömmlicher Kühlturm-basierter Systeme von rund 2,6 Millionen Gallonen pro Megawatt und Jahr nahezu auf null senken
Kalte Rechenzentren sind nicht immer effizient
- In der Branche hielt sich lange die Vorstellung, dass kalte Rechenzentren effizient seien
- Tatsächlich können Chips in deutlich wärmeren Umgebungen arbeiten, als es intuitiv erscheint
- Wenn 45-°C-Kühlflüssigkeit in vollständig flüssigkeitsgekühlte Chips eintritt, nimmt sie an der Chipoberfläche Wärme auf und tritt mit etwa 55 °C wieder aus
- Auch dabei wird die Leistung nicht beeinträchtigt
- Flüssigkeitsgekühlte Cold Plates halten die Gerätetemperatur innerhalb validierter Betriebsgrenzen
- Selbst wenn die Kühlflüssigkeit mit 45 °C ins Rack eintritt, laufen die Prozessoren weiter mit maximaler Leistung
- Da Server nicht auf kalte Luft angewiesen sind, kann die Umgebungslufttemperatur im Rechenzentrum flexibler eingestellt werden
Serverarchitektur mit weniger Lüftern und Kalt-/Warmgängen
- Traditionelle Rechenzentren hängen stark von Lüftergeräuschen und dem Management von Kalt- und Warmgängen ab
- Kühllüfter können die Gesamtlautstärke auf über 85 dB erhöhen
- Dieser Pegel ist so hoch, dass Gehörschutz erforderlich sein kann
- Die Rubin-Architektur verlagert die Kühlung von Luftstrom auf flüssigkeitsbasierte Kreisläufe
- Die Kühlflüssigkeit besteht aus 75 % Wasser und 25 % Propylenglykol
- Diese Kühlflüssigkeit fließt durch Cold Plates, die direkt auf den Prozessoren sitzen, und nimmt die Wärme an der Quelle auf
- Wird die Kühlflüssigkeit mit bis zu 45 °C betrieben, kann der Anlagenkreislauf in vielen Klimazonen Wärme ohne mechanische Chiller und laute Lüfter abführen
- In geeigneten Regionen erfassen Kühlverteilungseinheiten die Wärme an der Quelle und leiten sie an Dry Cooler weiter – große Radiator-Coils außerhalb des Gebäudes
- Der Kreislauf wird einmal befüllt und bleibt über die Lebensdauer der Anlage geschlossen
- Er benötigt in der AI Factory deutlich weniger Platz als traditionelle Luftkühlungsinfrastruktur
Klimabedingungen und Nutzung von Abwärme
- Geografische Bedingungen sind eine wichtige Einschränkung
- Ein Rechenzentrum in den Scottish Highlands und ein Rechenzentrum in Phoenix, Arizona, haben unterschiedliche Kühlungsrealitäten
- Auch in warmen Klimazonen bringt 45-°C-Kühlflüssigkeit den Betrieb näher an einen chillerfreien Zustand
- Chiller müssen möglicherweise nur an wenigen Tagen eingeschaltet werden, wenn es die Außenlufttemperatur erfordert
- Das neue AI-Factory-Modell bietet auch die Möglichkeit zur Abwärmerückgewinnung
- Überschüssige Wärme aus dem Betrieb der AI Factory kann zur Beheizung nahegelegener Gewerbe- oder Wohngebäude wiederverwendet werden
Engineering-Änderungen für vollständige Flüssigkeitskühlung
- Frühere flüssigkeitsgekühlte Server hatten eine Hybridarchitektur
- GPUs und CPUs nutzten Cold Plates
- Der Rest des Systems war auf Lamellenkühlkörper und Luftkühlung angewiesen
- Bei vollständig flüssigkeitsgekühlten Servern musste die Kühlung dieser Komponenten auf eine flüssigkeitsbasierte Methode umgestaltet werden
- NVIDIAs Thermal-Engineering-Team vereinfachte die Versorgung mehrerer Hochleistungschips mit Flüssigkeit
- Flüssigkeit wird über einen einzigen Einlass und Auslass zu mehreren Chips auf dem Board geleitet
- Dadurch entsteht eine sauberere Kühlarchitektur auf Tray-Ebene
- Auch Serverformfaktor und Installationsdichte ändern sich
- Rubin-Server haben statt der perforierten Blende luftgekühlter Server eine saubere, geschlossene Frontplatte
- Vollständig flüssigkeitsgekühlte Server ermöglichen eine höhere Rack-Dichte als luftgekühlte Server
- Ein System, das zuvor 6U belegte, passt nun in 2U und liefert mehr Computing auf weniger Raum und mit weniger Lärm
Skalierung der AI-Infrastruktur und Kühlungseffizienz
- AI-Workloads werden nicht leichter
- Die Computing-Nachfrage, die den Bau von Rechenzentren antreibt, wächst schneller als nahezu jede andere Kategorie von Infrastrukturinvestitionen
- Ohne Effizienzverbesserungen bei der Kühlung von Computing steigen die Energiekosten groß angelegter AI-Operationen zusammen mit der Hardwaremenge
- Flüssigkeitskühlung mit bis zu 45 °C wird zu einem Werkzeug, um die Lücke zwischen Hardware-Skalierung und Kühlkosten zu verringern
1 Kommentare
Hacker-News-Kommentare
Die Bedingung „Regionen, in denen die Außenluft konstant kühl ist“ ist genau der Haken
Das klingt so, als würde man sagen: „Lasst uns Rechenzentren in kalten Gegenden bauen, um Kühlressourcen zu sparen, und die Abwärme einfach komplett an die Umgebung abgeben und sie damit belasten.“
Ich hätte fast gedacht, Nvidia hätte da etwas wirklich Gutes gebaut.
Niedrige Temperaturen, viel leerer Raum, wenige große Umweltkonflikte, und selbst wenn es welche gibt, nicht viele Bürger, die protestieren
Falls man für die Kühlung mehr Wasser braucht, könnte man wohl auch reichlich vom schmelzenden Eis nehmen.
Kostenloses Heizen klingt doch gut
Linus heizt sogar seinen Pool mit überschüssiger CPU-Abwärme
Der Punkt ist, keine Angst davor zu haben, sondern sie klug zu nutzen; AI und Rechenzentren werden bleiben, also kann man die Abwärme lieber monetarisieren, statt dagegen anzukämpfen.
Ich habe nur davon gehört, dass die Abwärme von Kernkraftwerken problematisch wird, wenn Kühlwasser direkt in Flüsse statt ins Meer geleitet wird.
Zum Beispiel für Wohnungsheizung.
Daraus ergibt sich eine interessante Synergie: Fernwärme
45 °C sind zwar nicht besonders hoch, aber auch nicht zu niedrig für ein Fernwärmenetz, und wenn das Rechenzentrum die Wärme kostenlos liefert, wäre das für die lokale Gemeinschaft ein ziemlich gutes Angebot
Der gesellschaftliche Nutzen eines nahegelegenen Rechenzentrums könnte von fast null auf mehrere Millionen Dollar pro Jahr steigen
Der Sommer bleibt zwar ein Problem, aber auch dafür wären interessante Lösungen denkbar
Wenn die Geologie passt, könnte man im Sommer unterirdische Räume aufheizen und im Winter einen Teil dieser Wärme wieder zurückholen
In vielen Klimazonen sind die jährlichen Heizkosten deutlich höher als die Kühlkosten, sofern die Leute nicht dumm mit Oberlichtern umgehen [0]
[0] Als grobe Rechnung gilt: Heiz- und Kühllasten durch Wärmeleitung und Luftaustausch sind proportional zum Temperaturunterschied zwischen innen und außen
Winterliche Außentemperaturen von -10 °F bis 30 °F sind nicht selten, also ein Unterschied von 40 bis 80 °F zu 70 °F Raumtemperatur
Dagegen liegen die sommerlichen Außentemperaturen in solchen Klimazonen nur selten über 95 °F und meist darunter, sodass die Differenz für Kühlung eher bei 15 bis 25 °F liegt
Wärmepumpen arbeiten zudem effizienter, je kleiner der Temperaturunterschied ist
Strahlungsheizung ist noch einmal ein ganz anderes Thema.
Neubauten setzen dabei in der Regel auf Wärmepumpen [1]
Das 75-MW-Rechenzentrum in Mäntsälä versorgt seit zehn Jahren zwei Drittel der Wärmeversorgung der Stadt, also etwa 2.500 Haushalte [2]
Wärmepumpen sind wirklich beeindruckend
Saisonale Wärmespeicherung ist ebenfalls längst im Einsatz; in der Nähe von Espoo gibt es Speicher im Umfang von mehreren Dutzend GWh, und ein neuer Höhlenspeicher mit 90 GWh ist ebenfalls in Arbeit
Ich weiß allerdings nicht, ob diese Systeme miteinander verbunden sind.
Interessant ist auch, dass der Artikel behauptet, dieses technische Problem sei zuvor nie gelöst worden
Google war zuerst dabei, Chips bei höheren Temperaturen als früher zu betreiben, und auch in Consumer-PCs gibt es Wasserkühlung schon sehr lange
Mindestens 30 Jahre
Neu wirkt höchstens, dass alle Chips an einen geschlossenen Kreislauf angeschlossen wurden; wie sie das beim PSU gelöst haben, konnte ich nicht herausfinden.
Und es könnte dann mit unter 45 °C zurückkommen.
Wahrscheinlich auch in den meisten Rechenzentren auf der Nordhalbkugel, wo es kalte Winter gibt.
Vielleicht übersehe ich etwas, aber ich verstehe nicht ganz, worin hier die Innovation liegen soll
Ich sehe schon, dass eine Flüssigkühlung mit höherer Temperatur als üblich verwendet wird, aber ich verstehe nicht, warum das vorher nicht möglich war
Die Vergleiche im Artikel beziehen sich meist auf luftgekühlte Rechenzentren, aber wie sieht der Vergleich mit anderen wassergekühlten Rechenzentren aus
Auch bei früheren Rechenzentrumsdesigns wird doch jemand die erforderlichen Betriebstemperaturen, den Energieverbrauch, die entstehende Wärme usw. berechnet haben
Edit: Ich habe gerade diesen Teil gesehen
„Frühere wassergekühlte Server waren Hybridlösungen. An GPU und CPU waren Cold Plates angebracht, aber der Rest des Systems blieb luftgekühlt, und Kühlkörper mit Lamellen waren darauf ausgelegt, Wärme über bewegte Luft abzuführen. Bei vollständig wassergekühlten Servern musste die Kühlung dieser Komponenten vollständig auf Flüssigkeitsbasis neu entworfen werden.“
Der Rest ist eher Marketing
Cray-Supercomputer nutzten bereits in den 1980er Jahren Fluidkühlung, wobei eine inerte Flüssigkeit durch die gesamte Platine floss
Das noch etwas weiter anzuheben, ist vielleicht nicht wahnsinnig spannend, kann aber immer noch als Innovation gelten
Es gibt einen Zielkonflikt zwischen Kühlkosten und Ausfallrate bzw. Investitionskosten
Solche Bauteile werden leicht heißer als 100°C, daher ist einiges nötig, damit ein Kreislauf bei 55°C stabil bleibt
Die Innovation könnte darin liegen, wie schnell und in welcher Menge Kühlmittel durch die verschiedenen Bereiche des Rechenzentrums gepumpt wird, um die Temperatur zu regeln
Dazu gehört natürlich auch, dass alle Komponenten für ein lüfterloses Design neu entworfen wurden
Wahrscheinlich wurde das möglich, weil Nvidia heute viel stärker vertikal integriert ist als früher
Trotzdem hat sich der moderne Ansatz offenbar in Richtung wasserverbrauchender und wasserabführender Systeme verfestigt
Rechenzentren scheinen, wie andere Industrieanlagen auch, einfach Städte, Countys oder Bundesstaaten zu suchen, in denen sie nach Belieben operieren können, und gewöhnen sich dann daran, als wäre das die einzige mögliche Betriebsweise
Viele Gemeinden haben sich dagegen gewehrt und auf Umweltschäden hingewiesen, wurden aber ignoriert; als technische Spezifikation könnte es hingegen akzeptiert werden
Es heißt „Nvidias 45-Grad-Flüssigkühlungsarchitektur in günstigen Klimazonen …“, und natürlich frage ich mich, was außer Grönland eigentlich mit günstigen Klimazonen gemeint ist
Im Text fehlt viel zu sehr der Zusammenhang zwischen Außentemperatur und Effizienz bzw. Kosten
Selbst eine grobe Erklärung wäre hilfreich gewesen
Das Wetter in Deutschland erreicht durchaus recht hohe Temperaturen, aber laut den Technikverantwortlichen ist aktive Kühlung, also klimaanlagenartige Kühlung, nur bei Temperaturen im oberen 30er-Bereich erforderlich
Die Technik selbst ist ziemlich interessant
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
Um eine Auslauftemperatur von 45°C zu garantieren, müsste die Außenluft grob 37°C oder kühler sein
In den meisten Regionen braucht man für einen Teil der Zeit trotzdem Kühltürme oder Kompressoren, also muss die entsprechende Infrastruktur vollständig gebaut werden
Dennoch kann schon allein die Reduzierung der Nutzung große Mengen Wasser oder Energie sparen
Der Großraum London gilt zum Beispiel als ziemlich mild, aber selbst dort dürfte diese Woche zusätzliche Kühlung nötig gewesen sein
In Rechenzentren hier werden Kühlsysteme so ausgelegt, dass sie auch Außentemperaturen von über 40°C standhalten, und das ist inzwischen keine konservative Annahme mehr
Außerdem könnte die Hardware selbst dann, wenn Nvidia mit 45°C warmem Zulaufwasser zufrieden ist, bei niedrigeren Temperaturen wie 35°C eine längere Lebensdauer haben
GPUs sind teuer, und eine längere Nutzungsdauer kann wertvoller sein als etwas mehr Wasser- oder Energieverbrauch
In der Praxis wird es neben der AI-Rechenhardware wahrscheinlich auch luftgekühlte Systeme wie Storage-Server, zusätzliche CPU-Rechensysteme und Netzwerk-Switches geben
Dafür könnten also separate Bereiche und Kühlsysteme nötig sein
Trotzdem ist es ein großer Fortschritt
Auch nach der Lektüre verstehe ich nicht, warum das ein Durchbruch sein soll
Es wirkt wie derselbe geschlossene Kühlkreislauf, den es bereits in den meisten kommerziellen und industriellen Kühlanwendungen gibt
Laut Artikel kann man bei geeignetem Klima Radiatoren draußen aufstellen, um die Wärme aus einem Wasser/Glykol-Kreislauf abzuführen
Bedeutet das dann nicht, dass man außerhalb der Arktis weiterhin einen Kondensationskreislauf braucht
Übersehe ich etwas
Die Modular Supercomputing Facility des NASA Ames Research Center ist in Bezug auf Strom- und Wasserverbrauch sehr effizient
Die Anlage verwendet keine Klimaanlagen
Die Chips sind wassergekühlt, und soweit ich weiß, ist auch die Eintrittstemperatur des Wassers ziemlich hoch, vermutlich etwa 90°F
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
Verwenden das US-Militär und die NASA inzwischen nicht auch das metrische System?
Für alle, die von dem furchtbaren AI-Stil des Artikels enttäuscht waren, hier die Kurzfassung: Es geht um ein vollständig flüssiggekühltes Rechenzentrumsdesign
Die übliche Art, Server zu kühlen, ist wie bei Desktop-PCs oder Laptops: Man setzt Kühlkörper auf die heiße Hardware und kühlt mit Luft
Je dichter und leistungsfähiger die Hardware wird, desto größere Kühlkörper und desto kältere Luft werden benötigt
Irgendwann lassen sich die Kühlkörper wegen Platzbeschränkungen nicht weiter vergrößern, und wegen Lärm und Effizienz kann man die Luft auch nicht einfach noch schneller durchblasen
Dann setzt man Kühler ein, die Wasser verdunsten, um die Ansaugluft zu kühlen
Hier entsteht der enorme Wasserverbrauch, den wir vermeiden wollen
Der nächste offensichtliche Schritt ist also Flüssigkeitskühlung
Das ist ebenfalls ähnlich wie bei hochwertigen Gaming-Desktops
Im beengten Inneren überträgt man mit einem kleinen Wärmetauscher viel Wärme auf ein flüssiges Medium, und außen kann man die Wärme mit einem riesigen Wärmetauscher abführen, selbst wenn der Temperaturunterschied zwischen Kühlmittel und Außenluft klein ist
In diesem Artikel geht es um ein System, das wirklich alles — CPU, GPU, Speicher und Netzwerk — vollständig flüssigkühlt
Das ist der tatsächlich coole Teil daran
Darüber hinaus ist diese Lösung so optimiert, dass das Kühlmittel mit recht hoher Temperatur betrieben werden kann
Das begrenzt zwar den Wärmestrom auf der Hardware-Seite, erlaubt aber, den äußeren Wärmetauscher „trocken“ zu betreiben, sodass man die Verdampfungsenthalpie von Wasser nicht verschwendet
Im Vergleich zu vielen anderen Verwendungszwecken lag der Wasserverbrauch von Rechenzentren ohnehin schon fast bei null
Es macht mich immer traurig zu sehen, wie viel Aufwand und großes Marketing in das „Lösen“ eines Problems gesteckt werden, das von Anfang an eher ein PR- oder Imageproblem war
Warum ausgerechnet 45°C, und warum Wasserkühlung?
Es wirkt wie eine seltsame Entscheidung, alles auf Raumtemperatur oder leicht gekühlte Luft auszulegen
Wir sind ohnehin schon bei etwa 290K bis 300K, also geht es jetzt darum, dass es auch bei 320K oder 330K noch gut läuft, oder nicht?
Ich habe mich gefragt, warum man nicht einfach für den Betrieb bei etwa 200°C entwirft und freie Kühlung nutzt, bei der man Umgebungsluft einfach hindurchdrückt
Warum sehen Rechenzentren nicht wie Hühnerställe aus?
Schmilzt da irgendetwas?
Treten bei hohen Temperaturen mehr Fehler anderer Art auf?
Es sind Materialien, die schon mit sehr wenig zusätzlicher Energie vom Isolator zum Leiter werden können
Umgekehrt würden gute Isolatoren verbrennen oder zu Plasma werden, bevor sie anfangen zu leiten
Energie ist letztlich Energie, und wenn die Umgebungswärme hoch genug ist, kann sie wegen der kleinen Bandlücke Elektronen auf höhere Orbitale anheben
Das passiert auch bei normalen Umgebungstemperaturen, aber die Elektronen kommen nicht weit und es sind nicht viele
Bei 200°C blockiert ein geschlossenes Gate die Elektronenbewegung nicht mehr ausreichend
Das ist die grob mit den Händen gewedelte technische Erklärung; auf YouTube gibt es bei Project in Flight ein gutes Video, das erklärt, wie Halbleiter funktionieren
Die elektrischen Eigenschaften von Halbleitern ändern sich stark mit der Temperatur
Man bräuchte wahrscheinlich völlig andere Chips und einen völlig anderen Fertigungsprozess