5 Punkte von GN⁺ 2025-10-21 | 5 Kommentare | Auf WhatsApp teilen
  • Das von Alibaba Cloud entwickelte Aegaeon-Pooling-System steigert die GPU-Effizienz um den Faktor 9 und reduziert die für denselben LLM-Dienst benötigte Anzahl an NVIDIA-GPUs um 82 %
  • Das System legt GPUs nicht fest pro Modell auf, sondern virtualisiert sie auf Token-Ebene und plant sie dynamisch aus einem gemeinsamen Pool, sodass mehrere Modelle eine einzelne GPU gleichzeitig nutzen können
  • In einem Echtbetriebstest mit LLMs verschiedener Größen bis 72B Parameter sank die Zahl der GPUs von 1.192 auf 213
  • Auch in einer Umgebung mit begrenzter Verfügbarkeit von H20-GPUs wurde eine stabile Leistung aufrechterhalten und eine 1,5- bis 9-fache Verbesserung der Goodput-Performance gegenüber ServerlessLLM·MuxServe gemessen
  • Die Arbeit wurde bei der ACM Symposium on Operating Systems (SOSP) 2025 in Seoul vorgestellt und dürfte bei globalen Cloud-Unternehmen mit bestehender GPU-Knappheit auf großes Interesse stoßen

Hintergrund des Aegaeon-Pooling-Systems

  • Alibaba Cloud präsentierte das Aegaeon-Pooling-System, das in einem mehrmonatigen Beta-Test im eigenen Model-Studio-Marktplatz eine Reduktion des Nvidia-GPU-Einsatzes um 82 % erreichte
  • Dieses Ergebnis wurde über einen peer-reviewed Artikel vorgestellt, der auf der ACM Symposium on Operating Systems (SOSP) in Seoul 2025 veröffentlicht wurde
  • Die Technik dient dazu, dass Cloud-Anbieter in Umgebungen mit begrenzter Verfügbarkeit moderner GPUs wie der NVIDIA H20 in China ihre vorhandenen Ressourcen bestmöglich ausnutzen können

Aegaeon: Inferenzspezifischer Scheduler zur Maximierung der GPU-Effizienz

  • Aegaeon ist kein System zur Steigerung der Trainingseffizienz von Modellen, sondern ein Scheduler, der dafür ausgelegt ist, die GPU-Ressourcen in der Inference-Phase zu maximieren
    • Während das klassische Design eine feste Zuweisung von 1 GPU pro Modell nutzte, ist Aegaeon so konzipiert, dass es auf Token-Ebene aufgeteilt wird, damit mehrere Modelle dieselbe GPU parallel verwenden können
    • Es steigert den goodput um bis zu dem Faktor 9 und erreicht einen stabilen Durchsatz bei unregelmäßigen LLM-Anfragemustern

Testergebnisse und Einsparungen

  • Ein mehrmonatiger Beta-Test mit Forschern aus der Infrastrukturabteilung von Peking University und Alibaba (inklusive CTO Jingrun Zhou) hat die Leistungsfähigkeit nachgewiesen
    • Während des Testzeitraums wurden 1.192 GPUs auf 213 reduziert, während derselbe LLM-Inferenz-Workload gehalten wurde
    • Auch in einem gleichzeitig laufenden Mehrmodellbetrieb mit Modellen bis zu 72B Parametergröße zeigte das System hohe Effizienz
  • Die Tests wurden auf der Basis der in China nach US-Exportkontrollen legal erhältlichen H20-GPUs durchgeführt
    • Laut der South China Morning Post gilt die H20 derzeit als wichtigster Ersatzbeschleuniger in China

Technische Zusammensetzung: Zwei Kernstrategien

  • 1\. Multi-model packing: Mehrere Modelle werden auf einer GPU gleichzeitig platziert, um die Leerlaufressourcen zwischen Anfragen zu minimieren
  • 2\. Token-level autoscaling: Der Rechenaufwand wird in Echtzeit nach der Anzahl der gerade generierten Ausgabe-Token angepasst, nicht anhand der gesamten Anfrage
    • Dadurch werden unnötige GPU-Reservierungen vermieden und die Kosten-Effizienz pro Throughput maximiert
  • Benchmarking zeigt, dass eine 1,5- bis 9-fache Leistungssteigerung gegenüber ServerlessLLM·MuxServe erreicht wird

Netzwerk- und Stack-Integration

  • In dem Paper werden keine Details zur verwendeten Netzwerkstruktur (basierend auf eRDMA) beschrieben
    • Alibaba ist dafür bekannt, über ein eigenes eRDMA(Elastic RDMA)-basiertes Netzwerk und einen hoch integrierten GPU-Stack zu verfügen
    • Daher ist es möglich, dass diese Ergebnisse stark von einer hochoptimierten, intern integrierten Infrastruktur abhängen

Implikationen

  • Es wird als strategischer Ausweg in chinesischen Märkten mit begrenzter GPU-Beschaffung gesehen, um aus bestehender Chip-Kapazität maximale Effizienz herauszuholen
  • Dieser Ansatz dürfte zukünftig auch als Benchmark-Modell zur Verbesserung der Inferenz-Effizienz für AWS, Google Cloud, Microsoft Azure und andere Hyperscaler dienen
  • Über die Grenzen der GPU-Hardware allein hinaus rückt die Software-gestützte Scheduling- und Virtualisierungstechnologie als neue Säule der KI-Infrastruktur-Wettbewerbsfähigkeit in den Vordergrund

5 Kommentare

 
jjpark78 2025-10-21

Es klingt schon wie das Rauschen fallender NVIDIA-Aktien.

 
jeongsoop 2025-10-21

In solchen Fällen führt eine 80%-Einsparung normalerweise nicht dazu, dass man nur ein Fünftel der GPUs kauft; stattdessen geht man eher den Weg, die fünffache Datenmenge zu verarbeiten.

 
shakespeares 2025-10-21

Ist das wirklich so? Besteht da nicht ein Haken?

 
GN⁺ 2025-10-21
Hacker News Kommentar
  • Alibaba Cloud sagt, dass es den Einsatz der Nvidia GPUs für den Betrieb weniger nachgefragter Modelle um bis zu 82 % reduziert hat. Laut der Studie wurden auf dem Alibaba Cloud Marketplace 17,7 % der GPUs für nur 1,35 % aller Anfragen zugeteilt, und früher wurden dafür 1192 GPUs benötigt, jetzt werden dieselben Anfragen mit 213 GPUs verarbeitet.
    • Ich verstehe nicht genau, wie das genau funktioniert. Ich frage mich, ob das Modell einfach mit auf der GPU geladenem Zustand im Leerlauf auf sie wartet. Ich hatte erwartet, dass solche Workloads üblicherweise dynamisch zugewiesen werden. Natürlich ist es von Vorteil, die Anzahl der Modell-Ladevorgänge zu senken, aber wenn Modell+GPU mehrere Minuten im Leerlauf sind, kann man die Ressourcen auch freigeben. Ich bin, ganz ehrlich, nicht im KI-Bereich tätig und daher daran gewöhnt, Nodes mit SLURM jeweils neu anzufordern.
    • In Abbildung 1(a) des Papers steht, dass die 17,7 % ein Anteil an insgesamt 30.000 GPUs sind (also 5310 GPUs für 1,35 % der Anfragen), und dass diese Reduktion in einer kleinen, exklusiven Beta-Umgebung mit nur 47 Modellen gemessen wurde. Würde man nur nach Modellanzahl hochrechnen und die gesamten 733 „cold“-Modelle berücksichtigen, wären 3321 GPUs nötig, was einer Einsparung von 37,5 % gegenüber zuvor entspricht; bezogen auf den gesamten Cluster mit 30.000 GPUs wären es 6,6 %.
    • In der Vergangenheit sind Software- und Computer-Ingenieure dem Problem frontal begegnet und haben kreativ Algorithmen und Lösungen entworfen. Durch die US-Halbleiterregulierung scheinen chinesische Ingenieure ebenfalls den Weg einzuschlagen, eigenständig zu innovieren und Probleme zu lösen, ähnlich wie es in Silicon Valley früher der Fall war.
  • Der Kern ist, dass nur bei wenigen Modellen wie Alibaba Qwen und DeepSeek viele Inferenzanfragen auftreten, während die übrigen Modelle überwiegend nur sporadisch genutzt werden, weshalb 17,7 % der gesamten GPU-Ressourcen für nur 1,35 % der Anfragen verwendet werden und damit ineffizient sind.
    • Diese übrigen Modelle dürften vermutlich deutlich kleiner sein.
  • Ein besserer Link ist der Tom's Hardware-Artikel, das Paper ist hier einzusehen.
    • Ich habe die obige URL (ursprünglich war es ein SCMP-Artikel) auf diesen Link aktualisiert und den Paper-Link künftig am oberen Rand des Beitrags ergänzen lassen.
  • Der Versuch der USA, die technologische Entwicklung Chinas zu bremsen, war zwar erfolgreich darin, Chinas Nachvollzug desselben Weges zu verhindern, führt aber ironischerweise möglicherweise dazu, dass China auf anderem Wege innoviert. Wenn chinesische Unternehmen diese Innovation open source machen, könnte das insgesamt zu höherer Effizienz und Fortschritt führen, und langfristig könnte man der amerikanischen „Zivilisations-Gatekeeping“-Politik sogar dankbar sein.
    • Historisch betrachtet erreicht China innerhalb weniger Jahre die Technik, obwohl sie blockiert wird, oder macht etwas sogar Besseres. Aus westlicher Sicht wirkt das oft überheblich, tatsächlich haben chinesische Wissenschaftler und Chinas Fertigungsleistung zu zahlreichen westlichen Produkten einen großen Beitrag geleistet – ohne sie gäbe es vieles nicht. Auch in KI-Forscherlisten ist der Anteil chinesischer Namen hoch.
    • Die anti-immigrantische Stimmung in den USA wird sich meiner Meinung nach als größtes Hindernis für US-Innovation erweisen. Tatsächlich verlassen die Talente, die Innovation erzeugen, das Land. Ohne den Vorteil, weltweit Talente anzuziehen, könnte die USA auf demografischer Ebene ins Hintertreffen geraten. Die Welt sucht sich einen neuen Leader, China hat diese Position zwar noch nicht, aber in einigen Jahren könnte es möglich sein; Chinas Schwäche sehe ich in der fehlenden globalen Ambition und der starken Fokussierung auf die Region (Taiwan/Nord/Südchinesische See).
    • Die USA können Chinas Fortschritt nun nicht mehr aufhalten; selbst im Inland Chinas macht ein Importverbot für Chips die US-Maßnahmen wirkungslos. Zur zugehörigen Meldung (2025: Nvidia-KI-Chip-Bann für China): CNBC-Artikel
    • Das Ganze erinnert mich an Japan nach dem Zweiten Weltkrieg, als unter knappen Ressourcen hocheffiziente Motoren oder leichte Autos entwickelt wurden. Dass den USA oder Teilen Europas diese Beschränkungen fehlten, verstärkte den Unterschied und führte langfristig dazu, dass amerikanische Autos weniger konkurrenzfähig wurden.
    • Ich spreche zwar vom „Bumerang-Effekt“, glaube aber, dass es jetzt schon zu spät ist. 2024 haben die westlichen Labs dominiert, doch 2025 bringt China Modelle wie deepseek, qwen, kimi, glm, ernie und andere nacheinander als state-of-the-art heraus. Nun bringen mehr chinesische Labs als westliche Labs aktuelle Modelle hervor.
  • Ich bin neugierig auf Engineering-/Research-Blogs chinesischer Firmen; früher habe ich viele westliche Unternehmensblogs gelesen, jetzt bin ich an einem Punkt, an dem ich auch Fallstudien außerhalb der FAANG-Seite als Benchmark nutzen möchte.
    • Auf offiziellen Alibaba-Cloud-Blogs tauchen zwar gelegentlich Artikel zu solchen Optimierungsfällen auf, aber oft ist es mit Marketing-Texten vermischt. Außerdem vermute ich, dass es in lokalen Foren viel dazu gibt, was englischsprachige Leser nur schwer erreichen können, Beispiel: Alibaba Cloud-Artikel zur Optimierung großer Kubernetes-Cluster
  • Es wirkt, als würde nur mit sehr kleinen Modellen experimentiert, und ich frage mich, ob das wirklich auf große Modelle skalieren kann.
    • Es sind ja durchweg LLMs, also nicht gerade winzig. In der aktuellen Produktivumgebung laufen über ein 213-H20-GPU-Cluster, verteilt über mehrere Regionen, 28 Modelle mit 1,8–7B (TP=1) und 19 Modelle mit 32–72B (TP=4).
  • Dieses virtuelle GPU-System wirkt wie ein separater Scheduler (Job-Manager); ich frage mich, wie viel Latenz durch Datenbewegung entsteht.
  • Es wäre interessant, ob sich dieser Ansatz auf andere Workloads übertragen lässt.
  • Im Grunde klingt es so, als hätte man einfach überflüssiges Verhalten (ineffiziente Ressourcennutzung) gestoppt.
  • Institutionen mit viel Ressourcen könnten vortrainierte Modelle auf neue Hardware migrieren, um die „NVDA-Tax“ (Kosten durch Nvidias Monopol) zu senken; ich glaube aber, dass Forschung und Modelltraining selbst außerhalb eines reifen NVDA-Ökosystems kaum gelingen.