Alibabacloud reduziert den NVIDIA-GPU-Einsatz mit dem GPU-Pooling-System Aegaeon um 82 %

(tomshardware.com)

5 Punkte von GN⁺ 2025-10-21 | Noch keine Kommentare. | Auf WhatsApp teilen

Das von Alibaba Cloud entwickelte Aegaeon-Pooling-System steigert die GPU-Effizienz um den Faktor 9 und reduziert die für denselben LLM-Dienst benötigte Anzahl an NVIDIA-GPUs um 82 %
Das System legt GPUs nicht fest pro Modell auf, sondern virtualisiert sie auf Token-Ebene und plant sie dynamisch aus einem gemeinsamen Pool, sodass mehrere Modelle eine einzelne GPU gleichzeitig nutzen können
In einem Echtbetriebstest mit LLMs verschiedener Größen bis 72B Parameter sank die Zahl der GPUs von 1.192 auf 213
Auch in einer Umgebung mit begrenzter Verfügbarkeit von H20-GPUs wurde eine stabile Leistung aufrechterhalten und eine 1,5- bis 9-fache Verbesserung der Goodput-Performance gegenüber ServerlessLLM·MuxServe gemessen
Die Arbeit wurde bei der ACM Symposium on Operating Systems (SOSP) 2025 in Seoul vorgestellt und dürfte bei globalen Cloud-Unternehmen mit bestehender GPU-Knappheit auf großes Interesse stoßen

Hintergrund des Aegaeon-Pooling-Systems

Alibaba Cloud präsentierte das Aegaeon-Pooling-System, das in einem mehrmonatigen Beta-Test im eigenen Model-Studio-Marktplatz eine Reduktion des Nvidia-GPU-Einsatzes um 82 % erreichte
Dieses Ergebnis wurde über einen peer-reviewed Artikel vorgestellt, der auf der ACM Symposium on Operating Systems (SOSP) in Seoul 2025 veröffentlicht wurde
Die Technik dient dazu, dass Cloud-Anbieter in Umgebungen mit begrenzter Verfügbarkeit moderner GPUs wie der NVIDIA H20 in China ihre vorhandenen Ressourcen bestmöglich ausnutzen können

Aegaeon ist kein System zur Steigerung der Trainingseffizienz von Modellen, sondern ein Scheduler, der dafür ausgelegt ist, die GPU-Ressourcen in der Inference-Phase zu maximieren
- Während das klassische Design eine feste Zuweisung von 1 GPU pro Modell nutzte, ist Aegaeon so konzipiert, dass es auf Token-Ebene aufgeteilt wird, damit mehrere Modelle dieselbe GPU parallel verwenden können
- Es steigert den goodput um bis zu dem Faktor 9 und erreicht einen stabilen Durchsatz bei unregelmäßigen LLM-Anfragemustern

Ein mehrmonatiger Beta-Test mit Forschern aus der Infrastrukturabteilung von Peking University und Alibaba (inklusive CTO Jingrun Zhou) hat die Leistungsfähigkeit nachgewiesen
- Während des Testzeitraums wurden 1.192 GPUs auf 213 reduziert, während derselbe LLM-Inferenz-Workload gehalten wurde
- Auch in einem gleichzeitig laufenden Mehrmodellbetrieb mit Modellen bis zu 72B Parametergröße zeigte das System hohe Effizienz
Die Tests wurden auf der Basis der in China nach US-Exportkontrollen legal erhältlichen H20-GPUs durchgeführt
- Laut der South China Morning Post gilt die H20 derzeit als wichtigster Ersatzbeschleuniger in China

1\. Multi-model packing: Mehrere Modelle werden auf einer GPU gleichzeitig platziert, um die Leerlaufressourcen zwischen Anfragen zu minimieren
2\. Token-level autoscaling: Der Rechenaufwand wird in Echtzeit nach der Anzahl der gerade generierten Ausgabe-Token angepasst, nicht anhand der gesamten Anfrage
- Dadurch werden unnötige GPU-Reservierungen vermieden und die Kosten-Effizienz pro Throughput maximiert
Benchmarking zeigt, dass eine 1,5- bis 9-fache Leistungssteigerung gegenüber ServerlessLLM·MuxServe erreicht wird

In dem Paper werden keine Details zur verwendeten Netzwerkstruktur (basierend auf eRDMA) beschrieben
- Alibaba ist dafür bekannt, über ein eigenes eRDMA(Elastic RDMA)-basiertes Netzwerk und einen hoch integrierten GPU-Stack zu verfügen
- Daher ist es möglich, dass diese Ergebnisse stark von einer hochoptimierten, intern integrierten Infrastruktur abhängen

Es wird als strategischer Ausweg in chinesischen Märkten mit begrenzter GPU-Beschaffung gesehen, um aus bestehender Chip-Kapazität maximale Effizienz herauszuholen
Dieser Ansatz dürfte zukünftig auch als Benchmark-Modell zur Verbesserung der Inferenz-Effizienz für AWS, Google Cloud, Microsoft Azure und andere Hyperscaler dienen
Über die Grenzen der GPU-Hardware allein hinaus rückt die Software-gestützte Scheduling- und Virtualisierungstechnologie als neue Säule der KI-Infrastruktur-Wettbewerbsfähigkeit in den Vordergrund