- Das von Alibaba Cloud entwickelte Aegaeon-Pooling-System steigert die GPU-Effizienz um den Faktor 9 und reduziert die für denselben LLM-Dienst benötigte Anzahl an NVIDIA-GPUs um 82 %
- Das System legt GPUs nicht fest pro Modell auf, sondern virtualisiert sie auf Token-Ebene und plant sie dynamisch aus einem gemeinsamen Pool, sodass mehrere Modelle eine einzelne GPU gleichzeitig nutzen können
- In einem Echtbetriebstest mit LLMs verschiedener Größen bis 72B Parameter sank die Zahl der GPUs von 1.192 auf 213
- Auch in einer Umgebung mit begrenzter Verfügbarkeit von H20-GPUs wurde eine stabile Leistung aufrechterhalten und eine 1,5- bis 9-fache Verbesserung der Goodput-Performance gegenüber ServerlessLLM·MuxServe gemessen
- Die Arbeit wurde bei der ACM Symposium on Operating Systems (SOSP) 2025 in Seoul vorgestellt und dürfte bei globalen Cloud-Unternehmen mit bestehender GPU-Knappheit auf großes Interesse stoßen
Hintergrund des Aegaeon-Pooling-Systems
- Alibaba Cloud präsentierte das Aegaeon-Pooling-System, das in einem mehrmonatigen Beta-Test im eigenen Model-Studio-Marktplatz eine Reduktion des Nvidia-GPU-Einsatzes um 82 % erreichte
- Dieses Ergebnis wurde über einen peer-reviewed Artikel vorgestellt, der auf der ACM Symposium on Operating Systems (SOSP) in Seoul 2025 veröffentlicht wurde
- Die Technik dient dazu, dass Cloud-Anbieter in Umgebungen mit begrenzter Verfügbarkeit moderner GPUs wie der NVIDIA H20 in China ihre vorhandenen Ressourcen bestmöglich ausnutzen können
Aegaeon: Inferenzspezifischer Scheduler zur Maximierung der GPU-Effizienz
- Aegaeon ist kein System zur Steigerung der Trainingseffizienz von Modellen, sondern ein Scheduler, der dafür ausgelegt ist, die GPU-Ressourcen in der Inference-Phase zu maximieren
- Während das klassische Design eine feste Zuweisung von 1 GPU pro Modell nutzte, ist Aegaeon so konzipiert, dass es auf Token-Ebene aufgeteilt wird, damit mehrere Modelle dieselbe GPU parallel verwenden können
- Es steigert den goodput um bis zu dem Faktor 9 und erreicht einen stabilen Durchsatz bei unregelmäßigen LLM-Anfragemustern
Testergebnisse und Einsparungen
- Ein mehrmonatiger Beta-Test mit Forschern aus der Infrastrukturabteilung von Peking University und Alibaba (inklusive CTO Jingrun Zhou) hat die Leistungsfähigkeit nachgewiesen
- Während des Testzeitraums wurden 1.192 GPUs auf 213 reduziert, während derselbe LLM-Inferenz-Workload gehalten wurde
- Auch in einem gleichzeitig laufenden Mehrmodellbetrieb mit Modellen bis zu 72B Parametergröße zeigte das System hohe Effizienz
- Die Tests wurden auf der Basis der in China nach US-Exportkontrollen legal erhältlichen H20-GPUs durchgeführt
- Laut der South China Morning Post gilt die H20 derzeit als wichtigster Ersatzbeschleuniger in China
Technische Zusammensetzung: Zwei Kernstrategien
- 1\. Multi-model packing: Mehrere Modelle werden auf einer GPU gleichzeitig platziert, um die Leerlaufressourcen zwischen Anfragen zu minimieren
- 2\. Token-level autoscaling: Der Rechenaufwand wird in Echtzeit nach der Anzahl der gerade generierten Ausgabe-Token angepasst, nicht anhand der gesamten Anfrage
- Dadurch werden unnötige GPU-Reservierungen vermieden und die Kosten-Effizienz pro Throughput maximiert
- Benchmarking zeigt, dass eine 1,5- bis 9-fache Leistungssteigerung gegenüber ServerlessLLM·MuxServe erreicht wird
Netzwerk- und Stack-Integration
- In dem Paper werden keine Details zur verwendeten Netzwerkstruktur (basierend auf eRDMA) beschrieben
- Alibaba ist dafür bekannt, über ein eigenes eRDMA(Elastic RDMA)-basiertes Netzwerk und einen hoch integrierten GPU-Stack zu verfügen
- Daher ist es möglich, dass diese Ergebnisse stark von einer hochoptimierten, intern integrierten Infrastruktur abhängen
Implikationen
- Es wird als strategischer Ausweg in chinesischen Märkten mit begrenzter GPU-Beschaffung gesehen, um aus bestehender Chip-Kapazität maximale Effizienz herauszuholen
- Dieser Ansatz dürfte zukünftig auch als Benchmark-Modell zur Verbesserung der Inferenz-Effizienz für AWS, Google Cloud, Microsoft Azure und andere Hyperscaler dienen
- Über die Grenzen der GPU-Hardware allein hinaus rückt die Software-gestützte Scheduling- und Virtualisierungstechnologie als neue Säule der KI-Infrastruktur-Wettbewerbsfähigkeit in den Vordergrund
Noch keine Kommentare.