5 Punkte von GN⁺ 2025-10-21 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das von Alibaba Cloud entwickelte Aegaeon-Pooling-System steigert die GPU-Effizienz um den Faktor 9 und reduziert die für denselben LLM-Dienst benötigte Anzahl an NVIDIA-GPUs um 82 %
  • Das System legt GPUs nicht fest pro Modell auf, sondern virtualisiert sie auf Token-Ebene und plant sie dynamisch aus einem gemeinsamen Pool, sodass mehrere Modelle eine einzelne GPU gleichzeitig nutzen können
  • In einem Echtbetriebstest mit LLMs verschiedener Größen bis 72B Parameter sank die Zahl der GPUs von 1.192 auf 213
  • Auch in einer Umgebung mit begrenzter Verfügbarkeit von H20-GPUs wurde eine stabile Leistung aufrechterhalten und eine 1,5- bis 9-fache Verbesserung der Goodput-Performance gegenüber ServerlessLLM·MuxServe gemessen
  • Die Arbeit wurde bei der ACM Symposium on Operating Systems (SOSP) 2025 in Seoul vorgestellt und dürfte bei globalen Cloud-Unternehmen mit bestehender GPU-Knappheit auf großes Interesse stoßen

Hintergrund des Aegaeon-Pooling-Systems

  • Alibaba Cloud präsentierte das Aegaeon-Pooling-System, das in einem mehrmonatigen Beta-Test im eigenen Model-Studio-Marktplatz eine Reduktion des Nvidia-GPU-Einsatzes um 82 % erreichte
  • Dieses Ergebnis wurde über einen peer-reviewed Artikel vorgestellt, der auf der ACM Symposium on Operating Systems (SOSP) in Seoul 2025 veröffentlicht wurde
  • Die Technik dient dazu, dass Cloud-Anbieter in Umgebungen mit begrenzter Verfügbarkeit moderner GPUs wie der NVIDIA H20 in China ihre vorhandenen Ressourcen bestmöglich ausnutzen können

Aegaeon: Inferenzspezifischer Scheduler zur Maximierung der GPU-Effizienz

  • Aegaeon ist kein System zur Steigerung der Trainingseffizienz von Modellen, sondern ein Scheduler, der dafür ausgelegt ist, die GPU-Ressourcen in der Inference-Phase zu maximieren
    • Während das klassische Design eine feste Zuweisung von 1 GPU pro Modell nutzte, ist Aegaeon so konzipiert, dass es auf Token-Ebene aufgeteilt wird, damit mehrere Modelle dieselbe GPU parallel verwenden können
    • Es steigert den goodput um bis zu dem Faktor 9 und erreicht einen stabilen Durchsatz bei unregelmäßigen LLM-Anfragemustern

Testergebnisse und Einsparungen

  • Ein mehrmonatiger Beta-Test mit Forschern aus der Infrastrukturabteilung von Peking University und Alibaba (inklusive CTO Jingrun Zhou) hat die Leistungsfähigkeit nachgewiesen
    • Während des Testzeitraums wurden 1.192 GPUs auf 213 reduziert, während derselbe LLM-Inferenz-Workload gehalten wurde
    • Auch in einem gleichzeitig laufenden Mehrmodellbetrieb mit Modellen bis zu 72B Parametergröße zeigte das System hohe Effizienz
  • Die Tests wurden auf der Basis der in China nach US-Exportkontrollen legal erhältlichen H20-GPUs durchgeführt
    • Laut der South China Morning Post gilt die H20 derzeit als wichtigster Ersatzbeschleuniger in China

Technische Zusammensetzung: Zwei Kernstrategien

  • 1\. Multi-model packing: Mehrere Modelle werden auf einer GPU gleichzeitig platziert, um die Leerlaufressourcen zwischen Anfragen zu minimieren
  • 2\. Token-level autoscaling: Der Rechenaufwand wird in Echtzeit nach der Anzahl der gerade generierten Ausgabe-Token angepasst, nicht anhand der gesamten Anfrage
    • Dadurch werden unnötige GPU-Reservierungen vermieden und die Kosten-Effizienz pro Throughput maximiert
  • Benchmarking zeigt, dass eine 1,5- bis 9-fache Leistungssteigerung gegenüber ServerlessLLM·MuxServe erreicht wird

Netzwerk- und Stack-Integration

  • In dem Paper werden keine Details zur verwendeten Netzwerkstruktur (basierend auf eRDMA) beschrieben
    • Alibaba ist dafür bekannt, über ein eigenes eRDMA(Elastic RDMA)-basiertes Netzwerk und einen hoch integrierten GPU-Stack zu verfügen
    • Daher ist es möglich, dass diese Ergebnisse stark von einer hochoptimierten, intern integrierten Infrastruktur abhängen

Implikationen

  • Es wird als strategischer Ausweg in chinesischen Märkten mit begrenzter GPU-Beschaffung gesehen, um aus bestehender Chip-Kapazität maximale Effizienz herauszuholen
  • Dieser Ansatz dürfte zukünftig auch als Benchmark-Modell zur Verbesserung der Inferenz-Effizienz für AWS, Google Cloud, Microsoft Azure und andere Hyperscaler dienen
  • Über die Grenzen der GPU-Hardware allein hinaus rückt die Software-gestützte Scheduling- und Virtualisierungstechnologie als neue Säule der KI-Infrastruktur-Wettbewerbsfähigkeit in den Vordergrund

Noch keine Kommentare.

Noch keine Kommentare.