- Pangu Pro MoE führt eine für Huaweis Ascend-NPU-Umgebung optimierte Mixture-of-Grouped-Experts-(MoGE)-Architektur ein und löst damit das Problem ungleich verteilter Lasten zwischen Experten in verteilten Umgebungen effektiv
- Das Modell ist mit insgesamt 72 Milliarden Parametern ausgelegt, wobei pro Token nur 16 Milliarden Parameter aktiviert werden, was Recheneffizienz und Skalierbarkeit deutlich erhöht
- Die MoGE-Architektur erreicht durch gleichmäßige Verteilung auf verschiedene Expertengruppen und Auswahlregeln perfekte Lastbalance über alle Geräte hinweg und verbessert so Inferenz- und Trainingsgeschwindigkeit
- Leistungsbewertungen zeigen, dass Pangu Pro MoE wichtige Open-Source-Modelle wie GLM-Z1-32B und Qwen3-32B übertrifft und auf den Plattformen Ascend 300I Duo/800I A2 erstklassige Inferenz-Effizienz sowie ein starkes Preis-Leistungs-Verhältnis bietet
- Durch Pre-Training, Fine-Tuning und Reinforcement Learning wurde auf Basis hochwertiger Datensätze eine starke Fähigkeit zu Schlussfolgern und Generalisierung über verschiedene Domänen hinweg erreicht
Überblick
- In großen Sprachmodellen (LLMs) setzt sich zuletzt der Mixture-of-Experts-(MoE)-Ansatz durch, um die Zahl der Modellparameter und die Trainingskapazität zu erhöhen, ohne die Rechenkosten entsprechend ansteigen zu lassen
- Die MoE-Struktur reduziert den Rechenaufwand, indem pro Eingabetoken nur ein Teil der Experten aktiviert wird, in der Praxis tritt jedoch das Phänomen einer ungleichen Expertenauslastung auf, bei dem wiederholt nur einige wenige Experten ausgewählt werden
- Dieses Problem verringert die Effizienz des Gesamtsystems, wenn das Modell auf mehrere Geräte verteilt ist
- Bestehende heuristische Verfahren zum Lastenausgleich bringen nur begrenzte Verbesserungen und sind keine vollständige grundlegende Lösung
Einführung in die Mixture-of-Grouped-Experts-(MoGE)-Architektur
- MoGE implementiert eine gruppenbalancierte Routing-Strategie, bei der Experten in gleich große Gruppen aufgeteilt werden und pro Token aus jeder Gruppe zwingend eine festgelegte Anzahl an Experten aktiviert wird
- Dadurch wird die Arbeit gleichmäßig auf alle Geräte verteilt, und der Imbalance Score (IS) ist konstruktionsbedingt immer 0, womit perfekte Lastbalance erreicht wird
- Für jedes Token berechnet ein globaler Softmax-Router zunächst die Ausgangsscores aller Experten; anschließend werden pro Gruppe nur die Top-K′-Experten ausgewählt, während die Scores nicht ausgewählter Experten auf 0 gesetzt werden
- Diese Struktur maximiert insbesondere bei großen Modellen in verteilten Umgebungen (mehrere zehn bis hundert Milliarden Parameter) die Geschwindigkeit von Inferenz und Training sowie die Ressourcenauslastung
Pangu Pro MoE und Optimierung für die Ascend-Plattform
- Huawei entwickelte Pangu Pro MoE, optimiert für die NPU-Plattformen Ascend 300I Duo und 800I A2 (insgesamt 71,9 Milliarden Parameter, davon 16,5 Milliarden pro Token aktiv)
- Auf Basis umfangreicher Systemsimulationen wurden Modellstruktur sowie verschiedene Hardware-Parameter wie die Parallelisierung über Tensoren/Experten/Pipelines/virtuelle Pipelines angepasst, um die Leistung zu maximieren
- Benutzerdefinierte Rechenkerne (MulAttention, SwiftGMM usw.) wurden an die Eigenschaften von Ascend angepasst, um Speicherzugriffe, Kommunikation und Rechen-Overhead zu reduzieren, Engpässe auf Operator-Ebene zu beseitigen und die Bandbreitenauslastung zu verbessern
- Simulationen zur Optimierung von Batch-Größe und Leistung zeigen unter den gegebenen Einschränkungen den besten Throughput, minimale Latenz und optimale Kommunikationseffizienz
Pre-Training und Design der Trainingsdaten
Datenzusammensetzung
- Es wurde ein groß angelegter hochwertiger Datensatz mit 1,3 Jing (13 Billionen) Tokens auf Basis eines eigenen Tokenizers aufgebaut, gesammelt aus vielfältigen Quellen wie Web, Büchern, Code, STEM, Industrie, Schlussfolgerungsdaten und synthetischen Daten
- Der Tokenizer verwendet eine Strategie mit Fokus auf Domänenbalance, sodass auch spezialisierte Bereiche repräsentativ abgedeckt sind
Trainingsphasen und Strategie
- Das Pre-Training erfolgt in drei Phasen (allgemein, Schlussfolgern, annealing), wobei in jeder Phase Trainingsziele und Daten-Curriculum angepasst werden
- Allgemeine Phase: Erwerb allgemeinen Wissens und sprachlicher Fähigkeiten aus verschiedenen Bereichen
- Schlussfolgerungsphase: maximaler Anteil komplexer Schlussfolgerungsdaten wie STEM, Coding und komplexe Logikprobleme
- Annealing-Phase: zusätzliches Tuning mit hochschwierigen Daten und Daten im Instruction-Stil
- In jeder Phase werden Sequenzlänge, Datenschwierigkeit, Batch-Größe, Lernrate usw. schrittweise angepasst, um Generalisierung und Spezialisierungsfähigkeit des Modells aufzubauen
Datenevaluierung
- Es wird ein modellbasiertes Multi-Domain-Evaluierungssystem mit Pangu-eigenen Modellen betrieben, das jedem Datensatz wichtige Bewertungen wie Sauberkeit, Sprachflüssigkeit, pädagogischen Wert und Informationsreichtum zuweist und diese in Sampling- und Auswahlstrategien einfließen lässt
- Insgesamt wurden 188 Kategorien fein granular annotiert, um Datenverteilung und -eigenschaften zu steuern
Pre-Training-Umgebung und Optimierung
- Pangu Pro MoE wurde auf dem Huawei Ascend 800T A2 trainiert und evaluiert; dieser Chip erreicht FP16 256 TFlops, INT8 512 TOPS Effizienz bei sehr niedriger Leistungsaufnahme von 310 W und bietet damit hohe AI-Leistung und Kosteneffizienz
- Training mit einer einzigen Epoche, AdamW-Optimizer, dreistufigem Cosine-Learning-Rate-Schedule und großem Batch-Setup ermöglicht robuste Generalisierung und Spezialisierung auf Zielaufgaben
Post-Training (nachgelagertes Fine-Tuning und Reinforcement Learning)
Supervised Fine-tuning (SFT)
- Die SFT-Daten werden in die beiden Sets „Schlussfolgern“ und „Nicht-Schlussfolgern“ unterteilt; der Anteil der Schlussfolgerungsdaten wird auf 3:1 erhöht, um komplexe Aufgaben wie Mathematik, Code und logisches Schlussfolgern zu priorisieren
- Mit einer zweistufigen progressiven Optimierungsstrategie (von einfachen Anweisungen über breite Bereiche hin zu komplexem Schlussfolgern) wachsen die schrittweise Schlussfolgerungsfähigkeit und die allgemeine Sprachverarbeitung des Modells ausgewogen
- Während des SFT-Prozesses wird zusätzlich eine Checkpoint-Merging-Strategie eingesetzt, um Modelle aus verschiedenen Zwischenständen effektiv zu integrieren und so Robustheit und Generalisierung zu stärken
Reinforcement Learning (RL)
- In der belohnungsbasierten RL-Phase werden der Group Relative Policy Optimization (GRPO)-Algorithmus und die Zero-Advantage-Mask-Technik, die Samples ohne Belohnungssignal ignoriert, gemeinsam eingesetzt, um Policy-Exploration und effektives Lernen zu unterstützen
- Es wird ein mehrstufiges Belohnungssystem mit Genauigkeit, Präferenz und Hilfsbelohnungen eingeführt; Mathematik- und Coding-Aufgaben werden durch automatisierte Evaluierungssysteme bewertet, Open-Domain-Aufgaben durch ein separates LLM-basiertes Bewertungsmodell (Preference Model)
- Durch Curriculum-Datenmischung wird die Verteilung der Datenkomplexität dynamisch angepasst, um dem Modell kontinuierliche Lernreize zu geben
System- und Infrastruktur-Optimierung
Ascend-NPU-Trainingssystem
- Es kommen aktiv fortgeschrittene Techniken zum Einsatz wie hierarchische und hybride Parallelisierung, EP-All-to-All-Kommunikation, Adaptive Pipeline Overlap und Operator Fusion
- Die Model FLOPs Utilization (MFU) wird um 35 % verbessert, und durch Pipeline- sowie virtuelle Pipeline-Parallelisierung werden Rechen- und Kommunikationslast pro Stufe vollständig verteilt, was Skalierbarkeit und Durchsatz stärkt
- Benutzerdefinierte Kernel, maximale Nutzung der HBM-Bandbreite sowie das Entfernen unnötiger Kommunikations- und Speicher-Overheads treiben die Leistung in allen Phasen von Training und Inferenz auf ein Maximum
- Auch das Inferenzsystem erzielt mit flexibler Parallelisierung pro Modul wie Attention und Experten (H2P-Strategie) sowie maßgeschneiderter Operator-Optimierung für jede Hardware-Struktur beste Ergebnisse bei Throughput und Latenz
Leistung und Benchmarks
- Pangu Pro MoE erreicht in der Ascend-Umgebung eine Inferenzleistung von 1148 bis 1528 Token/s pro Karte und zeigt gegenüber vergleichbaren Parametergrößen (Open dense 32B, 72B) deutlich überlegene Ergebnisse
- Auch beim Cost-to-Performance erzielt es hervorragende Effizienz auf Basis des Ascend 300I Duo
- In verschiedenen externen Benchmarks (Entscheidungsfindung, Logik, Coding, Dokumentenverständnis usw.) übertrifft es große öffentliche Modelle wie GLM-Z1-32B, Qwen3-32B und Gemma3-27B
- Experimentell zeigt sich damit, dass es zu den Spitzenmodellen unterhalb der 100B-Parameter-Klasse gehört
Fazit und Implikationen
- Pangu Pro MoE löst das Problem ungleicher Lastverteilung in verteiltem Training und verteilter Inferenz großer Modelle grundlegend, indem es eine balancierte Expertengruppen-Architektur einsetzt
- Durch plattformspezifische Optimierung für Ascend und umfassende Anstrengungen zur Maximierung der Datenqualität erreicht es ein hochwertiges Gleichgewicht aus Kosten, Geschwindigkeit und Generalisierungsleistung als nächste Generation großer Sprachmodelle
- Es ist zu erwarten, dass diese Architektur und Methodik künftig eine wichtige Referenz für großskalige verteilte LLM-Ökosysteme und vielfältige industrielle Anwendungen wird
1 Kommentare
Hacker-News-Kommentare
Der wirklich spannende Punkt an dieser Architekturankündigung ist die Möglichkeit, dass kleine Entwickler mit günstigen GPUs mit den großen Anbietern konkurrieren könnten. Das deutet letztlich darauf hin, dass Crowdsourcing-basierte offene AI-Entwicklung technisch machbar sein könnte. Tatsächlich wird das in China erforscht, mit dem Ziel, auf ein Niveau zu kommen, das mit monolithischen Modellen konkurrieren kann. Ich war bei den US-Sanktionen anfangs skeptisch, aber wenn das logisch vollständig umsetzbar ist, wäre das wirklich eine enorme Leistung
Die Lizenz verbietet Nutzung und Installation innerhalb der EU, und ich frage mich, ob man eine Lizenz so formulieren kann, dass sie sinngemäß sagt: „Diese Einschränkung dient nur dem Schutz und wird in der Praxis nicht durchgesetzt.“ So eine Formulierung könnte man vielleicht als „isolating clause“ bezeichnen, aber ich bin mir nicht sicher, ob ein Richter das als rechtlich tragfähigen Umweg akzeptieren würde. Das scheint ein ähnlicher Kontext zu sein wie bei der Veröffentlichung der Llama-Gewichte durch Meta. Meiner Meinung nach geht es beim EU-AI-Act im Kern um die Kontrolle konkreter Nutzungen von AI, und die bloße Verteilung von Gewichten und Architektur dürfte nicht darunter fallen. Ein Verbot der Verbreitung würde Europäern praktisch mehr Auswahl und Wettbewerb verschaffen, daher frage ich mich, ob das wirklich rechtlich untersagt ist. Andererseits sollte man aus Sicherheitsgründen vorsichtig sein, wenn man Open Weights installiert, da Backdoors entstehen könnten, also Schwachstellen, mit denen sich ein System über bestimmte Prompts manipulieren lässt. Ich erinnere mich an ein Paper, in dem ein Symbolmuster wie „0?,#2!“ ein LLM in einen Zustand versetzen konnte, in dem jemand versteckte Informationen auslesen konnte, also eine Art Prompt Injection. Ich frage mich auch, ob sich solche Angriffe durch Fine-Tuning oder LoRA verhindern oder abschwächen lassen und ob es nützliche Python-Bibliotheken zur Abwehr gibt. Die Frage ist, ob man geschützt wäre, wenn man das Modell herunterlädt, installiert und dann per Fine-Tuning oder LoRA verändert
Die Gewichte können über gitcode bezogen werden
Wenn LLMs derzeit an eine Skalierungsgrenze stoßen und künftig Effizienz der entscheidende Faktor wird, frage ich mich, ob ein Markt für kleine Modelle entstehen wird, die auf bestimmte Anwendungsfälle fokussiert sind. Tatsächlich ist beim Extrahieren strukturierter Daten aus Bildern mit Gemini das Flash-Modell sehr effektiv. Ich frage mich, wie viel Aufwand es wäre, leichte Modelle zu bauen, die auf kleinen Geräten wie NUCs und AMD-APUs nur einen bestimmten Zweck erfüllen. Ebenso spannend ist die Möglichkeit, dass Mini-Externe-GPU-Sticks für spezifische Anwendungsfälle auftauchen könnten. Kommerziell wäre das vielleicht kein riesiger Markt, aber ziemlich cool wäre es schon
Ich halte Sanktionen nur für eine Übergangslösung. Idealerweise sollen sie Zeit verschaffen, um inländische Fähigkeiten auszubauen, aber stattdessen könnten die Fähigkeiten der USA ausgehöhlt werden, weil Forschungsgelder gekürzt und der Zustrom ausländischer Studierender und Forschender gebremst wird, während China auf einen Wachstumspfad gerät
Diese Nachricht ist schon ein paar Tage alt. Für die Meldung über Tencents Open-Source-Hybrid-AI-Modell siehe TechInAsia, außerdem wurde auch ein GitHub-Link geteilt
Sic transit gloria nvidii (so vergeht der Ruhm von Nvidia)
Ich habe einen chinesischen Freund. Vor sechs Jahren ist er als Gründungsingenieur in ein chinesisches Hardware-Startup eingestiegen. Dann kamen die Sanktionen. Bei einem kürzlichen Treffen sagte er, die Sanktionen seien das Beste gewesen, was ihm je passiert sei. Da chinesische Firmen vor Ort keine Produkte westlicher Herkunft mehr kauften, ist sein Unternehmen stark gewachsen. Inzwischen gelten Sanktionen für alle als etwas völlig Normales, und das Ergebnis ist allein der Fokus auf Eigenständigkeit und Wachstum
Ich frage mich, welche Bedeutung das nach den Sanktionen hat. Bekommt Huawei, dessen Smartphones durch die Sanktionen stark getroffen wurden, nun mit einer eigenen GPU eine Chance zum Gegenschlag? Wie schlägt sich eine solche GPU im Vergleich zu aktuellen westlichen GPUs? Bedeutet das, dass Huawei nun die Fähigkeit hat, diese GPU zu kommerzialisieren?
Damit es Konkurrenz zu TSMC und Nvidia gibt, wäre es weltweit nötig, dass sich Huawei und China beim Node Size als Wettbewerber etablieren