Huawei veröffentlicht Open-Weight-Modell, das auf Ascend-GPUs trainiert wurde

(arxiv.org)

2 Punkte von GN⁺ 2025-07-03 | 1 Kommentare | Auf WhatsApp teilen

Pangu Pro MoE führt eine für Huaweis Ascend-NPU-Umgebung optimierte Mixture-of-Grouped-Experts-(MoGE)-Architektur ein und löst damit das Problem ungleich verteilter Lasten zwischen Experten in verteilten Umgebungen effektiv
Das Modell ist mit insgesamt 72 Milliarden Parametern ausgelegt, wobei pro Token nur 16 Milliarden Parameter aktiviert werden, was Recheneffizienz und Skalierbarkeit deutlich erhöht
Die MoGE-Architektur erreicht durch gleichmäßige Verteilung auf verschiedene Expertengruppen und Auswahlregeln perfekte Lastbalance über alle Geräte hinweg und verbessert so Inferenz- und Trainingsgeschwindigkeit
Leistungsbewertungen zeigen, dass Pangu Pro MoE wichtige Open-Source-Modelle wie GLM-Z1-32B und Qwen3-32B übertrifft und auf den Plattformen Ascend 300I Duo/800I A2 erstklassige Inferenz-Effizienz sowie ein starkes Preis-Leistungs-Verhältnis bietet
Durch Pre-Training, Fine-Tuning und Reinforcement Learning wurde auf Basis hochwertiger Datensätze eine starke Fähigkeit zu Schlussfolgern und Generalisierung über verschiedene Domänen hinweg erreicht

Überblick

In großen Sprachmodellen (LLMs) setzt sich zuletzt der Mixture-of-Experts-(MoE)-Ansatz durch, um die Zahl der Modellparameter und die Trainingskapazität zu erhöhen, ohne die Rechenkosten entsprechend ansteigen zu lassen
Die MoE-Struktur reduziert den Rechenaufwand, indem pro Eingabetoken nur ein Teil der Experten aktiviert wird, in der Praxis tritt jedoch das Phänomen einer ungleichen Expertenauslastung auf, bei dem wiederholt nur einige wenige Experten ausgewählt werden
Dieses Problem verringert die Effizienz des Gesamtsystems, wenn das Modell auf mehrere Geräte verteilt ist
Bestehende heuristische Verfahren zum Lastenausgleich bringen nur begrenzte Verbesserungen und sind keine vollständige grundlegende Lösung

Einführung in die Mixture-of-Grouped-Experts-(MoGE)-Architektur

MoGE implementiert eine gruppenbalancierte Routing-Strategie, bei der Experten in gleich große Gruppen aufgeteilt werden und pro Token aus jeder Gruppe zwingend eine festgelegte Anzahl an Experten aktiviert wird
Dadurch wird die Arbeit gleichmäßig auf alle Geräte verteilt, und der Imbalance Score (IS) ist konstruktionsbedingt immer 0, womit perfekte Lastbalance erreicht wird
Für jedes Token berechnet ein globaler Softmax-Router zunächst die Ausgangsscores aller Experten; anschließend werden pro Gruppe nur die Top-K′-Experten ausgewählt, während die Scores nicht ausgewählter Experten auf 0 gesetzt werden
Diese Struktur maximiert insbesondere bei großen Modellen in verteilten Umgebungen (mehrere zehn bis hundert Milliarden Parameter) die Geschwindigkeit von Inferenz und Training sowie die Ressourcenauslastung

Pangu Pro MoE und Optimierung für die Ascend-Plattform

Huawei entwickelte Pangu Pro MoE, optimiert für die NPU-Plattformen Ascend 300I Duo und 800I A2 (insgesamt 71,9 Milliarden Parameter, davon 16,5 Milliarden pro Token aktiv)
Auf Basis umfangreicher Systemsimulationen wurden Modellstruktur sowie verschiedene Hardware-Parameter wie die Parallelisierung über Tensoren/Experten/Pipelines/virtuelle Pipelines angepasst, um die Leistung zu maximieren
Benutzerdefinierte Rechenkerne (MulAttention, SwiftGMM usw.) wurden an die Eigenschaften von Ascend angepasst, um Speicherzugriffe, Kommunikation und Rechen-Overhead zu reduzieren, Engpässe auf Operator-Ebene zu beseitigen und die Bandbreitenauslastung zu verbessern
Simulationen zur Optimierung von Batch-Größe und Leistung zeigen unter den gegebenen Einschränkungen den besten Throughput, minimale Latenz und optimale Kommunikationseffizienz

Pre-Training und Design der Trainingsdaten

Datenzusammensetzung

Es wurde ein groß angelegter hochwertiger Datensatz mit 1,3 Jing (13 Billionen) Tokens auf Basis eines eigenen Tokenizers aufgebaut, gesammelt aus vielfältigen Quellen wie Web, Büchern, Code, STEM, Industrie, Schlussfolgerungsdaten und synthetischen Daten
Der Tokenizer verwendet eine Strategie mit Fokus auf Domänenbalance, sodass auch spezialisierte Bereiche repräsentativ abgedeckt sind

Trainingsphasen und Strategie

Das Pre-Training erfolgt in drei Phasen (allgemein, Schlussfolgern, annealing), wobei in jeder Phase Trainingsziele und Daten-Curriculum angepasst werden
- Allgemeine Phase: Erwerb allgemeinen Wissens und sprachlicher Fähigkeiten aus verschiedenen Bereichen
- Schlussfolgerungsphase: maximaler Anteil komplexer Schlussfolgerungsdaten wie STEM, Coding und komplexe Logikprobleme
- Annealing-Phase: zusätzliches Tuning mit hochschwierigen Daten und Daten im Instruction-Stil
In jeder Phase werden Sequenzlänge, Datenschwierigkeit, Batch-Größe, Lernrate usw. schrittweise angepasst, um Generalisierung und Spezialisierungsfähigkeit des Modells aufzubauen

Datenevaluierung

Es wird ein modellbasiertes Multi-Domain-Evaluierungssystem mit Pangu-eigenen Modellen betrieben, das jedem Datensatz wichtige Bewertungen wie Sauberkeit, Sprachflüssigkeit, pädagogischen Wert und Informationsreichtum zuweist und diese in Sampling- und Auswahlstrategien einfließen lässt
Insgesamt wurden 188 Kategorien fein granular annotiert, um Datenverteilung und -eigenschaften zu steuern

Pre-Training-Umgebung und Optimierung

Pangu Pro MoE wurde auf dem Huawei Ascend 800T A2 trainiert und evaluiert; dieser Chip erreicht FP16 256 TFlops, INT8 512 TOPS Effizienz bei sehr niedriger Leistungsaufnahme von 310 W und bietet damit hohe AI-Leistung und Kosteneffizienz
Training mit einer einzigen Epoche, AdamW-Optimizer, dreistufigem Cosine-Learning-Rate-Schedule und großem Batch-Setup ermöglicht robuste Generalisierung und Spezialisierung auf Zielaufgaben

Post-Training (nachgelagertes Fine-Tuning und Reinforcement Learning)

Supervised Fine-tuning (SFT)

Die SFT-Daten werden in die beiden Sets „Schlussfolgern“ und „Nicht-Schlussfolgern“ unterteilt; der Anteil der Schlussfolgerungsdaten wird auf 3:1 erhöht, um komplexe Aufgaben wie Mathematik, Code und logisches Schlussfolgern zu priorisieren
Mit einer zweistufigen progressiven Optimierungsstrategie (von einfachen Anweisungen über breite Bereiche hin zu komplexem Schlussfolgern) wachsen die schrittweise Schlussfolgerungsfähigkeit und die allgemeine Sprachverarbeitung des Modells ausgewogen
Während des SFT-Prozesses wird zusätzlich eine Checkpoint-Merging-Strategie eingesetzt, um Modelle aus verschiedenen Zwischenständen effektiv zu integrieren und so Robustheit und Generalisierung zu stärken

Reinforcement Learning (RL)

In der belohnungsbasierten RL-Phase werden der Group Relative Policy Optimization (GRPO)-Algorithmus und die Zero-Advantage-Mask-Technik, die Samples ohne Belohnungssignal ignoriert, gemeinsam eingesetzt, um Policy-Exploration und effektives Lernen zu unterstützen
Es wird ein mehrstufiges Belohnungssystem mit Genauigkeit, Präferenz und Hilfsbelohnungen eingeführt; Mathematik- und Coding-Aufgaben werden durch automatisierte Evaluierungssysteme bewertet, Open-Domain-Aufgaben durch ein separates LLM-basiertes Bewertungsmodell (Preference Model)
Durch Curriculum-Datenmischung wird die Verteilung der Datenkomplexität dynamisch angepasst, um dem Modell kontinuierliche Lernreize zu geben

System- und Infrastruktur-Optimierung

Ascend-NPU-Trainingssystem

Es kommen aktiv fortgeschrittene Techniken zum Einsatz wie hierarchische und hybride Parallelisierung, EP-All-to-All-Kommunikation, Adaptive Pipeline Overlap und Operator Fusion
Die Model FLOPs Utilization (MFU) wird um 35 % verbessert, und durch Pipeline- sowie virtuelle Pipeline-Parallelisierung werden Rechen- und Kommunikationslast pro Stufe vollständig verteilt, was Skalierbarkeit und Durchsatz stärkt
Benutzerdefinierte Kernel, maximale Nutzung der HBM-Bandbreite sowie das Entfernen unnötiger Kommunikations- und Speicher-Overheads treiben die Leistung in allen Phasen von Training und Inferenz auf ein Maximum
Auch das Inferenzsystem erzielt mit flexibler Parallelisierung pro Modul wie Attention und Experten (H2P-Strategie) sowie maßgeschneiderter Operator-Optimierung für jede Hardware-Struktur beste Ergebnisse bei Throughput und Latenz

Leistung und Benchmarks

Pangu Pro MoE erreicht in der Ascend-Umgebung eine Inferenzleistung von 1148 bis 1528 Token/s pro Karte und zeigt gegenüber vergleichbaren Parametergrößen (Open dense 32B, 72B) deutlich überlegene Ergebnisse
Auch beim Cost-to-Performance erzielt es hervorragende Effizienz auf Basis des Ascend 300I Duo
In verschiedenen externen Benchmarks (Entscheidungsfindung, Logik, Coding, Dokumentenverständnis usw.) übertrifft es große öffentliche Modelle wie GLM-Z1-32B, Qwen3-32B und Gemma3-27B
Experimentell zeigt sich damit, dass es zu den Spitzenmodellen unterhalb der 100B-Parameter-Klasse gehört

Fazit und Implikationen

Pangu Pro MoE löst das Problem ungleicher Lastverteilung in verteiltem Training und verteilter Inferenz großer Modelle grundlegend, indem es eine balancierte Expertengruppen-Architektur einsetzt
Durch plattformspezifische Optimierung für Ascend und umfassende Anstrengungen zur Maximierung der Datenqualität erreicht es ein hochwertiges Gleichgewicht aus Kosten, Geschwindigkeit und Generalisierungsleistung als nächste Generation großer Sprachmodelle
Es ist zu erwarten, dass diese Architektur und Methodik künftig eine wichtige Referenz für großskalige verteilte LLM-Ökosysteme und vielfältige industrielle Anwendungen wird

1 Kommentare

GN⁺ 2025-07-03

Hacker-News-Kommentare

Der wirklich spannende Punkt an dieser Architekturankündigung ist die Möglichkeit, dass kleine Entwickler mit günstigen GPUs mit den großen Anbietern konkurrieren könnten. Das deutet letztlich darauf hin, dass Crowdsourcing-basierte offene AI-Entwicklung technisch machbar sein könnte. Tatsächlich wird das in China erforscht, mit dem Ziel, auf ein Niveau zu kommen, das mit monolithischen Modellen konkurrieren kann. Ich war bei den US-Sanktionen anfangs skeptisch, aber wenn das logisch vollständig umsetzbar ist, wäre das wirklich eine enorme Leistung
- Ich denke, dass Sanktionen tatsächlich in vielerlei Hinsicht die Welt in eine bessere Richtung lenken können, ganz ohne Ironie. Sie fördern verschiedene Verbesserungen wie diversifizierte Recheninfrastruktur und eine breitere Verteilung der Fertigung
- Deepseek-R1 ist bereits auf einem ähnlichen Niveau wie GPT 4.1. Es wird als Open-Weight- und Open-Source-Modell angeboten, und sogar der Inferenzcode ist als Open Source veröffentlicht
- Ich interessiere mich ebenfalls für ein Peer-to-Peer-Open-GPU-Trainingsnetzwerk wie SETI@Home
- Auf die Frage, ob Crowdsourcing-Open-AI technisch möglich sei, wurde als bereits existierendes Beispiel der Link zu PrimeIntellect.ai's Intellect-2 geteilt
- Ich halte das für eine interessante Entwicklung. Ob das aber eine gute Sache ist, hängt meiner Ansicht nach davon ab, ob AI eine existenzielle Bedrohung für das Überleben der Menschheit darstellt. Das mag übertrieben klingen, aber es gibt tatsächlich viele Menschen, die sich damit sehr ernsthaft beschäftigen
Die Lizenz verbietet Nutzung und Installation innerhalb der EU, und ich frage mich, ob man eine Lizenz so formulieren kann, dass sie sinngemäß sagt: „Diese Einschränkung dient nur dem Schutz und wird in der Praxis nicht durchgesetzt.“ So eine Formulierung könnte man vielleicht als „isolating clause“ bezeichnen, aber ich bin mir nicht sicher, ob ein Richter das als rechtlich tragfähigen Umweg akzeptieren würde. Das scheint ein ähnlicher Kontext zu sein wie bei der Veröffentlichung der Llama-Gewichte durch Meta. Meiner Meinung nach geht es beim EU-AI-Act im Kern um die Kontrolle konkreter Nutzungen von AI, und die bloße Verteilung von Gewichten und Architektur dürfte nicht darunter fallen. Ein Verbot der Verbreitung würde Europäern praktisch mehr Auswahl und Wettbewerb verschaffen, daher frage ich mich, ob das wirklich rechtlich untersagt ist. Andererseits sollte man aus Sicherheitsgründen vorsichtig sein, wenn man Open Weights installiert, da Backdoors entstehen könnten, also Schwachstellen, mit denen sich ein System über bestimmte Prompts manipulieren lässt. Ich erinnere mich an ein Paper, in dem ein Symbolmuster wie „0?,#2!“ ein LLM in einen Zustand versetzen konnte, in dem jemand versteckte Informationen auslesen konnte, also eine Art Prompt Injection. Ich frage mich auch, ob sich solche Angriffe durch Fine-Tuning oder LoRA verhindern oder abschwächen lassen und ob es nützliche Python-Bibliotheken zur Abwehr gibt. Die Frage ist, ob man geschützt wäre, wenn man das Modell herunterlädt, installiert und dann per Fine-Tuning oder LoRA verändert
- Huawei hat kein Recht, das Verhalten von EU-Bürgern zu kontrollieren, und eigentlich hätte man solche Einschränkungen gar nicht aufnehmen müssen. Als EU-Bürger sollte man das Gesetz selbst kennen und gefährliche Modelle meiden, um sich zu schützen
- Aus Sicherheitssicht sollte man keinem Code vertrauen, den ein LLM erzeugt; er muss immer überprüft werden
- Als Beispiel für eine Bedingung ähnlich einer „isolating clause“ wurde die Codec-Lizenz der Alliance for Open Media genannt. Der Codec ist lizenzgebührenfrei, aber nach den Lizenzbedingungen wird das Nutzungsrecht entzogen, wenn man Klage in Bezug auf die Nutzung des Formats erhebt
Die Gewichte können über gitcode bezogen werden
- Laut Lizenz sind jedoch Zugriff, Download, Installation, Ausführung, Verbreitung, Integration, Modifikation und jede sonstige Nutzung innerhalb der EU ausdrücklich untersagt. Der entsprechende Lizenzlink ist hier
- Es ist gut, dass statt des Begriffs „Open Source“ die präzisere Bezeichnung „Open Weights“ verwendet wurde. Allerdings frage ich mich, ob Open Weights wirklich so interessant sind. Kann man daraus die Biases eines Modells oder das Fehlen solcher Biases erkennen? Lässt sich das zum Training konkurrierender Modelle nutzen? Ich würde gern die Unterschiede sowie Vor- und Nachteile von Open Source und Open Weights verstehen und auch, ob die Aussage „die Gewichte sind der Quellcode“ im Zeitalter der LLMs überhaupt zutrifft
Wenn LLMs derzeit an eine Skalierungsgrenze stoßen und künftig Effizienz der entscheidende Faktor wird, frage ich mich, ob ein Markt für kleine Modelle entstehen wird, die auf bestimmte Anwendungsfälle fokussiert sind. Tatsächlich ist beim Extrahieren strukturierter Daten aus Bildern mit Gemini das Flash-Modell sehr effektiv. Ich frage mich, wie viel Aufwand es wäre, leichte Modelle zu bauen, die auf kleinen Geräten wie NUCs und AMD-APUs nur einen bestimmten Zweck erfüllen. Ebenso spannend ist die Möglichkeit, dass Mini-Externe-GPU-Sticks für spezifische Anwendungsfälle auftauchen könnten. Kommerziell wäre das vielleicht kein riesiger Markt, aber ziemlich cool wäre es schon
- Das Thema „kleine Modelle mit Fokus auf bestimmte Anwendungsfälle“ ist auf HN bereits eine wichtige Diskussion: "Small language models are the future of agentic AI"
- Bei der Suche nach einem Modell für Named Entity Recognition bin ich auf dslim/bert-base-NER gestoßen. Es hat 108 Millionen Parameter
- Diese Richtung existiert bereits unter dem Namen „Model Distillation“: Ein großes LLM erzeugt Labels, und ein spezialisiertes kleines Modell führt die Inferenz 1000-mal günstiger aus
- Das erinnert an die Zeit, als man ASICs in USB-Ports steckte, um Bitcoin zu minen
Ich halte Sanktionen nur für eine Übergangslösung. Idealerweise sollen sie Zeit verschaffen, um inländische Fähigkeiten auszubauen, aber stattdessen könnten die Fähigkeiten der USA ausgehöhlt werden, weil Forschungsgelder gekürzt und der Zustrom ausländischer Studierender und Forschender gebremst wird, während China auf einen Wachstumspfad gerät
Diese Nachricht ist schon ein paar Tage alt. Für die Meldung über Tencents Open-Source-Hybrid-AI-Modell siehe TechInAsia, außerdem wurde auch ein GitHub-Link geteilt
Sic transit gloria nvidii (so vergeht der Ruhm von Nvidia)
- Kleiner sprachwissenschaftlicher Hinweis: „invidia“ bedeutet auf Latein „Neid“
- Der Moment, in dem sich fünf Jahre Lateinstudium auszahlen
- Kleine Korrektur, aber der Genitiv Singular müsste nvidiae sein. Das i ist eine Endung der o-Deklination
- Sic transit gloria nvidiae wäre die korrekte Form
- Beste Zeile, die ich heute gelesen habe, bravo
Ich habe einen chinesischen Freund. Vor sechs Jahren ist er als Gründungsingenieur in ein chinesisches Hardware-Startup eingestiegen. Dann kamen die Sanktionen. Bei einem kürzlichen Treffen sagte er, die Sanktionen seien das Beste gewesen, was ihm je passiert sei. Da chinesische Firmen vor Ort keine Produkte westlicher Herkunft mehr kauften, ist sein Unternehmen stark gewachsen. Inzwischen gelten Sanktionen für alle als etwas völlig Normales, und das Ergebnis ist allein der Fokus auf Eigenständigkeit und Wachstum
- Die Auswirkungen unterscheiden sich je nach Branche. Kleine EDA-Softwarefirmen, die vor den Sanktionen gegenüber großen EDA-Anbietern wie Synopsys mit riesigem technischem Abstand gerade so überleben konnten, gewinnen nun dank der Nachfrage nach Risikovermeidung viele neue Kunden. Das nennt man „Hormesis“
Ich frage mich, welche Bedeutung das nach den Sanktionen hat. Bekommt Huawei, dessen Smartphones durch die Sanktionen stark getroffen wurden, nun mit einer eigenen GPU eine Chance zum Gegenschlag? Wie schlägt sich eine solche GPU im Vergleich zu aktuellen westlichen GPUs? Bedeutet das, dass Huawei nun die Fähigkeit hat, diese GPU zu kommerzialisieren?
- Huawei ist weit größer, als viele denken. Das Unternehmen ist nicht nur bei 5G-Basisstationen riesig, sondern auch bei Smartphones und Elektroautos
- Zur Formulierung „Chance zum Gegenschlag“: Huaweis Smartphone-Verkäufe haben Apple in China bereits überholt. Link zu detaillierten Marktanteilsdaten
- Hardwareseitig kann Huawei absolut wettbewerbsfähige Smartphones bauen. Schwer zu vermitteln ist eher der Kauf ohne den Google Play Store
- Empfohlen wurde auch ein YouTube-Video, das Huaweis Gesamtsituation erklärt
Damit es Konkurrenz zu TSMC und Nvidia gibt, wäre es weltweit nötig, dass sich Huawei und China beim Node Size als Wettbewerber etablieren
- Wenn man geopolitische Fragen ausblendet, wäre das ein sehr gutes Szenario. Aber AI ist ein zweischneidiges Schwert, und Wettbewerb im Consumer-Bereich könnte leicht in ein Wettrüsten münden. Wenn man Chinas Fertigungskraft und Lohnkosten berücksichtigt, ist es gut möglich, dass China am Ende gewinnt. Um das zu realisieren, müsste allerdings zuerst eine doppelte ASML-Produktion entstehen, und das erscheint in naher Zukunft unrealistisch
- Falls die USA ihre Chip-Exportbeschränkungen lockern würden, habe ich den Eindruck, dass die chinesische Regierung eher selbst Importbeschränkungen einführen könnte. Der Nutzen, einen echten Konkurrenten zu Nvidia/TSMC/Apple/Google aufzubauen, wäre weitaus größer

Huawei veröffentlicht Open-Weight-Modell, das auf Ascend-GPUs trainiert wurde

Überblick

Einführung in die Mixture-of-Grouped-Experts-(MoGE)-Architektur

Pangu Pro MoE und Optimierung für die Ascend-Plattform

Pre-Training und Design der Trainingsdaten

Datenzusammensetzung

Trainingsphasen und Strategie

Datenevaluierung

Pre-Training-Umgebung und Optimierung

Post-Training (nachgelagertes Fine-Tuning und Reinforcement Learning)

Supervised Fine-tuning (SFT)

Reinforcement Learning (RL)

System- und Infrastruktur-Optimierung

Ascend-NPU-Trainingssystem

Leistung und Benchmarks

Fazit und Implikationen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare