Tencent Hunyuan-T1 – das erste ultragroße Modell auf Basis der Mamba-Architektur

(llm.hunyuan.tencent.com)

2 Punkte von GN⁺ 2025-03-23 | 1 Kommentare | Auf WhatsApp teilen

Hunyuan-T1 ist ein ultragroßes Hybrid-Transformer-Mamba-MoE-Modell auf Basis von TurboS
Durch umfangreiches Post-Training wurden die Inferenzfähigkeiten im Einklang mit menschlichen Präferenzen erweitert und die Leistung verbessert
Die Langtext-Verarbeitungsfähigkeit von TurboS löst Probleme mit Kontextverlust und der Abhängigkeit von Informationen über große Distanzen
Die Mamba-Architektur optimiert die Verarbeitung langer Sequenzen und ermöglicht es, Informationen aus langen Texten mit effizienter Berechnung zu erfassen
- Unter denselben Deployment-Bedingungen wurde die Decoding-Geschwindigkeit um das 2-Fache erhöht
In der Post-Training-Phase des Modells wurden 96,7 % der gesamten Rechenleistung in Reinforcement Learning investiert
- Es wurden Datensätze mit verschiedenen Problemarten gesammelt, darunter Mathematik, logisches Schlussfolgern, Naturwissenschaften und Code, um die Inferenzfähigkeiten des Modells zu stärken
- Die Modellleistung wurde durch Correctness-Feedback und Echtzeit-Nutzerfeedback verbessert
- Es wurde ein Curriculum-Learning-Ansatz angewendet
  - Die Schwierigkeit der Daten wurde schrittweise erhöht und dabei die Kontextlänge des Modells erweitert
  - Die Fähigkeit zur tokeneffizienten Nutzung wurde verbessert
Reinforcement-Learning-Strategie: Strategien für erneutes Lernen aus Daten und Policy-Reset angewendet → Trainingsstabilität um mehr als 50 % verbessert
Belohnungssystem
- Einführung eines Self-Rewarding-Ansatzes → Modelloutputs werden selbst bewertet und bepunktet
- Anwendung eines umfassenden Belohnungssystems → Informationseffizienz und Detailgrad der Inhalte des Modells verbessert

Benchmark-Leistungsbewertung

Hervorragende Leistung bei chinesischen und englischen Reasoning-Metriken wie MMLU-pro, CEval, AIME, Zebra Logic
Leistung auf dem Niveau von DeepSeek R1 oder leicht bessere Ergebnisse
- Vorteile bei kultureller Kreativität, Textzusammenfassung und Agentenfähigkeiten
In der Bewertung MMLU-PRO wurden 87,2 Punkte erzielt → Nachweis ausgezeichneter Gedächtnis- und Verständnisfähigkeiten in 14 Fachbereichen, darunter Geisteswissenschaften, Sozialwissenschaften sowie Wissenschaft und Technik
In der Bewertung GPQA-diamond wurden 69,3 Punkte erreicht → Bestätigung der Fähigkeit, Probleme auf Promotionsniveau in Physik, Chemie und Biologie zu lösen
Starke Leistung bei Code, Mathematik und logischem Schlussfolgern nachgewiesen
- Bei LiveCodeBench wurden 64,9 Punkte erzielt → Bestätigung der Fähigkeiten zum Schreiben und Verstehen von Code
- Bei MATH-500 wurden 96,2 Punkte erreicht → Nachweis mathematischer Problemlösungsfähigkeiten auf dem Niveau nahe DeepSeek R1
Bei ArenaHard wurden 91,9 Punkte erzielt → zeigt starke Anpassungsfähigkeit bei verschiedenen Alignment-Aufgaben, Instruction-Following-Aufgaben und Aufgaben zur Tool-Nutzung

1 Kommentare

GN⁺ 2025-03-23

Hacker-News-Kommentare

Die starke Leistung des Modells beweist eindeutig, dass Reinforcement Learning im Optimierungsprozess eine wichtige Rolle spielt
- Es wurde jedoch die Frage aufgeworfen, wie wir erkennen könnten, ob dieses Reinforcement Learning nicht anderswo bessere Antworten liefert, sondern nur die Benchmarks manipuliert
Nach kurzem Ausprobieren dieses Modells scheint es dazu zu neigen, auf englische Fragen auf Chinesisch zu antworten
Ihr großes Modell hatte 389B Parameter, daher frage ich mich, wie groß das Ultra-Large-Modell eigentlich ist
Derzeit erscheinen so viele Modelle, und im KI-Bereich gibt es so viele Fortschritte, dass es schwer ist, mitzuhalten
- Ich bin mir nicht sicher, was davon tatsächlich bahnbrechend oder wichtig ist
Es ist interessant zu sehen, dass ein auf Mamba basierendes Modell gut funktioniert
Die Romanisierung solcher Namen ist immer verwirrend
- Wenn Schriftzeichen und Töne entfernt werden, bleibt einfach eine bedeutungslose Buchstabenfolge übrig
- "Hunyuan" bzw. 混元 bedeutet auf Chinesisch "ursprüngliches Chaos" oder "ursprüngliche Einheit"
- Das hilft dabei, sich diese Namen leichter zu merken, da mehr chinesische Produkte und Services auf den Markt kommen
- Ähnlich wie die Beliebtheit der griechischen Mythologie bei westlichen Produkten (z. B. all die Produkte mit dem Namen "Apollo")
Ich frage mich, ob die Tatsache, dass sie mit einer Huggingface-Demo verlinken, andeutet, dass sie die Gewichte veröffentlichen werden
Kobe?

Tencent Hunyuan-T1 – das erste ultragroße Modell auf Basis der Mamba-Architektur

Benchmark-Leistungsbewertung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare