- Hunyuan-T1 ist ein ultragroßes Hybrid-Transformer-Mamba-MoE-Modell auf Basis von TurboS
- Durch umfangreiches Post-Training wurden die Inferenzfähigkeiten im Einklang mit menschlichen Präferenzen erweitert und die Leistung verbessert
- Die Langtext-Verarbeitungsfähigkeit von TurboS löst Probleme mit Kontextverlust und der Abhängigkeit von Informationen über große Distanzen
- Die Mamba-Architektur optimiert die Verarbeitung langer Sequenzen und ermöglicht es, Informationen aus langen Texten mit effizienter Berechnung zu erfassen
- Unter denselben Deployment-Bedingungen wurde die Decoding-Geschwindigkeit um das 2-Fache erhöht
- In der Post-Training-Phase des Modells wurden 96,7 % der gesamten Rechenleistung in Reinforcement Learning investiert
- Es wurden Datensätze mit verschiedenen Problemarten gesammelt, darunter Mathematik, logisches Schlussfolgern, Naturwissenschaften und Code, um die Inferenzfähigkeiten des Modells zu stärken
- Die Modellleistung wurde durch Correctness-Feedback und Echtzeit-Nutzerfeedback verbessert
- Es wurde ein Curriculum-Learning-Ansatz angewendet
- Die Schwierigkeit der Daten wurde schrittweise erhöht und dabei die Kontextlänge des Modells erweitert
- Die Fähigkeit zur tokeneffizienten Nutzung wurde verbessert
- Reinforcement-Learning-Strategie: Strategien für erneutes Lernen aus Daten und Policy-Reset angewendet → Trainingsstabilität um mehr als 50 % verbessert
- Belohnungssystem
- Einführung eines Self-Rewarding-Ansatzes → Modelloutputs werden selbst bewertet und bepunktet
- Anwendung eines umfassenden Belohnungssystems → Informationseffizienz und Detailgrad der Inhalte des Modells verbessert
Benchmark-Leistungsbewertung
- Hervorragende Leistung bei chinesischen und englischen Reasoning-Metriken wie MMLU-pro, CEval, AIME, Zebra Logic
- Leistung auf dem Niveau von DeepSeek R1 oder leicht bessere Ergebnisse
- Vorteile bei kultureller Kreativität, Textzusammenfassung und Agentenfähigkeiten
- In der Bewertung MMLU-PRO wurden 87,2 Punkte erzielt → Nachweis ausgezeichneter Gedächtnis- und Verständnisfähigkeiten in 14 Fachbereichen, darunter Geisteswissenschaften, Sozialwissenschaften sowie Wissenschaft und Technik
- In der Bewertung GPQA-diamond wurden 69,3 Punkte erreicht → Bestätigung der Fähigkeit, Probleme auf Promotionsniveau in Physik, Chemie und Biologie zu lösen
- Starke Leistung bei Code, Mathematik und logischem Schlussfolgern nachgewiesen
- Bei LiveCodeBench wurden 64,9 Punkte erzielt → Bestätigung der Fähigkeiten zum Schreiben und Verstehen von Code
- Bei MATH-500 wurden 96,2 Punkte erreicht → Nachweis mathematischer Problemlösungsfähigkeiten auf dem Niveau nahe DeepSeek R1
- Bei ArenaHard wurden 91,9 Punkte erzielt → zeigt starke Anpassungsfähigkeit bei verschiedenen Alignment-Aufgaben, Instruction-Following-Aufgaben und Aufgaben zur Tool-Nutzung
1 Kommentare
Hacker-News-Kommentare