2 Punkte von GN⁺ 2025-03-23 | 1 Kommentare | Auf WhatsApp teilen
  • Hunyuan-T1 ist ein ultragroßes Hybrid-Transformer-Mamba-MoE-Modell auf Basis von TurboS
  • Durch umfangreiches Post-Training wurden die Inferenzfähigkeiten im Einklang mit menschlichen Präferenzen erweitert und die Leistung verbessert
  • Die Langtext-Verarbeitungsfähigkeit von TurboS löst Probleme mit Kontextverlust und der Abhängigkeit von Informationen über große Distanzen
  • Die Mamba-Architektur optimiert die Verarbeitung langer Sequenzen und ermöglicht es, Informationen aus langen Texten mit effizienter Berechnung zu erfassen
    • Unter denselben Deployment-Bedingungen wurde die Decoding-Geschwindigkeit um das 2-Fache erhöht
  • In der Post-Training-Phase des Modells wurden 96,7 % der gesamten Rechenleistung in Reinforcement Learning investiert
    • Es wurden Datensätze mit verschiedenen Problemarten gesammelt, darunter Mathematik, logisches Schlussfolgern, Naturwissenschaften und Code, um die Inferenzfähigkeiten des Modells zu stärken
    • Die Modellleistung wurde durch Correctness-Feedback und Echtzeit-Nutzerfeedback verbessert
    • Es wurde ein Curriculum-Learning-Ansatz angewendet
      • Die Schwierigkeit der Daten wurde schrittweise erhöht und dabei die Kontextlänge des Modells erweitert
      • Die Fähigkeit zur tokeneffizienten Nutzung wurde verbessert
  • Reinforcement-Learning-Strategie: Strategien für erneutes Lernen aus Daten und Policy-Reset angewendet → Trainingsstabilität um mehr als 50 % verbessert
  • Belohnungssystem
    • Einführung eines Self-Rewarding-Ansatzes → Modelloutputs werden selbst bewertet und bepunktet
    • Anwendung eines umfassenden Belohnungssystems → Informations­effizienz und Detailgrad der Inhalte des Modells verbessert

Benchmark-Leistungsbewertung

  • Hervorragende Leistung bei chinesischen und englischen Reasoning-Metriken wie MMLU-pro, CEval, AIME, Zebra Logic
  • Leistung auf dem Niveau von DeepSeek R1 oder leicht bessere Ergebnisse
    • Vorteile bei kultureller Kreativität, Textzusammenfassung und Agentenfähigkeiten
  • In der Bewertung MMLU-PRO wurden 87,2 Punkte erzielt → Nachweis ausgezeichneter Gedächtnis- und Verständnisfähigkeiten in 14 Fachbereichen, darunter Geisteswissenschaften, Sozialwissenschaften sowie Wissenschaft und Technik
  • In der Bewertung GPQA-diamond wurden 69,3 Punkte erreicht → Bestätigung der Fähigkeit, Probleme auf Promotionsniveau in Physik, Chemie und Biologie zu lösen
  • Starke Leistung bei Code, Mathematik und logischem Schlussfolgern nachgewiesen
    • Bei LiveCodeBench wurden 64,9 Punkte erzielt → Bestätigung der Fähigkeiten zum Schreiben und Verstehen von Code
    • Bei MATH-500 wurden 96,2 Punkte erreicht → Nachweis mathematischer Problemlösungsfähigkeiten auf dem Niveau nahe DeepSeek R1
  • Bei ArenaHard wurden 91,9 Punkte erzielt → zeigt starke Anpassungsfähigkeit bei verschiedenen Alignment-Aufgaben, Instruction-Following-Aufgaben und Aufgaben zur Tool-Nutzung

1 Kommentare

 
GN⁺ 2025-03-23
Hacker-News-Kommentare
  • Die starke Leistung des Modells beweist eindeutig, dass Reinforcement Learning im Optimierungsprozess eine wichtige Rolle spielt
    • Es wurde jedoch die Frage aufgeworfen, wie wir erkennen könnten, ob dieses Reinforcement Learning nicht anderswo bessere Antworten liefert, sondern nur die Benchmarks manipuliert
  • Nach kurzem Ausprobieren dieses Modells scheint es dazu zu neigen, auf englische Fragen auf Chinesisch zu antworten
  • Ihr großes Modell hatte 389B Parameter, daher frage ich mich, wie groß das Ultra-Large-Modell eigentlich ist
  • Derzeit erscheinen so viele Modelle, und im KI-Bereich gibt es so viele Fortschritte, dass es schwer ist, mitzuhalten
    • Ich bin mir nicht sicher, was davon tatsächlich bahnbrechend oder wichtig ist
  • Es ist interessant zu sehen, dass ein auf Mamba basierendes Modell gut funktioniert
  • Die Romanisierung solcher Namen ist immer verwirrend
    • Wenn Schriftzeichen und Töne entfernt werden, bleibt einfach eine bedeutungslose Buchstabenfolge übrig
    • "Hunyuan" bzw. 混元 bedeutet auf Chinesisch "ursprüngliches Chaos" oder "ursprüngliche Einheit"
    • Das hilft dabei, sich diese Namen leichter zu merken, da mehr chinesische Produkte und Services auf den Markt kommen
    • Ähnlich wie die Beliebtheit der griechischen Mythologie bei westlichen Produkten (z. B. all die Produkte mit dem Namen "Apollo")
  • Ich frage mich, ob die Tatsache, dass sie mit einer Huggingface-Demo verlinken, andeutet, dass sie die Gewichte veröffentlichen werden
  • Kobe?