Kakaos Sprachmodell: Technischer Report zu Kanana veröffentlicht

(tech.kakao.com)

10 Punkte von GN⁺ 2025-02-27 | 3 Kommentare | Auf WhatsApp teilen

Kakao entwickelt die „Kanana Model Family“ mit dem Ziel, für den Service-Einsatz optimierte AI-Modelle bereitzustellen, die sowohl hohe Leistung als auch Kosteneffizienz berücksichtigen.
Das Training des Hyper-Scale-Sprachmodells „Kanana Flag“ wurde abgeschlossen; damit wurde zusammen mit Kanana Essence, Kanana Nano und weiteren Modellen die Sprachmodell-Produktlinie vervollständigt.
Um zum AI-Forschungsökosystem beizutragen und mit der globalen AI-Community zusammenzuarbeiten, wird das Modell „Kanana Nano 2.1B“ (base, instruct, embedding) als Open Source veröffentlicht.

1. Hochleistung in Koreanisch und Englisch auf globalem Spitzenniveau

Kakao experimentierte mit verschiedenen Trainingsmethoden, um ein global wettbewerbsfähiges Modell zu entwickeln und innerhalb begrenzter Ressourcen die bestmögliche Leistung zu erzielen.
Kanana Flag erzielte durch die Optimierung der Trainingsressourcen eine Reduzierung der Trainingskosten um mehr als 50 % gegenüber Modellen anderer Anbieter und erreichte gleichzeitig Leistung auf höchstem Niveau (SOTA).
In englischen Benchmarks (MMLU, MT-Bench) zeigte das Modell eine Leistung auf dem Niveau globaler Modelle; in koreanischen Benchmarks (KMMLU, KoMT-Bench) belegte es eine klar überlegene Leistung gegenüber Konkurrenzmodellen.
Zusammenfassung der Benchmark-Leistung
- Leistung in Dialog und Befolgung von Anfragen
  - Kanana Flag 32.5B erzielte in englisch- und koreanischbasierten Dialogen höhere Werte als Konkurrenzmodelle.
  - Besonders in wissensbasierten koreanischen Dialogen (KoMT-Bench) und bei der Bewertung logischen Denkens (LogicKor) zeigte es starke Ergebnisse.
- Leistung in Wissen, Coding und Mathematik
  - Bei Wissensbewertungen in Englisch (81.08 Punkte) und Koreanisch (64.19 Punkte) wurden hohe Werte erzielt und bessere Ergebnisse als bei Konkurrenzmodellen erreicht.
  - Auch bei Code-Vervollständigung und Code-Lösungen zeigte das Modell eine hohe Genauigkeit; in grundlegender Mathematik (GSM8K) erreichte es starke 90.83 Punkte.

2. Durch effizienteres Training weniger als die Hälfte der Trainingskosten vergleichbarer Modelle

Da das Training großer Sprachmodelle enorme Computing-Ressourcen erfordert, setzte Kakao auf eine Pre-training-Strategie zur Maximierung der Trainingseffizienz.
Mithilfe von Staged pre-training wurden zunächst Modelle in den Größen 8B und 26.8B trainiert; anschließend wurde durch Optimierung das Modell Kanana Nano 2.1B aufgebaut.
Das Lightweight-Modell wurde mit Pruning und Distillation optimiert.
Mit der Technik DUS (Depth Up-Scaling) wurden Kanana Essence 9.8B und Kanana Flag 32.5B entwickelt.
Dadurch gelang es, das Training im Vergleich zu globalen Modellen ähnlicher Größe zu weniger als der Hälfte der Kosten zu optimieren.

3. Open-Source-Veröffentlichung von Kanana Nano 2.1B, einem leistungsstarken kompakten Modell, das auch on-device genutzt werden kann

Mit Blick auf die Nutzbarkeit für Forschende und Entwickler werden die Versionen base, instruct, embedding von „Kanana Nano 2.1B“ als Open Source veröffentlicht.
Kanana Nano 2.1B wurde so konzipiert, dass es auch in On-Device-Umgebungen reibungslos betrieben werden kann, und eignet sich damit für Forschungs- und Entwicklungszwecke.
Angesichts der hohen Kosten großer Modelle und der geringen Genauigkeit kleiner Modelle fiel die Entscheidung auf eine Veröffentlichung in der praktischsten Größe.
Trotz seiner vergleichsweise kleinen Größe zeigt das Modell eine Leistung, die mit globalen Modellen konkurrieren kann, und bietet vielfältige Einsatzmöglichkeiten.
Bei anspruchsvollen Tasks wie komplexem Reasoning oder dem Lösen mathematischer Probleme kann es zwar Grenzen geben, doch Kakao will Forschende und Entwickler dabei unterstützen, auf dieser Grundlage vielfältige Forschung zu betreiben.

Fazit

Mit diesem Technical Report stellt Kakao die gesamte Kanana-Sprachmodell-Produktlinie sowie das Open-Source-Modell Kanana Nano 2.1B vor.
Künftig soll durch die Einbindung von Technologien auf Basis von Reinforcement Learning (RL) die Fähigkeit zu Reasoning sowie die Leistung in Mathematik und Code weiter verbessert werden.
Durch Continual Learning soll das Modell fortlaufend neue Daten lernen können, ohne bereits Gelerntes zu verlieren.
Die Alignment-Technologie soll weiter ausgebaut werden, um die Fähigkeit zur Ausführung von Nutzeranfragen zu stärken und AI zu natürlicherem Verständnis und Dialog zu befähigen.
Langfristig sollen sich die Kanana-Modelle zu multimodaler AI weiterentwickeln, die wie Menschen sehen, hören, sprechen und intuitiv kommunizieren kann.
Kakao will sich weiterhin dafür einsetzen, dass AI dem Alltag der Nutzer Mehrwert bringt, und seine technologische Wettbewerbsfähigkeit weiter stärken.

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] Pruning: Eine Technik, bei der Bestandteile eines AI-Modells beschnitten werden, sodass nur die wichtigen Elemente verbleiben.
[2] Distillation: Eine Technik, bei der das Wissen eines großen Modells auf ein kleineres Modell übertragen wird.
[3] Depth Up-Scaling: Ein Verfahren, bei dem zusätzliche Layer auf ein bestehendes Modell aufgestapelt werden, um die Modellgröße effizient zu erhöhen.

3 Kommentare

rtyu1120 2025-02-27

Ich habe mir angesehen, welche Lizenz das ist, und es ist wohl CC BY-NC-ND 4.0..?? Heißt NonCommercial, dass außer Kakao keine anderen Unternehmen es verwenden sollen ...? Ich verstehe die Absicht nicht so ganz.

bobross0 2025-03-13

Hahaha

cosine20 2025-03-03