Mi:dm 2.0 – KTs selbst entwickeltes Open-Source-LLM

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" ist ein Open-Source-Modell für kommerzielle Nutzung, das die sprachlichen und kulturellen Besonderheiten der koreanischen Gesellschaft widerspiegelt Es nutzt mehrschichtige Optimierungsstrategien wie die Auswahl hochwertiger koreanischer Daten und die Erzeugung synthetischer Daten, Curriculum Learning sowie einen eigenen, auf Koreanisch spezialisierten Tokenizer Drei Modelle: mini (2.3B) für On-Device, base (11.5B) als Balance aus Leistung und Effizienz, und pro (41B, Veröffentlichung geplant) auf Frontier-Niveau Mi:dm 2.0 Mini (2.3B): ein leichtgewichtiges Modell, optimiert für Embedded-Umgebungen und Spezialzwecke Mi:dm 2.0 Base (11.5B): ein großes Allzweckmodell, dessen Leistung durch Vertiefung des bestehenden 8B-Modells mit der Depth-up Scaling-Methode gesteigert wurde Sowohl Base als auch Mini unterstützen 32K Token Input Auf koreanischen Benchmarks wie KMMLU und HAERAE zeigt es Leistung auf Spitzenniveau und wird unter der MIT-Lizenz veröffentlicht, wodurch sowohl Forschung als auch kommerzielle Nutzung frei möglich sind Datenzusammensetzung und Strategie Schwerpunkt auf der Sicherung hochwertiger koreanischer Dokumente; Auswahl nach den Kriterien Kontextbezug, Lesbarkeit und Unbedenklichkeit Nutzung synthetischer Daten (Übersetzung, lehrbuchartige Generierung auf Keyword-Basis, Chain-of-Thought usw.), um Domänenvielfalt sicherzustellen Abbau von Ungleichgewichten in den Trainingsdaten durch Curriculum Learning und Domain Balancing Ein für Koreanisch optimierter Tokenizer verbessert Kompressionseffizienz und die Abbildung sprachlicher Strukturen System zur Datenklassifikation Anwendung eines mehrdimensionalen Klassifikationssystems nach Sprache, Domäne, Datenquelle und Ausdruck/Stil 6 Hauptdomänen (Geisteswissenschaften, STEM, angewandte Wissenschaften, Gesundheit/Lebensmittel, Alltag/Kultur, Sonstiges) und 20 Unterdomänen Mehr als 85,7 % bestehen aus natürlichen (organischen) Daten, 14 % sind synthetische Daten Pipeline zur Qualitätskontrolle 8-stufiges Filtering großer Webdokumentmengen: Deduplizierung, Heuristiken, Perplexity, Erkennung/Korrektur von Zeichenschäden, modellbasierter Qualitätsfilter, Schadstofffilter, Zeilen-Deduplizierung, PII-De-Identifizierung usw. Pro Quelle werden separate Bereinigungsschritte und Regeln angewendet (z. B. für Nachrichten, Rechtsdokumente, wissenschaftliche Arbeiten) Erzeugung synthetischer Daten In unterabgedeckten Bereichen wie STEM und Wirtschaft werden vertrauenswürdige Open-Source-Daten als Seed genutzt und durch synthetische koreanische Lehrmaterialien/Erklärungen/Aufgaben verstärkt Auch ausgesonderte (ungeeignete) Webdokumente werden genutzt, indem nur die Kernthemen extrahiert und neu formuliert werden Die strukturelle Vielfalt englischer Webdokumente wird ins Koreanische übertragen und erweitert, um lange QA- und Schreibdaten zu gewinnen Chain-of-Thought-Daten stärken das schrittweise Schlussfolgern in Mathematik, Code usw. Modellarchitektur und Training Transformer-Decoder-only-Architektur Base: 8B-Modell → Depth-up Scaling (32→48 Schichten) → auf 11.5B erweitert, mit hochwertigen Daten in zwei aufeinanderfolgenden Phasen weitertrainiert Mini: Das Wissen von Base wird durch width pruning und mehrstufige Distillation komprimiert, was effiziente Inferenz ermöglicht Long-Context-Training unterstützt bis zu 32.768 Token Input Integration moderner Techniken wie GQA, SiLU und RoPE Erfahrungsberichte und Einführungsartikel Erfahrungsbericht zum koreanischen KI-Modell: KT Mi:dm 2.0 Vorstellung von Midm 2.0, der koreanischen KI von KT KTs koreanische KI Mi:dm 2.0 ausprobiert KTs Vorstellungsseite zu Mi:dm 2.0 PR-Material zur Einführung von KTs Mi:dm 1.0 – Mi:dm, über Rationalität und Emotion hinaus Persönlichkeit ausdrücken

(huggingface.co)

10 Punkte von xguru 2025-07-10 | 16 Kommentare | Auf WhatsApp teilen

"Mi:dm" ist ein Open-Source-Modell für kommerzielle Nutzung, das die sprachlichen und kulturellen Besonderheiten der koreanischen Gesellschaft widerspiegelt
Es nutzt mehrschichtige Optimierungsstrategien wie die Auswahl hochwertiger koreanischer Daten und die Erzeugung synthetischer Daten, Curriculum Learning sowie einen eigenen, auf Koreanisch spezialisierten Tokenizer
Drei Modelle: mini (2.3B) für On-Device, base (11.5B) als Balance aus Leistung und Effizienz, und pro (41B, Veröffentlichung geplant) auf Frontier-Niveau
- Mi:dm 2.0 Mini (2.3B): ein leichtgewichtiges Modell, optimiert für Embedded-Umgebungen und Spezialzwecke
- Mi:dm 2.0 Base (11.5B): ein großes Allzweckmodell, dessen Leistung durch Vertiefung des bestehenden 8B-Modells mit der Depth-up Scaling-Methode gesteigert wurde
- Sowohl Base als auch Mini unterstützen 32K Token Input
Auf koreanischen Benchmarks wie KMMLU und HAERAE zeigt es Leistung auf Spitzenniveau und wird unter der MIT-Lizenz veröffentlicht, wodurch sowohl Forschung als auch kommerzielle Nutzung frei möglich sind

Datenzusammensetzung und Strategie

Schwerpunkt auf der Sicherung hochwertiger koreanischer Dokumente; Auswahl nach den Kriterien Kontextbezug, Lesbarkeit und Unbedenklichkeit
Nutzung synthetischer Daten (Übersetzung, lehrbuchartige Generierung auf Keyword-Basis, Chain-of-Thought usw.), um Domänenvielfalt sicherzustellen
Abbau von Ungleichgewichten in den Trainingsdaten durch Curriculum Learning und Domain Balancing
Ein für Koreanisch optimierter Tokenizer verbessert Kompressionseffizienz und die Abbildung sprachlicher Strukturen

System zur Datenklassifikation
- Anwendung eines mehrdimensionalen Klassifikationssystems nach Sprache, Domäne, Datenquelle und Ausdruck/Stil
- 6 Hauptdomänen (Geisteswissenschaften, STEM, angewandte Wissenschaften, Gesundheit/Lebensmittel, Alltag/Kultur, Sonstiges) und 20 Unterdomänen
- Mehr als 85,7 % bestehen aus natürlichen (organischen) Daten, 14 % sind synthetische Daten
Pipeline zur Qualitätskontrolle
- 8-stufiges Filtering großer Webdokumentmengen: Deduplizierung, Heuristiken, Perplexity, Erkennung/Korrektur von Zeichenschäden, modellbasierter Qualitätsfilter, Schadstofffilter, Zeilen-Deduplizierung, PII-De-Identifizierung usw.
- Pro Quelle werden separate Bereinigungsschritte und Regeln angewendet (z. B. für Nachrichten, Rechtsdokumente, wissenschaftliche Arbeiten)
Erzeugung synthetischer Daten
- In unterabgedeckten Bereichen wie STEM und Wirtschaft werden vertrauenswürdige Open-Source-Daten als Seed genutzt und durch synthetische koreanische Lehrmaterialien/Erklärungen/Aufgaben verstärkt
- Auch ausgesonderte (ungeeignete) Webdokumente werden genutzt, indem nur die Kernthemen extrahiert und neu formuliert werden
- Die strukturelle Vielfalt englischer Webdokumente wird ins Koreanische übertragen und erweitert, um lange QA- und Schreibdaten zu gewinnen
- Chain-of-Thought-Daten stärken das schrittweise Schlussfolgern in Mathematik, Code usw.

Modellarchitektur und Training

Transformer-Decoder-only-Architektur
Base: 8B-Modell → Depth-up Scaling (32→48 Schichten) → auf 11.5B erweitert, mit hochwertigen Daten in zwei aufeinanderfolgenden Phasen weitertrainiert
Mini: Das Wissen von Base wird durch width pruning und mehrstufige Distillation komprimiert, was effiziente Inferenz ermöglicht
Long-Context-Training unterstützt bis zu 32.768 Token Input
Integration moderner Techniken wie GQA, SiLU und RoPE

Erfahrungsberichte und Einführungsartikel

KTs Vorstellungsseite zu Mi:dm 2.0
PR-Material zur Einführung von KTs Mi:dm 1.0 – Mi:dm, über Rationalität und Emotion hinaus Persönlichkeit ausdrücken

16 Kommentare

miseenscene 2025-07-11

Den Versuch begrüße ich, aber ...
ich hoffe, sie machen nicht so etwas, dass sie eine neue Organization gründen und 1.0 einfach über Bord werfen.

bakyeono 2025-07-11

Schon der Name allein wirkt wenig vertrauenerweckend.
Warum hat man in die Mitte des Namens einen Doppelpunkt gesetzt? Gibt es dafür einen inhaltlichen Grund? Oder glaubt man am Ende wirklich, dass das cool aussieht?
Und wenn es mit:eum heißt, müsste man es im lateinischen Alphabet dann nicht als mid:m schreiben?

xguru 2025-07-11

Es mag viele unterschiedliche Meinungen dazu geben, aber ich denke grundsätzlich, dass alle KI-bezogenen Projekte, die im Inland versucht werden, sinnvoll sind. Statt ihr Niveau im Vergleich zu anderen zu bewerten, sind wir meiner Meinung nach in einer Situation, in der schon der Versuch selbst Anerkennung verdient.

Es stimmt, dass die Reaktion spät kam, und auch bei Geld und GPUs liegen wir im Vergleich zu den USA und China zurück, aber wenn wir das anerkennen, es gemeinsam nutzen und dabei verbessern, wird es dann nicht besser werden?

crawler 2025-07-11

Dem stimme ich teilweise zu.
Ich halte es zwar für völlig unproduktiv und letztlich für ein Provisionsgeschäft, wenn man unter dem Etikett eines AI-Service nur einen Wrapper baut, der externe APIs nutzt,
abers wenn Unternehmen ihre Modelle wenigstens feinabstimmen und dann veröffentlichen, setzen sie dafür am Ende ihre eigenen Ressourcen ein und machen sie öffentlich, daher sehe ich keinen Grund, das negativ zu bewerten.

Sobald allerdings externe Gelder ins Spiel kommen, etwa vom Staat, kann man das wohl nicht mehr nur positiv sehen...

crawler 2025-07-11

> Ich halte es für eine völlig unproduktive Tätigkeit und ein Provisionsgeschäft, unter dem Vorwand eines AI-Service einen Wrapper zu bauen, der eine externe API nutzt,

ergänzend dazu: Selbst wenn man eine API verwendet, kann man es als Erfolg ansehen, wenn sie so gut genutzt wird wie bei Manus, aber in Korea scheint es bisher keinen Wrapper auf diesem Niveau zu geben.

mssmss 2025-07-11

Denn mit der Aufgabe, die Grundleistung zu steigern, kann man nicht wettbewerbsfähig auftreten.

strn18 2025-07-10

Warum konzentrieren sich koreanische Unternehmen oder die Regierung eigentlich auf koreanisch spezialisierte Sprachmodelle? Wenn man den aktuellen LLM-Trend betrachtet, bei dem die Leistung durch Training mit Internet-Daten in riesigem Maßstab verbessert wird, wirken eher allgemeine Modelle, die unabhängig von der Sprache funktionieren, natürlicher. Ich verstehe daher nicht, welchen Vorteil ein speziell auf Koreanisch zugeschnittenes LM unbedingt haben soll.

ryj0902 2025-07-11

Wenn man wirklich glaubt, dass KI die Grundlage der nächsten Generation ist, dann ist es wohl kaum wünschenswert, dass eine nationale technologische Kerninfrastruktur von der Technologie anderer Länder abhängig ist ...?

roxie 2025-07-11

Ich denke: Technologie aus anderen Ländern != Daten aus anderen Ländern

dbs0829 2025-07-11

Dass die Qualität bei Sprachen mit wenigen Nutzern schlechter ist, stimmt zwar tatsächlich, aber deshalb werden sie wohl kaum nur darauf hinarbeiten, dass es ausschließlich auf Koreanisch gut funktioniert. Dafür gibt es auch keinen besonderen Grund. Und das Problem ist, dass wir zu den Nutzern genau so einer Sprache mit wenigen Nutzern gehören ...

greenday 2025-07-11

Nüchtern gesagt liegt es daran, dass es an Wettbewerbsfähigkeit fehlt.
Die Entwicklung von Frontier-Open-Source-Modellen erfolgt in der Regel in Teams aus Research Engineers, die bei Big Tech Jahresgehälter in Milliardenhöhe in Won erhalten, und das mit enormer Unterstützung durch GPU-Ressourcen. (In der Vergangenheit wurden bei Meta für ein einzelnes Projekt 10.000 A100-GPUs eingesetzt; soweit ich mich erinnere, war das mehr als der gesamte damalige Bestand an A100s in Korea.)

Die personellen und GPU-Ressourcen, die in Korea in die LLM-Entwicklung investiert werden, liegen realistischerweise auf einem Niveau, mit dem es schwer ist, weltweit zu konkurrieren.
Statt zu sagen, dass wir besonders schlecht sind, ist es wohl treffender zu sagen, dass die USA und China so überwältigend stark sind, dass es schwer ist, zu ihnen aufzuschließen.

helio 2025-07-11

Ich weiß es auch nicht genau, aber wenn man sich die think-Prozesse ansieht, scheint es so zu sein, dass selbst bei Anfragen auf Koreanisch manchmal auf Englisch gearbeitet wird. Wenn man solche Prozesse auf Koreanisch durchführen könnte, wäre es dann nicht möglich, Antworten zu geben, die besser zur hiesigen Mentalität passen?

truestar 2025-07-11

Ist es nicht vielleicht eine Investition mit Blick auf neue AIs, die künftig entwickelt oder weiter verbessert werden, oder auf eine allgemeine Anhebung des Niveaus bestehender AIs? So wie bei DeepSeek. Wenn man in eine solche AI die koreanische Gefühls- und Denkweise einfließen lässt, wirkt das durchaus wettbewerbsfähig. Aber das ist eine Geschichte für die Zukunft.

zihado 2025-07-10

Sie scheinen nur darauf aus zu sein, sich blindlings staatliche Gelder einzuverleiben.

clastneo 2025-07-10

Liegt es nicht vielleicht daran, dass das Koreanische fehlerhaft dargestellt wird? Bei Gemini ist es ähnlich, und wenn man es länger benutzt, springt es ab einem gewissen Punkt viel zu oft in eine andere Sprache..

cckn1985 2025-07-10

Der Name des KI-Modells klingt irgendwie unheilvoll, als käme er direkt aus einer Postapokalypse oder Dystopie, haha.

Mi:dm 2.0 – KTs selbst entwickeltes Open-Source-LLM

Datenzusammensetzung und Strategie

System zur Datenklassifikation

Pipeline zur Qualitätskontrolle

Erzeugung synthetischer Daten

Modellarchitektur und Training

Erfahrungsberichte und Einführungsartikel

Verwandte Beiträge

16 Kommentare