NVIDIA Nemotron-Personas-Korea – synthetischer Persona-Datensatz mit 1 Million Einträgen auf Basis d

Erster groß angelegter koreanischsprachiger Persona-Datensatz, der auf öffentlichen Daten etwa von Statistics Korea, dem Obersten Gerichtshof und dem National Health Insurance Service basiert und reale demografische, geografische und persönliche Verteilungen widerspiegelt
Umfasst in 1 Million Einträgen 7 Millionen Personas und besteht aus 26 Feldern, darunter Name, Geschlecht, Alter, Familienstand, Bildungsniveau, Beruf und Wohnregion
Erstellt mit dem Enterprise-System zur Generierung synthetischer Daten NeMo Data Designer und dem Modell google/gemma-4-31B-it
Bildet ältere Bevölkerungsgruppen, ländliche Regionen sowie vielfältigere Bildungs- und Berufsverteilungen genauer ab als bisherige Persona-Datensätze und trägt so zur Verringerung von Bias in Sovereign-AI-Modellen bei
Unter der Lizenz CC BY 4.0 für kommerzielle wie nichtkommerzielle Nutzung frei verwendbar

Probleme bei koreanischen Personas, die bestehende LLMs erzeugen

Eine Persona ist die Beschreibung individueller Eigenschaften, Interessen, Persönlichkeitsmerkmale und Berufe; ein Datensatz mit Personas sollte die kulturellen und verteilungsbezogenen Merkmale der jeweiligen Gruppe korrekt abbilden
Selbst wenn man ausländische LLMs mit „Erzeuge realistische und vielfältige Personenprofile für die koreanische Gesellschaft“ promptet, sind die Ergebnisse stark verzerrt
- So wählen 40 % der generierten Personas Salat als Lieblingsessen, oder es entstehen unrealistische Ergebnisse wie „Ich betreibe eine Apfelplantage in Andong, Gyeongsangbuk-do“
Bei einer Zufallsstichprobe von 2.000 koreanischen Personas mit Claude Opus 4.7 zeigte sich bei der Berufsverteilung ein extremer Bias: 77,6 % waren „Yuzu-Anbauern“
Bei GPT-5.4 wurden 90,1 % als „Pflegehelfer“ erzeugt
Auch bei Stadtverteilung, Familienformen, Wohnverhältnissen und Essensvorlieben bestehen in allen Aspekten Verzerrungen, die nicht zur Realität in Korea passen

Überblick und Ziel des Datensatzes

Open-Source-Datensatz mit synthetischen Personas, der so entworfen wurde, dass er die Vielfalt und Merkmale der Bevölkerung Südkoreas breit abbildet
So verfasst, dass ihn jede Person auf Koreanisch leicht lesen kann
Hauptziel ist es, beim Aufbau von Sovereign-AI-Systemen fehlende Daten und potenzielle Verzerrungen in Trainingsdaten zu verringern
Fokus liegt auf der Behebung von Verzerrungen bestehender Persona-Datensätze für synthetische Datengenerierung, insbesondere bei Alter, Region, Bildungsniveau und Beruf

Datenquellen und Erstellungsmethode

Nutzung von Volkszählungsdaten aus KOSIS (dem nationalen Statistikportal von Statistics Korea) zu Geschlecht, Region, Industrie, Beruf, Reisen und Freizeit
Nutzung von Daten des Obersten Gerichtshofs zu Geburtsjahr, Geschlecht und Namen, von Gesundheitscheck-Informationen des National Health Insurance Service sowie Ergebnissen der Erhebung zum Lebensmittelkonsum des Korea Rural Economic Institute
NAVER Cloud stellte in der Entwurfsphase Ausgangsdaten und Domänenwissen bereit
Verwendet wurden ein eigenes Probabilistic Graphical Model (PGM), das unter Apache-2.0 lizenzierte Modell google/gemma-4-31B-it sowie die Validierungs- und Bewertungsmethoden von NeMo Data Designer
Deckt Name, Alter, Geschlecht, Region, Ehestatus, Familie, Wohnen, Bildungsniveau, Fachrichtung, Erwerbstätigkeit, Einkommen, Branche, Berufsgruppe, Blutdruck, Blutzucker, Taillenumfang, BMI, Reisen, Freizeit, bevorzugte Restaurantarten sowie Liefer- und Ausgehfrequenz ab
Alle Daten spiegeln reale Verteilungen wider, sind jedoch vollständig künstlich synthetisiert; jede Ähnlichkeit mit realen Personen ist zufällig

Größe und Aufbau des Datensatzes

Insgesamt 1 Million Einträge mit 1,7 Milliarden Tokens (davon 1 Milliarde Persona-Tokens)
26 Felder: 7 Persona-Felder, 6 Persona-Attributfelder, 12 demografisch-geografische Kontextfelder und 1 eindeutiger Identifikator
Umfassende administrative Abdeckung von 17 Provinzen und Metropolregionen sowie 252 Städten, Kreisen und Bezirken
Mehr als 209.000 eindeutige Namenskombinationen (118 Familiennamen, 21.400 Vornamen)
7 Persona-Typen: Beruf, Sport, Kunst, Reisen, Essen, Familie, Zusammenfassung
Zusätzliche Persona-Attribute: kultureller Hintergrund, technische Kenntnisse und Fachkompetenz, Karriereziele und Ambitionen, Hobbys und Interessen

Namensverteilung

Derzeit öffentlich verfügbare Namensdaten in Korea sind auf die Zeit ab 2008 beschränkt
Nemotron-Personas-Korea ist der erste öffentlich verfügbare Datensatz, der auf vollständigen koreanischen Namensdaten ab 1940 basiert
Damit wird das Problem zeitlich unpassender Namenszuweisungen wie „82-jährige Kim Hayul?“ oder „21-jährige Kim Sunja?“ gelöst
Bei Familiennamen entfallen auf Kim (21,5 %), Lee (14,7 %), Park (8,5 %), Jeong (4,8 %) und Choi (4,7 %) zusammen rund 54 %
Vornamen spiegeln je nach Geschlecht und Geburtsjahr generationenspezifische Benennungstrends wider
- Frauen: Namen älterer Generationen wie Yeongsuk, Jeongsuk und Sunja existieren neben jüngeren Namen wie Jiyoung, Yujin und Jihyeon
- Männer: Moderne Namen wie Jihoon, Hyeonwoo und Junho rangieren weit oben
Der häufigste vollständige Name ist Kim Yeongsuk, was mit realen Erhebungen übereinstimmt

Altersverteilung

Eine urnenförmige Struktur mit breiter Mitte bildet die aktuelle Bevölkerungsstruktur aus sinkender Geburtenrate und gleichzeitiger Alterung realistisch ab
Die stärkste Altersgruppe ist 50–64 Jahre (Anteil etwa 0,09), entsprechend der Babyboom-Generation der 1960er und 1970er Jahre
Bei den über 70-Jährigen ist der Frauenanteil deutlich höher als der Männeranteil
- In der Gruppe 80–89 Jahre liegt der Frauenanteil bei etwa dem 1,52-Fachen des Männeranteils

Verteilung des Familienstands

Der Anteil Lediger liegt bei den 19- bis 24-Jährigen bei über 95 % und sinkt in den 30ern von 55 % auf 31 %, was dem Trend späterer Erstheirat mit durchschnittlich 31–33 Jahren entspricht
Der Anteil Verheirateter steigt ab 35 Jahren auf 64 % und erreicht Ende der 50er mit 78 % seinen Höhepunkt
Verwitwung nimmt ab den 60ern stark zu und erreicht Ende der 80er 66 % sowie in den 90ern 74–81 %
Scheidung ist in den 50ern bis frühen 60ern mit rund 12 % am höchsten und passt zum Trend sogenannter „später Scheidungen“

Verteilung der Haushaltstypen

In allen Altersgruppen haben Haushalte mit Ehepaar + unverheirateten Kindern den höchsten Anteil; bei 19-Jährigen liegt der Höchstwert bei 63,6 %
Ab den 50ern nehmen Paarhaushalte stark zu und erreichen mit 65–69 Jahren bei 45,7 % ihren Höhepunkt
Einpersonenhaushalte zeigen ein Doppelpik-Muster: Anfang 20 (15–22 %) und ab 75 Jahren (21–32 %)
Haushalte mit Mutter + unverheirateten Kindern (5–14 %) liegen über denen mit Vater + unverheirateten Kindern (2–5 %), was auf eine geschlechtsspezifische Asymmetrie bei Einelternhaushalten hinweist

Verteilung des Bildungsniveaus

In der jüngeren Generation von 20–34 Jahren liegt der Anteil mit Bachelor-Abschluss oder höher über 50 %; einschließlich Junior Colleges verfügen rund 75 % über einen tertiären Abschluss
Bei den über 80-Jährigen entfallen auf keine Schulbildung (36 %) und Grundschule (37 %) zusammen 73 %
Regional ist der Anteil mit Bachelor oder höher in Sejong (49,0 %), Seoul (45,1 %) und Daejeon (39,7 %) am höchsten
- In Sejong hängt dies mit dem Zuzug hochqualifizierter Beamter und Forschender infolge der Verlagerung des Regierungssitzes nach Sejong zusammen

Berufsverteilung

Fachkräfte und Büroangestellte stellen den größten Anteil und spiegeln die service- und wissensbasierte Wirtschaftsstruktur wider
Im Verkauf steht Online-Shopping-Verkäufer mit 19,8 % an erster Stelle und zeigt den hohen Anteil des E-Commerce
Bei einfachen Tätigkeiten konzentrieren sich die Anteile auf Gebäudewächter (21,3 %) und Reinigungskräfte in Gebäuden (16,0 %)
Soldaten machen rund 1 % aller Erwerbstätigen aus, davon entfallen mehr als zwei Drittel auf das Heer

Technische Einschränkungen und Grenzen

Wegen der Verfügbarkeit und Aktualität öffentlicher Daten sowie realistischer Beschränkungen des PGM wurden für bestimmte Variablen Unabhängigkeitsannahmen getroffen
- Beispiel: Bei der Zuordnung detaillierter Berufe wird angenommen, dass Geschlecht, Einkommen, Bildungsniveau und Fachrichtung unabhängig einwirken; Wechselwirkungen werden nicht berücksichtigt
Umfassende Statistiken zu Gender existieren in koreanischen öffentlichen Daten nicht und wurden daher nicht einbezogen
Enthält nur erwachsene Personas ab 19 Jahren
Personas für Enterprise-Kunden in Bereichen wie Finanzen oder Healthcare sind ausgeschlossen

Verbesserungen gegenüber einem rein LLM-basierten Ansatz

Bei ausschließlicher LLM-Nutzung war die Stadtverteilung auf Orte wie Suncheon und Changwon verzerrt; Nemotron-Personas-Korea bildet dagegen reale, bevölkerungsproportionale Verteilungen ab, etwa in Hwaseong und Namyangju in Gyeonggi-do oder im Bezirk Songpa in Seoul
Die Familienformen wurden von einer Dominanz von Einpersonenhaushalten auf vielfältige Formen erweitert, darunter Zusammenleben mit Ehepartner, mit Ehepartner und Kindern oder mit Eltern
Auch die Wohnform wurde von 100 % Eigentum auf die realen Anteile von Eigentum und Miete korrigiert
Ebenso wurde die Essensverteilung von einer Salat-Dominanz auf reale Esskultur umgestellt, darunter Bibimbap, japanisches Essen, Fried Chicken, Galbi, Samgyeopsal, Tteokbokki, Bunsik, Brot, Doenjang-jjigae und Jajangmyeon

Beispiele für kulturelle Abbildung

„Der 33-jährige Jung Jun, ein sogenanntes Känguru-Kind, das auf dem Heimweg nach der Arbeit mit Kollegen bei Samgyeopsal und Soju den Tag ausklingen lässt“ — wohnhaft im Bezirk Songpa in Seoul, 4-jähriger Hochschulabschluss, ledig, lebt mit den Eltern zusammen und spiegelt das koreanische Phänomen der Känguru-Kinder wider
„Die 73-jährige Kim Chunhui aus Ulsan, die gerne Lieder von Sim Soo-bong hört und Fotos in den Gruppenchat der Familie hochlädt“ — Frau, ohne Schulbildung, verheiratet, arbeitslos und spiegelt die ältere weibliche Bevölkerung wider

Warum Persona-Datensätze LLMs helfen

Menschen besitzen jeweils eigenes Wissen, und Personas sind ein Phänotyp, der dieses individuelle Wissen verdichtet ausdrückt
- Beispiel: Eine Persona als Elektriker kann als Medium dienen, um elektrisches Fachwissen aus einem LLM hervorzuholen
In synthetischen Daten ist Diversität ein sehr wichtiger Indikator, und Menschen sind die beste Quelle für Diversität
Mit Formaten wie „Erzeuge ein logisches Schlussfolgerungsproblem, das zur {gegebenen Persona} passt“ lassen sich vielfältige synthetische Trainingsdaten für unterschiedliche Personas erzeugen

Praktische Anwendungsfälle

Verbesserung allgemeiner Tool-Use-Leistung: Dem User-LLM werden Toolset und Persona gemeinsam gegeben, um Daten zu synthetisieren und zu trainieren. Nemotron-Nano-9B-v2-Japanese übernahm diese Methodik und erreichte Platz 1 im Nejumi-Leaderboard. Ähnliche Ansätze wurden auch in Nemotron Nano v3 und Super v3 eingeführt
Verbesserung der Modellsicherheit: Nutzung als Seed-Daten für den Datensatz Sensitive-safety-category-refusals (SSCR). Der SSCR-Datensatz ist in nemotron-safety-blend enthalten

Nutzung und Lizenz

Kann mit der Python-Bibliothek datasets über load_dataset("nvidia/Nemotron-Personas-Korea") geladen werden
Unter der Lizenz CC BY 4.0 frei für kommerzielle und nichtkommerzielle Nutzung verwendbar
Eine erweiterte Version für die direkte Nutzung in NeMo Data Designer ist ebenfalls separat verfügbar

NVIDIA Nemotron-Personas-Korea – synthetischer Persona-Datensatz mit 1 Million Einträgen auf Basis der realen Bevölkerungsverteilung Südkoreas

Probleme bei koreanischen Personas, die bestehende LLMs erzeugen

Überblick und Ziel des Datensatzes

Datenquellen und Erstellungsmethode

Größe und Aufbau des Datensatzes

Namensverteilung

Altersverteilung

Verteilung des Familienstands

Verteilung der Haushaltstypen

Verteilung des Bildungsniveaus

Berufsverteilung

Technische Einschränkungen und Grenzen

Verbesserungen gegenüber einem rein LLM-basierten Ansatz

Beispiele für kulturelle Abbildung

Warum Persona-Datensätze LLMs helfen

Praktische Anwendungsfälle

Nutzung und Lizenz

10 Kommentare

NVIDIA Nemotron-Personas-Korea – synthetischer Persona-Datensatz mit 1 Million Einträgen auf Basis der realen Bevölkerungsverteilung Südkoreas

Probleme bei koreanischen Personas, die bestehende LLMs erzeugen

Überblick und Ziel des Datensatzes

Datenquellen und Erstellungsmethode

Größe und Aufbau des Datensatzes

Namensverteilung

Altersverteilung

Verteilung des Familienstands

Verteilung der Haushaltstypen

Verteilung des Bildungsniveaus

Berufsverteilung

Technische Einschränkungen und Grenzen

Verbesserungen gegenüber einem rein LLM-basierten Ansatz

Beispiele für kulturelle Abbildung

Warum Persona-Datensätze LLMs helfen

Praktische Anwendungsfälle

Nutzung und Lizenz

Verwandte Beiträge

10 Kommentare