NVIDIA Nemotron-Personas-Korea – Datensatz mit 1 Million synthetischen Personas auf Basis der tatsächlichen Bevölkerungsverteilung Südkoreas
(huggingface.co)- Erster groß angelegter koreanischsprachiger Persona-Datensatz, der auf öffentlichen Daten wie denen von Statistics Korea, dem Obersten Gerichtshof und dem National Health Insurance Service Südkoreas basiert und reale demografische, geografische und Persönlichkeitsverteilungen widerspiegelt
- Umfasst in 1 Million Datensätzen 7 Millionen Personas und besteht aus 26 Feldern wie Name, Geschlecht, Alter, Familienstand, Bildungsniveau, Beruf und Wohnregion
- Erstellt mit NeMo Data Designer, einem System zur Generierung synthetischer Daten auf Enterprise-Niveau, sowie dem Modell google/gemma-4-31B-it
- Trägt durch die getreuere Abbildung älterer Bevölkerungsgruppen, ländlicher Regionen sowie vielfältiger Bildungs- und Berufsverteilungen im Vergleich zu bestehenden Persona-Datensätzen zur Reduzierung von Verzerrungen in Sovereign-AI-Modellen bei
- Unter der Lizenz CC BY 4.0 für kommerzielle und nichtkommerzielle Nutzung frei verwendbar
Probleme bestehender von LLMs erzeugter koreanischer Personas
- Eine Persona ist eine Beschreibung individueller Merkmale, Interessen, Persönlichkeitszüge oder Berufe; ein Datensatz aus Personas sollte die kulturellen und verteilungsbezogenen Eigenschaften der jeweiligen Gruppe korrekt abbilden
- Selbst wenn man einem ausländischen LLM den Prompt gibt, „erstelle realistische und vielfältige Personenprofile für die koreanische Gesellschaft“, sind die Ergebnisse stark verzerrt
- 40 % der erzeugten Personas wählen Salat als Lieblingsessen, oder es entstehen unrealistische Ergebnisse wie „Ich betreibe eine Apfelplantage in Andong, Gyeongsangbuk-do“
- Bei einer Zufallsstichprobe von 2.000 koreanischen Personas mit Claude Opus 4.7 zeigte sich bei der Berufsverteilung eine extreme Verzerrung: 77,6 % wurden als „Yuja-Anbauern“ erzeugt
- Bei GPT-5.4 wurden 90,1 % als „Pflegehelfer“ erzeugt
- Es bestehen in allen Aspekten Verzerrungen, die nicht zur Realität Südkoreas passen, darunter Stadtverteilung, Familienformen, Wohnbesitzformen und Essenspräferenzen
Überblick und Ziel des Datensatzes
- Open-Source-Datensatz mit synthetischen Personas, der darauf ausgelegt ist, die Vielfalt und Merkmale der Bevölkerung Südkoreas breit abzubilden
- So verfasst, dass ihn jeder auf Koreanisch leicht lesen kann
- Zentrales Ziel ist die Abmilderung fehlender Daten und potenzieller Verzerrungen in Trainingsdaten beim Aufbau von Sovereign-AI-Systemen
- Fokus auf die Beseitigung von Verzerrungen bestehender Persona-Datensätze, die für die Erzeugung synthetischer Daten genutzt werden, insbesondere entlang der Achsen Alter, Region, Bildungsniveau und Beruf
Datenquellen und Erstellungsverfahren
- Nutzung von Volkszählungsdaten zu Geschlecht, Region, Industrie, Beruf, Reisen und Freizeit aus KOSIS (dem nationalen Statistikportal von Statistics Korea)
- Nutzung von Daten des Obersten Gerichtshofs zu Geburtsjahr, Geschlecht und Namen, von Gesundheitsuntersuchungsinformationen des National Health Insurance Service sowie Ergebnissen der Erhebung zum Lebensmittelkonsum des Korea Rural Economic Institute
- NAVER Cloud stellte in der Entwurfsphase Anfangsdaten und Domänenwissen bereit
- Einsatz eines eigenen probabilistischen grafischen Modells (PGM), des unter Apache-2.0 lizenzierten Modells google/gemma-4-31B-it sowie der Validierungs- und Evaluierungsmethoden von NeMo Data Designer
- Umfasst Name, Alter, Geschlecht, Region, Familienstand, Familie, Wohnsituation, Bildung, Fachrichtung, wirtschaftliche Aktivität, Einkommen, Industriezweig, Berufsgruppe, Blutdruck, Blutzucker, Taillenumfang, BMI, Reisen, Freizeitaktivitäten, bevorzugte Restaurantarten sowie Liefer- und Ausgehfrequenz
- Alle Daten spiegeln reale Verteilungen wider, sind jedoch vollständig künstlich synthetisiert; jede Ähnlichkeit mit realen Personen ist zufällig
Umfang und Aufbau des Datensatzes
- Insgesamt 1 Million Datensätze mit 1,7 Milliarden Tokens (davon 1 Milliarde Persona-Tokens)
- 26 Felder: 7 Persona-Felder, 6 Persona-Attributfelder, 12 demografische und geografische Kontextfelder sowie 1 eindeutiger Identifikator
- Umfassende Abdeckung von 17 Provinzen und Metropolregionen sowie 252 Städten, Landkreisen und Bezirken
- Mehr als 209.000 eindeutige Namenskombinationen (118 Familiennamen, 21.400 Vornamen)
- 7 Persona-Typen: Beruf, Sport, Kunst, Reisen, Essen, Familie, Zusammenfassung
- Zusätzliche Persona-Attribute: kultureller Hintergrund, Technik und Fachkenntnisse, Karriereziel und Ambitionen, Hobbys und Interessen
Namensverteilung
- Derzeit sind in Südkorea öffentlich verfügbare Namensdaten nur auf die Zeit ab 2008 begrenzt
- Nemotron-Personas-Korea ist der erste öffentliche Datensatz, der auf vollständigen südkoreanischen Namensdaten ab 1940 basiert
- Löst Probleme unpassender Namenszuweisungen zur jeweiligen Epoche wie „82-jährige Kim Hayul?“ oder „21-jährige Kim Sunja?“
- Bei den Familiennamen entfallen auf die Top 5 – Kim (21,5 %), Lee (14,7 %), Park (8,5 %), Jeong (4,8 %) und Choi (4,7 %) – zusammen etwa 54 % aller Fälle
- Vornamen spiegeln je nach Geschlecht und Geburtsjahr generationstypische Benennungstrends wider
- Frauen: Namen älterer Generationen wie Yeongsuk, Jeongsuk und Sunja bestehen neben Namen jüngerer Generationen wie Jiyoung, Yujin und Jihyeon
- Männer: Moderne Namen wie Jihoon, Hyeonwoo und Junho belegen Spitzenplätze
- Der insgesamt häufigste vollständige Name ist Kim Yeongsuk, was mit realen Erhebungen übereinstimmt
Altersverteilung
- Eine in der Mitte ausgeprägte urnenförmige Struktur, die die heutige Bevölkerungsstruktur mit gleichzeitig niedriger Geburtenrate und Alterung realitätsnah abbildet
- Die stärkste Gruppe sind die 50- bis 64-Jährigen (Anteil etwa 0,09), entsprechend der Babyboomer-Generation der 1960er und 1970er Jahre
- In der Bevölkerung ab 70 Jahren ist der Frauenanteil deutlich höher als der Männeranteil
- In der Altersgruppe 80–89 liegt der Frauenanteil bei etwa dem 1,52-Fachen des Männeranteils
Verteilung des Familienstands
- Der Anteil Unverheirateter liegt bei den 19- bis 24-Jährigen bei über 95 % und sinkt in den 30ern von 55 % auf 31 %, im Einklang mit dem Trend zu späteren Erstheiraten im Alter von durchschnittlich 31 bis 33 Jahren
- Der Anteil Verheirateter steigt ab 35 Jahren auf 64 % und erreicht in den späten 50ern mit 78 % seinen Höchstwert
- Verwitwung nimmt ab den 60ern stark zu und erreicht in den späten 80ern 66 % sowie in den 90ern 74–81 %
- Scheidung ist mit etwa 12 % in den 50ern bis frühen 60ern am höchsten, was dem Trend zur sogenannten Spätscheidung entspricht
Verteilung der Haushaltstypen
- Über alle Altersgruppen hinweg haben Haushalte aus Ehepaar + unverheirateten Kindern den höchsten Anteil, mit einem Spitzenwert von 63,6 % im Alter von 19 Jahren
- Ab den 50ern nehmen Ehepaar-Haushalte stark zu und erreichen bei den 65- bis 69-Jährigen mit 45,7 % ihren Höchstwert
- Einpersonenhaushalte zeigen ein zweigipfliges Muster: in den frühen 20ern (15–22 %) und nach dem 75. Lebensjahr (21–32 %)
- Haushalte aus Mutter + unverheirateten Kindern (5–14 %) liegen über Haushalten aus Vater + unverheirateten Kindern (2–5 %), was eine geschlechtsspezifische Asymmetrie bei Alleinerziehenden zeigt
Verteilung des Bildungsniveaus
- In der jungen Generation von 20 bis 34 Jahren liegt der Anteil mit Abschluss einer vierjährigen Universität über 50 %; einschließlich Junior Colleges verfügen rund 75 % über einen tertiären Bildungsabschluss
- Bei den über 80-Jährigen machen ohne Schulbildung (36 %) und Grundschule (37 %) zusammen 73 % aus
- Regional weisen Sejong (49,0 %), Seoul (45,1 %) und Daejeon (39,7 %) die höchsten Anteile mit Bachelorabschluss oder höher auf
- In Sejong hängt dies mit dem Zuzug hochqualifizierter Beamter und Forschender infolge der Verlagerung des Regierungssitzes nach Sejong zusammen
Berufsverteilung
- Fachkräfte und Büroberufe machen den größten Anteil aus und spiegeln eine dienstleistungs- und wissensbasierte Wirtschaftsstruktur wider
- Unter den Verkaufsberufen steht der Online-Shop-Verkäufer mit 19,8 % auf Platz 1, was den hohen Anteil des E-Commerce bestätigt
- Bei einfachen Tätigkeiten konzentriert sich der Anteil auf Gebäudewachpersonal (21,3 %) und Gebäudereiniger (16,0 %)
- Militärangehörige machen etwa 1 % aller Erwerbstätigen aus, wobei mehr als zwei Drittel dem Heer angehören
Technische Einschränkungen und Grenzen
- Aufgrund realistischer Beschränkungen bei Verfügbarkeit, Aktualität öffentlicher Daten und des PGM-Modells wurde zwischen bestimmten Variablen eine Unabhängigkeitsannahme angewendet
- Beispiel: Bei der Zuweisung detaillierter Berufe wird angenommen, dass Geschlecht, Einkommen, Bildungsniveau und Fachrichtung unabhängig voneinander Einfluss nehmen; Wechselwirkungen werden nicht modelliert
- Umfassende Statistiken zu Gender existieren in inländischen öffentlichen Daten nicht und wurden daher nicht berücksichtigt
- Enthalten sind nur erwachsene Personas ab 19 Jahren
- Personas zu Enterprise-Kunden in Bereichen wie Finanzen oder Healthcare sind ausgeschlossen
Verbesserungen gegenüber einem rein LLM-basierten Ansatz
- Während bei ausschließlicher Abhängigkeit von LLMs die Stadtverteilung auf Orte wie Suncheon oder Changwon konzentriert war, bildet Nemotron-Personas-Korea die reale bevölkerungsproportionale Verteilung mit Regionen wie Hwaseong in Gyeonggi, Namyangju und Songpa-gu in Seoul ab
- Familienformen wurden von einer einseitigen Dominanz von Einpersonenhaushalten auf vielfältige Formen wie Zusammenleben mit Ehepartner, mit Ehepartner und Kindern oder mit Eltern erweitert
- Auch bei Wohnbesitzformen wird statt 100 % Eigentum nun das reale Verhältnis von Eigentum und Miete abgebildet
- Bei Nahrungsmitteln spiegelt die Verteilung statt einer Dominanz von Salat nun die tatsächliche Esskultur wider, darunter Bibimbap, japanisches Essen, Chicken, Galbi, Samgyeopsal, Tteokbokki, Snackgerichte, Brot, Doenjang-jjigae und Jajangmyeon
Beispiele für kulturelle Abbildung
- „Der 33-jährige Parasite-Single Jeong Jun entspannt sich nach Feierabend mit Kollegen bei Samgyeopsal und Soju vom Stress des Tages“ — wohnhaft in Songpa-gu, Seoul, vierjährige Universität, unverheiratet, lebt bei den Eltern; spiegelt das Phänomen der Kangaroo-Familienabhängigkeit in der koreanischen Gesellschaft wider
- „Die 73-jährige Kim Chunhui aus Ulsan liebt Lieder von Sim Soo-bong und stellt gern Fotos in den Familien-Gruppenchat“ — weiblich, ohne Schulbildung, verheiratet, ohne Erwerbstätigkeit; spiegelt die ältere weibliche Bevölkerung wider
Warum Persona-Datensätze für LLMs hilfreich sind
- Menschen verfügen jeweils über eigenes Wissen, und Personas sind ein Phänotyp, der dieses individuelle Wissen verdichtet ausdrückt
- Beispiel: Eine Persona als Elektriker kann als Medium dienen, um elektrisches Fachwissen aus einem LLM hervorzuholen
- In synthetischen Daten ist Diversität ein sehr wichtiger Indikator, und Menschen sind die beste Quelle für Diversität
- Mit Formen wie „Erstelle ein logisches Schlussfolgerungsproblem, das mit {der gegebenen Persona} zusammenhängt“ lassen sich vielfältige synthetische Trainingsdaten pro Persona erzeugen
Konkrete Anwendungsfälle
- Verbesserung der allgemeinen Tool-Nutzung: Toolset und Persona werden einem User-LLM gemeinsam gegeben, um Daten zu synthetisieren und zu trainieren. Nemotron-Nano-9B-v2-Japanese übernahm diese Methodik und erreichte Platz 1 im Nejumi-Leaderboard. Ein ähnlicher Ansatz wurde auch in Nemotron Nano v3 und Super v3 eingeführt
- Verbesserung der Modellsicherheit: Nutzung als Seed-Daten für den Datensatz Sensitive-safety-category-refusals (SSCR). Der SSCR-Datensatz ist in nemotron-safety-blend enthalten
Nutzung und Lizenz
- Kann mit der Python-Bibliothek
datasetsüberload_dataset("nvidia/Nemotron-Personas-Korea")geladen werden - Unter der Lizenz CC BY 4.0 frei für kommerzielle und nichtkommerzielle Nutzung
- Eine erweiterte Version zur direkten Verwendung in NeMo Data Designer ist ebenfalls separat verfügbar
10 Kommentare
Ich wollte das ohnehin schon einmal bei GeekNews posten..
https://manyperson.com/
Ich entwickle einen entsprechenden Persona-Service.
Ebenso nutze ich MDIS-Daten, und ich habe Gemini verwendet.
Show GN: ManyPerson - koreanischer KI-Persona-Meinungssimulator auf Basis von MDIS des Statistikamts
Vielen Dank für die Unterlagen.
Vielen Dank für das gute Material. So werden Personas also auf diese Weise erstellt.
Sehr nützlich!
https://github.com/civilian7/korean-people-persona
Aus persönlichem Bedarf heraus
habe ich ein Python-Programm erstellt und veröffentlicht, das öffentliche Daten in sqlite3 umwandeln kann,
sowie ein Beispiel für einen MCP-Server.
Ich habe das Gefühl, dass die Quote der Studienanfänger an vierjährigen Universitäten unter Menschen in ihren 20ern noch bis vor gar nicht so langer Zeit unter 50 % lag, aber inzwischen scheint sie darüber zu liegen.
Da gibt es viele interessante Statistiken.
Ich habe die Erklärung ergänzt und dabei auf die Präsentationsunterlagen zu diesem Datensatz Bezug genommen.
Nemotron-Personas-Korea, wir veröffentlichen den ersten Persona-Datensatz unseres Landes! - LinkedIn
Nemotron-Personas-Korea : der erste Persona-Datensatz unseres Landes - PDF-Link
Im Vergleich zu dem, was ausländische LLMs erzeugen, wirken diese Personas fast schon zu realistisch.
„Herr Park Ho-cheol ist ein erfahrener Berater im Versicherungszentrum Wonju. Mit Headset nimmt er Tag für Tag stillschweigend Dutzende lautstarke Beschwerdeanrufe entgegen und erklärt komplexe Versicherungsklauseln so verständlich, als würde der Nachbar von nebenan sie erklären.
Er hat Jahrzehnte in der stillen Landschaft am Imjin-Fluss in Paju verbracht. Direkt nach dem Highschool-Abschluss stieg er in die Praxis des Rohrleitungsbaus ein und besitzt eine tiefe, durch körperliche Arbeit erlernte Lebensweisheit. In letzter Zeit schaut er sich auf dem Smartphone Reviews zu den neuesten Haushaltsgeräten oder Videos über das Weltgeschehen an und hält dabei aufmerksam Ausschau nach neuen Informationen.“