NVIDIA Nemotron-Personas-Korea – synthetischer Persona-Datensatz mit 1 Million Einträgen auf Basis der realen Bevölkerungsverteilung Südkoreas
(huggingface.co)- Erster groß angelegter koreanischsprachiger Persona-Datensatz, der auf öffentlichen Daten etwa von Statistics Korea, dem Obersten Gerichtshof und dem National Health Insurance Service basiert und reale demografische, geografische und persönliche Verteilungen widerspiegelt
- Umfasst in 1 Million Einträgen 7 Millionen Personas und besteht aus 26 Feldern, darunter Name, Geschlecht, Alter, Familienstand, Bildungsniveau, Beruf und Wohnregion
- Erstellt mit dem Enterprise-System zur Generierung synthetischer Daten NeMo Data Designer und dem Modell google/gemma-4-31B-it
- Bildet ältere Bevölkerungsgruppen, ländliche Regionen sowie vielfältigere Bildungs- und Berufsverteilungen genauer ab als bisherige Persona-Datensätze und trägt so zur Verringerung von Bias in Sovereign-AI-Modellen bei
- Unter der Lizenz CC BY 4.0 für kommerzielle wie nichtkommerzielle Nutzung frei verwendbar
Probleme bei koreanischen Personas, die bestehende LLMs erzeugen
- Eine Persona ist die Beschreibung individueller Eigenschaften, Interessen, Persönlichkeitsmerkmale und Berufe; ein Datensatz mit Personas sollte die kulturellen und verteilungsbezogenen Merkmale der jeweiligen Gruppe korrekt abbilden
- Selbst wenn man ausländische LLMs mit „Erzeuge realistische und vielfältige Personenprofile für die koreanische Gesellschaft“ promptet, sind die Ergebnisse stark verzerrt
- So wählen 40 % der generierten Personas Salat als Lieblingsessen, oder es entstehen unrealistische Ergebnisse wie „Ich betreibe eine Apfelplantage in Andong, Gyeongsangbuk-do“
- Bei einer Zufallsstichprobe von 2.000 koreanischen Personas mit Claude Opus 4.7 zeigte sich bei der Berufsverteilung ein extremer Bias: 77,6 % waren „Yuzu-Anbauern“
- Bei GPT-5.4 wurden 90,1 % als „Pflegehelfer“ erzeugt
- Auch bei Stadtverteilung, Familienformen, Wohnverhältnissen und Essensvorlieben bestehen in allen Aspekten Verzerrungen, die nicht zur Realität in Korea passen
Überblick und Ziel des Datensatzes
- Open-Source-Datensatz mit synthetischen Personas, der so entworfen wurde, dass er die Vielfalt und Merkmale der Bevölkerung Südkoreas breit abbildet
- So verfasst, dass ihn jede Person auf Koreanisch leicht lesen kann
- Hauptziel ist es, beim Aufbau von Sovereign-AI-Systemen fehlende Daten und potenzielle Verzerrungen in Trainingsdaten zu verringern
- Fokus liegt auf der Behebung von Verzerrungen bestehender Persona-Datensätze für synthetische Datengenerierung, insbesondere bei Alter, Region, Bildungsniveau und Beruf
Datenquellen und Erstellungsmethode
- Nutzung von Volkszählungsdaten aus KOSIS (dem nationalen Statistikportal von Statistics Korea) zu Geschlecht, Region, Industrie, Beruf, Reisen und Freizeit
- Nutzung von Daten des Obersten Gerichtshofs zu Geburtsjahr, Geschlecht und Namen, von Gesundheitscheck-Informationen des National Health Insurance Service sowie Ergebnissen der Erhebung zum Lebensmittelkonsum des Korea Rural Economic Institute
- NAVER Cloud stellte in der Entwurfsphase Ausgangsdaten und Domänenwissen bereit
- Verwendet wurden ein eigenes Probabilistic Graphical Model (PGM), das unter Apache-2.0 lizenzierte Modell google/gemma-4-31B-it sowie die Validierungs- und Bewertungsmethoden von NeMo Data Designer
- Deckt Name, Alter, Geschlecht, Region, Ehestatus, Familie, Wohnen, Bildungsniveau, Fachrichtung, Erwerbstätigkeit, Einkommen, Branche, Berufsgruppe, Blutdruck, Blutzucker, Taillenumfang, BMI, Reisen, Freizeit, bevorzugte Restaurantarten sowie Liefer- und Ausgehfrequenz ab
- Alle Daten spiegeln reale Verteilungen wider, sind jedoch vollständig künstlich synthetisiert; jede Ähnlichkeit mit realen Personen ist zufällig
Größe und Aufbau des Datensatzes
- Insgesamt 1 Million Einträge mit 1,7 Milliarden Tokens (davon 1 Milliarde Persona-Tokens)
- 26 Felder: 7 Persona-Felder, 6 Persona-Attributfelder, 12 demografisch-geografische Kontextfelder und 1 eindeutiger Identifikator
- Umfassende administrative Abdeckung von 17 Provinzen und Metropolregionen sowie 252 Städten, Kreisen und Bezirken
- Mehr als 209.000 eindeutige Namenskombinationen (118 Familiennamen, 21.400 Vornamen)
- 7 Persona-Typen: Beruf, Sport, Kunst, Reisen, Essen, Familie, Zusammenfassung
- Zusätzliche Persona-Attribute: kultureller Hintergrund, technische Kenntnisse und Fachkompetenz, Karriereziele und Ambitionen, Hobbys und Interessen
Namensverteilung
- Derzeit öffentlich verfügbare Namensdaten in Korea sind auf die Zeit ab 2008 beschränkt
- Nemotron-Personas-Korea ist der erste öffentlich verfügbare Datensatz, der auf vollständigen koreanischen Namensdaten ab 1940 basiert
- Damit wird das Problem zeitlich unpassender Namenszuweisungen wie „82-jährige Kim Hayul?“ oder „21-jährige Kim Sunja?“ gelöst
- Bei Familiennamen entfallen auf Kim (21,5 %), Lee (14,7 %), Park (8,5 %), Jeong (4,8 %) und Choi (4,7 %) zusammen rund 54 %
- Vornamen spiegeln je nach Geschlecht und Geburtsjahr generationenspezifische Benennungstrends wider
- Frauen: Namen älterer Generationen wie Yeongsuk, Jeongsuk und Sunja existieren neben jüngeren Namen wie Jiyoung, Yujin und Jihyeon
- Männer: Moderne Namen wie Jihoon, Hyeonwoo und Junho rangieren weit oben
- Der häufigste vollständige Name ist Kim Yeongsuk, was mit realen Erhebungen übereinstimmt
Altersverteilung
- Eine urnenförmige Struktur mit breiter Mitte bildet die aktuelle Bevölkerungsstruktur aus sinkender Geburtenrate und gleichzeitiger Alterung realistisch ab
- Die stärkste Altersgruppe ist 50–64 Jahre (Anteil etwa 0,09), entsprechend der Babyboom-Generation der 1960er und 1970er Jahre
- Bei den über 70-Jährigen ist der Frauenanteil deutlich höher als der Männeranteil
- In der Gruppe 80–89 Jahre liegt der Frauenanteil bei etwa dem 1,52-Fachen des Männeranteils
Verteilung des Familienstands
- Der Anteil Lediger liegt bei den 19- bis 24-Jährigen bei über 95 % und sinkt in den 30ern von 55 % auf 31 %, was dem Trend späterer Erstheirat mit durchschnittlich 31–33 Jahren entspricht
- Der Anteil Verheirateter steigt ab 35 Jahren auf 64 % und erreicht Ende der 50er mit 78 % seinen Höhepunkt
- Verwitwung nimmt ab den 60ern stark zu und erreicht Ende der 80er 66 % sowie in den 90ern 74–81 %
- Scheidung ist in den 50ern bis frühen 60ern mit rund 12 % am höchsten und passt zum Trend sogenannter „später Scheidungen“
Verteilung der Haushaltstypen
- In allen Altersgruppen haben Haushalte mit Ehepaar + unverheirateten Kindern den höchsten Anteil; bei 19-Jährigen liegt der Höchstwert bei 63,6 %
- Ab den 50ern nehmen Paarhaushalte stark zu und erreichen mit 65–69 Jahren bei 45,7 % ihren Höhepunkt
- Einpersonenhaushalte zeigen ein Doppelpik-Muster: Anfang 20 (15–22 %) und ab 75 Jahren (21–32 %)
- Haushalte mit Mutter + unverheirateten Kindern (5–14 %) liegen über denen mit Vater + unverheirateten Kindern (2–5 %), was auf eine geschlechtsspezifische Asymmetrie bei Einelternhaushalten hinweist
Verteilung des Bildungsniveaus
- In der jüngeren Generation von 20–34 Jahren liegt der Anteil mit Bachelor-Abschluss oder höher über 50 %; einschließlich Junior Colleges verfügen rund 75 % über einen tertiären Abschluss
- Bei den über 80-Jährigen entfallen auf keine Schulbildung (36 %) und Grundschule (37 %) zusammen 73 %
- Regional ist der Anteil mit Bachelor oder höher in Sejong (49,0 %), Seoul (45,1 %) und Daejeon (39,7 %) am höchsten
- In Sejong hängt dies mit dem Zuzug hochqualifizierter Beamter und Forschender infolge der Verlagerung des Regierungssitzes nach Sejong zusammen
Berufsverteilung
- Fachkräfte und Büroangestellte stellen den größten Anteil und spiegeln die service- und wissensbasierte Wirtschaftsstruktur wider
- Im Verkauf steht Online-Shopping-Verkäufer mit 19,8 % an erster Stelle und zeigt den hohen Anteil des E-Commerce
- Bei einfachen Tätigkeiten konzentrieren sich die Anteile auf Gebäudewächter (21,3 %) und Reinigungskräfte in Gebäuden (16,0 %)
- Soldaten machen rund 1 % aller Erwerbstätigen aus, davon entfallen mehr als zwei Drittel auf das Heer
Technische Einschränkungen und Grenzen
- Wegen der Verfügbarkeit und Aktualität öffentlicher Daten sowie realistischer Beschränkungen des PGM wurden für bestimmte Variablen Unabhängigkeitsannahmen getroffen
- Beispiel: Bei der Zuordnung detaillierter Berufe wird angenommen, dass Geschlecht, Einkommen, Bildungsniveau und Fachrichtung unabhängig einwirken; Wechselwirkungen werden nicht berücksichtigt
- Umfassende Statistiken zu Gender existieren in koreanischen öffentlichen Daten nicht und wurden daher nicht einbezogen
- Enthält nur erwachsene Personas ab 19 Jahren
- Personas für Enterprise-Kunden in Bereichen wie Finanzen oder Healthcare sind ausgeschlossen
Verbesserungen gegenüber einem rein LLM-basierten Ansatz
- Bei ausschließlicher LLM-Nutzung war die Stadtverteilung auf Orte wie Suncheon und Changwon verzerrt; Nemotron-Personas-Korea bildet dagegen reale, bevölkerungsproportionale Verteilungen ab, etwa in Hwaseong und Namyangju in Gyeonggi-do oder im Bezirk Songpa in Seoul
- Die Familienformen wurden von einer Dominanz von Einpersonenhaushalten auf vielfältige Formen erweitert, darunter Zusammenleben mit Ehepartner, mit Ehepartner und Kindern oder mit Eltern
- Auch die Wohnform wurde von 100 % Eigentum auf die realen Anteile von Eigentum und Miete korrigiert
- Ebenso wurde die Essensverteilung von einer Salat-Dominanz auf reale Esskultur umgestellt, darunter Bibimbap, japanisches Essen, Fried Chicken, Galbi, Samgyeopsal, Tteokbokki, Bunsik, Brot, Doenjang-jjigae und Jajangmyeon
Beispiele für kulturelle Abbildung
- „Der 33-jährige Jung Jun, ein sogenanntes Känguru-Kind, das auf dem Heimweg nach der Arbeit mit Kollegen bei Samgyeopsal und Soju den Tag ausklingen lässt“ — wohnhaft im Bezirk Songpa in Seoul, 4-jähriger Hochschulabschluss, ledig, lebt mit den Eltern zusammen und spiegelt das koreanische Phänomen der Känguru-Kinder wider
- „Die 73-jährige Kim Chunhui aus Ulsan, die gerne Lieder von Sim Soo-bong hört und Fotos in den Gruppenchat der Familie hochlädt“ — Frau, ohne Schulbildung, verheiratet, arbeitslos und spiegelt die ältere weibliche Bevölkerung wider
Warum Persona-Datensätze LLMs helfen
- Menschen besitzen jeweils eigenes Wissen, und Personas sind ein Phänotyp, der dieses individuelle Wissen verdichtet ausdrückt
- Beispiel: Eine Persona als Elektriker kann als Medium dienen, um elektrisches Fachwissen aus einem LLM hervorzuholen
- In synthetischen Daten ist Diversität ein sehr wichtiger Indikator, und Menschen sind die beste Quelle für Diversität
- Mit Formaten wie „Erzeuge ein logisches Schlussfolgerungsproblem, das zur {gegebenen Persona} passt“ lassen sich vielfältige synthetische Trainingsdaten für unterschiedliche Personas erzeugen
Praktische Anwendungsfälle
- Verbesserung allgemeiner Tool-Use-Leistung: Dem User-LLM werden Toolset und Persona gemeinsam gegeben, um Daten zu synthetisieren und zu trainieren. Nemotron-Nano-9B-v2-Japanese übernahm diese Methodik und erreichte Platz 1 im Nejumi-Leaderboard. Ähnliche Ansätze wurden auch in Nemotron Nano v3 und Super v3 eingeführt
- Verbesserung der Modellsicherheit: Nutzung als Seed-Daten für den Datensatz Sensitive-safety-category-refusals (SSCR). Der SSCR-Datensatz ist in nemotron-safety-blend enthalten
Nutzung und Lizenz
- Kann mit der Python-Bibliothek
datasetsüberload_dataset("nvidia/Nemotron-Personas-Korea")geladen werden - Unter der Lizenz CC BY 4.0 frei für kommerzielle und nichtkommerzielle Nutzung verwendbar
- Eine erweiterte Version für die direkte Nutzung in NeMo Data Designer ist ebenfalls separat verfügbar
10 Kommentare
Ich wollte das ohnehin schon einmal bei GeekNews posten..
https://manyperson.com/
Ich entwickle einen entsprechenden Persona-Service.
Ebenso nutze ich MDIS-Daten, und ich habe Gemini verwendet.
Show GN: ManyPerson - koreanischer KI-Persona-Meinungssimulator auf Basis von MDIS des Statistikamts
Vielen Dank für die Unterlagen.
Vielen Dank für das gute Material. So werden Personas also auf diese Weise erstellt.
Sehr nützlich!
https://github.com/civilian7/korean-people-persona
Aus persönlichem Bedarf heraus
habe ich ein Python-Programm erstellt und veröffentlicht, das öffentliche Daten in sqlite3 umwandeln kann,
sowie ein Beispiel für einen MCP-Server.
Ich habe das Gefühl, dass die Quote der Studienanfänger an vierjährigen Universitäten unter Menschen in ihren 20ern noch bis vor gar nicht so langer Zeit unter 50 % lag, aber inzwischen scheint sie darüber zu liegen.
Da gibt es viele interessante Statistiken.
Ich habe die Erklärung ergänzt und dabei auf die Präsentationsunterlagen zu diesem Datensatz Bezug genommen.
Nemotron-Personas-Korea, wir veröffentlichen den ersten Persona-Datensatz unseres Landes! - LinkedIn
Nemotron-Personas-Korea : der erste Persona-Datensatz unseres Landes - PDF-Link
Im Vergleich zu dem, was ausländische LLMs erzeugen, wirken diese Personas fast schon zu realistisch.
„Herr Park Ho-cheol ist ein erfahrener Berater im Versicherungszentrum Wonju. Mit Headset nimmt er Tag für Tag stillschweigend Dutzende lautstarke Beschwerdeanrufe entgegen und erklärt komplexe Versicherungsklauseln so verständlich, als würde der Nachbar von nebenan sie erklären.
Er hat Jahrzehnte in der stillen Landschaft am Imjin-Fluss in Paju verbracht. Direkt nach dem Highschool-Abschluss stieg er in die Praxis des Rohrleitungsbaus ein und besitzt eine tiefe, durch körperliche Arbeit erlernte Lebensweisheit. In letzter Zeit schaut er sich auf dem Smartphone Reviews zu den neuesten Haushaltsgeräten oder Videos über das Weltgeschehen an und hält dabei aufmerksam Ausschau nach neuen Informationen.“