Ein KI-Agententeam bauen, das wie echte Koreaner Reviews gibt (Harness-Fork + 1 Mio. Personas von NVIDIA)

(github.com/hongsw)

6 Punkte von fastkoder 2026-04-28 | 1 Kommentare | Auf WhatsApp teilen

TL;DR

Bei einem Harness, das gezielt für Reviews genutzt wird — Code-Reviews, Dokumenten-Reviews, UX-Research, Interview-Simulationen — entsteht der Wert erst dann, wenn fünf Reviewer auch wirklich fünf unterschiedliche Perspektiven einbringen. In gewöhnlichen KI-Agententeams haben alle fünf meist einen ähnlichen
Ton und Blickwinkel, sodass faktisch dieselbe Meinung fünfmal wiederholt wird.

Dieser Fork bindet NVIDIA Nemotron-Personas-Korea (1 Million Zeilen, CC BY 4.0) per dynamischer Laufzeit-Suche ein und legt den Agenten reale koreanische Arbeitswelt-Personas über — inklusive Funktion, Generation, Region und Familiensituation —, um Reviews mit tatsächlich unterschiedlichen Perspektiven zu
erzeugen.

Warum Persona-Tiefe für ein Review-Harness nötig ist

Selbst bei demselben Code, Dokument oder Design haben Menschen unterschiedliche Perspektiven:

45-jähriger Backend-Teamleiter mit SI-Hintergrund
→ "Aus Sicht des Risikomanagements sollten wir schrittweise ausrollen. Wenn wir ausreichend validieren, verkürzt das am Ende sogar den Zeitplan."
24-jährige Growth-Marketerin der MZ-Generation
→ "Die Haltung, bei Ausreißern in den Zahlen schnell Ursachenhypothesen zu bilden, ist gut, aber das Signifikanzniveau ist etwas schwach. Sollen wir noch mehr A/B-Tests laufen lassen?"
38-jährige berufstätige Mutter und PM
→ "Wenn wir das in diesem Quartal am Ende nicht schaffen, würde ich zuerst um eine Anpassung der Prioritäten bitten."
27-jähriger Designer mit Fintech-Hintergrund
→ "In den qualitativen Daten aus den Nutzerinterviews kam der Kommentar mehrfach vor, dass sich der Moment des Gutscheinerhalts etwas unspektakulär anfühlt."

→ Selbst beim selben Code setzen vier Personen unterschiedliche Schwerpunkte bei Risiko, Wert und Priorität. Genau das ist das Wesen eines Review-Teams.

Was hinzugekommen ist (3 neue Skills, nicht-invasiv)

Das bestehende revfactory/harness bleibt unverändert; die automatische Trigger-Verzweigung erfolgt über Keywords in der Description:

korean-persona-search — mehrdimensionale Filterung mit Parquet predicate pushdown (Rolle, Region, Alter, Bildung, Generation) + Diversity-Sampling
korean-voice-adapter — Hasipsyo/Haeyo-Matrix + koreanische Arbeitsplatzkultur (Reporting-Linien, Meeting-Etikette, indirekte Ausdrucksweise) + Fachwortlexika für 13 Branchen
korean-persona-harness — Meta-Orchestrator (Pipeline mit 5 Sub-Agenten: Szenario-Analyst → Persona-Kurator → Sprachstil-Adapter → Agenten-Builder → Diversity-QA)

Kompatibel sowohl mit Claude Code als auch mit Codex CLI — identisches SKILL.md-Format, gemeinsamer Dataset-Cache.

Verifikation — gleiches LLM, gleiche Aufgabe, gleicher Umfang (102 Zeilen vs. 103 Zeilen)

Simulation eines wöchentlichen Stand-up-Meetings eines 5-köpfigen Teams. Die fachliche Genauigkeit ist gleichwertig. Der Unterschied zeigt sich bei der Vielfalt der Perspektiven.

Ergebnis mit normalem harness:

Stimmliche Unterscheidbarkeit: gering (alle fünf sprechen fast im selben Ton)
Koreanische Arbeitsplatz-Etikette: minimal
Gegenseitige Reaktionen, Ermutigung und Dank: 0-mal
Bitte-/Bestätigungston: 5-mal
Offenlegung persönlicher Umstände: 0 Fälle

Ergebnis mit korean-persona-harness:

Stimmliche Unterscheidbarkeit: sehr hoch (auch ohne Namen identifizierbar)
Koreanische Arbeitsplatz-Etikette: reichhaltig (Vermeidung vorschneller Festlegungen, Mentoring, Bestätigungston)
Gegenseitige Reaktionen, Ermutigung und Dank: 4-mal
Bitte-/Bestätigungston: 11-mal
Offenlegung persönlicher Umstände: 2 Fälle (Familientermine, Verweis auf Entscheidungsbefugnisse)

Menschliches Detail, das nur in Run B auftauchte:

Backend (Vater von zwei Kindern): "Nächste Woche habe ich wegen der Termine der Kinder etwas zu berücksichtigen, deshalb wäre es vielleicht gut, die Rotation vorab einmal zu organisieren."

Koreanische Arbeitsplatz-Etikette: minimal
Koreanische Arbeitsplatz-Etikette: minimal
Gegenseitige Reaktionen, Ermutigung und Dank: 0-mal
Bitte-/Bestätigungston: 5-mal
Offenlegung persönlicher Umstände: 0 Fälle

Ergebnis mit korean-persona-harness:

Stimmliche Unterscheidbarkeit: sehr hoch (auch ohne Namen identifizierbar)
Koreanische Arbeitsplatz-Etikette: reichhaltig (Vermeidung vorschneller Festlegungen, Mentoring, Bestätigungston)
Gegenseitige Reaktionen, Ermutigung und Dank: 4-mal
Bitte-/Bestätigungston: 11-mal
Offenlegung persönlicher Umstände: 2 Fälle (Familientermine, Verweis auf Entscheidungsbefugnisse)

Menschliches Detail, das nur in Run B auftauchte:

Backend (Vater von zwei Kindern): "Nächste Woche habe ich wegen der Termine der Kinder etwas zu berücksichtigen, deshalb wäre es vielleicht gut, die Rotation vorab einmal zu organisieren."

Teamleiter (45) → Marketerin (24): "Die Haltung, bei Ausreißern in den Zahlen schnell Ursachenhypothesen zu bilden — genau so sollten Sie weitermachen."
Marketerin: "Ah, vielen Dank, Teamleiter!"

Teamleiter: "Allerdings gibt es Anzeichen dafür, dass unsere Retry-Policy zu aggressiv gearbeitet und die Störung teilweise verstärkt hat. Eine endgültige Festlegung treffen wir im finalen RCA."

→ Familien-, Generationen- und Rollen-Personas verbinden sich auf natürliche Weise mit den Äußerungen. Statt abstrakt nur „Stabilität zuerst“ zu sagen, wird im Verhalten sichtbar, warum diese Person genau diese Priorität setzt.

Wertmatrix — wo ist das sinnvoll einsetzbar

Code-Review (5 Personen, 5 verschiedene Perspektiven) → sehr hoch
Simulation virtueller Nutzerinterviews → sehr hoch
Review von Marketing-Copy für koreanische Nutzer → sehr hoch
UX-Research- und Persona-Workshops → hoch
Meeting-Protokolle und Kollaborationssimulationen → hoch
RFCs und technische Dokumentation → mittel
Infrastruktur- und Architekturdesign → niedrig (dafür ist das Standard-harness besser geeignet)

Installation (1 Zeile)

Claude Code:

  /plugin marketplace add hongsw/harness  
  /plugin install harness@harness

Codex CLI:

  python3 ~/.codex/skills/.system/skill-installer/scripts/install-skill-from-github.py \  
      --repo hongsw/harness \  
      --path skills/korean-persona-search \  
      --path skills/korean-voice-adapter \  
      --path skills/korean-persona-harness

Dataset-Cache (von beiden Laufzeitumgebungen gemeinsam genutzt):

  pip install huggingface_hub pyarrow  
  python3 $SKILL_DIR/korean-persona-search/scripts/download.py

⚠️ Achtung: Wer bisher den Installer von revfactory/harness verwendet hat, muss wegen identischer Marketplace- und Plugin-Namen eine Migration in 4 Schritten durchführen:

  /plugin uninstall harness@harness  
  /plugin marketplace remove harness-marketplace  
  /plugin marketplace add hongsw/harness  
  /plugin install harness@harness

1 Kommentare

tomlee 2026-04-28

Interessant, haha. Wir sind in einem ähnlichen Bereich unterwegs, gehen aber einen anderen Weg — ClawSouls (clawsouls.ai) ist eine Persona-Speicherregistrierung und Sharing-Plattform. Einmal registrierte Personas können über das npm-Paket clawsouls auf Agentenplattformen wie OpenClaw, Claude Code, Cursor und Hermes Agent angewendet werden. Wir würden uns freuen, wenn Sie es einmal vorstellen könnten. Die Plattform wurde auch schon bei GeekNews vorgestellt: Show GN: ClawSouls – Offenes Register zum Austauschen von AI-Agenten-Personas mit einer einzigen Zeile Wenn Sie an einer Zusammenarbeit interessiert sind, kontaktieren Sie uns bitte^^ ( contact@clawsouls.ai )