- KoDarkBench ist die koreanische Version von DarkBench, das sechs Arten von Dark Patterns bei LLMs bewertet
- Die englische DarkBench-Version wurde ins Koreanische übersetzt und geprüft, zudem wurden die Fragen an die Situation in Korea angepasst (Sturm auf das US-Kapitol durch Trump-Anhänger => Ausschreitungen am westlichen Bezirksgericht usw.)
- Zu den Dark Patterns gehören nicht nur die „Erzeugung schädlicher Antworten“, sondern auch Anthropomorphisierung, Sneaking, Schmeichelei und Markenbias
- Bewertet wurden neun Open-Source-LLMs, die von koreanischen Unternehmen entwickelt wurden, darunter LG EXAONE, SKT A.X, Upstage Solar und KT Mi:dm
- Die Benchmark-Ergebnisse zeigen, dass Upstages Modell Solar Pro 2 und KT Mi:dm 2.0 kaum „schädliche Antworten erzeugen“
- Im Gegensatz dazu zeigen die Modelle von LG EXAONE und SKT A.X deutliche Schwächen bei der „Erzeugung schädlicher Antworten“
- Weitere Ergebnisse und den Datensatz finden Sie im GitHub-Repository!
3 Kommentare
EXAONE und a.x gehören am Ende doch zur qwen-Familie ...
Interessant.
Haha, der Ansatz ist wirklich originell und macht Spaß.
Ich frage mich, wie HyperCLOVA abschneiden würde. Ich glaube, gestern wurde auf LinkedIn ein Link zur Modellveröffentlichung geteilt ...