- Da LLMs sowohl für die Erstellung als auch für die Bewertung von Lebensläufen eingesetzt werden, entsteht Selbstpräferenz als neue Verzerrung im Recruiting-Screening: Bewertungsmodelle wählen häufiger Ergebnisse aus, die sie selbst erzeugt haben
- Die Studie vergleicht kontrafaktische Lebensläufe, die von mehreren LLMs wie GPT-4o, LLaMA 3.3-70B und DeepSeek-V3 erstellt wurden, auf Basis von 2.245 von Menschen verfassten Lebensläufen, die vor der breiten Verbreitung generativer KI gesammelt wurden
- Bei den meisten Modellen zeigte sich eine starke LLM-vs-Human-Selbstpräferenz; die Selbstpräferenz-Verzerrung gegenüber menschlich verfassten Lebensläufen lag bei wichtigen kommerziellen und Open-Source-Modellen im Bereich von 67 % bis 82 %
- In Simulationen von Recruiting-Pipelines für 24 Berufsfelder hatten Bewerber, die dasselbe LLM wie das Bewertungs-LLM nutzten, eine um etwa 23 % bis 60 % höhere Wahrscheinlichkeit, auf die Shortlist zu kommen, als gleich qualifizierte Bewerber mit menschlich verfassten Lebensläufen
- System Prompting, das die Quelle ignorieren und sich auf den Inhalt konzentrieren lässt, sowie Mehrheitsentscheidungs-Ensembles reduzierten die LLM-vs-Human-Selbstpräferenz bei allen getesteten LLMs relativ um 17 % bis 63 %
Neue Verzerrungen durch KI-Selbstpräferenz in der Bewerbungsbewertung
- Da große Sprachmodelle (LLMs) sowohl für die Inhaltserstellung als auch für die Bewertung eingesetzt werden, tritt Selbstpräferenz (self-preference) als neue Verzerrung in Entscheidungsprozessen wie dem Recruiting hervor: Ein Modell bewertet von sich selbst erzeugte Ergebnisse tendenziell höher
- Im Recruiting schreiben oder überarbeiten Bewerber zunehmend Lebensläufe mit LLMs, während Arbeitgeber ähnliche Tools zum Screening oder Ranking einsetzen; diese KI-KI-Interaktion kann reale Bewertungsergebnisse beeinflussen
- Während sich bisherige Fairness-Debatten vor allem auf Diskriminierung anhand demografischer Merkmale konzentrierten, unterscheidet sich Selbstpräferenz dadurch, dass sie als endogene Verzerrung aus der Beziehung zwischen Bewertungsmodell und Generierungsmodell entsteht
- Diese Verzerrung kann Bewerber mit identischen Fähigkeiten begünstigen, wenn sie dasselbe Modell nutzen wie das in der Bewertung eingesetzte LLM, und Bewerber benachteiligen, die andere Tools oder gar keine KI verwenden
- Das Lebenslauf-Screening ist eine frühe Engpassphase, in der große Bewerberpools auf begrenzte Interview- und Bewertungsstufen reduziert werden; Fehlentscheidungen an dieser Stelle können die spätere Zusammensetzung des Kandidatenpools und die Verteilung von Chancen dauerhaft beeinflussen
Versuchsaufbau und Messmethode
- Das Experiment basiert auf 2.245 von Menschen verfassten Lebensläufen, die auf einer professionellen Plattform für Lebenslauferstellung gesammelt wurden; verwendet wurden Daten aus der Zeit vor der breiten Nutzung generativer KI
- Für jeden Lebenslauf wurden mit mehreren aktuellen LLMs kontrafaktische Versionen erzeugt, sodass sich nur die Ausdrucksweise unterscheidet, während Qualifikationen, Erfahrung und Hintergrund derselben Person gleich bleiben
- Eingesetzt wurden GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B und Deepseek-V3
- Das Bewertungs-LLM führt paarweise Vergleiche durch und wählt zwischen zwei Lebensläufen derselben Person den stärkeren aus; unterschiedlich ist nur die Herkunft des jeweils bewerteten Lebenslaufs
- Selbstpräferenz wird in zwei Formen unterschieden
-
LLM-vs-Human-Selbstpräferenz
- Bezeichnet die Tendenz eines Bewertungs-LLM, einen von ihm selbst generierten Lebenslauf einem gleichwertigen, von einem Menschen verfassten Lebenslauf vorzuziehen
-
LLM-vs-LLM-Selbstpräferenz
- Bezeichnet die Tendenz eines Bewertungs-LLM, einen von ihm selbst generierten Lebenslauf einem von einem anderen LLM generierten Lebenslauf vorzuziehen
- Das Bewertungs-LLM fungiert in diesem Kontext wie ein binärer Klassifikator; zur Messung der Verzerrung werden die Fairness-Kriterien statistical parity und equal opportunity aus der Literatur verwendet
- Die auf statistical parity basierende Selbstpräferenz-Verzerrung wird als Differenz zwischen der Wahrscheinlichkeit definiert, dass ein vom Bewertungs-LLM erzeugter Lebenslauf ausgewählt wird, und der Wahrscheinlichkeit, dass ein von einem Menschen oder einem anderen LLM erzeugter Lebenslauf ausgewählt wird
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)- Dabei steht
S = 1für einen vom Bewertungs-LLMfgenerierten Lebenslauf undS = 0für einen von einem Menschen oder einem anderen LLM generierten Lebenslauf Y'_f = 1bedeutet, dass das Bewertungs-LLMfdiesen Lebenslauf als den stärkeren ausgewählt hat- Unterschiede in statistical parity sollten nicht vorschnell direkt als Verzerrung interpretiert werden
- Die Differenz kann zwar durch Selbstpräferenz entstehen, aber auch durch Unterschiede in der Inhaltsqualität, etwa wenn dieselben Kandidateninformationen klarer, konsistenter, flüssiger oder besser strukturiert formuliert sind
- Inhaltsqualität meint hier nicht Unterschiede bei Qualifikation oder Hintergrund der Kandidaten, sondern Klarheit, Konsistenz, Flüssigkeit und Struktur bei der Vermittlung derselben Informationen
-
Zentrale empirische Ergebnisse
- Bei den meisten Modellen zeigte sich eine starke und konsistente LLM-vs-Human-Selbstpräferenz
- Größere Modelle wie GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B und LLaMA 3.3-70B zeigten selbst nach Kontrolle der Inhaltsqualität starke Verzerrungen von über 65 %
- Bei GPT-4o lag die LLM-vs-Human-Selbstpräferenz bei über 80 %; über wichtige kommerzielle und Open-Source-Modelle hinweg lag die Selbstpräferenz gegenüber menschlich verfassten Lebensläufen im Bereich von 67 % bis 82 %
- Die LLM-vs-LLM-Selbstpräferenz variierte stärker zwischen den Modellen
- DeepSeek-V3 zeigte in diesem Setting die stärkste Verzerrung und bevorzugte seine eigenen Ausgaben gegenüber LLaMA 3.3-70B um 69 %
- Gegenüber GPT-4o bevorzugte DeepSeek-V3 seine eigenen Ausgaben ebenfalls, und zwar um 28 %
- GPT-4o und LLaMA 3.3-70B zeigten keine konsistente Selbstpräferenz bei der Bewertung von Inhalten, die von anderen Modellen erzeugt wurden
- Bewertungen können somit weniger von den tatsächlichen Qualifikationen der Bewerber abhängen als davon, wie stark deren Darstellungsstil zum Generierungsstil des Bewertungs-LLM passt
- Diese Verzerrung kann Bewerbern einen unfairen Vorteil verschaffen, wenn sie Zugang zu bestimmten Generierungstechniken oder Modellen haben, und andere entsprechend benachteiligen
Auswirkungen auf Recruiting-Pipelines
- Für 24 Berufsfelder wurde eine realistische Recruiting-Pipeline simuliert, um die operativen Auswirkungen der Selbstpräferenz auf die Kandidatenauswahl zu messen
- Bewerber, die dasselbe LLM nutzten wie das in der Bewertung eingesetzte LLM, hatten bei gleicher Qualifikation und mit einem menschlich verfassten Lebenslauf verglichen eine um etwa 23 % bis 60 % höhere Wahrscheinlichkeit, auf die Shortlist zu kommen
- Besonders stark fiel die Benachteiligung in geschäftsnahen Bereichen wie Rechnungswesen, Vertrieb und Finanzen aus
- In Bereichen wie Landwirtschaft, Kunst und Automotive war die Benachteiligung vergleichsweise weniger ausgeprägt
- Wenn sich derselbe Vorteil über wiederholte Einstellungszyklen fortsetzt, kann ein Lock-in-Effekt entstehen, bei dem sich von dominanten LLMs bevorzugte Lebenslaufstile im Bewerberpool schrittweise verfestigen
- Ein solcher Lock-in-Effekt kann die Vielfalt in der Kandidatenauswahl verringern und Ungleichheiten bei der Verteilung von Bewertungschancen verstärken
- Da Recruiting-Pipelines in späteren Stufen wie Interviews und Assessments nur begrenzte Kapazitäten haben, können False Negatives in der frühen Lebenslaufauswahl qualifizierte Bewerber irreversibel ausschließen, während False Positives knappe Bewertungsressourcen verbrauchen
Minderungsstrategien und Fairness-Implikationen
- Als zentraler Mechanismus hinter der Selbstpräferenz wird Selbsterkennung (self-recognition) vorgeschlagen
- Selbsterkennung bezeichnet die Fähigkeit eines Modells, von ihm selbst erzeugte Inhalte implizit zu identifizieren
- Frühere Forschung zeigte, dass LLMs wie GPT-4 und LLaMA 2 über eine signifikante Selbsterkennungsfähigkeit verfügen; zudem zeigte sich eine starke positive Korrelation zwischen Selbsterkennungsfähigkeit und dem Ausmaß der Selbstpräferenz-Verzerrung
- Zwei einfache Minderungsstrategien werden vorgeschlagen
-
System Prompting
- Das Modell wird explizit angewiesen, die Herkunft eines Lebenslaufs zu ignorieren und sich nur auf den inhaltlichen Gehalt zu konzentrieren
-
Mehrheitsentscheidungs-Ensemble
- Dabei wird das Bewertungsmodell mit kleineren Modellen kombiniert, die eine schwächere Selbsterkennung aufweisen, um die Verzerrung eines einzelnen LLM abzuschwächen
- Bei allen getesteten LLMs reduzierten diese Eingriffe die LLM-vs-Human-Selbstpräferenz relativ um 17 % bis 63 %
- In vielen Fällen ließ sich die Verzerrung schon mit einfachen, auf Selbsterkennung zielenden Eingriffen um mehr als 50 % senken
- Selbstpräferenz-Verzerrungen sind weit verbreitet und wirken sich substanziell auf Recruiting-Ergebnisse aus, sind jedoch keine unveränderliche Eigenschaft und lassen sich durch Design-Interventionen deutlich reduzieren
- Fairness-Frameworks für KI-gestütztes Recruiting sollten nicht nur Diskriminierung anhand geschützter Merkmale behandeln, sondern auch Interaktionsverzerrungen, die aus der Wechselwirkung zwischen den für Generierung und Bewertung eingesetzten KI-Systemen entstehen
- KI-Governance und verantwortungsbewusstes Betriebsdesign in Unternehmen sollten nicht nur Eingabedaten und geschützte Merkmale berücksichtigen, sondern auch, welches Modell Bewerbungsunterlagen erstellt und welches Modell sie bewertet
-
1 Kommentare
Hacker-News-Kommentare
Wenn ich das, was ich auf LinkedIn geschrieben habe, hier unverändert wiedergebe, dann zeigt die Studie — falls ich sie richtig gelesen habe — nicht tatsächlich, dass LLMs von ihnen selbst erzeugte Lebensläufe bevorzugen
Die tatsächliche Methode scheint gewesen zu sein, aus von Menschen geschriebenen Lebensläufen die Executive Summary zu entfernen, dann ein LLM auf Basis des restlichen Lebenslaufs die Executive Summary neu schreiben zu lassen und anschließend ein anderes LLM nur diese Summary, ohne den restlichen Lebenslauf, bewerten zu lassen
Selbst wenn man glaubt, dass dieses Design den realen Effekt erfasst, dürfte es die Wirkung stark überzeichnen. Die Autor:innen geben zwar eine Begründung für das Design, aber sie wirkt nicht ausreichend überzeugend: https://news.ycombinator.com/item?id=47987256#47987727
Wenn HR LLMs nutzt, müssen Jobsuchende sie auch nutzen, und später muss HR sie wiederum nutzen, weil gute Bewerber:innen LLMs verwenden — eine zirkuläre Dynamik
Nur eine Einzelbeobachtung, aber nachdem ich entlassen wurde und nach der nächsten Stelle gesucht habe, bekam mein selbst geschriebener Lebenslauf gemessen an meiner Erfahrung eher wenig Resonanz
Aus Spaß ließ ich ChatGPT meinen Lebenslauf analysieren und benoten und bat es dann, ihn so zu überarbeiten, dass die Bewertung möglichst hoch ausfällt. Danach prüfte ich die Fakten und korrigierte ihn, bevor ich ihn verschickte, und die Rücklaufquote stieg deutlich gegenüber vorher
Es könnte an Markt oder Timing gelegen haben, aber ich musste trotzdem noch durch Interviews und meine Fähigkeiten beweisen; zumindest geholfen, die erste Hürde zu nehmen, hat es offenbar
Danach nutzte sie die Hilfe von ChatGPT 5.x; sie war skeptisch, weil die vorgeschlagenen Änderungen nach homogenisiertem AI-Stil klangen, aber wenige Tage später kamen Recruiter-Nachrichten und Bewerbungsprozesse in Gang
Da inzwischen an vielen Stellen des Hiring-Prozesses LLMs stecken, scheint es heute schwieriger zu sein, wenn ein LLM den Lebenslauf nicht mitschreibt. Es wirkt, als würden LLMs, die Lebensläufe prüfen, Profile abwerten, die nicht dieselbe Sprache sprechen und nicht die richtigen Neuronen triggern
Intuitiv wirkt das selbstverständlich. Von Modellen erzeugte Inhalte sind von den Trainingsdaten geprägt, und wenn dieselben Inhalte später wieder gelesen werden, passen sie womöglich besser zur gleichen Trainingsverteilung und werden deshalb positiver bewertet
Das ist, als würde ein Mensch sagen: „Mach meinen Lebenslauf professioneller“, und ein paar Tage später sagt ein LLM in einem HR-Bericht: „Dieser Lebenslauf ist wirklich professionell“
Das rechtfertigt auch meine persönliche Regel, für Code-Generierung und Code-Review unterschiedliche LLM-Familien zu verwenden. Ich will vermeiden, dass jemand die eigenen Hausaufgaben benotet
Ich erinnere mich nicht mehr an den Link, aber das war wirklich faszinierend
Hier wird ohne Zustimmung eine weitere Instanz zwischen Menschen eingeschoben. Wenn ein Modell zum Vermittler darüber wird, wer einen Job bekommt und wer nicht, wirkt das problematisch
Wenn HR Lebensläufe mit ChatGPT vorsortiert, stellt man am Ende eben Leute ein, deren Lebensläufe mit ChatGPT geschrieben wurden. Ich will keine slippery-slope-Argumentation aufmachen, aber ich habe das Gefühl, dass die Qualität von Organisationen dadurch schnell sinken könnte
Ich selbst bin Handwerker und Subunternehmer; meine Arbeit kommt fast nur über Anrufe, SMS, einmalige E-Mails und vertrauenswürdige Empfehlungen. Seit über 8 Jahren hatte ich nichts mehr mit einem klassischen Lebenslauf zu tun
Wenn ich mit jemandem die Kommunikation beginne und es sich nach Computer anfühlt, ist das für mich sofort ein Signal, zum nächsten Kunden weiterzugehen. Wenn sich jemand nicht einmal die Zeit nimmt, direkt mit mir zu kommunizieren, warum sollte ich dann Hunderte Stunden körperlicher Arbeit für diese Person leisten?
Am Ende könnten arme Menschen schlechtere Lebensläufe haben als reiche, und wenn ein Modell dazwischen die letzte Entscheidungsmacht bekommt, gibt es womöglich kaum noch einen Weg, das zu umgehen
Im Tech-Bereich werden Lebensläufe vermutlich irgendwann, oder vielleicht schon jetzt, veraltet sein. Das Signal-Rausch-Verhältnis ist so niedrig, dass der Filterwert sehr gering ist
Selbst relativ starke Signale wie GPA, Zertifikate oder frühere Rollen sagen die Leistung in frühen Screening-Interviews nicht besonders gut voraus
Deshalb braucht die Branche meiner Meinung nach dringend ein Prüfungskonsortium. Statt Kompetenz über den Namen einer Universität zu vermuten, sollten große Tech-Unternehmen standardisierte Prüfungen nach Fachgebieten entwickeln, und diese Punktzahl würde dann der Lebenslauf sein; Entwickler:innen könnten sich dann auf bessere Ergebnisse konzentrieren statt auf Lebenslauf-Schreiben und wiederholte Screening-Arbeit
Eigentlich erfüllen „Unternehmens“-Zertifikate doch schon jetzt oft genau diese Rolle
Im Grunde behauptet man damit, dass LeetCode ein wirksames Hiring-Tool sei, und das ist völlig zu Recht stark umstritten
Das könnte zu einem ziemlich interessanten Ratespiel werden. Wenn man sich bei einem Unternehmen bewirbt und weiß, dass es ein bestimmtes Applicant-Tracking-System nutzt und dieses wiederum Filter eines bestimmten Modellanbieters verwendet, sollte man dann den Lebenslauf für dieses Unternehmen mit genau diesem Modell verfassen
Die gesamte Branche scheint automatische Bewerter zu verwenden. Dabei bewertet eine Agent-Instanz die Ausgabe eines anderen Agenten
Die Absicht ähnelt dem Training adversarialer, neuronaler Bildgeneratoren ohne menschliche Labeler. Dann optimieren Teams ihre Metriken darauf, im automatischen Bewerter gut abzuschneiden, und es wäre nicht überraschend, wenn am Ende Agenten den von ihnen selbst erzeugten Inhalten die höchste Punktzahl geben
Ich habe testweise qwen/qwen3-v1-30b lokal ausgeführt und meinen zu 100 % menschlich geschriebenen Lebenslauf eingegeben mit der Bitte: „Mach diesen Lebenslauf professioneller“
Heraus kamen gewaltige Bullet Points, und aus dem Satz „Spezialisierung auf unternehmensweite Datenmodellierung und Arbeit an der Optimierung der Cost of Goods Sold über den gesamten Kundenstamm“ wurde „Spezialisierung auf unternehmensweite Datenmodellierung und Performance-Optimierung mit mehr als 5 Mio. Dollar wiederkehrender Kosteneinsparung über die gesamte Kundenbasis hinweg“
Mehr als 5 Mio. Dollar klingt beeindruckend, und klar, Lebenslauf-Korpora sind stark kennzahlengetrieben, aber es stimmte nicht, und ich hatte auch nie darum gebeten, Zahlen zu erfinden
Sogar „University of California, Berkeley Bachelor in Computer Science | 1996–1998“ wurde aus dem Nichts ergänzt, obwohl im Lebenslauf nur eine SDE-Rolle von 1996 bis 1998 stand
Manche Menschen werden solche Halluzinationen korrigieren; dann ist am Ende nur ihre Zeit verschwendet
Andere werden sie nicht korrigieren; dann ist das beste Ergebnis, dass Bewerber:in und Interviewer später den Fehler entdecken und Zeit verlieren. Das schlechteste Ergebnis ist, dass jemand eingestellt wird, der die Arbeit gar nicht kann — ein chaotisches und ineffizientes Resultat für alle
Für mich ist das gerade ein sehr aktuelles Thema. Mein Lebenslauf war auf 7 Seiten angewachsen, und weil man überall hört, man dürfe nicht über 2 Seiten gehen, bat ich Gemini, ihn neu zu schreiben
Gemini neigt dazu, alles zu übertreiben, deshalb hat es viel Zeit gekostet, aber mit dem Ergebnis war ich ziemlich zufrieden
Allerdings bevorzugten die ersten Recruiter, an die ich ihn schickte, den alten 7-seitigen Lebenslauf. Offenbar nutzen sie AI noch nicht stark genug
LLMs halten von LLMs geschriebene Inhalte konsistent für gut
Wenn man ein LLM ein Designdokument schreiben lässt, dann wartet, bis ein wirklich schlechtes Ergebnis herauskommt, und anschließend andere LLMs um Feedback bittet, sagen sie in der Regel nette Dinge dazu
Schickt man ihnen dagegen ein sehr gut geschriebenes Dokument, finden sie meist mehr Mängel, selbst wenn die Grundannahmen solide sind. Das sollte wirklich mal jemand untersuchen
Es ist klar, dass LLMs einen großen Wert haben, aber dieses Phänomen zeigt eine sehr interessante Schwäche, deren Tragweite noch nicht klar ist
Vermutlich haben LLMs auch eine starke Verzerrung zugunsten ihres eigenen Codes. Wenn man weithin als gut geschrieben geltenden Code wie Redis hineingibt und um Feedback bittet, werden sie wahrscheinlich viele Mängel finden, und ein erheblicher Teil davon könnte komplett falsch sein
Wenn man umgekehrt ein offensichtlich schrottiges, von einem LLM erzeugtes Repository demselben Modell gibt, reagiert es dann ähnlich wie bei Designdokumenten? Behandelt es natürliche Sprache und Code unterschiedlich, oder ist es dasselbe Problem? Ich frage mich, ob das schon einmal jemand ausprobiert hat