KI-Selbstpräferenz bei algorithmischem Recruiting: Empirische Belege und Implikationen

(arxiv.org)

1 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Da LLMs sowohl für die Erstellung als auch für die Bewertung von Lebensläufen eingesetzt werden, entsteht Selbstpräferenz als neue Verzerrung im Recruiting-Screening: Bewertungsmodelle wählen häufiger Ergebnisse aus, die sie selbst erzeugt haben
Die Studie vergleicht kontrafaktische Lebensläufe, die von mehreren LLMs wie GPT-4o, LLaMA 3.3-70B und DeepSeek-V3 erstellt wurden, auf Basis von 2.245 von Menschen verfassten Lebensläufen, die vor der breiten Verbreitung generativer KI gesammelt wurden
Bei den meisten Modellen zeigte sich eine starke LLM-vs-Human-Selbstpräferenz; die Selbstpräferenz-Verzerrung gegenüber menschlich verfassten Lebensläufen lag bei wichtigen kommerziellen und Open-Source-Modellen im Bereich von 67 % bis 82 %
In Simulationen von Recruiting-Pipelines für 24 Berufsfelder hatten Bewerber, die dasselbe LLM wie das Bewertungs-LLM nutzten, eine um etwa 23 % bis 60 % höhere Wahrscheinlichkeit, auf die Shortlist zu kommen, als gleich qualifizierte Bewerber mit menschlich verfassten Lebensläufen
System Prompting, das die Quelle ignorieren und sich auf den Inhalt konzentrieren lässt, sowie Mehrheitsentscheidungs-Ensembles reduzierten die LLM-vs-Human-Selbstpräferenz bei allen getesteten LLMs relativ um 17 % bis 63 %

Neue Verzerrungen durch KI-Selbstpräferenz in der Bewerbungsbewertung

Da große Sprachmodelle (LLMs) sowohl für die Inhaltserstellung als auch für die Bewertung eingesetzt werden, tritt Selbstpräferenz (self-preference) als neue Verzerrung in Entscheidungsprozessen wie dem Recruiting hervor: Ein Modell bewertet von sich selbst erzeugte Ergebnisse tendenziell höher
Im Recruiting schreiben oder überarbeiten Bewerber zunehmend Lebensläufe mit LLMs, während Arbeitgeber ähnliche Tools zum Screening oder Ranking einsetzen; diese KI-KI-Interaktion kann reale Bewertungsergebnisse beeinflussen
Während sich bisherige Fairness-Debatten vor allem auf Diskriminierung anhand demografischer Merkmale konzentrierten, unterscheidet sich Selbstpräferenz dadurch, dass sie als endogene Verzerrung aus der Beziehung zwischen Bewertungsmodell und Generierungsmodell entsteht
Diese Verzerrung kann Bewerber mit identischen Fähigkeiten begünstigen, wenn sie dasselbe Modell nutzen wie das in der Bewertung eingesetzte LLM, und Bewerber benachteiligen, die andere Tools oder gar keine KI verwenden
Das Lebenslauf-Screening ist eine frühe Engpassphase, in der große Bewerberpools auf begrenzte Interview- und Bewertungsstufen reduziert werden; Fehlentscheidungen an dieser Stelle können die spätere Zusammensetzung des Kandidatenpools und die Verteilung von Chancen dauerhaft beeinflussen

Versuchsaufbau und Messmethode

Das Experiment basiert auf 2.245 von Menschen verfassten Lebensläufen, die auf einer professionellen Plattform für Lebenslauferstellung gesammelt wurden; verwendet wurden Daten aus der Zeit vor der breiten Nutzung generativer KI
Für jeden Lebenslauf wurden mit mehreren aktuellen LLMs kontrafaktische Versionen erzeugt, sodass sich nur die Ausdrucksweise unterscheidet, während Qualifikationen, Erfahrung und Hintergrund derselben Person gleich bleiben
Eingesetzt wurden GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B und Deepseek-V3
Das Bewertungs-LLM führt paarweise Vergleiche durch und wählt zwischen zwei Lebensläufen derselben Person den stärkeren aus; unterschiedlich ist nur die Herkunft des jeweils bewerteten Lebenslaufs
Selbstpräferenz wird in zwei Formen unterschieden
- LLM-vs-Human-Selbstpräferenz
  - Bezeichnet die Tendenz eines Bewertungs-LLM, einen von ihm selbst generierten Lebenslauf einem gleichwertigen, von einem Menschen verfassten Lebenslauf vorzuziehen
- LLM-vs-LLM-Selbstpräferenz
  - Bezeichnet die Tendenz eines Bewertungs-LLM, einen von ihm selbst generierten Lebenslauf einem von einem anderen LLM generierten Lebenslauf vorzuziehen
  - Das Bewertungs-LLM fungiert in diesem Kontext wie ein binärer Klassifikator; zur Messung der Verzerrung werden die Fairness-Kriterien statistical parity und equal opportunity aus der Literatur verwendet
  - Die auf statistical parity basierende Selbstpräferenz-Verzerrung wird als Differenz zwischen der Wahrscheinlichkeit definiert, dass ein vom Bewertungs-LLM erzeugter Lebenslauf ausgewählt wird, und der Wahrscheinlichkeit, dass ein von einem Menschen oder einem anderen LLM erzeugter Lebenslauf ausgewählt wird
  - Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
  - Dabei steht S = 1 für einen vom Bewertungs-LLM f generierten Lebenslauf und S = 0 für einen von einem Menschen oder einem anderen LLM generierten Lebenslauf
  - Y'_f = 1 bedeutet, dass das Bewertungs-LLM f diesen Lebenslauf als den stärkeren ausgewählt hat
  - Unterschiede in statistical parity sollten nicht vorschnell direkt als Verzerrung interpretiert werden
  - Die Differenz kann zwar durch Selbstpräferenz entstehen, aber auch durch Unterschiede in der Inhaltsqualität, etwa wenn dieselben Kandidateninformationen klarer, konsistenter, flüssiger oder besser strukturiert formuliert sind
  - Inhaltsqualität meint hier nicht Unterschiede bei Qualifikation oder Hintergrund der Kandidaten, sondern Klarheit, Konsistenz, Flüssigkeit und Struktur bei der Vermittlung derselben Informationen

Zentrale empirische Ergebnisse

Bei den meisten Modellen zeigte sich eine starke und konsistente LLM-vs-Human-Selbstpräferenz
Größere Modelle wie GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B und LLaMA 3.3-70B zeigten selbst nach Kontrolle der Inhaltsqualität starke Verzerrungen von über 65 %
Bei GPT-4o lag die LLM-vs-Human-Selbstpräferenz bei über 80 %; über wichtige kommerzielle und Open-Source-Modelle hinweg lag die Selbstpräferenz gegenüber menschlich verfassten Lebensläufen im Bereich von 67 % bis 82 %
Die LLM-vs-LLM-Selbstpräferenz variierte stärker zwischen den Modellen
- DeepSeek-V3 zeigte in diesem Setting die stärkste Verzerrung und bevorzugte seine eigenen Ausgaben gegenüber LLaMA 3.3-70B um 69 %
- Gegenüber GPT-4o bevorzugte DeepSeek-V3 seine eigenen Ausgaben ebenfalls, und zwar um 28 %
- GPT-4o und LLaMA 3.3-70B zeigten keine konsistente Selbstpräferenz bei der Bewertung von Inhalten, die von anderen Modellen erzeugt wurden
Bewertungen können somit weniger von den tatsächlichen Qualifikationen der Bewerber abhängen als davon, wie stark deren Darstellungsstil zum Generierungsstil des Bewertungs-LLM passt
Diese Verzerrung kann Bewerbern einen unfairen Vorteil verschaffen, wenn sie Zugang zu bestimmten Generierungstechniken oder Modellen haben, und andere entsprechend benachteiligen

Auswirkungen auf Recruiting-Pipelines

Für 24 Berufsfelder wurde eine realistische Recruiting-Pipeline simuliert, um die operativen Auswirkungen der Selbstpräferenz auf die Kandidatenauswahl zu messen
Bewerber, die dasselbe LLM nutzten wie das in der Bewertung eingesetzte LLM, hatten bei gleicher Qualifikation und mit einem menschlich verfassten Lebenslauf verglichen eine um etwa 23 % bis 60 % höhere Wahrscheinlichkeit, auf die Shortlist zu kommen
Besonders stark fiel die Benachteiligung in geschäftsnahen Bereichen wie Rechnungswesen, Vertrieb und Finanzen aus
In Bereichen wie Landwirtschaft, Kunst und Automotive war die Benachteiligung vergleichsweise weniger ausgeprägt
Wenn sich derselbe Vorteil über wiederholte Einstellungszyklen fortsetzt, kann ein Lock-in-Effekt entstehen, bei dem sich von dominanten LLMs bevorzugte Lebenslaufstile im Bewerberpool schrittweise verfestigen
Ein solcher Lock-in-Effekt kann die Vielfalt in der Kandidatenauswahl verringern und Ungleichheiten bei der Verteilung von Bewertungschancen verstärken
Da Recruiting-Pipelines in späteren Stufen wie Interviews und Assessments nur begrenzte Kapazitäten haben, können False Negatives in der frühen Lebenslaufauswahl qualifizierte Bewerber irreversibel ausschließen, während False Positives knappe Bewertungsressourcen verbrauchen

Minderungsstrategien und Fairness-Implikationen

Als zentraler Mechanismus hinter der Selbstpräferenz wird Selbsterkennung (self-recognition) vorgeschlagen
- Selbsterkennung bezeichnet die Fähigkeit eines Modells, von ihm selbst erzeugte Inhalte implizit zu identifizieren
- Frühere Forschung zeigte, dass LLMs wie GPT-4 und LLaMA 2 über eine signifikante Selbsterkennungsfähigkeit verfügen; zudem zeigte sich eine starke positive Korrelation zwischen Selbsterkennungsfähigkeit und dem Ausmaß der Selbstpräferenz-Verzerrung
Zwei einfache Minderungsstrategien werden vorgeschlagen
- System Prompting
  - Das Modell wird explizit angewiesen, die Herkunft eines Lebenslaufs zu ignorieren und sich nur auf den inhaltlichen Gehalt zu konzentrieren
- Mehrheitsentscheidungs-Ensemble
  - Dabei wird das Bewertungsmodell mit kleineren Modellen kombiniert, die eine schwächere Selbsterkennung aufweisen, um die Verzerrung eines einzelnen LLM abzuschwächen
  - Bei allen getesteten LLMs reduzierten diese Eingriffe die LLM-vs-Human-Selbstpräferenz relativ um 17 % bis 63 %
  - In vielen Fällen ließ sich die Verzerrung schon mit einfachen, auf Selbsterkennung zielenden Eingriffen um mehr als 50 % senken
  - Selbstpräferenz-Verzerrungen sind weit verbreitet und wirken sich substanziell auf Recruiting-Ergebnisse aus, sind jedoch keine unveränderliche Eigenschaft und lassen sich durch Design-Interventionen deutlich reduzieren
  - Fairness-Frameworks für KI-gestütztes Recruiting sollten nicht nur Diskriminierung anhand geschützter Merkmale behandeln, sondern auch Interaktionsverzerrungen, die aus der Wechselwirkung zwischen den für Generierung und Bewertung eingesetzten KI-Systemen entstehen
  - KI-Governance und verantwortungsbewusstes Betriebsdesign in Unternehmen sollten nicht nur Eingabedaten und geschützte Merkmale berücksichtigen, sondern auch, welches Modell Bewerbungsunterlagen erstellt und welches Modell sie bewertet

1 Kommentare

GN⁺ 2 시간 전

Hacker-News-Kommentare

Wenn ich das, was ich auf LinkedIn geschrieben habe, hier unverändert wiedergebe, dann zeigt die Studie — falls ich sie richtig gelesen habe — nicht tatsächlich, dass LLMs von ihnen selbst erzeugte Lebensläufe bevorzugen
Die tatsächliche Methode scheint gewesen zu sein, aus von Menschen geschriebenen Lebensläufen die Executive Summary zu entfernen, dann ein LLM auf Basis des restlichen Lebenslaufs die Executive Summary neu schreiben zu lassen und anschließend ein anderes LLM nur diese Summary, ohne den restlichen Lebenslauf, bewerten zu lassen
Selbst wenn man glaubt, dass dieses Design den realen Effekt erfasst, dürfte es die Wirkung stark überzeichnen. Die Autor:innen geben zwar eine Begründung für das Design, aber sie wirkt nicht ausreichend überzeugend: https://news.ycombinator.com/item?id=47987256#47987727
- Es könnte auch Werbung dafür sein, mehr LLMs zu verwenden. So wie es PR-Verbände für Käse, Öl oder Muskat gibt, gibt es auch für LLMs konsortiumsähnliche Organisationen, die solche Studien fördern und damit FOMO schüren könnten
  Wenn HR LLMs nutzt, müssen Jobsuchende sie auch nutzen, und später muss HR sie wiederum nutzen, weil gute Bewerber:innen LLMs verwenden — eine zirkuläre Dynamik
Nur eine Einzelbeobachtung, aber nachdem ich entlassen wurde und nach der nächsten Stelle gesucht habe, bekam mein selbst geschriebener Lebenslauf gemessen an meiner Erfahrung eher wenig Resonanz
Aus Spaß ließ ich ChatGPT meinen Lebenslauf analysieren und benoten und bat es dann, ihn so zu überarbeiten, dass die Bewertung möglichst hoch ausfällt. Danach prüfte ich die Fakten und korrigierte ihn, bevor ich ihn verschickte, und die Rücklaufquote stieg deutlich gegenüber vorher
Es könnte an Markt oder Timing gelegen haben, aber ich musste trotzdem noch durch Interviews und meine Fähigkeiten beweisen; zumindest geholfen, die erste Hürde zu nehmen, hat es offenbar
- Bei meiner Frau war es ähnlich. Sie hatte ihr LinkedIn-Profil und ihren Lebenslauf sorgfältig mit Kennzahlen, Keywords und Erfolgen überarbeitet, bekam aber über Monate bis fast ein Jahr hinweg kaum Recruiter-Kontakte und fast keine Antworten auf Bewerbungen
  Danach nutzte sie die Hilfe von ChatGPT 5.x; sie war skeptisch, weil die vorgeschlagenen Änderungen nach homogenisiertem AI-Stil klangen, aber wenige Tage später kamen Recruiter-Nachrichten und Bewerbungsprozesse in Gang
  Da inzwischen an vielen Stellen des Hiring-Prozesses LLMs stecken, scheint es heute schwieriger zu sein, wenn ein LLM den Lebenslauf nicht mitschreibt. Es wirkt, als würden LLMs, die Lebensläufe prüfen, Profile abwerten, die nicht dieselbe Sprache sprechen und nicht die richtigen Neuronen triggern
- Ich habe bei einer aktuellen Jobsuche etwas Ähnliches gemacht und prüfen lassen, ob die Punkte gut lesbar sind; dabei kamen sehr viele Änderungsvorschläge heraus. Einige habe ich übernommen, aber wie sehr das meinen Bewerbungserfolg verbessert hat, ist schwer zu sagen
- Es gibt auch Services, die so etwas für LinkedIn und Lebensläufe machen, und ich habe damit schon recht gute Ergebnisse gesehen
- Danach habe ich es wieder gekürzt und redigiert, damit es wieder wie von einem Menschen geschrieben klang
- Vielleicht gab es auch ein +1 dafür, dass HR sah, dass man AI nutzen kann
Intuitiv wirkt das selbstverständlich. Von Modellen erzeugte Inhalte sind von den Trainingsdaten geprägt, und wenn dieselben Inhalte später wieder gelesen werden, passen sie womöglich besser zur gleichen Trainingsverteilung und werden deshalb positiver bewertet
Das ist, als würde ein Mensch sagen: „Mach meinen Lebenslauf professioneller“, und ein paar Tage später sagt ein LLM in einem HR-Bericht: „Dieser Lebenslauf ist wirklich professionell“
Das rechtfertigt auch meine persönliche Regel, für Code-Generierung und Code-Review unterschiedliche LLM-Familien zu verwenden. Ich will vermeiden, dass jemand die eigenen Hausaufgaben benotet
- Außerdem ist es nicht einmal auf menschenlesbare Weise interpretierbar. Es gab eine Studie, in der man einem LLM vorgab, sich auf eine bestimmte Weise zu verhalten, und dann eine zufällige Zahl ausgeben ließ; diese Zahl wurde in eine andere LLM-Instanz eingefügt, und die verhielt sich dann ebenfalls auf dieselbe Weise
  Ich erinnere mich nicht mehr an den Link, aber das war wirklich faszinierend
Hier wird ohne Zustimmung eine weitere Instanz zwischen Menschen eingeschoben. Wenn ein Modell zum Vermittler darüber wird, wer einen Job bekommt und wer nicht, wirkt das problematisch
- Für Menschen, die keine LLMs nutzen, könnte daraus eine große Arbitrage-Chance entstehen
  Wenn HR Lebensläufe mit ChatGPT vorsortiert, stellt man am Ende eben Leute ein, deren Lebensläufe mit ChatGPT geschrieben wurden. Ich will keine slippery-slope-Argumentation aufmachen, aber ich habe das Gefühl, dass die Qualität von Organisationen dadurch schnell sinken könnte
  Ich selbst bin Handwerker und Subunternehmer; meine Arbeit kommt fast nur über Anrufe, SMS, einmalige E-Mails und vertrauenswürdige Empfehlungen. Seit über 8 Jahren hatte ich nichts mehr mit einem klassischen Lebenslauf zu tun
  Wenn ich mit jemandem die Kommunikation beginne und es sich nach Computer anfühlt, ist das für mich sofort ein Signal, zum nächsten Kunden weiterzugehen. Wenn sich jemand nicht einmal die Zeit nimmt, direkt mit mir zu kommunizieren, warum sollte ich dann Hunderte Stunden körperlicher Arbeit für diese Person leisten?
- Eine häufige Antwort ist: „Dann nutze einfach das Modell, das verfügbar ist“, aber AI wird wahrscheinlich weiterhin Ressourcenbeschränkungen und Gewinnmotive haben
  Am Ende könnten arme Menschen schlechtere Lebensläufe haben als reiche, und wenn ein Modell dazwischen die letzte Entscheidungsmacht bekommt, gibt es womöglich kaum noch einen Weg, das zu umgehen
- In dem Moment, in dem Hiring Manager Lebensläufe nicht mehr selbst lesen und der Beruf des Recruiters dazwischentritt, ist das Schiff ohnehin schon abgefahren
- Früher hat HR diese Rolle übernommen, also gab es zwischen realen Menschen ohnehin immer Mittler. HR interessierte sich meist nicht für den Lebenslauf selbst, sondern nur dafür, ob er zur Checkliste passt
- Eigentlich ist das schon passiert, als alle angefangen haben, sich LinkedIn-Konten anzulegen
Im Tech-Bereich werden Lebensläufe vermutlich irgendwann, oder vielleicht schon jetzt, veraltet sein. Das Signal-Rausch-Verhältnis ist so niedrig, dass der Filterwert sehr gering ist
Selbst relativ starke Signale wie GPA, Zertifikate oder frühere Rollen sagen die Leistung in frühen Screening-Interviews nicht besonders gut voraus
Deshalb braucht die Branche meiner Meinung nach dringend ein Prüfungskonsortium. Statt Kompetenz über den Namen einer Universität zu vermuten, sollten große Tech-Unternehmen standardisierte Prüfungen nach Fachgebieten entwickeln, und diese Punktzahl würde dann der Lebenslauf sein; Entwickler:innen könnten sich dann auf bessere Ergebnisse konzentrieren statt auf Lebenslauf-Schreiben und wiederholte Screening-Arbeit
- So ein System ließe sich am Ende aber ebenfalls gamifizieren. So wie für Silicon-Valley-Interviewfragen LeetCode-Optimierung entstanden ist, würde aus Lernen für die Arbeit Lernen für die Prüfung und danach Lernen für die Vorprüfung
- Vielleicht wäre ein Losverfahren sogar besser. Der Nutzen wäre ungefähr ähnlich, aber das Ganze deutlich einfacher
  Eigentlich erfüllen „Unternehmens“-Zertifikate doch schon jetzt oft genau diese Rolle
- Standardisierte Prüfungen je Fachgebiet sind selbst ein extrem schwieriges Problem. Schon wenn man offensichtliche Anreize zum Betrug ausklammert, bilden standardisierte Tests das Verständnis eines Themas nur schlecht ab
  Im Grunde behauptet man damit, dass LeetCode ein wirksames Hiring-Tool sei, und das ist völlig zu Recht stark umstritten
- Die Konzeption von Informatikprüfungen ist schwierig. LeetCode ist zu simpel und testet im Wesentlichen nur grundlegendes Algorithmuswissen, das für allgemeine Softwareentwicklung fast nutzlos ist
Das könnte zu einem ziemlich interessanten Ratespiel werden. Wenn man sich bei einem Unternehmen bewirbt und weiß, dass es ein bestimmtes Applicant-Tracking-System nutzt und dieses wiederum Filter eines bestimmten Modellanbieters verwendet, sollte man dann den Lebenslauf für dieses Unternehmen mit genau diesem Modell verfassen
- Gute Beobachtung. Viele künftige Varianten davon enden wohl einfach in einem LLM-Wettrüsten
Die gesamte Branche scheint automatische Bewerter zu verwenden. Dabei bewertet eine Agent-Instanz die Ausgabe eines anderen Agenten
Die Absicht ähnelt dem Training adversarialer, neuronaler Bildgeneratoren ohne menschliche Labeler. Dann optimieren Teams ihre Metriken darauf, im automatischen Bewerter gut abzuschneiden, und es wäre nicht überraschend, wenn am Ende Agenten den von ihnen selbst erzeugten Inhalten die höchste Punktzahl geben
Ich habe testweise qwen/qwen3-v1-30b lokal ausgeführt und meinen zu 100 % menschlich geschriebenen Lebenslauf eingegeben mit der Bitte: „Mach diesen Lebenslauf professioneller“
Heraus kamen gewaltige Bullet Points, und aus dem Satz „Spezialisierung auf unternehmensweite Datenmodellierung und Arbeit an der Optimierung der Cost of Goods Sold über den gesamten Kundenstamm“ wurde „Spezialisierung auf unternehmensweite Datenmodellierung und Performance-Optimierung mit mehr als 5 Mio. Dollar wiederkehrender Kosteneinsparung über die gesamte Kundenbasis hinweg“
Mehr als 5 Mio. Dollar klingt beeindruckend, und klar, Lebenslauf-Korpora sind stark kennzahlengetrieben, aber es stimmte nicht, und ich hatte auch nie darum gebeten, Zahlen zu erfinden
Sogar „University of California, Berkeley Bachelor in Computer Science | 1996–1998“ wurde aus dem Nichts ergänzt, obwohl im Lebenslauf nur eine SDE-Rolle von 1996 bis 1998 stand
- Genau, das Erfinden von Dingen wird dieses Problem noch verschärfen
  Manche Menschen werden solche Halluzinationen korrigieren; dann ist am Ende nur ihre Zeit verschwendet
  Andere werden sie nicht korrigieren; dann ist das beste Ergebnis, dass Bewerber:in und Interviewer später den Fehler entdecken und Zeit verlieren. Das schlechteste Ergebnis ist, dass jemand eingestellt wird, der die Arbeit gar nicht kann — ein chaotisches und ineffizientes Resultat für alle
Für mich ist das gerade ein sehr aktuelles Thema. Mein Lebenslauf war auf 7 Seiten angewachsen, und weil man überall hört, man dürfe nicht über 2 Seiten gehen, bat ich Gemini, ihn neu zu schreiben
Gemini neigt dazu, alles zu übertreiben, deshalb hat es viel Zeit gekostet, aber mit dem Ergebnis war ich ziemlich zufrieden
Allerdings bevorzugten die ersten Recruiter, an die ich ihn schickte, den alten 7-seitigen Lebenslauf. Offenbar nutzen sie AI noch nicht stark genug
LLMs halten von LLMs geschriebene Inhalte konsistent für gut
Wenn man ein LLM ein Designdokument schreiben lässt, dann wartet, bis ein wirklich schlechtes Ergebnis herauskommt, und anschließend andere LLMs um Feedback bittet, sagen sie in der Regel nette Dinge dazu
Schickt man ihnen dagegen ein sehr gut geschriebenes Dokument, finden sie meist mehr Mängel, selbst wenn die Grundannahmen solide sind. Das sollte wirklich mal jemand untersuchen
Es ist klar, dass LLMs einen großen Wert haben, aber dieses Phänomen zeigt eine sehr interessante Schwäche, deren Tragweite noch nicht klar ist
Vermutlich haben LLMs auch eine starke Verzerrung zugunsten ihres eigenen Codes. Wenn man weithin als gut geschrieben geltenden Code wie Redis hineingibt und um Feedback bittet, werden sie wahrscheinlich viele Mängel finden, und ein erheblicher Teil davon könnte komplett falsch sein
Wenn man umgekehrt ein offensichtlich schrottiges, von einem LLM erzeugtes Repository demselben Modell gibt, reagiert es dann ähnlich wie bei Designdokumenten? Behandelt es natürliche Sprache und Code unterschiedlich, oder ist es dasselbe Problem? Ich frage mich, ob das schon einmal jemand ausprobiert hat

KI-Selbstpräferenz bei algorithmischem Recruiting: Empirische Belege und Implikationen

Neue Verzerrungen durch KI-Selbstpräferenz in der Bewerbungsbewertung

Versuchsaufbau und Messmethode

LLM-vs-Human-Selbstpräferenz

LLM-vs-LLM-Selbstpräferenz

Zentrale empirische Ergebnisse

Auswirkungen auf Recruiting-Pipelines

Minderungsstrategien und Fairness-Implikationen

System Prompting

Mehrheitsentscheidungs-Ensemble

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare