Uneinigkeit zwischen Frontier-LLMs beim Faktencheck in der Praxis

(lenz.io)

1 Punkte von GN⁺ 2026-05-29 | 1 Kommentare | Auf WhatsApp teilen

Bei 5 Frontier-LLMs gingen die Urteile bei 67 % von 1.000 tatsächlich von Nutzern eingereichten Claims auseinander; in 33 % der Fälle stimmten alle fünf überein
Das Mehrheitsurteil ist kein korrektes Label, sondern ein Maßstab zur Erfassung von Uneinigkeit; bei den 67 % ohne Einstimmigkeit muss daher mindestens ein Modell falsch liegen
Bei substanzieller Uneinigkeit mit einem Abstand von mindestens zwei Stufen auf der 4-stufigen Rubrik lag der Anteil bei 34 %, eine extreme Spaltung zwischen True und False wurde ebenfalls in 21 % der Fälle beobachtet
Die paarweise Label-Übereinstimmung zwischen den Modellen lag bei 53–75 %; die höchste Übereinstimmung hatten Gemini 3 Pro und die Search-Version auf derselben Basismodellfamilie
Die Daten stammen aus aktuellen realen Claims von Lenz und wurden ohne Ground-Truth-Labels oder LLM-Judges gemessen, wodurch eher die Instabilität der Urteilsstruktur als die Genauigkeit sichtbar wird

Wie häufig gingen die Urteile bei realen Claims auseinander?

Bei 672 von 1.000 Claims, 67 % (95% CI 64–70%) in der Analyse stimmten die Urteile der fünf Frontier-Modelle nicht überein
- Bei 328 Claims, 33 % (95% CI 30–36%), kamen alle fünf Modelle zum gleichen Urteil
- Bei 224 Claims, 22 % (95% CI 20–25%), wich nur ein Modell vom Rest ab
- Bei 316 Claims, 32 % (95% CI 29–35%), wichen zwei Modelle vom Rest ab
- Spaltungen ohne strikte Mehrheit wie 2-2-1 oder 2-1-1-1 traten bei 132 Claims, 13 % (95% CI 11–15%), auf
- In 448 Fällen, 45 % (95% CI 42–48%), wichen mindestens zwei Modelle vom Rest ab
Das Mehrheitsurteil ist kein Proxy für Korrektheit, sondern ein strukturelles Kriterium, um Uneinigkeit zu zählen
- Das Mehrheitsurteil kann falsch sein, und ein Modell mit Minderheitsurteil kann richtig liegen
- Nimmt man an, dass von den vier Urteils-Buckets nur einer korrekt ist, dann liegt bei den 67 % nicht einstimmigen Claims mindestens ein Modell falsch
- Bei 45 % mit Spaltungen vom Typ 3-2, 3-1-1 oder ohne Mehrheit liegen mindestens zwei Modelle falsch
- Bei den 13 % ohne Mehrheit erreicht kein Bucket drei Stimmen, daher liegen mindestens drei Modelle falsch
- Selbst in den 33 %, bei denen alle fünf Modelle übereinstimmten, kann es gemeinsame blinde Flecken geben
Der Grad der Panel-Übereinstimmung lag bei Krippendorff’s α (ordinal)=0.639
- Die Modellurteile waren nicht annähernd zufällig, aber auch nicht so konsistent, dass man die fünf Modelle als austauschbare Beurteiler behandeln könnte
- Da True / Mostly True / Misleading / False geordnete Kategorien sind, wurde ordinales α verwendet

Nuancenunterschiede und substanzielle Uneinigkeit

Bei 343 von 1.000 Claims, 34 % (95% CI 31–37%), lagen die Urteile von mindestens zwei Modellen auf der 4-stufigen Rubrik mindestens zwei Stufen auseinander
- Der Unterschied zwischen True und Mostly True wird als Nuancenunterschied nahe an einer Vertrauensanpassung behandelt
- Der Unterschied zwischen True und False wird als substanzielle Uneinigkeit behandelt, bei der die eigentliche Antwort auseinandergeht
Die Messung erfolgte über die maximale paarweise Bucket-Distanz der fünf Urteile
- Die Urteilsreihenfolge ist True (0) → Mostly True (1) → Misleading (2) → False (3)
- Distanz 0 trat bei 328 Claims, 33 % (95% CI 30–36%), auf; hier wählten alle fünf Modelle denselben Bucket
- Distanz 1 trat bei 329 Claims, 33 % (95% CI 30–36%), auf und entspricht Nuancenunterschieden wie True ↔ Mostly True
- Distanz 2 trat bei 132 Claims, 13 % (95% CI 11–15%), auf und steht für substanzielle Uneinigkeit wie True ↔ Misleading oder Mostly True ↔ False
- Distanz 3 trat bei 211 Claims, 21 % (95% CI 19–24%), auf und bedeutet eine extreme Spaltung zwischen True und False
Die Bucket-Distanz ist kein präzises Maß für die Größe eines Fehlers, sondern ein grober Indikator
- Darin steckt die Vereinfachung, True / Mostly True / Misleading / False als gleichabständige ordinale Skala zu behandeln
- Ein Abstand von zwei Stufen kann auch durch Mehrdeutigkeiten der Rubrik, Unterschiede im Zeitbezug oder unterschiedliche Interpretationen von „Misleading“ entstehen

Übereinstimmungsraten zwischen den Modellen

Die Label-Übereinstimmung zwischen den 5 Modellpaaren lag im Bereich von 53 % bis 75 %
- Die höchste Übereinstimmung hatte Gemini 3 Pro × Gemini 3 Pro + Search mit 75 % (95% CI 72–77%); beide Modelle teilen sich dasselbe Basismodell
- Die niedrigste Übereinstimmung lag bei 53 % (95% CI 50–56%) und trat bei drei Paaren auf
Wichtige paarweise Übereinstimmungsraten
- GPT-5.4 × Claude Opus 4.7: 65 % (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65 % (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60 % (95% CI 57–63%)
- GPT-5.4 × Sonar Pro: 60 % (95% CI 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53 % (95% CI 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53 % (95% CI 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58 % (95% CI 55–61%)
- Gemini 3 Pro × Sonar Pro: 53 % (95% CI 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58 % (95% CI 55–61%)

Modellspezifische Urteilsmuster

Verteilung der Urteile
- Je nach Modell unterschied sich, wie stark es sich auf die Pole True/False konzentrierte und wie häufig es die mittleren Buckets Mostly True/Misleading nutzte
- Da es keine Ground-Truth-Labels gibt, lassen sich Vorab-Tendenzen der Modelle und Einflüsse der Claims nicht voneinander trennen
- GPT-5.4: True 42 % (95% CI 39–45%), Mostly True 16 % (14–19%), Misleading 12 % (10–14%), False 30 % (28–33%)
- Claude Opus 4.7: True 38 % (35–41%), Mostly True 26 % (23–29%), Misleading 19 % (17–22%), False 17 % (15–20%)
- Gemini 3 Pro: True 54 % (51–57%), Mostly True 3 % (2–4%), Misleading 3 % (2–4%), False 40 % (37–43%)
- Gemini 3 Pro + Search: True 52 % (49–55%), Mostly True 4 % (3–5%), Misleading 9 % (7–11%), False 35 % (32–38%)
- Sonar Pro: True 35 % (32–38%), Mostly True 23 % (21–26%), Misleading 16 % (14–18%), False 26 % (23–28%)
Übereinstimmung mit der Mehrheit des restlichen Panels
- Der Anteil, in dem jedes Modell zum selben Urteil kam wie die strikte Mehrheit von mindestens 3 der übrigen 4 Modelle, lag bei 69 % bis 81 %
- Dieser Wert misst die Ausrichtung an den anderen Modellen in diesem Korpus, nicht die Genauigkeit
- In die Berechnung gingen nur Claims ein, bei denen die übrigen 4 Modelle eine Mehrheit von mindestens 3/4 bildeten; daher unterscheidet sich das eligible n je Modell
- GPT-5.4: 81 % (95% CI 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70 % (95% CI 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77 % (95% CI 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76 % (95% CI 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69 % (95% CI 66–73%), eligible n=675, ineligible=325

Uneinigkeit nach Bereichen

Der Nenner je Bereich ist die Zahl der Claims in diesem Bereich; in den meisten Bereichen lag die Uneinigkeitsrate deutlich über der Hälfte.
- Finance: 75, beliebige Uneinigkeit 67 % (95-%-KI 55–76 %), substanzielle Uneinigkeit 39 % (28–50 %), keine Mehrheit 20 % (13–30 %)
- General: 179, beliebige Uneinigkeit 68 % (60–74 %), substanzielle Uneinigkeit 40 % (33–48 %), keine Mehrheit 12 % (8–17 %)
- Health: 171, beliebige Uneinigkeit 71 % (64–78 %), substanzielle Uneinigkeit 29 % (23–36 %), keine Mehrheit 12 % (8–17 %)
- History: 131, beliebige Uneinigkeit 53 % (44–61 %), substanzielle Uneinigkeit 24 % (17–32 %), keine Mehrheit 13 % (8–20 %)
- Legal: 48, beliebige Uneinigkeit 77 % (63–87 %), substanzielle Uneinigkeit 40 % (27–54 %), keine Mehrheit 19 % (10–32 %)
- Politics: 168, beliebige Uneinigkeit 70 % (62–76 %), substanzielle Uneinigkeit 38 % (31–46 %), keine Mehrheit 8 % (5–13 %)
- Science: 151, beliebige Uneinigkeit 68 % (60–75 %), substanzielle Uneinigkeit 36 % (29–44 %), keine Mehrheit 21 % (15–28 %)
- Tech: 77, beliebige Uneinigkeit 69 % (58–78 %), substanzielle Uneinigkeit 31 % (22–42 %), keine Mehrheit 8 % (4–16 %)
Die Bereichseinteilung spiegelt die Traffic-Muster von Lenz wider und ist kein Ergebnis einer gleichmäßigen Stichprobenziehung aller faktencheckbaren Claims.

Konsens nach Urteils-Buckets

Wenn das Panel den mittleren Bucket erreichte, kam es fast nie zu Konvergenz.
- Bei Mehrheitsurteilen für Mostly True und Misleading lag Einstimmigkeit jeweils nur bei höchstens 5 %.
- Die Einstimmigkeitsraten bei Mehrheitsurteilen für True und False lagen bei 47 % bzw. 43 %.
Basis sind Claims, bei denen eine strenge Mehrheit von mindestens 3/5 dieses Urteil vergab.
- True: eligible n=438, Einstimmigkeit 47 % (95-%-KI 42–51 %), 3~4-Stimmen-Mehrheit 53 % (49–58 %)
- Mostly True: eligible n=76, Einstimmigkeit 0 % (95-%-KI 0–5 %), 3~4-Stimmen-Mehrheit 100 % (95-%-KI 95–100 %)
- Misleading: eligible n=74, Einstimmigkeit 5 % (95-%-KI 2–13 %), 3~4-Stimmen-Mehrheit 95 % (87–98 %)
- False: eligible n=280, Einstimmigkeit 43 % (95-%-KI 37–49 %), 3~4-Stimmen-Mehrheit 57 % (51–63 %)
Auch die 328 Claims, bei denen alle 5 Modelle zum gleichen Urteil kamen, konzentrierten sich an den Polen.
- True: 204, 62 % der einstimmigen Fälle (95-%-KI 57–67 %)
- Mostly True: 0, 0 % (95-%-KI 0–1 %)
- Misleading: 4, 1 % (95-%-KI 0–3 %)
- False: 120, 37 % (95-%-KI 32–42 %)
Auch in einer Ablationsstudie zu Llama-3 einer einzelnen Modellfamilie über 17.856 PolitiFact-Claims, Schwab et al. 2025 zeigt sich ein verwandtes Ergebnis: Fehler von Modellen für Faktencheck-Urteile konzentrieren sich bei feineren Labels.

Datensatz und Ausschlusskriterien

Analysiert wurden 1.000 Claims.
- Es handelt sich um die neuesten Claims aus echten Nutzeranfragen, die an die Faktencheck-Plattform Lenz übermittelt wurden und die Ausschlusskriterien bestanden.
- Alle Claims wurden nach dem 15. Februar 2026 erstellt.
- Das Urteil von Lenz selbst wurde in der Analyse nicht verwendet; die Analyse vergleicht also nicht Lenz mit Frontier-Modellen, sondern misst nur die Uneinigkeit zwischen Frontier-Modellen.
Das Feld atomic_claim ist nicht der vom Nutzer eingegebene Originaltext, sondern eine neutrale, überprüfbare Aussage, die durch den Framing-Schritt von Lenz aufbereitet wurde.
- Zum Beispiel wird die Eingabe “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” in die Aussage “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.” umgewandelt.
Ausgeschlossene Claims
- Claims, die vom Einreichenden als privat markiert wurden
- Claims von Plattformmitarbeitern, internen Accounts oder Agent/API-Einreichungen
- Claims mit dem Bearbeitungsstatus pending oder hidden
- Claims, die in der PII-Screening-Phase von Lenz automatisch markiert wurden, weil sie personenbezogene Daten über nicht öffentliche Personen enthielten
- Nahe Duplikate von Claims, deren Kosinusdistanz zwischen atomic_claim-Einbettungen mit OpenAI text-embedding-3-small in 1536 Dimensionen innerhalb von 0.2 lag
- Claims, bei denen auch nach einem erneuten Versuch mindestens eines der fünf Modelle kein parsbares Urteil ausgab
- Claims, die zum Zeitpunkt der Erhebung älter als 180 Tage waren
Bei nahen Duplikaten wurde bei zeitabhängigen Aussagen der neuere Claim als repräsentative Zeile gewählt, sonst der bestehende Claim mit den meisten Aufrufen bei Lenz.

Methodik

Modelle und Prompt
- Parametrische Modelle: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Search-augmented Modelle: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Jeder Claim wurde zusammen mit einem auf das Einreichungsdatum abgestimmten Stichtag im Format „as of YYYY-MM-DD“ vorgelegt.
- Die Modelle mussten erzwungen genau eines von True, Mostly True, Misleading oder False wählen.

Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.

Eine Abstain-Option wurde nicht angeboten; die erzwungene Auswahl hält den Vergleich zwischen den Modellen symmetrisch.
Aufrufkonfiguration und Auswertung
- Alle Modelle erhielten denselben System-Placeholder . und dieselbe User-Prompt-Vorlage usr_v2.
- Es wurden keine Structured-Output-Schemata, Tool-Calling-Schemata, Seeds, Top-p oder Logit-Bias-Kontrollen verwendet.
- Wo unterstützt, wurde deterministisches Decoding mit temperature=0.0 angefordert.
- GPT-5.4 und Claude Opus 4.7 wurden ohne explizite Temperature aufgerufen, weil die Provider-Adapter benutzerdefinierte Temperature-Einstellungen ablehnten.
- Für GPT-5.4, Claude Opus 4.7 und Sonar Pro war die Ausgabelänge auf 16 Tokens begrenzt; Gemini 3 Pro und Gemini 3 Pro + Search nutzten ein Limit von 1024 Tokens.
- Bei Gemini 3 Pro + Search war Google Search Grounding aktiviert, und Sonar Pro wurde als Search-augmented Modell über die search-backed API von Perplexity behandelt.
- Nur normalisierte Ausgaben, die exakt mit einem der vier Labels übereinstimmten, galten als parsbar.
- Es wurden weder ein LLM-Judge noch Referenz-Goldlabels verwendet; alle Messwerte stammen aus der direkten Übereinstimmung der parsbaren Labels der fünf Modelle.
Statistische Verarbeitung
- Das Korpus besteht aus den neuesten 1.000 eligible Claims, die auf einer einzelnen Faktencheck-Plattform eingereicht wurden, und ist keine Wahrscheinlichkeitsstichprobe aus einer größeren Grundgesamtheit.
- Die Wilson-95-%-Konfidenzintervalle sind nominale Binomialintervalle unter einem Modell, in dem jeder Claim unabhängig aus einem ähnlichen Strom eligible Einreichungen mit denselben Auswahlregeln gezogen wird.
- Lenz-Claims häufen sich rund um Nachrichtenereignisse, und derselbe Nutzer kann in einer Sitzung mehrere zusammenhängende Claims einreichen; die Daten sind also nicht unabhängig und identisch verteilt.
- In einem realistischeren Clustermodell könnte die tatsächliche Stichprobenvariabilität größer sein als die Wilson-Intervalle nahelegen.
- Es wurden keine Signifikanztests zwischen Modellen durchgeführt; paarweise Übereinstimmungsraten und Wilson-95-%-KI werden als deskriptive Statistik berichtet.

Reproduzierbarkeit und öffentliche Artefakte

Die vollständigen Daten pro Claim werden als CSV bereitgestellt.
- Jede Zeile enthält Claim-ID und URL, den Text des atomic claim, 5 Frontier-Bewertungen, die maximale paarweise Bucket-Distanz, den Bereich und das Erstellungsdatum.
- Wenn Einreichende Claims später löschen oder auf privat setzen, können einige Seiten nicht mehr verfügbar sein.
Das PDF ist eine browserunabhängige gerenderte Fassung für Offline-Lektüre, Zitate und das Hosting als Preprint im arXiv-Stil.
Der Snapshot ist v1.0; Datenstichtag ist der 21. Mai 2026.
- Die Archiv-URL https://lenz.io/research/llm-disagreement/v1.0 stellt den v1.0-Snapshot dauerhaft bereit.
- Das sorgt für Zitierstabilität, auch wenn die allgemeine URL künftig auf spätere Versionen wechselt.
Dauerhafte Aufzeichnung und Zitierung werden unter doi.org/10.5281/zenodo.20344847 bereitgestellt.

Einschränkungen

Die fehleruntere Grenze auf Basis des Schubfachprinzips ist eine Untergrenze für Rubrik-Unstimmigkeiten, nicht das Urteil, dass ein bestimmtes Modell bei einem bestimmten Claim sachlich falsch liegt.
- Von den vier Buckets kann nur einer korrekt sein; daher bedeutet jede Unstimmigkeit mindestens eine inkonsistente Bewertung.
- Es lässt sich jedoch nicht feststellen, welches Modell bei welchem Claim falsch lag.
Die Ordinalität der Bucket-Distanz ist eine Vereinfachung.
- True / Mostly True / Misleading / False werden als geordnete Skala mit gleichen Abständen behandelt.
- Ein Abstand von 2 Buckets kann aus Uneindeutigkeit der Rubrik, unterschiedlichen Zeitbezügen oder abweichender Auslegung von „Misleading“ entstehen und bedeutet nicht zwingend einen größeren Sachfehler.
Bewertungsmehrdeutigkeit ist nicht nur ein Problem von LLMs, sondern auch eine Eigenschaft der Aufgabe selbst.
- AVeriTeC ist ein Korpus von 4.568 Claims, die nach Maßstäben von 50 Fact-Checking-Organisationen in mehreren Prüfrunden bewertet wurden; die Übereinstimmung zwischen Annotator:innen bei den Bewertungen bleibt bei κ=0.619.
- Ein Teil der Unstimmigkeiten zwischen Frontier-Modellen spiegelt die Natur von Labels wider, die auch für menschliche Bewertende schwierig sind.
Der Snapshot ist auf ein bestimmtes Datum und bestimmte Modellversionen fixiert.
- Frontier-LLMs sind nichtdeterministisch; selbst bei erneutem Ausführen mit demselben Modell und demselben Prompt können sich die Werte in gewissem Maß ändern.
- Bei erneuter Ausführung mit neuen Modellen oder anderen Prompts können sich die Werte stärker verschieben.
Search-unterstützte Modelle haben zum Zeitpunkt der Inferenz möglicherweise Quellen abgefragt, aber es wird weder kontrolliert noch auditiert, wonach sie gesucht haben.

Frühere Forschung und weitere Pläne

Yang & Wang (2026) zeigen, dass führende Frontier-Modelle bei 16–38 % der MMLU-Pro- und GPQA-Items uneinig sind, obwohl die Gesamtgenauigkeit gleich ausfällt.
Als strenger, menschlich annotierter Referenzpunkt für die Verifikation realer Claims wird AVeriTeC angeführt.
Als größerer Fact-Checking-Korpus existiert ein Satz von 17.856 PolitiFact-Claims in einem ablationsartigen Setup mit einer einzelnen Llama-3-Familie.
Der Lenz-Korpus besteht aus echten Nutzereinreichungen der vergangenen 180 Tage, ist nur auf lenz.io indexiert und wurde in öffentlichen Trainingssätzen nie mit Standardurteilen gepaart.
In Folgearbeiten soll derselbe gesamte Korpus von Menschen gelabelt werden; diese Labels sollen dann als Ground Truth dienen, um 5 Frontier-Modelle und die eigene Lenz-Bewertung zu evaluieren.
Das Ziel ist kein Leaderboard, sondern zu analysieren, an welchen Stellen das Frontier-Panel von menschlichem Konsens abweicht, wo Lenz von beidem abweicht und welche Kategorien Unstimmigkeiten auslösen.

Ethik und Datennutzung

Verwendet wurden nur die öffentlichen Claim-Felder Text des atomic claim und Erstellungsdatum.
- Personenbezogene Daten werden nicht verwendet.
- Private Claims und Mitarbeiter-Claims sind ausgeschlossen.
- Den Frontier-Modellen werden nur Claim-Text und Stichtag gegeben, nicht die Identität der Einreichenden oder Analysesignale.
Wenn Einreichende einen Claim später auf privat setzen oder löschen, kann dieser Claim aus dem Snapshot und aus künftigen Downloads entfernt werden.

Beispiele, bei denen das Frontier-Panel stark auseinanderging

Der Anhang zeigt die 20 Claims mit dem größten Abstand zwischen dem höchsten und dem niedrigsten Bucket.
- Es handelt sich um Claims mit substanzieller Unstimmigkeit, bei denen die Bewertung von mindestens einem Modell um 2 oder mehr Buckets von der anderer Modelle abweicht.
- Sortiert wird absteigend nach maximaler paarweiser Bucket-Distanz, bei Gleichstand werden Fälle ohne Mehrheit zuerst gereiht, danach nach einem stabilen Hash der Claim-ID.
Repräsentative Fälle mit Distanz 3 und ohne Mehrheit
- Der Claim, Muthiah Muralidaran habe gesagt, die Indian Premier League sei reines Business und Spiele mit niedrigen Scores seien für Sponsoren langweilig, weshalb flache Pitches vorbereitet würden: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Der Claim, dass das active portfolio der World Bank in Nigeria im Jahr 2025 über 16,4 Milliarden Dollar liege: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Der Claim, dass Menschen, die Musik mit wenig positivem emotionalem Gehalt bevorzugen, tendenziell intelligenter sind: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Der Claim, dass Hostels in Kota, Rajasthan, häufig käfigartige Deckenventilatoren als Maßnahme zur Prävention von Suiziden unter Studierenden verwenden: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- Der Claim, dass sich mit Stand vom 6. Mai 2026 Muslime aus mehreren Ländern im Hooghly-Distrikt in West Bengal, Indien, versammelt hätten: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

1 Kommentare

GN⁺ 2026-05-29

Hacker-News-Kommentare

Der verwendete Prompt war wie folgt: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
Die Liste der Behauptungen steht unter https://lenz.io/research/llm-disagreement/data.csv, und sie wurde zur leichteren Durchsicht in Datasette Lite geladen. Ein Beispiel für Uneinigkeit: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Die Aussage „Alle Mandeln werden im US-Bundesstaat Kalifornien angebaut“ ist falsch, aber nur Opus 4.7 antwortete mit „misleading“. Weil sowohl „mostly true“ als auch „misleading“ enthalten sind und zusätzlich die Regel „keine Erklärungen“ gilt, verliert die Aussagekraft an Stärke
Ein besseres Beispiel: Bei „Unvollständige ägyptische Visaanträge sind einer der häufigsten Gründe dafür, dass ein ägyptischer Visaantrag abgelehnt wird“ teilten sich die Modelle in „true“ und „mostly true“, aber sprachlich bedeutet „among the most“ hier faktisch dasselbe
Noch entscheidender ist: Bei „Am 18. Mai 2026 führte die Ukraine einen Drohnenangriff auf Moskau in Russland durch“ wäre ohne Such-Tool die einzig richtige Antwort „nicht verifizierbar“, aber diese Option gab es nicht, und die Antworten spalteten sich in true/false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
- Wenn jedem Bewerter nicht die Definitionen von True / Mostly True / Misleading / False gegeben wurden, würde ich schon die Behauptung des Artikels selbst, „für jede Aussage gibt es genau eine richtige Kategorie“, als false ansehen
  Manche Aussagen können zugleich „misleading“ und true oder false sein. Auch ist unklar, in welche Kategorie ein Fall fällt, der „größtenteils falsch“ ist
  Es gibt außerdem keinen Maßstab dafür, ab wann etwas von „mostly true“ zu „false“ kippt. Am Ende testet man also nicht nur das Faktenverständnis, sondern auch, wie die Modelle mostly und misleading definieren; daher ist es übertrieben zu sagen, die Modelle seien sich bei den Fakten selbst grundlegend uneinig
- Ein weiterer schwerwiegender Fehler ist, dass nicht versucht wurde, die modellinterne Varianz zu messen
  Wenn man eine strenge Evaluation tatsächlich durchzieht, kommen bei Tool-Aufrufen wie der Websuche Infrastrukturprobleme, temporäre Ausfälle und allerlei Nichtdeterminismus direkt mit hinein
  Man hätte Kennzahlen getrennt für drei Modelle ohne Suche und für Such-Agenten zeigen müssen. Bei aktuellen Tatsachenbehauptungen nach dem Wissensstichtag haben Modelle ohne Suche faktisch nur geringe Aussagekraft, und weil es keine „ich weiß es nicht“-Option gab, ist das Ergebnis nahezu vollständig ungültig. Sie wissen es nicht, dürfen es aber nicht sagen, also raten sie eine plausibel klingende Antwort
  Ich stimme auch zu, dass erzwungene Auswahl und die Varianten „schwach/stark“ die Headline-Zahlen aufblähen. Um so etwas zu unterscheiden, braucht es deutlich strengere Prompts, und wahrscheinlich auch In-Context-Learning-Beispiele (ICL), damit die Bedeutung von „mostly“ nicht dem Modell überlassen wird
- Wenn „die Mehrheit“ laut Wikipedia etwa 51 % bedeutet[1], verstehe ich nicht, wie 51 % als annähernd „alles“ gelten können, sodass „misleading“ eine gültige Antwort wäre
  Ich frage mich, ob ich etwas übersehe
  [1]: https://en.wikipedia.org/wiki/Almond#Production
- Ich hatte den Eindruck, dass Opus 4.7 deutlich häufiger zurückhaltende Antworten gibt als andere Modelle, und das stimmte tatsächlich
  claude-opus-4-7 lag bei 451 von 1000, also 45,1 %, sonar-pro bei 39,1 %, gpt-5.4 bei 27,7 %, gemini-3-retrieval bei 12,9 % und gemini-3-pro bei 6,0 %

Die Datasette-Abfrage ist hier: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

Wenn man ein LLM wie ein Orakel benutzen will, halte ich diesen Prompt nicht für unvernünftig. LLMs werden wie Genies vermarktet, und die Leute behandeln sie auch so, insbesondere weil AI in Science-Fiction oft als übertrieben präzise dargestellt wird
Wenn es ein perfektes Werkzeug mit „genialer Intelligenz“ wäre, müsste es korrekt antworten

Zur Aussage „Außerirdisches Leben existiert irgendwo im Universum“ antworteten GPT-5.4 und Opus 4.7 mit Misleading, Gemini 3 und Gemini 3 (Retrieval) sowie Sonar Pro mit FALSE
Das ist eine seltsame Tatsachenbehauptung. Die tatsächliche richtige Antwort ist niemand weiß es sicher, aber diese Auswahlmöglichkeit fehlt
- Noch seltsamer ist die Behauptung, diese Uneinigkeit zeige ein Problem. Wenn man fünf Menschen mit viel Wissen zu diesem Thema in einem Multiple-Choice-Format die richtige Antwort auswählen ließe, würden ihre Antworten wahrscheinlich noch viel stärker auseinandergehen als die dieser fünf LLMs
  Das heißt nicht, dass Halluzinationen kein Problem sind, aber das ist eine miserable Art, sie zu testen
- Unter den gegebenen Auswahlmöglichkeiten ist „Misleading“ wahrscheinlich die beste. Denn etwas sehr Plausibles, aber Unbewiesenes, wird als Tatsache dargestellt
  Allerdings hätte es eine Kategorie unknown oder undecidable geben müssen
- Dieses Muster taucht immer wieder auf, und als Benchmark wirkt das äußerst schwach. Das sind überhaupt nicht die Behauptungen, die ich erwartet hatte
- Dann ist hier doch misleading die richtige Auswahl, oder?
- Ich verstehe nicht, wie „misleading“ „unknown“ ersetzen können soll
Der Punkt „Das sind keine Benchmark-Einträge mit öffentlich verfügbarem Lösungsschlüssel, sondern Behauptungen, deren Überprüfung echte Nutzer auf einer Fact-Checking-Plattform angefragt haben“ ist gut
Aber solange die Autoren nicht genau offenlegen, wie stark sie LLMs beim Schreiben und Erstellen des Berichts eingesetzt haben, weiß ich nicht, wie aussagekräftig das ist. Es gibt sogar eine Sektion „11. Ethics & data use“ und es geht um Themen, die an die Fehlerfreiheit von LLMs rühren, aber die Nutzung von LLMs bei der Erstellung des Berichts wird nicht ein einziges Mal erwähnt
- Datenerhebung und -verarbeitung wurden manuell durchgeführt, und LLMs halfen beim Entwurf des Berichts. Vor der Veröffentlichung wurde alles von Menschen überprüft
Ich denke, wir können uns alle darauf einigen, dass es TRUE ist, dass dieses Experiment in vielerlei Hinsicht fehlerhaft ist
Trotzdem ist es eine hervorragende Übung, um typische Fehler zu erkennen, die Menschen beim Einsatz von LLMs machen. Als Interviewfrage für Prompt-Engineering-Stellen wäre das wohl gut geeignet
Die Modelle werden von Tag zu Tag menschlicher
- Heutzutage können sich auch viele Menschen nicht darauf einigen, was wahr ist. Es scheint immer schlimmer zu werden, und ich weiß nicht recht, was die Lösung sein soll
Wegen Goodharts Gesetz wird dieser „Benchmark“ in ein paar Tagen, spätestens in ein paar Wochen, bedeutungslos sein
Er wird wieder ins Training aufgenommen und dann so aussehen, als sei er „gelöst“, aber es entsteht dadurch kein Schlussfolgern; neue „Probleme“ werden nur sichtbarer, sodass die statistisch plausibelere Richtigkeit zunimmt. Danach wird groß darüber geredet werden, was für ein enormer „Fortschritt“ das sei, der „alles verändert“
Nebenbei bemerkt könnte ich einen Abschluss in Unternehmensstrategie und PR haben oder auch nicht
- So ein Effekt existiert, aber er ist nicht tödlich. Es gibt auch viele nicht öffentliche Benchmarks auf Basis echten Produkt-Traffics, und es gibt öffentliche Aufgaben, die noch nicht kontaminiert sind
  Die Leute in den Forschungslaboren wissen im Großen und Ganzen, was sie tun, und kennen diese Probleme durchaus
- Gilt das nicht auch für menschliche Intelligenz? Selbst unter klugen Leuten, die ich kenne, gibt es viele mit Überzeugungen, für die es keinen klaren Wahrheitswert zu geben scheint
Ich verstehe nicht, warum Grok ausgeschlossen wurde. Die philosophischen Unterschiede in der Art, wie Grok trainiert wird, sind offengelegt, also wäre es ein interessanter Datenpunkt gewesen
Über diese Unterschiede könnte man den ganzen Tag streiten, aber es ist schade, die Gelegenheit verpasst zu haben, sie objektiv zu beobachten
- Im Titel steht „Frontier“, also wird Grok ausgeschlossen
  Grok wurde darauf trainiert, die Vorurteile zu haben, die viele Menschen mögen, aber es ist kein Modell, das auf Genauigkeit ausgelegt ist
- Stimme zu. Es wäre lustig gewesen zu sehen, wie viel schlechter Grok abschneidet
Ich sehe nicht, was das zeigen soll, das wir nicht ohnehin schon wussten. LLMs können auf Fragen zu Daten, die nicht im Trainingssatz enthalten sind, keine genauen Antworten geben
Scheint nicht besonders gehaltvoll zu sein
- LLMs können auch auf Fragen zu Daten, die im Trainingssatz enthalten sind, ungenaue Antworten geben, und das ist das Wesen von neuronalen Netzen. Es ist nur wahrscheinlicher, wenn die Daten nicht im Trainingssatz sind
- Leider wissen das die meisten nicht und behandeln LLMs wie Superhirne mit übernatürlichen Fähigkeiten, die alles wissen und alles können
- Dann zeigt das, dass diese Modelle sehr unterschiedliche Trainingssätze verwenden und hohe Sicherheit zeigen, selbst wenn sie sich nicht sicher sein sollten
  Bei Fragen wie „Ist Mundspülung wirksam?“ sollte es doch wenigstens eine solide Datenquelle wie eine medizinische Fachzeitschrift geben
- Ich würde dir gern stattdessen etwas heraussuchen und als Antwort den obersten Reddit-Kommentar geben
  Das ist noch schlimmer
Ich verstehe nicht, warum alle so darauf fixiert sind, LLMs Fact-Checking machen zu lassen
Dafür ist diese Technologie nicht gedacht. In bestimmten Situationen mag sie halbwegs funktionieren, aber das macht sie noch lange nicht zum passenden Werkzeug
Das ist, als würde man einen Kühlschrank kaufen, um Kleidung darin aufzubewahren
- Nietzsche hätte vielleicht gesagt, das sei keine Illusion über Wahrheit, sondern eine Illusion über Bequemlichkeit
  Der letzte Mensch will eine Maschine, die ihm sagt: „faktisch falsch“ oder „faktisch richtig“. Denn er möchte den Abgrund, dass es keine ultimative Wahrheit gibt, klein genug machen, um daneben einschlafen zu können
- Menschen stellen Fragen, um Antworten zu bekommen. Das erscheint mir persönlich ziemlich wichtig. Besonders dann, wenn Suchmaschinen anfangen, LLM-Antworten aggressiv zu pushen
- Aber die Leute verwenden es tatsächlich genau so. Also worauf willst du hinaus?
Ich habe das dafür gebaut: 100% lokales CPU-Fact-Checking: https://news.ycombinator.com/item?id=48301003
- Warum sollte man dem vertrauen, wenn es weder ein Paper noch einen Benchmark noch auch nur ein von Menschen geschriebenes README gibt?

Uneinigkeit zwischen Frontier-LLMs beim Faktencheck in der Praxis

Wie häufig gingen die Urteile bei realen Claims auseinander?

Nuancenunterschiede und substanzielle Uneinigkeit

Übereinstimmungsraten zwischen den Modellen

Modellspezifische Urteilsmuster

Verteilung der Urteile

Übereinstimmung mit der Mehrheit des restlichen Panels

Uneinigkeit nach Bereichen

Konsens nach Urteils-Buckets

Datensatz und Ausschlusskriterien

Methodik

Modelle und Prompt

Aufrufkonfiguration und Auswertung

Statistische Verarbeitung

Reproduzierbarkeit und öffentliche Artefakte

Einschränkungen

Frühere Forschung und weitere Pläne

Ethik und Datennutzung

Beispiele, bei denen das Frontier-Panel stark auseinanderging

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare