- Bei 5 Frontier-LLMs gingen die Urteile bei 67 % von 1.000 tatsächlich von Nutzern eingereichten Claims auseinander; in 33 % der Fälle stimmten alle fünf überein
- Das Mehrheitsurteil ist kein korrektes Label, sondern ein Maßstab zur Erfassung von Uneinigkeit; bei den 67 % ohne Einstimmigkeit muss daher mindestens ein Modell falsch liegen
- Bei substanzieller Uneinigkeit mit einem Abstand von mindestens zwei Stufen auf der 4-stufigen Rubrik lag der Anteil bei 34 %, eine extreme Spaltung zwischen True und False wurde ebenfalls in 21 % der Fälle beobachtet
- Die paarweise Label-Übereinstimmung zwischen den Modellen lag bei 53–75 %; die höchste Übereinstimmung hatten Gemini 3 Pro und die Search-Version auf derselben Basismodellfamilie
- Die Daten stammen aus aktuellen realen Claims von Lenz und wurden ohne Ground-Truth-Labels oder LLM-Judges gemessen, wodurch eher die Instabilität der Urteilsstruktur als die Genauigkeit sichtbar wird
Wie häufig gingen die Urteile bei realen Claims auseinander?
- Bei 672 von 1.000 Claims, 67 % (95% CI 64–70%) in der Analyse stimmten die Urteile der fünf Frontier-Modelle nicht überein
- Bei 328 Claims, 33 % (95% CI 30–36%), kamen alle fünf Modelle zum gleichen Urteil
- Bei 224 Claims, 22 % (95% CI 20–25%), wich nur ein Modell vom Rest ab
- Bei 316 Claims, 32 % (95% CI 29–35%), wichen zwei Modelle vom Rest ab
- Spaltungen ohne strikte Mehrheit wie 2-2-1 oder 2-1-1-1 traten bei 132 Claims, 13 % (95% CI 11–15%), auf
- In 448 Fällen, 45 % (95% CI 42–48%), wichen mindestens zwei Modelle vom Rest ab
- Das Mehrheitsurteil ist kein Proxy für Korrektheit, sondern ein strukturelles Kriterium, um Uneinigkeit zu zählen
- Das Mehrheitsurteil kann falsch sein, und ein Modell mit Minderheitsurteil kann richtig liegen
- Nimmt man an, dass von den vier Urteils-Buckets nur einer korrekt ist, dann liegt bei den 67 % nicht einstimmigen Claims mindestens ein Modell falsch
- Bei 45 % mit Spaltungen vom Typ 3-2, 3-1-1 oder ohne Mehrheit liegen mindestens zwei Modelle falsch
- Bei den 13 % ohne Mehrheit erreicht kein Bucket drei Stimmen, daher liegen mindestens drei Modelle falsch
- Selbst in den 33 %, bei denen alle fünf Modelle übereinstimmten, kann es gemeinsame blinde Flecken geben
- Der Grad der Panel-Übereinstimmung lag bei Krippendorff’s α (ordinal)=0.639
- Die Modellurteile waren nicht annähernd zufällig, aber auch nicht so konsistent, dass man die fünf Modelle als austauschbare Beurteiler behandeln könnte
- Da True / Mostly True / Misleading / False geordnete Kategorien sind, wurde ordinales α verwendet
Nuancenunterschiede und substanzielle Uneinigkeit
- Bei 343 von 1.000 Claims, 34 % (95% CI 31–37%), lagen die Urteile von mindestens zwei Modellen auf der 4-stufigen Rubrik mindestens zwei Stufen auseinander
- Der Unterschied zwischen True und Mostly True wird als Nuancenunterschied nahe an einer Vertrauensanpassung behandelt
- Der Unterschied zwischen True und False wird als substanzielle Uneinigkeit behandelt, bei der die eigentliche Antwort auseinandergeht
- Die Messung erfolgte über die maximale paarweise Bucket-Distanz der fünf Urteile
- Die Urteilsreihenfolge ist
True (0) → Mostly True (1) → Misleading (2) → False (3)
- Distanz 0 trat bei 328 Claims, 33 % (95% CI 30–36%), auf; hier wählten alle fünf Modelle denselben Bucket
- Distanz 1 trat bei 329 Claims, 33 % (95% CI 30–36%), auf und entspricht Nuancenunterschieden wie True ↔ Mostly True
- Distanz 2 trat bei 132 Claims, 13 % (95% CI 11–15%), auf und steht für substanzielle Uneinigkeit wie True ↔ Misleading oder Mostly True ↔ False
- Distanz 3 trat bei 211 Claims, 21 % (95% CI 19–24%), auf und bedeutet eine extreme Spaltung zwischen True und False
- Die Bucket-Distanz ist kein präzises Maß für die Größe eines Fehlers, sondern ein grober Indikator
- Darin steckt die Vereinfachung, True / Mostly True / Misleading / False als gleichabständige ordinale Skala zu behandeln
- Ein Abstand von zwei Stufen kann auch durch Mehrdeutigkeiten der Rubrik, Unterschiede im Zeitbezug oder unterschiedliche Interpretationen von „Misleading“ entstehen
Übereinstimmungsraten zwischen den Modellen
- Die Label-Übereinstimmung zwischen den 5 Modellpaaren lag im Bereich von 53 % bis 75 %
- Die höchste Übereinstimmung hatte Gemini 3 Pro × Gemini 3 Pro + Search mit 75 % (95% CI 72–77%); beide Modelle teilen sich dasselbe Basismodell
- Die niedrigste Übereinstimmung lag bei 53 % (95% CI 50–56%) und trat bei drei Paaren auf
- Wichtige paarweise Übereinstimmungsraten
- GPT-5.4 × Claude Opus 4.7: 65 % (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65 % (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60 % (95% CI 57–63%)
- GPT-5.4 × Sonar Pro: 60 % (95% CI 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53 % (95% CI 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53 % (95% CI 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58 % (95% CI 55–61%)
- Gemini 3 Pro × Sonar Pro: 53 % (95% CI 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58 % (95% CI 55–61%)
Modellspezifische Urteilsmuster
-
Verteilung der Urteile
- Je nach Modell unterschied sich, wie stark es sich auf die Pole True/False konzentrierte und wie häufig es die mittleren Buckets Mostly True/Misleading nutzte
- Da es keine Ground-Truth-Labels gibt, lassen sich Vorab-Tendenzen der Modelle und Einflüsse der Claims nicht voneinander trennen
- GPT-5.4: True 42 % (95% CI 39–45%), Mostly True 16 % (14–19%), Misleading 12 % (10–14%), False 30 % (28–33%)
- Claude Opus 4.7: True 38 % (35–41%), Mostly True 26 % (23–29%), Misleading 19 % (17–22%), False 17 % (15–20%)
- Gemini 3 Pro: True 54 % (51–57%), Mostly True 3 % (2–4%), Misleading 3 % (2–4%), False 40 % (37–43%)
- Gemini 3 Pro + Search: True 52 % (49–55%), Mostly True 4 % (3–5%), Misleading 9 % (7–11%), False 35 % (32–38%)
- Sonar Pro: True 35 % (32–38%), Mostly True 23 % (21–26%), Misleading 16 % (14–18%), False 26 % (23–28%)
-
Übereinstimmung mit der Mehrheit des restlichen Panels
- Der Anteil, in dem jedes Modell zum selben Urteil kam wie die strikte Mehrheit von mindestens 3 der übrigen 4 Modelle, lag bei 69 % bis 81 %
- Dieser Wert misst die Ausrichtung an den anderen Modellen in diesem Korpus, nicht die Genauigkeit
- In die Berechnung gingen nur Claims ein, bei denen die übrigen 4 Modelle eine Mehrheit von mindestens 3/4 bildeten; daher unterscheidet sich das eligible n je Modell
- GPT-5.4: 81 % (95% CI 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70 % (95% CI 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77 % (95% CI 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76 % (95% CI 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69 % (95% CI 66–73%), eligible n=675, ineligible=325
Uneinigkeit nach Bereichen
- Der Nenner je Bereich ist die Zahl der Claims in diesem Bereich; in den meisten Bereichen lag die Uneinigkeitsrate deutlich über der Hälfte.
- Finance: 75, beliebige Uneinigkeit 67 % (95-%-KI 55–76 %), substanzielle Uneinigkeit 39 % (28–50 %), keine Mehrheit 20 % (13–30 %)
- General: 179, beliebige Uneinigkeit 68 % (60–74 %), substanzielle Uneinigkeit 40 % (33–48 %), keine Mehrheit 12 % (8–17 %)
- Health: 171, beliebige Uneinigkeit 71 % (64–78 %), substanzielle Uneinigkeit 29 % (23–36 %), keine Mehrheit 12 % (8–17 %)
- History: 131, beliebige Uneinigkeit 53 % (44–61 %), substanzielle Uneinigkeit 24 % (17–32 %), keine Mehrheit 13 % (8–20 %)
- Legal: 48, beliebige Uneinigkeit 77 % (63–87 %), substanzielle Uneinigkeit 40 % (27–54 %), keine Mehrheit 19 % (10–32 %)
- Politics: 168, beliebige Uneinigkeit 70 % (62–76 %), substanzielle Uneinigkeit 38 % (31–46 %), keine Mehrheit 8 % (5–13 %)
- Science: 151, beliebige Uneinigkeit 68 % (60–75 %), substanzielle Uneinigkeit 36 % (29–44 %), keine Mehrheit 21 % (15–28 %)
- Tech: 77, beliebige Uneinigkeit 69 % (58–78 %), substanzielle Uneinigkeit 31 % (22–42 %), keine Mehrheit 8 % (4–16 %)
- Die Bereichseinteilung spiegelt die Traffic-Muster von Lenz wider und ist kein Ergebnis einer gleichmäßigen Stichprobenziehung aller faktencheckbaren Claims.
Konsens nach Urteils-Buckets
- Wenn das Panel den mittleren Bucket erreichte, kam es fast nie zu Konvergenz.
- Bei Mehrheitsurteilen für Mostly True und Misleading lag Einstimmigkeit jeweils nur bei höchstens 5 %.
- Die Einstimmigkeitsraten bei Mehrheitsurteilen für True und False lagen bei 47 % bzw. 43 %.
- Basis sind Claims, bei denen eine strenge Mehrheit von mindestens 3/5 dieses Urteil vergab.
- True: eligible n=438, Einstimmigkeit 47 % (95-%-KI 42–51 %), 3~4-Stimmen-Mehrheit 53 % (49–58 %)
- Mostly True: eligible n=76, Einstimmigkeit 0 % (95-%-KI 0–5 %), 3~4-Stimmen-Mehrheit 100 % (95-%-KI 95–100 %)
- Misleading: eligible n=74, Einstimmigkeit 5 % (95-%-KI 2–13 %), 3~4-Stimmen-Mehrheit 95 % (87–98 %)
- False: eligible n=280, Einstimmigkeit 43 % (95-%-KI 37–49 %), 3~4-Stimmen-Mehrheit 57 % (51–63 %)
- Auch die 328 Claims, bei denen alle 5 Modelle zum gleichen Urteil kamen, konzentrierten sich an den Polen.
- True: 204, 62 % der einstimmigen Fälle (95-%-KI 57–67 %)
- Mostly True: 0, 0 % (95-%-KI 0–1 %)
- Misleading: 4, 1 % (95-%-KI 0–3 %)
- False: 120, 37 % (95-%-KI 32–42 %)
- Auch in einer Ablationsstudie zu Llama-3 einer einzelnen Modellfamilie über 17.856 PolitiFact-Claims, Schwab et al. 2025 zeigt sich ein verwandtes Ergebnis: Fehler von Modellen für Faktencheck-Urteile konzentrieren sich bei feineren Labels.
Datensatz und Ausschlusskriterien
- Analysiert wurden 1.000 Claims.
- Es handelt sich um die neuesten Claims aus echten Nutzeranfragen, die an die Faktencheck-Plattform Lenz übermittelt wurden und die Ausschlusskriterien bestanden.
- Alle Claims wurden nach dem 15. Februar 2026 erstellt.
- Das Urteil von Lenz selbst wurde in der Analyse nicht verwendet; die Analyse vergleicht also nicht Lenz mit Frontier-Modellen, sondern misst nur die Uneinigkeit zwischen Frontier-Modellen.
- Das Feld
atomic_claim ist nicht der vom Nutzer eingegebene Originaltext, sondern eine neutrale, überprüfbare Aussage, die durch den Framing-Schritt von Lenz aufbereitet wurde.
- Zum Beispiel wird die Eingabe “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” in die Aussage “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.” umgewandelt.
- Ausgeschlossene Claims
- Claims, die vom Einreichenden als privat markiert wurden
- Claims von Plattformmitarbeitern, internen Accounts oder Agent/API-Einreichungen
- Claims mit dem Bearbeitungsstatus
pending oder hidden
- Claims, die in der PII-Screening-Phase von Lenz automatisch markiert wurden, weil sie personenbezogene Daten über nicht öffentliche Personen enthielten
- Nahe Duplikate von Claims, deren Kosinusdistanz zwischen
atomic_claim-Einbettungen mit OpenAI text-embedding-3-small in 1536 Dimensionen innerhalb von 0.2 lag
- Claims, bei denen auch nach einem erneuten Versuch mindestens eines der fünf Modelle kein parsbares Urteil ausgab
- Claims, die zum Zeitpunkt der Erhebung älter als 180 Tage waren
- Bei nahen Duplikaten wurde bei zeitabhängigen Aussagen der neuere Claim als repräsentative Zeile gewählt, sonst der bestehende Claim mit den meisten Aufrufen bei Lenz.
Methodik
-
Modelle und Prompt
- Parametrische Modelle: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Search-augmented Modelle: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Jeder Claim wurde zusammen mit einem auf das Einreichungsdatum abgestimmten Stichtag im Format „as of YYYY-MM-DD“ vorgelegt.
- Die Modelle mussten erzwungen genau eines von
True, Mostly True, Misleading oder False wählen.
Classify this claim as of <date>: "<atomic claim>"
Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
- Eine Abstain-Option wurde nicht angeboten; die erzwungene Auswahl hält den Vergleich zwischen den Modellen symmetrisch.
-
Aufrufkonfiguration und Auswertung
- Alle Modelle erhielten denselben System-Placeholder
. und dieselbe User-Prompt-Vorlage usr_v2.
- Es wurden keine Structured-Output-Schemata, Tool-Calling-Schemata, Seeds, Top-p oder Logit-Bias-Kontrollen verwendet.
- Wo unterstützt, wurde deterministisches Decoding mit
temperature=0.0 angefordert.
- GPT-5.4 und Claude Opus 4.7 wurden ohne explizite Temperature aufgerufen, weil die Provider-Adapter benutzerdefinierte Temperature-Einstellungen ablehnten.
- Für GPT-5.4, Claude Opus 4.7 und Sonar Pro war die Ausgabelänge auf 16 Tokens begrenzt; Gemini 3 Pro und Gemini 3 Pro + Search nutzten ein Limit von 1024 Tokens.
- Bei Gemini 3 Pro + Search war Google Search Grounding aktiviert, und Sonar Pro wurde als Search-augmented Modell über die search-backed API von Perplexity behandelt.
- Nur normalisierte Ausgaben, die exakt mit einem der vier Labels übereinstimmten, galten als parsbar.
- Es wurden weder ein LLM-Judge noch Referenz-Goldlabels verwendet; alle Messwerte stammen aus der direkten Übereinstimmung der parsbaren Labels der fünf Modelle.
-
Statistische Verarbeitung
- Das Korpus besteht aus den neuesten 1.000 eligible Claims, die auf einer einzelnen Faktencheck-Plattform eingereicht wurden, und ist keine Wahrscheinlichkeitsstichprobe aus einer größeren Grundgesamtheit.
- Die Wilson-95-%-Konfidenzintervalle sind nominale Binomialintervalle unter einem Modell, in dem jeder Claim unabhängig aus einem ähnlichen Strom eligible Einreichungen mit denselben Auswahlregeln gezogen wird.
- Lenz-Claims häufen sich rund um Nachrichtenereignisse, und derselbe Nutzer kann in einer Sitzung mehrere zusammenhängende Claims einreichen; die Daten sind also nicht unabhängig und identisch verteilt.
- In einem realistischeren Clustermodell könnte die tatsächliche Stichprobenvariabilität größer sein als die Wilson-Intervalle nahelegen.
- Es wurden keine Signifikanztests zwischen Modellen durchgeführt; paarweise Übereinstimmungsraten und Wilson-95-%-KI werden als deskriptive Statistik berichtet.
Reproduzierbarkeit und öffentliche Artefakte
- Die vollständigen Daten pro Claim werden als CSV bereitgestellt.
- Jede Zeile enthält Claim-ID und URL, den Text des atomic claim, 5 Frontier-Bewertungen, die maximale paarweise Bucket-Distanz, den Bereich und das Erstellungsdatum.
- Wenn Einreichende Claims später löschen oder auf privat setzen, können einige Seiten nicht mehr verfügbar sein.
- Das PDF ist eine browserunabhängige gerenderte Fassung für Offline-Lektüre, Zitate und das Hosting als Preprint im arXiv-Stil.
- Der Snapshot ist v1.0; Datenstichtag ist der 21. Mai 2026.
- Dauerhafte Aufzeichnung und Zitierung werden unter doi.org/10.5281/zenodo.20344847 bereitgestellt.
Einschränkungen
- Die fehleruntere Grenze auf Basis des Schubfachprinzips ist eine Untergrenze für Rubrik-Unstimmigkeiten, nicht das Urteil, dass ein bestimmtes Modell bei einem bestimmten Claim sachlich falsch liegt.
- Von den vier Buckets kann nur einer korrekt sein; daher bedeutet jede Unstimmigkeit mindestens eine inkonsistente Bewertung.
- Es lässt sich jedoch nicht feststellen, welches Modell bei welchem Claim falsch lag.
- Die Ordinalität der Bucket-Distanz ist eine Vereinfachung.
- True / Mostly True / Misleading / False werden als geordnete Skala mit gleichen Abständen behandelt.
- Ein Abstand von 2 Buckets kann aus Uneindeutigkeit der Rubrik, unterschiedlichen Zeitbezügen oder abweichender Auslegung von „Misleading“ entstehen und bedeutet nicht zwingend einen größeren Sachfehler.
- Bewertungsmehrdeutigkeit ist nicht nur ein Problem von LLMs, sondern auch eine Eigenschaft der Aufgabe selbst.
- AVeriTeC ist ein Korpus von 4.568 Claims, die nach Maßstäben von 50 Fact-Checking-Organisationen in mehreren Prüfrunden bewertet wurden; die Übereinstimmung zwischen Annotator:innen bei den Bewertungen bleibt bei κ=0.619.
- Ein Teil der Unstimmigkeiten zwischen Frontier-Modellen spiegelt die Natur von Labels wider, die auch für menschliche Bewertende schwierig sind.
- Der Snapshot ist auf ein bestimmtes Datum und bestimmte Modellversionen fixiert.
- Frontier-LLMs sind nichtdeterministisch; selbst bei erneutem Ausführen mit demselben Modell und demselben Prompt können sich die Werte in gewissem Maß ändern.
- Bei erneuter Ausführung mit neuen Modellen oder anderen Prompts können sich die Werte stärker verschieben.
- Search-unterstützte Modelle haben zum Zeitpunkt der Inferenz möglicherweise Quellen abgefragt, aber es wird weder kontrolliert noch auditiert, wonach sie gesucht haben.
Frühere Forschung und weitere Pläne
- Yang & Wang (2026) zeigen, dass führende Frontier-Modelle bei 16–38 % der MMLU-Pro- und GPQA-Items uneinig sind, obwohl die Gesamtgenauigkeit gleich ausfällt.
- Als strenger, menschlich annotierter Referenzpunkt für die Verifikation realer Claims wird AVeriTeC angeführt.
- Als größerer Fact-Checking-Korpus existiert ein Satz von 17.856 PolitiFact-Claims in einem ablationsartigen Setup mit einer einzelnen Llama-3-Familie.
- Der Lenz-Korpus besteht aus echten Nutzereinreichungen der vergangenen 180 Tage, ist nur auf lenz.io indexiert und wurde in öffentlichen Trainingssätzen nie mit Standardurteilen gepaart.
- In Folgearbeiten soll derselbe gesamte Korpus von Menschen gelabelt werden; diese Labels sollen dann als Ground Truth dienen, um 5 Frontier-Modelle und die eigene Lenz-Bewertung zu evaluieren.
- Das Ziel ist kein Leaderboard, sondern zu analysieren, an welchen Stellen das Frontier-Panel von menschlichem Konsens abweicht, wo Lenz von beidem abweicht und welche Kategorien Unstimmigkeiten auslösen.
Ethik und Datennutzung
- Verwendet wurden nur die öffentlichen Claim-Felder Text des atomic claim und Erstellungsdatum.
- Personenbezogene Daten werden nicht verwendet.
- Private Claims und Mitarbeiter-Claims sind ausgeschlossen.
- Den Frontier-Modellen werden nur Claim-Text und Stichtag gegeben, nicht die Identität der Einreichenden oder Analysesignale.
- Wenn Einreichende einen Claim später auf privat setzen oder löschen, kann dieser Claim aus dem Snapshot und aus künftigen Downloads entfernt werden.
Beispiele, bei denen das Frontier-Panel stark auseinanderging
- Der Anhang zeigt die 20 Claims mit dem größten Abstand zwischen dem höchsten und dem niedrigsten Bucket.
- Es handelt sich um Claims mit substanzieller Unstimmigkeit, bei denen die Bewertung von mindestens einem Modell um 2 oder mehr Buckets von der anderer Modelle abweicht.
- Sortiert wird absteigend nach maximaler paarweiser Bucket-Distanz, bei Gleichstand werden Fälle ohne Mehrheit zuerst gereiht, danach nach einem stabilen Hash der Claim-ID.
- Repräsentative Fälle mit Distanz 3 und ohne Mehrheit
- Der Claim, Muthiah Muralidaran habe gesagt, die Indian Premier League sei reines Business und Spiele mit niedrigen Scores seien für Sponsoren langweilig, weshalb flache Pitches vorbereitet würden: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Der Claim, dass das active portfolio der World Bank in Nigeria im Jahr 2025 über 16,4 Milliarden Dollar liege: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Der Claim, dass Menschen, die Musik mit wenig positivem emotionalem Gehalt bevorzugen, tendenziell intelligenter sind: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Der Claim, dass Hostels in Kota, Rajasthan, häufig käfigartige Deckenventilatoren als Maßnahme zur Prävention von Suiziden unter Studierenden verwenden: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- Der Claim, dass sich mit Stand vom 6. Mai 2026 Muslime aus mehreren Ländern im Hooghly-Distrikt in West Bengal, Indien, versammelt hätten: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True
1 Kommentare
Hacker-News-Kommentare
Classify this claim as of : ""/Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.Die Liste der Behauptungen steht unter https://lenz.io/research/llm-disagreement/data.csv, und sie wurde zur leichteren Durchsicht in Datasette Lite geladen. Ein Beispiel für Uneinigkeit: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Die Aussage „Alle Mandeln werden im US-Bundesstaat Kalifornien angebaut“ ist falsch, aber nur Opus 4.7 antwortete mit „misleading“. Weil sowohl „mostly true“ als auch „misleading“ enthalten sind und zusätzlich die Regel „keine Erklärungen“ gilt, verliert die Aussagekraft an Stärke
Ein besseres Beispiel: Bei „Unvollständige ägyptische Visaanträge sind einer der häufigsten Gründe dafür, dass ein ägyptischer Visaantrag abgelehnt wird“ teilten sich die Modelle in „true“ und „mostly true“, aber sprachlich bedeutet „among the most“ hier faktisch dasselbe
Noch entscheidender ist: Bei „Am 18. Mai 2026 führte die Ukraine einen Drohnenangriff auf Moskau in Russland durch“ wäre ohne Such-Tool die einzig richtige Antwort „nicht verifizierbar“, aber diese Option gab es nicht, und die Antworten spalteten sich in true/false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Manche Aussagen können zugleich „misleading“ und true oder false sein. Auch ist unklar, in welche Kategorie ein Fall fällt, der „größtenteils falsch“ ist
Es gibt außerdem keinen Maßstab dafür, ab wann etwas von „mostly true“ zu „false“ kippt. Am Ende testet man also nicht nur das Faktenverständnis, sondern auch, wie die Modelle mostly und misleading definieren; daher ist es übertrieben zu sagen, die Modelle seien sich bei den Fakten selbst grundlegend uneinig
Wenn man eine strenge Evaluation tatsächlich durchzieht, kommen bei Tool-Aufrufen wie der Websuche Infrastrukturprobleme, temporäre Ausfälle und allerlei Nichtdeterminismus direkt mit hinein
Man hätte Kennzahlen getrennt für drei Modelle ohne Suche und für Such-Agenten zeigen müssen. Bei aktuellen Tatsachenbehauptungen nach dem Wissensstichtag haben Modelle ohne Suche faktisch nur geringe Aussagekraft, und weil es keine „ich weiß es nicht“-Option gab, ist das Ergebnis nahezu vollständig ungültig. Sie wissen es nicht, dürfen es aber nicht sagen, also raten sie eine plausibel klingende Antwort
Ich stimme auch zu, dass erzwungene Auswahl und die Varianten „schwach/stark“ die Headline-Zahlen aufblähen. Um so etwas zu unterscheiden, braucht es deutlich strengere Prompts, und wahrscheinlich auch In-Context-Learning-Beispiele (ICL), damit die Bedeutung von „mostly“ nicht dem Modell überlassen wird
Ich frage mich, ob ich etwas übersehe
[1]: https://en.wikipedia.org/wiki/Almond#Production
claude-opus-4-7lag bei 451 von 1000, also 45,1 %,sonar-probei 39,1 %,gpt-5.4bei 27,7 %,gemini-3-retrievalbei 12,9 % undgemini-3-probei 6,0 %Die Datasette-Abfrage ist hier: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Wenn es ein perfektes Werkzeug mit „genialer Intelligenz“ wäre, müsste es korrekt antworten
Zur Aussage „Außerirdisches Leben existiert irgendwo im Universum“ antworteten GPT-5.4 und Opus 4.7 mit Misleading, Gemini 3 und Gemini 3 (Retrieval) sowie Sonar Pro mit FALSE
Das ist eine seltsame Tatsachenbehauptung. Die tatsächliche richtige Antwort ist niemand weiß es sicher, aber diese Auswahlmöglichkeit fehlt
Das heißt nicht, dass Halluzinationen kein Problem sind, aber das ist eine miserable Art, sie zu testen
Allerdings hätte es eine Kategorie unknown oder undecidable geben müssen
Der Punkt „Das sind keine Benchmark-Einträge mit öffentlich verfügbarem Lösungsschlüssel, sondern Behauptungen, deren Überprüfung echte Nutzer auf einer Fact-Checking-Plattform angefragt haben“ ist gut
Aber solange die Autoren nicht genau offenlegen, wie stark sie LLMs beim Schreiben und Erstellen des Berichts eingesetzt haben, weiß ich nicht, wie aussagekräftig das ist. Es gibt sogar eine Sektion „11. Ethics & data use“ und es geht um Themen, die an die Fehlerfreiheit von LLMs rühren, aber die Nutzung von LLMs bei der Erstellung des Berichts wird nicht ein einziges Mal erwähnt
Ich denke, wir können uns alle darauf einigen, dass es TRUE ist, dass dieses Experiment in vielerlei Hinsicht fehlerhaft ist
Trotzdem ist es eine hervorragende Übung, um typische Fehler zu erkennen, die Menschen beim Einsatz von LLMs machen. Als Interviewfrage für Prompt-Engineering-Stellen wäre das wohl gut geeignet
Die Modelle werden von Tag zu Tag menschlicher
Wegen Goodharts Gesetz wird dieser „Benchmark“ in ein paar Tagen, spätestens in ein paar Wochen, bedeutungslos sein
Er wird wieder ins Training aufgenommen und dann so aussehen, als sei er „gelöst“, aber es entsteht dadurch kein Schlussfolgern; neue „Probleme“ werden nur sichtbarer, sodass die statistisch plausibelere Richtigkeit zunimmt. Danach wird groß darüber geredet werden, was für ein enormer „Fortschritt“ das sei, der „alles verändert“
Nebenbei bemerkt könnte ich einen Abschluss in Unternehmensstrategie und PR haben oder auch nicht
Die Leute in den Forschungslaboren wissen im Großen und Ganzen, was sie tun, und kennen diese Probleme durchaus
Ich verstehe nicht, warum Grok ausgeschlossen wurde. Die philosophischen Unterschiede in der Art, wie Grok trainiert wird, sind offengelegt, also wäre es ein interessanter Datenpunkt gewesen
Über diese Unterschiede könnte man den ganzen Tag streiten, aber es ist schade, die Gelegenheit verpasst zu haben, sie objektiv zu beobachten
Grok wurde darauf trainiert, die Vorurteile zu haben, die viele Menschen mögen, aber es ist kein Modell, das auf Genauigkeit ausgelegt ist
Ich sehe nicht, was das zeigen soll, das wir nicht ohnehin schon wussten. LLMs können auf Fragen zu Daten, die nicht im Trainingssatz enthalten sind, keine genauen Antworten geben
Scheint nicht besonders gehaltvoll zu sein
Bei Fragen wie „Ist Mundspülung wirksam?“ sollte es doch wenigstens eine solide Datenquelle wie eine medizinische Fachzeitschrift geben
Das ist noch schlimmer
Ich verstehe nicht, warum alle so darauf fixiert sind, LLMs Fact-Checking machen zu lassen
Dafür ist diese Technologie nicht gedacht. In bestimmten Situationen mag sie halbwegs funktionieren, aber das macht sie noch lange nicht zum passenden Werkzeug
Das ist, als würde man einen Kühlschrank kaufen, um Kleidung darin aufzubewahren
Der letzte Mensch will eine Maschine, die ihm sagt: „faktisch falsch“ oder „faktisch richtig“. Denn er möchte den Abgrund, dass es keine ultimative Wahrheit gibt, klein genug machen, um daneben einschlafen zu können
Ich habe das dafür gebaut: 100% lokales CPU-Fact-Checking: https://news.ycombinator.com/item?id=48301003