7 Punkte von GN⁺ 2025-10-23 | 1 Kommentare | Auf WhatsApp teilen
  • Eine von der Europäischen Rundfunkunion (EBU) und der BBC geleitete internationale Gemeinschaftsstudie zeigt, dass vier führende AI-Assistenten (ChatGPT, Copilot, Gemini, Perplexity) bei der Vermittlung von Nachrichteninhalten in 45 % der Fälle Verzerrungen oder Fehler aufweisen
  • An der Studie beteiligten sich 22 öffentlich-rechtliche Rundfunkanstalten aus 18 Ländern; bewertet wurden 14 Sprachen und mehr als 3.000 Antworten. Dabei wurden zahlreiche Probleme festgestellt, darunter fehlende oder ungenaue Quellenangaben (31 %) sowie Faktenfehler und Halluzinationen (20 %)
  • Besonders auffällig war Gemini mit einer Problemquote von 76 %, die laut Analyse vor allem auf fehlende Quellenkennzeichnung zurückzuführen ist
  • Im Vergleich zu einer früheren BBC-Studie gab es zwar in einzelnen Punkten Verbesserungen, dennoch wurden weiterhin systematische Probleme auf multinationaler Ebene bestätigt
  • Während AI-Assistenten zunehmend die Nachrichtensuche ersetzen, werden Risiken für das öffentliche Vertrauen und die demokratische Teilhabe aufgeworfen

Überblick über die Studie

  • Die auf der EBU News Assembly in Neapel vorgestellte Untersuchung gilt als bislang größtes multinationales Experiment dieser Art und kommt zu dem Schluss, dass AI-Assistenten unabhängig von Sprache, Land und Plattform Nachrichten konsistent verfälschen
  • Teilnehmende Organisationen: BBC, ARD, ZDF, CBC, NPR und weitere 22 öffentlich-rechtliche Rundfunkanstalten weltweit
  • Bewertungskriterien: Genauigkeit, Angabe der Quellen, Trennung von Fakten und Meinung, Bereitstellung von Kontext und weitere zentrale medienethische Maßstäbe

Zentrale Ergebnisse

  • In 45 % aller Antworten wurden schwerwiegende Probleme festgestellt
    • 31 % betrafen Quellenfehler (Auslassungen, falsche Zitate, falsch zugeordnete Quellen)
    • 20 % betrafen Mängel bei der Genauigkeit (einschließlich Halluzinationen, veralteter Informationen und Fehlinformationen)
  • Gemini kam auf eine Problemquote von 76 % und lag damit etwa doppelt so hoch wie andere Modelle
  • Gegenüber der von der BBC Anfang des Jahres veröffentlichten Studie haben sich einige Kennzahlen verbessert, doch die Verzerrungsrate insgesamt bleibt hoch

Warum diese Verzerrungen wichtig sind

  • AI-Assistenten haben sich für viele bereits als Nachrichtenzugang etabliert, der Suchmaschinen ersetzt
  • Laut dem Digital News Report 2025 des Reuters Institute nutzen 7 % aller Online-Nachrichtenkonsumenten AI-Assistenten als Nachrichtenquelle; bei den unter 25-Jährigen sind es 15 %
  • Jean Philip De Tender (EBU Media Director) warnt, das Problem von AI-Assistenten sei ein systematisches Phänomen über Länder- und Sprachgrenzen hinweg und bedrohe damit das öffentliche Vertrauen
  • Peter Archer von der BBC betont, das Potenzial von AI sei groß, doch die verlässliche Vermittlung von Informationen müsse Vorrang haben; zudem sei eine gemeinsame Reaktion von Medienhäusern und AI-Unternehmen notwendig

Reaktionen und nächste Schritte

  • Das Forschungsteam hat zur Lösung der Probleme das News Integrity in AI Assistants Toolkit veröffentlicht
    • Es definiert Kriterien für gute AI-Antworten und zeigt Lösungsansätze auf
    • Ziel sind eine bessere Qualität von AI-Antworten und eine stärkere Medienkompetenz der Nutzer
  • Die EBU fordert von der EU und nationalen Regulierungsbehörden eine stärkere Durchsetzung von Gesetzen zu Informationsintegrität und digitalen Diensten und schlägt ein kontinuierliches unabhängiges Monitoring von AI-Assistenten vor

Weitere Forschung und Wahrnehmungsstudien

  • In einem separaten Bericht mit dem Titel „Audience Use and Perceptions of AI Assistants for News” kommt die BBC zu dem Ergebnis, dass
    • mehr als ein Drittel der Erwachsenen in Großbritannien angibt, von AI erstellten Nachrichtenzusammenfassungen zu vertrauen, und
    • bei entdeckten Fehlern die Verantwortung nicht nur bei AI, sondern tendenziell auch bei Medienhäusern gesehen wird
  • Das zeigt, dass Fehler von AI-Assistenten auch das Vertrauen in Nachrichtenmarken negativ beeinflussen können

Liste der teilnehmenden Rundfunkanstalten

  • Belgien (RTBF, VRT), Kanada (CBC-Radio Canada), Tschechien (Czech Radio), Finnland (YLE), Frankreich (Radio France),
    Georgien (GPB), Deutschland (ARD, ZDF, Deutsche Welle), Italien (Rai), Litauen (LRT),
    Niederlande (NOS/NPO), Norwegen (NRK), Portugal (RTP), Spanien (RTVE), Schweden (SVT),
    Schweiz (SRF), Ukraine (Suspilne), Vereinigtes Königreich (BBC), USA (NPR)

1 Kommentare

 
GN⁺ 2025-10-23
Hacker-News-Kommentare
  • Wenn man sich den eigentlichen Bericht ansieht, kann man erkennen, wie die Zahl zustande kam. Die meisten Fehler sind „Quellenprobleme“: Der AI-Assistent zitiert Behauptungen entweder gar nicht oder zitiert – erstaunlicherweise – Wikipedia statt der BBC. Außerdem macht der Bericht nicht klar, welches Modell verwendet wurde (es wurde nur im Anhang erwähnt). Anthropic (meiner Ansicht nach das Beste für solche Aufgaben) wurde ausgelassen, stattdessen wurden nur Perplexity und Copilot betrachtet. Dazu kommt, dass der Bericht Inhalte eines aktuellen Reports mit einer Studie von vor einem Jahr vermischt und dadurch Kontext verloren geht – etwa, dass sich die Lage inzwischen stark verändert hat. Dieser Artikel hat mehrere wichtige Probleme

    • Auch menschliche Journalisten geben den Inhalt von Whitepapers zu etwa 85 % falsch wieder. Vor diesem Hintergrund wirken 45 % gar nicht so schlecht

    • Das Quellenproblem könnte auch damit zusammenhängen, dass die robots.txt der BBC die meisten AI-Crawler und User-Agents blockiert

    • Ich stimme zu, dass Probleme bei der Interpretation von von Menschen geschriebenen Texten wirklich groß sind. Auch wenn dieser Artikel nicht gut ist, existiert die Art von Problem, die er behauptet, tatsächlich in ernstem Ausmaß. LLMs missverstehen einzelne Sätze oder verlieren den Überblick darüber, wer was gesagt hat – und das passiert selbst bei aktuellen Modellen (einschließlich GPT-5) noch oft. Besonders dann, wenn man sie bittet, von Menschen geschriebene Diskussionen zu analysieren. Diese Probleme lassen sich vermutlich lösen, aber vollständig gelöst sind sie ganz sicher noch nicht

    • Ich möchte unbedingt ergänzen, dass das Problem nicht nur darin besteht, Wikipedia statt der BBC zu zitieren. Das größere Problem ist, dass auf Wikipedia-Artikel verwiesen wird, die „gar nicht existieren“. ChatGPT verlinkte zum Beispiel auf einen nicht existierenden Wiki-Artikel namens „European Union Enlargement Goals for 2040“, und das war auch keine offizielle EU-Politik. Es hat also nicht nur eine nicht existierende URL erfunden, sondern auch fiktive EU-Ziele und -Politik

    • Ich finde, dieser Artikel erfüllt seine eigene Rolle ziemlich gut: Er liefert eine Schlagzeile, die Leute später zitieren werden. In den nächsten ein, zwei Monaten wird man diesen Artikellink oder holprige Zitate wie „95 % aller AI-Projekte scheitern“ überall sehen. POSIWID (Akronym für „the purpose of a system is what it does“, also: Der Zweck eines Systems ist das, was es tatsächlich tut)

  • Ich frage mich, wie viele Menschen AI-Zusammenfassungen tatsächlich mit dem Original vergleichen. Ich habe das selbst ein paar Mal getan, und die Ergebnisse waren wirklich miserabel. Das ist weniger eine Zusammenfassung als eher eine „zufällige Komprimierung“ – und das ist etwas völlig anderes. In schlimmen Fällen ist die Kernaussage sogar exakt das Gegenteil des Originals. Deshalb vertraue ich AI-Zusammenfassungsfunktionen inzwischen überhaupt nicht mehr

    • Wenn man die Anrufzusammenfassungen von Gemini selbst überprüft, enthalten sie fast immer gravierende Probleme. Erst gestern hat Gemini etwas als beschlossen festgehalten, worauf wir uns gar nicht geeinigt hatten. Das war der wichtigste Punkt, und das Ergebnis war komplett verdreht. Es wäre fast besser, so etwas gäbe es gar nicht

    • Der Ausdruck „zufällige Komprimierung“ ist wirklich treffend. Ich habe das besonders bei Zusammenfassungen von E-Mails oder Textnachrichten beobachtet. Es erfasst den Kern der Nachricht überhaupt nicht und pickt stattdessen zufällig Sätze heraus, die in 99,9 % der Fälle nicht der eigentliche Kern sind. Deshalb ignoriere ich solche Zusammenfassungen inzwischen komplett

    • Nach meiner Erfahrung tritt dieses Phänomen vor allem bei abgespeckten Open-Source-Modellen oder Mini-Modellen auf. SOTA-Modelle (z. B. Sonnet-4.5, Opus-4.1, GPT-5-Thinking usw.) haben dieses Problem fast nie. Aber die sind zu teuer, also setzen die meisten Unternehmen aus Kosten- oder Geschwindigkeitsgründen auf Billigmodelle oder nicht implementiertes TTC

    • Ich frage mich, ob das nicht auch daran liegt, dass Schlagzeilen von Nachrichtenartikeln oft Clickbait sind. Wenn die AI nur anhand der Überschrift zusammenfasst, ist es kaum überraschend, dass sie mehr als die Hälfte des eigentlichen Inhalts missversteht

    • Manchmal erfindet die AI auch einfach Inhalte, die gar nicht existieren. Ich habe tatsächlich schon Zitate gesehen, bei denen Titel, Autoren und Ergebnisse einer wissenschaftlichen Arbeit komplett frei erfunden waren

  • Ich hatte Gemini gebeten, aktuelle Nachrichten zu sammeln und anzuzeigen, und es hat ohne Suche Titel, Zusammenfassungen und Links komplett halluziniert. Das ist nicht nur ein- oder zweimal passiert, sondern mehrfach. Deshalb habe ich inzwischen Angst, Gemini für irgendetwas zu verwenden, das mit Websuche zu tun hat. Als Beispiel bekam ich die Behauptung samt Link, „Google DeepMind und Forschende von Harvard hätten eine neue Methode vorgeschlagen, um die ‚Theory of Mind‘ von LLMs zu evaluieren“, aber der Link funktionierte nicht und der Titel tauchte in keiner Suche auf

    • Wenn ich mir zehn Antworten von Gemini ansehe, sind mehr als sieben davon falsch. Manchmal verwechselt es Produktnamen oder nennt falsche Öffnungszeiten. Einmal hieß es etwa, das Restaurant, in das ich mit meiner Frau gehen wollte, habe von Mo bis Fr geöffnet – tatsächlich war es aber nur von Di bis Sa offen, und wir standen umsonst dort. Gelegentlich erfindet es sogar dutzende „Fakten“, die völlig absurd sind. Meine Frau prüft inzwischen selbst viel gründlicher nach, und sogar der Besitzer macht schon Witze wie: „Wenn Gemini X sagt, ist es in Wirklichkeit wahrscheinlich Y?“

    • Ich kann dieses Verhalten nicht in gleicher Weise reproduzieren. Mich würde interessieren, welchen Prompt du verwendet hast. Wenn ich nach den Top-News des Tages frage, nutzt es die Google-Suche und liefert echte Links

    • Mich würde auch interessieren, welche Gemini-Version du verwendet hast und ob du es direkt per API oder über die Web-App (Gemini, AI Studio usw.) genutzt hast. Nicht alle LLM-Apps haben Web-/News-Suche aktiviert, daher können die Ergebnisse je nach Zugriffsrechten völlig unterschiedlich ausfallen. Natürlich sollte die AI, wenn sie keinen Websuche-Zugriff hat, das auch sagen, statt Fake-Links zu erfinden. Falls die Websuche aktiviert war und trotzdem keine echte Suche ausgeführt wurde, ist das für sich genommen schon ein Problem

    • Wäre es in so einem Fall nicht einfach besser, direkt auf eine normale Nachrichtenwebsite zu gehen und die Schlagzeilen selbst zu lesen?

    • Selbst bei von AI gelieferten Links sollte man immer direkt draufklicken und prüfen, ob der Inhalt wirklich korrekt beschrieben wird

  • Ich frage mich, ob LLM-Evangelisten überhaupt wahrnehmen, wie frustrierend es für Nutzer ist, wenn die schwache Leistung solcher Tools sofort weg-rationalisiert wird. Das wirkt nicht wie eine technische Einschränkung, sondern eher wie eine Art „Glaube“. Als wäre schon „Kompetenz“ selbst eine überzogene Forderung

    • Ich habe den Eindruck, dass viele dieser Evangelisten am Ende einfach Startup-Gründer sein werden, die mit AI erzeugte Demos oder Prototypen vorzeigen, bis der Hype abflaut und alles zusammenbricht – oder Entwickler, die ihnen folgen, weil sie sich dadurch clever fühlen. Es ist enttäuschend, wie verbreitet diese „fake it till you make it“-Kultur in der Tech-Branche ist

    • Ich denke, wir leben bereits in einer „post-truth“-Gesellschaft, in der es egal ist, ob etwas wahr ist oder nicht; wichtig ist nur, ob die Aussage die eigene Macht oder die Macht dessen stärkt, was man pusht

    • Jeder, der in eine zirkuläre Ponzi-Struktur investiert hat, verteidigt LLM-Fehlschläge reflexhaft. Sie wollen die Illusion glauben, dass bedeutungslose Token-Verteilungen echte „maschinelle Kognition“ seien, oder rationalisieren, dass es auch unvollkommen meistens brauchbar sei. Diese kollektive Illusion dient dazu, Bewertungen in Billionenhöhe zu rechtfertigen

    • Ist das wirklich nur ein LLM-Problem? Ich denke, die Gesellschaft insgesamt hält „Kompetenz“ schon lange nicht mehr für besonders wichtig. Das zeigt sich etwa darin, dass man Schülern Abschlüsse gibt, obwohl sie nicht einmal auf dem Niveau einer fünften Klasse lesen können, oder darin, dass Callcenter an Orte ausgelagert werden, an denen kaum Englisch gesprochen wird

    • Ich stimme teilweise zu, habe aber das Gefühl, dass die Diskussion in letzter Zeit immer wieder in Richtung Medienkritik oder andere Nebenschauplätze abdriftet. Auch die Ergebnisse dieser Studie finde ich ziemlich zweifelhaft. Es ist kein Paper, sondern eine bezahlte Ipsos-Studie, deshalb verstehe ich nicht, warum die Messlatte so niedrig liegt. Mindestens sollten das verwendete Modell, der Search-R@k-Wert, Metriken zur Zusammenfassungsgenauigkeit wie BLEU/ROUGE und menschliche Bewertungsmetriken offengelegt werden. Wenn so etwas fehlt, halte ich die Ergebnisse weder innerhalb dieses Feldes noch außerhalb davon für irgendwie nützlich

  • Ab Seite 10 des PDFs sind konkrete Fehlerbeispiele aufgeführt: offizieller BBC-Bericht
    Beispiel: ChatGPT zitierte einen nicht existierenden Wikipedia-Artikel namens „European Union Enlargement Goals for 2040“. In der EU existiert keine Politik mit diesem Namen. Es hat also nicht nur eine Fake-URL, sondern auch EU-Ziele und -Politik halluziniert

    • Tatsächlich gibt es Spuren dafür, dass der Artikel früher einmal existierte und dann in den Löschprozess kam: Löschdiskussion. Dass selbst das nicht geprüft oder offengelegt wurde, ist meiner Meinung nach eine ziemlich große Auslassung. Es lässt mich sogar an Vorsatz denken
  • Man sollte sich immer vor Augen halten, dass jemand, der LLMs die Zusammenfassung von Meetings, E-Mails oder Kommunikation überlässt, die eigentliche Botschaft womöglich nie wirklich erhält

    • Das finde ich beängstigend. Es geht nicht nur darum, Denken auszulagern, sondern sogar das einzige Werkzeug zu beschädigen, das einen noch ersetzen könnte. Ich hatte eine ähnliche Erfahrung: Ich überlegte einmal, ob ich die Bearbeitungshistorie eines Dokuments mit unklarer Versionslage von einer AI zusammenfassen lassen sollte, ließ es dann aber aus Zeitgründen. Hätte ich es getan, wäre wahrscheinlich eine sehr plausible Historie herausgekommen – aber statt mir zu sagen, was tatsächlich geändert wurde, hätte ich am Ende womöglich das Gegenteil geglaubt. Man bekommt nicht bloß fehlendes Wissen, sondern dessen Gegenteil: falsches Wissen, anti knowledge

    • Falls das stimmt, wäre es eine wichtige Warnung, aber meine eigene Erfahrung ist anders. Ich führe täglich Sales-Meetings und lasse mir den Inhalt von verschiedenen AI-Zusammenfassungstools aufbereiten. Wenn ich die im CRM gespeicherten Zusammenfassungen selbst überprüfe, sind sie fast immer sehr genau. Ich konnte sie direkt validieren, weil ich selbst anwesend war

    • Wir nutzen seit einigen Monaten MS Copilot in Meetings, und es fasst sehr gut zusammen, wer was gesagt hat und wer welche Aufgabe übernommen hat. Das ist äußerst nützlich und nach meiner Erfahrung auch sehr klar formuliert

  • Ich finde Kagi News ziemlich genau. Es fasst die Originalquellen und die wichtigsten Details mit zusammen. AI-Zusammenfassungen helfen mir vor allem dabei, einzuschätzen, ob ich den Artikel selbst lesen möchte oder nicht. Wichtige Fakten prüfe ich trotzdem immer selbst nach

    • Ich frage mich, wie weit Faktenprüfung überhaupt gehen kann. Eigentlich müsste man selbst vor Ort recherchieren oder die Papers und Referenzen jedes Fachgebiets lesen, um sicher zu sein, dass eine Zusammenfassung korrekt ist. Irgendwo bleibt Vertrauen also unvermeidlich

    • Ich habe mit einem ähnlichen Projekt eigene Erfahrungen gemacht und beim Zusammenfassen von RSS-Artikeln ziemlich gute Ergebnisse erzielt. Besonders mit auf „reasoning“ ausgelegten Modellen waren die Resultate deutlich besser

    • Kagi News funktioniert so, dass mehrere Nachrichtenartikel als Kontext in die Zusammenfassung einfließen. Das ist eine andere Struktur als im ursprünglichen Post, wo es darum ging, dass ein LLM per Websuche Nachrichten liefert

    • Es gibt auch so einen Dienst: rawdiary.com

    • Kagi News stimme ich zu, aber auch Particle News war gut. Allerdings hat Particle News Investments von The Atlantic erhalten und dann Artikeln dieses Mediums einen „Featured Article“-Platz gegeben. Solche Fälle werden zwar grafisch als mögliche Verzerrung markiert, aber nicht beim Featured Article angewendet. Andere Investoren mögen Ähnliches tun, aber die Atlantic-Promotion ist ein relativ aktueller Fall

  • Laut Bericht wurden nur die kostenlosen/Consumer-Versionen von ChatGPT, Copilot, Perplexity und Gemini verwendet. Copilot nutzt ChatGPT-Modelle, und Grok sowie andere wurden gar nicht getestet

  • Ich nutze DeepSeek V3 für automatisierte Krypto-News-Analyse und habe im letzten Genauigkeitsreport 98,5 % erreicht. Deshalb überrascht mich das Ergebnis dieses Artikels etwas
    Mein Genauigkeitsreport

  • Die Hälfte der im Artikel gestellten Fragen betrifft politisch sensible Themen. Das ist interessant, aber wenn man bewerten will, wie AI bei weniger aufgeladenen allgemeinen Nachrichten abschneidet, braucht man wohl allgemeinere Fragen. Für einige dieser Fragen wäre statt einer schnellen Antwort eher ein tiefergehender Research-Modus passend. Auch in echten Nachrichten ist die „Antwort“ oft voller Meinungen