EY Canada veröffentlichte einen Cybersecurity-Bericht – und die meisten Zitate waren Halluzinationen
(gptzero.me)- Der 44-seitige Bericht von EY Canada über Betrug in Loyalty-Programmen entpuppte sich als Dokument mit erfundenen Zitaten, falsch zugeordneten Quellen, gefälschten Statistiken und von KI verfasstem Text
- Die meisten URLs in der Referenztabelle waren kaputt oder gefälscht, mehr als die Hälfte der Titel stimmte nicht mit den tatsächlichen Quellen überein, und AI Scan markierte 72 % des Textes als KI-generiert
- Zahlreiche angebliche Quellen von BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos und TechCrunch erwiesen sich als 404-Fehler, Tag-Seiten oder nicht existierende Dokumente
- Die Zahl von 200 Milliarden US-Dollar wurde in widersprüchlicher Weise sowohl für den gesamten Loyalty-Punkte-Markt als auch für den Wert ungenutzter Punkte verwendet; auch die zwei Belegzitate dafür erwiesen sich als manipuliert
- Der fehlerhafte Bericht wurde von der Canberra Times und mehr als 60 weiteren Zeitungen verbreitet, und auch Claude, ChatGPT und Perplexity übernahmen die betreffenden halluzinierten Informationen
Probleme im Bericht von EY Canada
- EY Canada veröffentlichte Ende 2025 den 44-seitigen Bericht Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems über Cyberbedrohungen und Betrug in Loyalty-Systemen
- Der Bericht wurde zwei Partnern und einem Senior Manager zugeschrieben, zugleich wurden darin erfundene Zitate, falsche Quellenangaben, gefälschte Statistiken und KI-generierter Text gefunden
- EY Canada ist die kanadische Organisation von Ernst & Young, die der kanadischen Regierung jedes Jahr Dienstleistungen im Wert von mehreren Millionen Dollar bereitstellt
- Der Hallucination Check von GPTZero wurde in einer automatisierten Pipeline eingesetzt, die in den vergangenen Monaten öffentliche Berichte großer Beratungshäuser auffindet und scannt, und deutet darauf hin, dass sich vibe citing auch in Berichten großer Unternehmen verbreitet hat
Zitierweise und Prüfungsergebnisse
- Der Bericht von EY Canada nutzte statt Fußnoten oder klassischer wissenschaftlicher Zitation direkte Quellenhinweise im Fließtext oder sammelte die Quellen in einer resources table auf den Seiten 41 bis 43
- Diese Tabelle enthält Quellentitel, Beschreibungen, URLs sowie teilweise Herausgeber und Daten, doch die meisten URLs waren kaputt oder gefälscht, und mehr als die Hälfte der Titel passte nicht zu den tatsächlichen Quellen
- GPTZero definiert halluzinierte Zitate anhand konkreter Kriterien, um Reputationskosten durch Fehlalarme zu vermeiden, und überprüfte die Ergebnisse des Hallucination Check manuell
- Der Berichtstext wurde im GPTZero AI Scan zu 72 % als KI-generiert markiert, und typische LLM-Fehler wie gefälschte Statistiken, falsche Quellenzuordnungen und interne Widersprüche tauchten wiederholt auf
Beispiele für erfundene oder ungenaue Quellen
-
BleepingComputer-Artikel zu Airline-Loyalty-Verstößen
Airline Loyalty Breach: BleepingComputerwurde als Artikel dargestellt, laut dem Millionen Airline-Loyalty-Konten durch Credential-Stuffing-Angriffe kompromittiert worden seienhttps://bleepingcomputer.com/news/security/…liefert einen 404-Fehler zurück; der Artikel unter diesem Pfad wurde demnach gelöscht oder hat nie existiert
-
Wired-Artikel zu Voice-Deepfakes und API-Sicherheit
AI Voice Deepfakes Targeting Call Centerswurde als Wired-Artikel präsentiert, der beschreibt, wie Angreifer mit KI-generierten Stimmen Kundendienstprozesse ausnutzen- Unter
https://www.wired.com/story/voice-deepfakes-ai-scams/existiert dieser Wired-Artikel nicht Wired: API Security Gapswurde ebenfalls als Artikel über API-Schwachstellen in digitalen Consumer-Services angeführt, doch auchhttps://www.wired.com/story/api-security-risks-retail/liefert einen 404-Fehler
-
Berichte von Gartner und McKinsey
Gartner Market Trends – Loyalty Fraudwurde als strategische Orientierung zu der Entwicklung von Betrug in digitalen Loyalty-Programmen und Mobile Wallets dargestellthttps://www.gartner.com/en/documents/4000201führt lediglich auf die Hauptseite von Gartner; ein Gartner-Dokument mit diesem Titel existiert nichtMcKinsey & Company – Loyalty Economics Report (2022)wurde als Bericht angeführt, der den weltweiten Wert ungenutzter Bonuspunkte auf 200 Milliarden US-Dollar schätze, doch ein solcher Bericht existiert nicht
-
Forbes-Artikel zur Loyalty Economy
Forbes – The $200 Billion Loyalty Economywurde als Beleg dafür angeführt, dass Loyalty-Programme ein bedeutender digitaler Vermögenswert seien- Die URL ist defekt, und obwohl Blake Morgan für Forbes geschrieben hat, gibt es keinen Beitrag mit diesem Titel
- Allerdings taucht in einem Forbes-Artikel von 2020 die Formulierung „$200 billion loyalty economy“ auf
-
Cisco Talos und TechCrunch
Cisco Talos: API Attacks on Retailwurde als Beitrag über die Ausnutzung unsicherer APIs in Commerce- und Loyalty-Systemen angeführt, dochhttps://blog.talosintelligence.com/api-abuse-retail/liefert einen 404-FehlerTechCrunch: Loyalty Program Breacheswurde als Artikel über Verletzungen von Loyalty-Programmen und Datenlecks bei Nutzern angeführt, dochhttps://techcrunch.com/tag/loyalty-program/ist keine konkrete Story, sondern eine Tag-Seite zuloyalty-program
Interne Widersprüche bei der 200-Milliarden-Dollar-Statistik
-
Behauptung in der Zusammenfassung
- Die Executive Summary behauptet, der weltweite Markt für Loyalty-Punkte habe ein Volumen von 200 Milliarden US-Dollar, von denen 30 bis 50 % nicht eingelöst würden
- Diese Behauptung wird mit einem gefälschten Forbes-Zitat gestützt
-
Bedeutungswechsel auf Seite 10
- Auf Seite 10 wird dieselbe Zahl von 200 Milliarden US-Dollar nicht mehr als Gesamtwert aller weltweiten Punkte verwendet, sondern als Schätzung des Werts ungenutzter Loyalty-Punkte
- Da zuvor bereits behauptet wurde, dass bis zu 50 % der Punkte ungenutzt bleiben, müssten beide Aussagen gleichzeitig ein Marktvolumen von mindestens 400 Milliarden US-Dollar implizieren
-
Quellenverfolgung des McKinsey-Zitats
- Der manipulierte Bericht von McKinsey & Company auf Seite 43 wird als Beleg für die zweite Behauptung genutzt, wonach ungenutzte Punkte weltweit 200 Milliarden US-Dollar wert seien
- Dieselbe Zahl wurde also in zwei schwer vereinbaren Bedeutungen verwendet, und beide stützenden Zitate erwiesen sich als manipuliert
- Dieses McKinsey-Zitat lässt sich auf einen Fintech-Blogbeitrag von Financial IT zurückverfolgen, der sechs Monate vor dem EY-Bericht erschien
- Dort wurde behauptet, „more than $200 billion in points sit idle each year“, und im Quellenabschnitt wurde das nicht existierende Werk
McKinsey & Company: Loyalty Economics Report (2022)zitiert - Dieses erfundene Zitat wurde unverändert in die Referenztabelle des EY-Berichts übernommen, womit eine Fake-Quelle aus einem minderwertigen Blog in eine Publikation der Big Four hineingewaschen wurde
Vermischte Quellen bei den Statistiken 72 % und 89 %
-
72-%-Statistik zu Betrug in Loyalty-Programmen
- Auf Seite 6 wird behauptet, 72 % der Kunden-Loyalty-Programme hätten Diebstahl oder Betrug gemeldet
- Diese Zahl wird einem Beitrag von 2019 des kanadischen Zahlungsabwicklers Paystone zugeschrieben
- Auf Seite 11 wird dieselbe Statistik stattdessen der NRF-2020-Zusammenfassung des Digital-Fraud-Prevention-Unternehmens Forter zugeschrieben
- Weder Paystone noch Forter erscheinen in der Referenztabelle des Berichts, und die ursprüngliche Quelle scheint eine Ipsos-Umfrage aus dem Jahr 2017 zu sein
-
89-%-Anstieg bei Angriffen auf Loyalty-Betrug
- Auf Seite 6 wird behauptet, Angriffe auf Loyalty-Programm-Betrug seien seit 2019 um 89 % gestiegen
- Auf Seite 11 wird dieser Anstieg von 89 % dann auf die Veränderung von 2018 auf 2019 in nur einem Jahr eingegrenzt und dem Fraud Attack Index von Forter zugeschrieben
- Diese Quelle existiert tatsächlich und bestätigt die zweite Version der Behauptung teilweise, ist aber wie viele im EY-Bericht verwendete Quellen veraltet
- Widersprüchliche Quellen, minderwertige Quellen, veraltete Statistiken und ungenaue Umformulierungen werden als Hinweise auf AI slop gewertet
Öffentliche Auswirkungen und Risiko von Datenverschmutzung
- Points of Attack scheint in Kanada keine große Welle ausgelöst zu haben, wurde aber in einem aktuellen Artikel der Canberra Times zitiert, der an mehr als 60 Zeitungen in ganz Australien verbreitet wurde
- Der Bericht könnte zudem über Kundenbriefings, interne Präsentationen und exklusive Medien verbreitet worden sein, die nicht öffentlich zugänglich sind
- Die Veröffentlichung eines Online-Berichts kommt einer Dateneinspeisung in den Wissenspool des Internets nahe, und wenn ein bekanntes Beratungshaus falsche Informationen oder halluzinierte Zitate auf stark frequentierten Websites veröffentlicht, kann das spätere Forschende in die Irre führen
- KI-Tools für „deep research“ wählen Quellen anhand anderer Signale als Menschen aus und könnten daher noch anfälliger für eine solche Datenverschmutzung sein
- Claude, ChatGPT und Perplexity gaben halluzinierte Informationen aus dem fehlerhaften Bericht von EY wieder
Ziel des Hallucination Check
- GPTZero sieht vibe citing inzwischen als akutes Risiko für Forschende, die Wissenschaft, Berater und Menschen, die sich auf Websuche verlassen
- Hallucination Check wird als Tool vorgestellt, mit dem sich halluzinierte Zitate und Falschinformationen identifizieren lassen, ohne jede Quelle manuell prüfen zu müssen
- Das Tool wird auch bei der Begutachtung von Einreichungen für wissenschaftliche Konferenzen wie IJCAI, ICLR und ICSE eingesetzt
- Daraus folgt die Schlussfolgerung, dass sich selbst Zitate aus renommierten Quellen wie Ernst & Young nicht mehr allein aufgrund ihres Namens vertrauensvoll übernehmen lassen
- Ein Link zum Hallucination Check von GPTZero wird bereitgestellt
1 Kommentare
Hacker-News-Kommentare
Das Problem, das man in vielen Berufen sieht, ist, dass AI-Outputs nicht ordentlich von kompetenten Leuten geprüft werden, etwa erfahrenen Analysten, Senior Engineers, spezialisierten Anwälten oder Assistenzärzten
Im besten Fall werden sie nur überflogen, im schlimmsten Fall vor Veröffentlichung, Verteilung, Einsatz in Produktion, Übergabe an Kunden oder Einreichung bei Gericht gar nicht angesehen
In vielen Fällen gibt es die nötige Prüfungskompetenz innerhalb der Organisation, aber diese Leute sind schon mit ihrer täglichen Arbeit überlastet
Vor ein paar Monaten musste ich lachen, als ich einen Beitrag darüber sah, dass Amazon generative-AI-Outputs von Senior Engineers prüfen lässt (https://news.ycombinator.com/item?id=47323017). Das sind ohnehin schon ausgelastete Leute, und ich kann mir kaum vorstellen, dass Amazon zulassen würde, dass sich dadurch der menschliche Flaschenhals bei Projekten und der Entwicklung der Basisinfrastruktur insgesamt vergrößert
Ich dränge darauf, dass in der ganzen Organisation grundlegende Engineering-Prinzipien gelten
Man bittet Engineers ja auch nicht darum, 1000 Zeilen Code zu reviewen, ohne überhaupt die ursprüngliche Spezifikation zu kennen, also was erreicht werden soll. Es braucht zumindest Kontext, und idealerweise war der Reviewer schon dabei, als die Arbeit erstmals vorgestellt wurde, damit er den Gesamtkontext kennt
Diese Dokumente kommen aber immer im Alles-oder-nichts-Stil. Wenn die 39. Kennzahl schon bis ins Detail definiert ist, will man das dann wirklich noch zurückdrehen, oder ergibt man sich einfach und denkt: jetzt ist es halt so
Ein einseitiges Dokument, bei Amazon vielleicht auch ein Sechseiter, mit etwas wie „Das schlage ich vor“ würde reichen, damit man die Gesamtform einer Idee schon im Rohbau-Stadium hinterfragen und verfeinern kann. Das muss passieren, bevor die emotionale Investition entsteht, dass der wertvolle Bericht nun fertig ist
Das ähnelt der traditionellen Arbeitsweise, bei der das Produktteam in einem SCRUM-Umfeld Spezifikationen durchgeht und Engineers ordentliche Code-Reviews machen. Natürlich ist SCRUM tot, aber das ist wieder eine andere Geschichte
Wenn man AI verwendet, muss man alles lesen, erklären, warum es falsch ist, und am Ende oft sowieso alles neu schreiben
Die abrechenbaren Stunden steigen zwar deutlich, aber es wirkt wie ein Symptom dafür, wie der angebliche AI-Vorteil von Schnelligkeit und leichter Zugänglichkeit für Leute ohne Themenverständnis wieder verschwindet
Einer der Gründe, warum die „großen Männer und Frauen“ Vibe Coding so mögen, ist wohl, dass sie das Gefühl haben, Dinge jetzt selbst erledigen zu können, für die sie früher den schmerzhaften Weg über einen „Kontextexperten“ gehen mussten
Jetzt ist das LLM der „eingebaute Kontextexperte“, also glaubt man offenbar, den Output nicht mehr prüfen zu müssen
Dann ist AI in vielen Anwendungsfällen ein System mit stark negativem Return on Investment
Man muss nur an professionelle Ausbildung denken, bei der ein Fehler abends in den Nachrichten landen kann
Schon die Vorstellung ist gruselig, dass alle Zeichenketten aus einer Zahlenmatrix in einem Zustand ausgesetzter Urteilsfähigkeit akzeptieren und nur noch versuchen, der eigenen Verantwortung zu entgehen
Das erinnert an südasiatische Fluggesellschaften, die manuelle Landungen für Piloten verboten und dadurch den Kompetenzabbau verstärkt haben, was schließlich in bekannten Katastrophen endete
Wenn sogar hochbezahlte Berater nicht einmal Links überprüfen, gilt das umso mehr
Gibt es irgendeine Quelle dafür, die man einfach als Plain Text lesen kann? Von den CSS-Styles kriege ich Kopfschmerzen, und der Lesemodus funktioniert entweder nicht oder wird blockiert
Allerdings hat auch diese Funktion das Problem, dass sie Bilder entfernt, in denen sich einige der verwendeten Quellen befinden
Die eigentliche Komik ist, so einen Müll von der Führungsebene nach unten gereicht zu bekommen. Holprige Prompts, halluzinierter Müll, null umsetzbare Information und nur großspuriges Gerede ohne echte Analyse
So nach dem Motto: „Schaut euch die Analyse der Support-Issues aus Jira an. Diese drei Top-Probleme müsst ihr unbedingt beheben!!!“ Dabei ist das in Wahrheit alles Zeug, das ohnehin seit Jahren jedem bekannt ist und für dessen Behebung das Management nie jemandem Befugnisse gegeben hat
Ich habe das jetzt mehr als zweimal gesehen, also braucht das einen Namen. Vielleicht Garbagemaxxing
Eine wirklich furchtbare Seite zum Erkunden
Ich muss mir das später auf dem Desktop noch einmal ansehen. Inhaltlich wirkt es interessant, aber tatsächlich ist es unmöglich zu lesen. Ich komme nicht einmal an dem Abschnitt vorbei, der Ernst and Young vorstellt
Manche Leute sollten einfach keine Websites bauen
Hat da jemand auf der Webseite sogar halluziniert, wie Scrollen funktionieren sollte?
Das Seltsame ist, dass dieser Bericht vor 12 bis 18 Monaten noch ein riesiger Skandal gewesen wäre und langfristigen Markenschaden verursacht hätte, während es jetzt so wirkt, als würde sich niemand daran erinnern oder es überhaupt bemerken
Als Erstes muss die Website repariert werden. Diese miserablen JavaScript-Animationen gehören weg. Solche Dinge waren 2014 mit D3JS und jQuery schon gelöst
Ich verstehe überhaupt nicht, wie so etwas zustande kommt. Qwen Chat oder Perplexity hängen zum Beispiel ans Ende jedes generierten Satzes Zitate
Wenn man dann mit der Maus über ein Zitat fährt, sieht man, von welcher Website es stammt
Wurde da einfach in ChatGPT ohne Websuche ein Prompt eingegeben und das Ergebnis kopiert und eingefügt?
EY hat im letzten Jahr still und leise Leute entlassen
Wenn man versucht, mit weniger Personal mehr Arbeit zu erledigen, ist Qualitätsverlust keine Überraschung
Vieles an Unternehmensarbeit ist einfach Checkbox-Ausfüllen
Der Chef sagt: „Bring mir einen Bericht über X. Ich werde ihn meinem Chef geben, und der wird ihn nicht lesen“
Dann läuft es auf „E&Y, bitte erstellen Sie einen Bericht. Hier sind 200.000 Dollar“ hinaus
Wahrscheinlich wurde auch die Webseite selbst per Vibe Coding gebaut, und dem Autor dürfte das egal gewesen sein