EY Canada veröffentlichte einen Cybersicherheitsbericht – und die meisten Zitate waren halluziniert

(gptzero.me)

1 Punkte von GN⁺ 2026-06-01 | 1 Kommentare | Auf WhatsApp teilen

Der 44-seitige Bericht von Ernst & Young Canada über Betrug in Loyalitätsprogrammen entpuppte sich als Dokument mit erfundenen Zitaten, falsch zugeschriebenen Quellen, gefälschten Statistiken und KI-generiertem Text
Die meisten URLs in der Quellentabelle waren defekt oder gefälscht, mehr als die Hälfte der Titel stimmte nicht mit den tatsächlichen Quellen überein, und AI Scan markierte 72 % des Textes als KI-generiert
Zahlreiche Quellen von BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos und TechCrunch führten zu 404-Fehlern, Tag-Seiten oder nicht existierenden Dokumenten
Die Zahl von 200 Milliarden Dollar wurde zugleich für den gesamten Markt der Loyalty-Punkte und für den Wert ungenutzter Punkte verwendet – zwei schwer vereinbare Bedeutungen – und auch die beiden Belegzitate dafür erwiesen sich als erfunden
Der fehlerhafte Bericht verbreitete sich bis zur Canberra Times und in mehr als 60 Zeitungen; auch Claude, ChatGPT und Perplexity übernahmen diese halluzinierten Informationen

Probleme im Ernst-&-Young-Bericht

Ernst & Young Canada veröffentlichte Ende 2025 den 44-seitigen Bericht Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems über Cyberbedrohungen und Betrug in Loyalty-Systemen
Der Bericht wurde zwei Partnern und einem Senior Manager zugeschrieben, doch es fanden sich darin erfundene Zitate, falsche Quellenangaben, gefälschte Statistiken und KI-generierter Text
EY Canada ist die kanadische Organisation von Ernst & Young und erbringt jedes Jahr Dienstleistungen im Wert von mehreren Millionen Dollar für die kanadische Regierung
Der Hallucination Check von GPTZero wurde in einer automatisierten Pipeline eingesetzt, die in den vergangenen Monaten öffentliche Berichte großer Beratungsunternehmen sucht und scannt, und deutet darauf hin, dass vibe citing auch in Berichten großer Konzerne verbreitet ist

Zitierweise und Prüfergebnisse

Der Bericht von EY Canada verwendet statt Fußnoten oder klassischer wissenschaftlicher Zitation direkte Quellenhinweise im Fließtext oder sammelt Quellen in einer resources table auf den Seiten 41 bis 43
Diese Tabelle enthält Quellentitel, Beschreibungen, URLs sowie teilweise Verlag und Datum, doch die meisten URLs waren defekt oder gefälscht, und mehr als die Hälfte der Titel passte nicht zu den tatsächlichen Quellen
GPTZero definiert halluzinierte Zitate nach konkreten Kriterien unter Berücksichtigung der Reputationskosten durch Fehlalarme und überprüfte die Ergebnisse des Hallucination Check manuell
Der Berichtstext wurde im GPTZero AI Scan zu 72 % als KI-generiert markiert, und typische LLM-Fehler wie erfundene Statistiken, falsche Quellenzuordnung und interne Widersprüche traten wiederholt auf

Beispiele für erfundene oder ungenaue Quellen

BleepingComputer-Artikel zu Angriffen auf Airline-Loyalitätskonten
- Airline Loyalty Breach: BleepingComputer wurde als Artikel dargestellt, wonach Millionen Airline-Loyalitätskonten durch Credential-Stuffing-Angriffe kompromittiert wurden
- https://bleepingcomputer.com/news/security/… liefert einen 404-Fehler; der Artikel unter diesem Pfad wurde entweder gelöscht oder existierte nie
Wired-Artikel zu Sprach-Deepfakes und API-Sicherheit
- AI Voice Deepfakes Targeting Call Centers wurde als Wired-Artikel dargestellt, der beschreibt, wie Angreifer KI-generierte Stimmen nutzen, um Kundendienstprozesse auszunutzen
- Unter https://www.wired.com/story/voice-deepfakes-ai-scams/ existiert der genannte Wired-Artikel nicht
- Auch Wired: API Security Gaps wurde als Artikel über API-Schwachstellen in digitalen Endkundendiensten angeführt, doch https://www.wired.com/story/api-security-risks-retail/ liefert ebenfalls einen 404-Fehler
Gartner- und McKinsey-Berichte
- Gartner Market Trends – Loyalty Fraud wurde als strategischer Leitfaden zur Entwicklung von Betrug in digitalen Loyalty-Programmen und mobilen Wallets dargestellt
- https://www.gartner.com/en/documents/4000201 leitet lediglich auf die Gartner-Startseite weiter; ein Gartner-Dokument mit diesem Titel existiert nicht
- McKinsey & Company – Loyalty Economics Report (2022) wurde als Bericht angeführt, der den weltweiten Wert ungenutzter Reward-Punkte auf 200 Milliarden Dollar schätzt, doch ein solcher Bericht existiert nicht
Forbes-Artikel zur Loyalty-Ökonomie
- Forbes – The $200 Billion Loyalty Economy wurde als Beleg dafür angeführt, dass Loyalty-Programme ein bedeutender digitaler Vermögenswert seien
- Die URL ist defekt, und obwohl Blake Morgan für Forbes geschrieben hat, gibt es keinen Beitrag mit diesem Titel
- Allerdings taucht die Formulierung „$200 billion loyalty economy“ in einem Forbes-Artikel aus dem Jahr 2020 auf
Cisco Talos und TechCrunch
- Cisco Talos: API Attacks on Retail wurde als Beitrag über die Ausnutzung unsicherer APIs in Commerce- und Loyalty-Systemen angeführt, doch https://blog.talosintelligence.com/api-abuse-retail/ liefert einen 404-Fehler
- TechCrunch: Loyalty Program Breaches wurde als Artikel über Sicherheitsverletzungen in Loyalty-Programmen und Datenlecks bei Nutzern angegeben, doch https://techcrunch.com/tag/loyalty-program/ ist keine konkrete Meldung, sondern eine Tag-Seite zu loyalty-program

Interner Widerspruch bei der 200-Milliarden-Dollar-Statistik

Behauptung in der Zusammenfassung
- Die Executive Summary behauptet, der weltweite Markt für Loyalty-Punkte habe ein Volumen von 200 Milliarden Dollar, von denen 30 bis 50 % ungenutzt blieben
- Diese Behauptung wird mit dem gefälschten Forbes-Zitat gestützt
Bedeutungswechsel auf Seite 10
- Auf Seite 10 wird dieselbe Zahl von 200 Milliarden Dollar nicht mehr als Gesamtwert aller weltweiten Punkte, sondern als Schätzung für ungenutzte Loyalty-Punkte dargestellt
- Da bereits behauptet wurde, dass bis zu 50 % aller Punkte ungenutzt bleiben, müssten beide Aussagen zusammen bedeuten, dass der gesamte weltweite Loyalty-Punkte-Markt mindestens 400 Milliarden Dollar groß ist
Rückverfolgung des McKinsey-Zitats
- Der erfundene Bericht von McKinsey & Company auf Seite 43 wird als Beleg für die zweite Behauptung verwendet, wonach ungenutzte Punkte weltweit 200 Milliarden Dollar wert seien
- Dieselbe Zahl wird also in zwei schwer vereinbaren Bedeutungen verwendet, und beide Zitate zu ihrer Stützung erwiesen sich als erfunden
- Dieses McKinsey-Zitat lässt sich auf einen Fintech-Blogbeitrag von Financial IT zurückführen, der sechs Monate vor dem EY-Bericht veröffentlicht wurde
- Dort heißt es, „more than $200 billion in points sit idle each year“, und im Quellenabschnitt wird der nicht existierende Bericht McKinsey & Company: Loyalty Economics Report (2022) zitiert
- Dieses erfundene Zitat wurde unverändert in die Quellentabelle des EY-Berichts übernommen, wodurch die gefälschte Quelle eines minderwertigen Blogs in einer Big-Four-Publikation gewissermaßen legitimiert wurde

Vermischte Quellen bei den Statistiken 72 % und 89 %

72-%-Statistik zu Betrug in Loyalty-Programmen
- Auf Seite 6 wird behauptet, 72 % der Kunden-Loyalitätsprogramme hätten Diebstahl oder Betrug gemeldet
- Diese Zahl wird einem Beitrag von Paystone aus dem Jahr 2019 zugeschrieben, einem kanadischen Zahlungsabwickler
- Auf Seite 11 wird dieselbe Statistik dann der NRF-2020-Zusammenfassung von Forter zugeschrieben, einem Unternehmen für digitale Betrugsprävention
- Weder Paystone noch Forter tauchen in der Quellentabelle des Berichts auf; die ursprüngliche Quelle scheint eine Ipsos-Umfrage aus dem Jahr 2017 zu sein
89-%-Anstieg bei Loyalty-Betrugsangriffen
- Auf Seite 6 wird behauptet, Angriffe auf Loyalty-Programme seien seit 2019 um 89 % gestiegen
- Auf Seite 11 wird dieser Anstieg von 89 % dann auf die Veränderung in nur einem Jahr, von 2018 auf 2019, beschränkt und dem Fraud Attack Index von Forter zugeschrieben
- Diese Quelle existiert tatsächlich und bestätigt die zweite Version der Behauptung teilweise, ist aber – wie viele Quellen im EY-Bericht – veraltet
- Widersprüchliche Quellen, schwache Quellenqualität, veraltete Statistiken und ungenaue Neuformulierungen werden als Anzeichen von AI slop gewertet

Öffentliche Wirkung und Risiko von Datenverschmutzung

Points of Attack scheint in Kanada keine große Welle ausgelöst zu haben, wurde aber kürzlich in einem Artikel der Canberra Times zitiert, der an mehr als 60 Zeitungen in ganz Australien weiterverteilt wurde
Der Bericht könnte außerdem über Kundenbriefings, interne Präsentationen und exklusive Medien verbreitet worden sein, die nicht öffentlich zugänglich sind
Die Veröffentlichung von Online-Berichten ähnelt einer Dateneinspeisung in den Wissenspool des Internets; wenn ein bekanntes Beratungsunternehmen falsche Informationen oder halluzinierte Zitate auf stark frequentierten Websites veröffentlicht, kann das spätere Forschende in die Irre führen
KI-Tools für „deep research“ wählen Quellen anhand anderer Signale als Menschen aus und könnten daher noch anfälliger für solche Datenverschmutzung sein
Claude, ChatGPT und Perplexity haben halluzinierte Informationen aus dem fehlerhaften EY-Bericht übernommen

Zweck von Hallucination Check

GPTZero sieht vibe citing inzwischen als akutes Risiko für Forschende, die Wissenschaft, Berater und alle, die sich auf Websuche verlassen
Hallucination Check wird als Werkzeug vorgestellt, um halluzinierte Zitate und Falschinformationen zu identifizieren, ohne jede Quelle manuell prüfen zu müssen
Das Tool wird auch bei der Begutachtung von Einreichungen für wissenschaftliche Konferenzen wie IJCAI, ICLR und ICSE verwendet
Das führt zu dem Schluss, dass selbst Zitate aus reputablen Quellen wie Ernst & Young nicht mehr allein auf Basis ihres Namens vertrauenswürdig erscheinen
Ein Link zu GPTZeros Hallucination Check wird angegeben

1 Kommentare

GN⁺ 2026-06-01

Hacker-News-Kommentare

Das Problem, das man in vielen Berufen sieht, ist, dass AI-Outputs nicht ordentlich von kompetenten Leuten geprüft werden, etwa erfahrenen Analysten, Senior Engineers, spezialisierten Anwälten oder Assistenzärzten
Im besten Fall werden sie nur überflogen, im schlimmsten Fall vor Veröffentlichung, Verteilung, Einsatz in Produktion, Übergabe an Kunden oder Einreichung bei Gericht gar nicht angesehen
In vielen Fällen gibt es die nötige Prüfungskompetenz innerhalb der Organisation, aber diese Leute sind schon mit ihrer täglichen Arbeit überlastet
Vor ein paar Monaten musste ich lachen, als ich einen Beitrag darüber sah, dass Amazon generative-AI-Outputs von Senior Engineers prüfen lässt (https://news.ycombinator.com/item?id=47323017). Das sind ohnehin schon ausgelastete Leute, und ich kann mir kaum vorstellen, dass Amazon zulassen würde, dass sich dadurch der menschliche Flaschenhals bei Projekten und der Entwicklung der Basisinfrastruktur insgesamt vergrößert
- Ein Teil des Problems ist, dass einem fertige Dokumente erst dann zum Review hingeworfen werden, wenn sie schon komplett durchgebacken sind
  Ich dränge darauf, dass in der ganzen Organisation grundlegende Engineering-Prinzipien gelten
  Man bittet Engineers ja auch nicht darum, 1000 Zeilen Code zu reviewen, ohne überhaupt die ursprüngliche Spezifikation zu kennen, also was erreicht werden soll. Es braucht zumindest Kontext, und idealerweise war der Reviewer schon dabei, als die Arbeit erstmals vorgestellt wurde, damit er den Gesamtkontext kennt
  Diese Dokumente kommen aber immer im Alles-oder-nichts-Stil. Wenn die 39. Kennzahl schon bis ins Detail definiert ist, will man das dann wirklich noch zurückdrehen, oder ergibt man sich einfach und denkt: jetzt ist es halt so
  Ein einseitiges Dokument, bei Amazon vielleicht auch ein Sechseiter, mit etwas wie „Das schlage ich vor“ würde reichen, damit man die Gesamtform einer Idee schon im Rohbau-Stadium hinterfragen und verfeinern kann. Das muss passieren, bevor die emotionale Investition entsteht, dass der wertvolle Bericht nun fertig ist
  Das ähnelt der traditionellen Arbeitsweise, bei der das Produktteam in einem SCRUM-Umfeld Spezifikationen durchgeht und Engineers ordentliche Code-Reviews machen. Natürlich ist SCRUM tot, aber das ist wieder eine andere Geschichte
- Aus Anwaltssicht fühlt sich die Prüfung von AI-Output so an, als würde sie mehr Zeit kosten, als es von Anfang an selbst zu machen. Verglichen mit der Nutzung bestehender Vorlagen erst recht
  Wenn man AI verwendet, muss man alles lesen, erklären, warum es falsch ist, und am Ende oft sowieso alles neu schreiben
  Die abrechenbaren Stunden steigen zwar deutlich, aber es wirkt wie ein Symptom dafür, wie der angebliche AI-Vorteil von Schnelligkeit und leichter Zugänglichkeit für Leute ohne Themenverständnis wieder verschwindet
- Wenn man sagt, „kompetente Leute prüfen den AI-Output nicht“, meint man dann genau die Leute, die entlassen und demoralisiert wurden?
  Einer der Gründe, warum die „großen Männer und Frauen“ Vibe Coding so mögen, ist wohl, dass sie das Gefühl haben, Dinge jetzt selbst erledigen zu können, für die sie früher den schmerzhaften Weg über einen „Kontextexperten“ gehen mussten
  Jetzt ist das LLM der „eingebaute Kontextexperte“, also glaubt man offenbar, den Output nicht mehr prüfen zu müssen
- Das Problem ist, dass das Validieren des Outputs manchmal länger dauert als es von Anfang an selbst zu erstellen
  Dann ist AI in vielen Anwendungsfällen ein System mit stark negativem Return on Investment
- Mich interessiert das besonders bei Bildung und menschlichem Wissensmanagement. Ich habe gesehen, wie die Geschwindigkeit der IT-Ausbildung gegen null geht
  Man muss nur an professionelle Ausbildung denken, bei der ein Fehler abends in den Nachrichten landen kann
  Schon die Vorstellung ist gruselig, dass alle Zeichenketten aus einer Zahlenmatrix in einem Zustand ausgesetzter Urteilsfähigkeit akzeptieren und nur noch versuchen, der eigenen Verantwortung zu entgehen
  Das erinnert an südasiatische Fluggesellschaften, die manuelle Landungen für Piloten verboten und dadurch den Kompetenzabbau verstärkt haben, was schließlich in bekannten Katastrophen endete
  Wenn sogar hochbezahlte Berater nicht einmal Links überprüfen, gilt das umso mehr
Gibt es irgendeine Quelle dafür, die man einfach als Plain Text lesen kann? Von den CSS-Styles kriege ich Kopfschmerzen, und der Lesemodus funktioniert entweder nicht oder wird blockiert
- Das Scrollen ist wirklich unerquicklich, und selbst im Lesemodus war es kaputt
- Firefox hat eine praktische Reader View, die nur den Text einer Seite extrahiert und vereinfacht darstellt. Auf dem Mac kann man sie mit Opt + CMD + R aktivieren
  Allerdings hat auch diese Funktion das Problem, dass sie Bilder entfernt, in denen sich einige der verwendeten Quellen befinden
- Im Lockdown Mode von iOS ist es genauso
Die eigentliche Komik ist, so einen Müll von der Führungsebene nach unten gereicht zu bekommen. Holprige Prompts, halluzinierter Müll, null umsetzbare Information und nur großspuriges Gerede ohne echte Analyse
So nach dem Motto: „Schaut euch die Analyse der Support-Issues aus Jira an. Diese drei Top-Probleme müsst ihr unbedingt beheben!!!“ Dabei ist das in Wahrheit alles Zeug, das ohnehin seit Jahren jedem bekannt ist und für dessen Behebung das Management nie jemandem Befugnisse gegeben hat
Ich habe das jetzt mehr als zweimal gesehen, also braucht das einen Namen. Vielleicht Garbagemaxxing
- Wenn „die drei Top-Probleme müssen behoben werden“ in Wirklichkeit Dinge sind, die ohnehin seit Langem allen bekannt waren und für deren Lösung das Management nie Befugnisse erteilt hat, dann ist der Nettoeffekt doch trotzdem positiv, oder nicht?
Eine wirklich furchtbare Seite zum Erkunden
- Auf Mobilgeräten kapert sie das Scrollen, sodass man buchstäblich nicht weiter nach unten kommt. Der Lesemodus zeigt auch nur ungefähr den ersten Absatz
  Ich muss mir das später auf dem Desktop noch einmal ansehen. Inhaltlich wirkt es interessant, aber tatsächlich ist es unmöglich zu lesen. Ich komme nicht einmal an dem Abschnitt vorbei, der Ernst and Young vorstellt
- Mein Scrollen fühlt sich an, als hätte es Halluzinationen
- Das ist ein völlig anderes Niveau an Benutzerfeindlichkeit. So etwas habe ich noch nie gesehen
- Mein iPhone hat automatisch den Lesemodus aktiviert, und als ich ihn ausgeschaltet habe, um zu sehen, was gesagt wird, musste ich zustimmen
- Buchstäblich nichtlineares Feedback mit Hängern, grauenhaft
  Manche Leute sollten einfach keine Websites bauen
Hat da jemand auf der Webseite sogar halluziniert, wie Scrollen funktionieren sollte?
Das Seltsame ist, dass dieser Bericht vor 12 bis 18 Monaten noch ein riesiger Skandal gewesen wäre und langfristigen Markenschaden verursacht hätte, während es jetzt so wirkt, als würde sich niemand daran erinnern oder es überhaupt bemerken
Als Erstes muss die Website repariert werden. Diese miserablen JavaScript-Animationen gehören weg. Solche Dinge waren 2014 mit D3JS und jQuery schon gelöst
Ich verstehe überhaupt nicht, wie so etwas zustande kommt. Qwen Chat oder Perplexity hängen zum Beispiel ans Ende jedes generierten Satzes Zitate
Wenn man dann mit der Maus über ein Zitat fährt, sieht man, von welcher Website es stammt
Wurde da einfach in ChatGPT ohne Websuche ein Prompt eingegeben und das Ergebnis kopiert und eingefügt?
EY hat im letzten Jahr still und leise Leute entlassen
Wenn man versucht, mit weniger Personal mehr Arbeit zu erledigen, ist Qualitätsverlust keine Überraschung
- Interessant ist, dass es durchaus Nachfrage nach einem Service geben kann, der eigentlich nichts tut
  Vieles an Unternehmensarbeit ist einfach Checkbox-Ausfüllen
  Der Chef sagt: „Bring mir einen Bericht über X. Ich werde ihn meinem Chef geben, und der wird ihn nicht lesen“
  Dann läuft es auf „E&Y, bitte erstellen Sie einen Bericht. Hier sind 200.000 Dollar“ hinaus
Wahrscheinlich wurde auch die Webseite selbst per Vibe Coding gebaut, und dem Autor dürfte das egal gewesen sein

EY Canada veröffentlichte einen Cybersicherheitsbericht – und die meisten Zitate waren halluziniert

Probleme im Ernst-&-Young-Bericht

Zitierweise und Prüfergebnisse

Beispiele für erfundene oder ungenaue Quellen

BleepingComputer-Artikel zu Angriffen auf Airline-Loyalitätskonten

Wired-Artikel zu Sprach-Deepfakes und API-Sicherheit

Gartner- und McKinsey-Berichte

Forbes-Artikel zur Loyalty-Ökonomie

Cisco Talos und TechCrunch

Interner Widerspruch bei der 200-Milliarden-Dollar-Statistik

Behauptung in der Zusammenfassung

Bedeutungswechsel auf Seite 10

Rückverfolgung des McKinsey-Zitats

Vermischte Quellen bei den Statistiken 72 % und 89 %

72-%-Statistik zu Betrug in Loyalty-Programmen

89-%-Anstieg bei Loyalty-Betrugsangriffen

Öffentliche Wirkung und Risiko von Datenverschmutzung

Zweck von Hallucination Check

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare