- Deloitte hat der australischen Regierung einen Teil des Geldes zurückerstattet, nachdem ein mit generativer KI erstellter Bericht im Wert von 440.000 Dollar mit Fehlern eingereicht worden war
- Der Bericht sollte den Compliance-Rahmen und die IT-Systeme des Sozialsystems überprüfen; dabei wurden mehrere Fehler sowie gefälschte Zitate und Verweise auf erfundene Quellen entdeckt
- Deloitte gab im Anhang des Berichts an, große Sprachmodelle wie Azure OpenAI GPT–4o eingesetzt zu haben, räumte jedoch nicht ein, dass die Fehler direkt durch KI verursacht wurden
- Eine Labor-Senatorin kritisierte, dass es der Beratungsfirma an Fachkompetenz fehle, und bemängelte die wichtige Rolle der KI
- Auch nach der Überarbeitung des Abschlussberichts blieben Kernaussagen und Schlussfolgerungen unverändert, ebenso die Empfehlungen
Deloitte erstattet der australischen Regierung Geld wegen des Einsatzes von KI
Überblick über den Vorfall
- Deloitte entschied sich, einen Teil der Vertragssumme zurückzuzahlen, nachdem das Unternehmen eingeräumt hatte, bei der Erstellung eines Regierungsberichts im Wert von 440.000 Dollar generative KI eingesetzt zu haben und darin Fehler gefunden wurden
- Der Bericht wurde im Auftrag des australischen Department of Employment and Workplace Relations (DEWR) erstellt, um das automatisierte Compliance-System für Sozialleistungsbezieher zu überprüfen
- Im Bericht wurden verschiedene Probleme aufgezeigt, darunter eine mangelnde Verbindung zwischen den Regeln des Frameworks und der tatsächlichen Gesetzeslage sowie grundlegende Mängel in den IT-Systemen
Einsatz von KI und Probleme
- Nach der ersten Veröffentlichung am 4. Juli berichteten Medien über mehrere Fehler und nicht existierende Zitate im Bericht
- Laut Dr. Christopher Rudge von der University of Sydney zeigte der Bericht an mehreren Stellen das für KI typische Phänomen der "Halluzination", also das Erfinden nicht existierender Quellen
- So deutete etwa die neue Version des Berichts darauf hin, dass einige Schlussfolgerungen eher von KI erzeugt als auf tatsächliche Belege gestützt waren, während die Zahl der falschen Zitate sogar noch zunahm
- Deloitte ergänzte im Anhang der aktualisierten Fassung den Hinweis auf den Einsatz von großen Sprachmodellen wie Azure OpenAI GPT–4o
- Dort hieß es, dass eine lizenzierte Toolchain in der Azure-Umgebung des DEWR verwendet wurde
- Allerdings wurde nicht eingeräumt, dass die Probleme des ursprünglichen Berichts direkt auf KI zurückzuführen seien
Reaktionen und Folgemaßnahmen
- Die Labor-Senatorin Deborah O’Neill kritisierte: "Man kann sagen, dass Deloitte unter einem Mangel an menschlicher Fachkompetenz leidet, und eine Teilrückerstattung ist eine unzureichende Entschuldigung für mangelhafte Arbeit"
- Sie argumentierte, Regierung und Auftraggeber bräuchten echte Experten und einen Nachweis, dass Inhalte nicht bloß KI-Ergebnisse sind
- Außerdem äußerte sie kritisch, ein ChatGPT-Abo wäre besser als eine Beratungsfirma
- Medienrecherchen zufolge enthielt der Bericht konkrete Falschinformationen, darunter Zitate aus nicht existierenden universitären Forschungsberichten und unzutreffende Zusammenfassungen realer Gerichtsentscheidungen
- Beispiele: erfundene Zusammenfassungen zu Materialien der University of Sydney, zu Arbeiten von Professoren der Lund University sowie zum Urteil im Robodebt-Fall (Deanna Amato v Commonwealth)
Offizielle Stellungnahmen und Auswirkungen
- Deloitte erklärte, man habe das Problem direkt mit dem DEWR gelöst, und betonte, dass sich Schlussfolgerungen und Empfehlungen des aktualisierten Berichts nicht geändert hätten
- Auch das DEWR erklärte, es seien lediglich einige unzureichende Fußnoten und Zitate korrigiert worden; die Gesamtempfehlungen und Kernaussagen blieben bestehen
- Einige Experten meinten, dass die Schlussfolgerungen des Berichts insgesamt zwar mit den vorhandenen Belegen übereinstimmten, dennoch werde die Glaubwürdigkeit des Berichts infrage gestellt
Implikationen
- Der Fall rückt gesellschaftlich die Themen Transparenz beim Einsatz generativer KI in der Beratungsbranche und die Forderung nach gesicherter Fachkompetenz in den Vordergrund
- Auftraggeber erkennen stärker die Notwendigkeit, den Einsatz von KI sowie die namentliche Prüfung fachlicher Expertise strenger zu kontrollieren
1 Kommentare
Hacker-News-Kommentare
Zur Ergänzung einiger Informationen: Dieser Bericht handelt von einem problematischen IT-System, das Menschen mit staatlicher Unterstützung fälschlich existenzzerstörende Bußgelder auferlegte, weil sie angeblich die Anforderungen zur Arbeitssuche nicht erfüllt hätten. Die Bußgelder wurden sofort als Schuldtitel verhängt, sodass Inkassobeauftragte tatsächlich bei den Betroffenen zu Hause erschienen und Gegenstände mitnahmen. Aufgrund schwerwiegender Fehler des Systems wurden solche Bußgelder sogar fälschlich gegen Menschen verhängt, die überhaupt keine staatlichen Leistungen erhalten hatten. In dieser Situation zahlte man einer Beratungsgesellschaft wie Deloitte 440.000 Dollar für einen Bericht, und sie erstellten ihn mit AI und ließen dabei noch mehr Fehler zurück. Es gibt die Sorge, dass sich der Fall Royal Mail und Fujitsu wiederholen würde, wenn man Deloitte sogar den Aufbau des Systems überlassen hätte
Es gibt die Sorge, dass ein solcher Missbrauch von AI zu einer echten Frage von Leben und Tod werden könnte. Die Leute bei Deloitte sind nicht unwissend oder motivationslos, sondern eine Gruppe, die nur dem Geld hinterherläuft und mit AI die Anforderungen oberflächlich erfüllt, um dann gleich zum nächsten Vertrag weiterzugehen. Das Ergebnis kann sein, dass das Leben vieler Menschen zerstört wird oder sie sogar zu extremen Entscheidungen getrieben werden. Es geht nicht bloß um Dokumentenmanipulation, sondern um ein Problem, das tatsächlich bewaffnete Personen an die Haustür bringt
Man muss sich das nicht ausmalen, solche Probleme gab es bereits. Siehe den Deloitte-Rhode-Island-Datenleck-Fall
Wenn selbst der Umweg über Deloitte lästig ist, dann kann man es auch direkt OpenAI geben
Der Grund, warum das von Anfang an problematisch war, liegt darin, dass vermutlich schon beim ursprünglichen Aufbau des Systems Deloitte eingesetzt wurde
Wenn wir schon über die Probleme von Beratern/Outsourcing sprechen, möchte ich auch den Wechsel von A-Team zu B-Team erwähnen. Am Anfang erscheint beim Beratungsgespräch jemand, der sehr kompetent wirkt und den Vertrag an Land zieht, aber sobald der Vertrag abgeschlossen ist, verschwindet diese Person zur nächsten Vertriebsgelegenheit, und dann tauchen die Leute aus dem B- oder C-Team auf
Nach meiner Erfahrung läuft es bei großen Serviceverträgen so: Das A-Team umgarnt uns am Anfang und schließt den Vertrag ab, aber die eigentliche Arbeit macht dann das B-Team. Sobald unser Interesse nachlässt, wird es irgendwann sogar gegen das Z-Team ausgetauscht. Obwohl wir bereit waren, lebenslang mehr zu zahlen und nicht an Qualität zu sparen, wurden sie am Ende gierig und verloren sogar den ganzen Vertrag
Je größer die Teams werden, desto öfter sieht man A-Level-Leute, die zwischen 100 Teams pendeln, kurz auftauchen, wenn ein Kunde wütend wird, ihn beruhigen und dann wieder verschwinden. Der Rest besteht nur aus Berufseinsteigern (heute, zusammen mit AI, sogar mit noch weniger echten Experten). Mein Kunde glaubte, er habe 500.000 Dollar für ein Projekt bezahlt und mehrere Monate lang 15 Personen finanziert, aber nach Interviews in Zoom-Meetings stellte sich heraus, dass von den 15 nur eine einzige Person überhaupt etwas über das Projekt wusste. Diese eine Person war der anfangs eingestellte Tech Lead und nur in Teilzeit beteiligt. Wenn man sich die Codequalität ansieht, haben die übrigen vielleicht fünf Personen Code aus Codex oder Claude hineinkopiert, durch eine „Fake-QA“ geschleust und direkt ausgerollt. Solche Dinge gab es schon vor AI; der Unterschied war nur, dass früher tatsächlich 15 Juniors wahllos drauflos programmierten
Diese Geschichte ist als Witz wirklich bemerkenswert zeitlos, siehe diesen Dilbert-Comic
Genau das ist das ganze Spiel. Man trifft den Partner und am Ende bekommt man die Juniors, zahlt aber die Stundensätze eines Partners. Wenn man Pech hat, muss man die Juniors sogar noch selbst einarbeiten
Positiv formuliert: Einer der Gründe für Consulting/Outsourcing ist, dass es einmalige Großprojekte gibt, die sich mit internen Mitarbeitenden allein nicht stemmen lassen. Statt viele Freelancer einzeln anzuheuern und daraus ein Team zu bauen, ist es effizienter, ein bereits bestehendes externes Team für kurze Zeit zu nutzen. In der Praxis stellen Beratungen aber oft auch nur jeweils von außen Leute zusammen und lassen es wie ein Team wirken
Ich frage mich, ob mir jemand erklären kann, wie und warum Consulting eigentlich funktioniert. Wäre es nur eine Einzelperson, die nichts weiter als „Ratschläge“ gibt, würde man sie für einen Versager halten, aber in Unternehmensform stehen Firmen und Behörden Schlange, um Ratschläge einzukaufen. Dabei kennen die internen Beschäftigten die Lage des Unternehmens meist besser als externe Berater. Ich verstehe nicht, warum Außenstehende, die im Grunde nur Präsentationen machen und googeln, mehr Vertrauen genießen und daran verdienen
Tatsächlich wird Consulting oft dann eingekauft, wenn man eine schlechte Idee durchdrücken will, für die man selbst keine Verantwortung übernehmen möchte, und man so lange Berater bezahlt, bis sie das Gewünschte sagen. Die Qualität des Consultings ist dabei unwichtig; das kann auch ein Praktikant oder AI ersetzen. Wenn es schiefgeht, kann man die Schuld auf die Beratung schieben. Interne Mitarbeitende geben Ratschläge im Interesse des Unternehmens, werden aber aus Eigeninteresse mundtot gemacht oder ignoriert. Wenn die Probleme offen zutage treten, sind die Verantwortlichen oft schon weitergezogen und haben nur noch eine Zeile mehr im Lebenslauf
Tatsächlich gibt es viele große Unternehmen ohne nennenswerte interne Fachkompetenz. Dazu kommt oft, dass eine Person so tut, als sei sie der Experte, und bessere Leute von der Einstellung fernhält. Gute Berater geben nicht nur Empfehlungen, sondern auch Belege dafür, wie man etwas tun sollte, und setzen es bei Bedarf projektbezogen um. Wirklich gute IT-Berater verfügen über mehrere hochspezialisierte Skillsets, die im Land nur wenige Menschen haben; für eine Firma ist eine Vollzeitanstellung zu teuer, aber einige Stunden im Monat als externe Leistung lohnen sich klar. Große Beratungshäuser setzen dagegen vor allem auf Vertrieb und behandeln Entscheidungsträger wie VIPs. Geschäftsreisen, Alkohol, Unterhaltung und ähnliche Hintergründe spielen ebenfalls eine Rolle. Ich habe früher einmal ein Projekt beraten und vor dem Kunden öffentlich die Sales-Argumente eines fragwürdigen Beraters zu Dynamics CRM und Sharepoint zerpflückt
Consulting ist nicht einfach nur „Beratung“. Es umfasst in der Praxis auch viele operative Arbeiten wie Software-Implementierung. Große Unternehmen wollen vor allem eines: eine „rechtliche Garantie“. Wenn ein Projekt scheitert, soll klar sein, wen man verklagen kann. Gegenüber dieser rechtlichen Absicherung ist die „Qualität“ des Ergebnisses zweitrangig. Diese Rolle übernehmen die Beratungen. Sie haben viele Mitarbeitende und viele Berufseinsteiger. Wenn die Qualität nicht reicht, reagieren sie einfach mit mehr Leuten oder mit erzwungener Mehrarbeit. Wegen dieser Struktur werden sie auch „meatfarm“ genannt. Untergehen tun sie deshalb nicht so leicht. Auch Softwareentwicklung wird über mehrstufige Subunternehmerketten oder Offshore-Outsourcing abgewickelt, wobei an jeder Stufe Gebühren abgeschnitten werden. Die Arbeit selbst ist schwierig, langweilig und voller lästiger Kleinarbeit. Auch die Verträge sind so detailliert wie ein ganzer Roman. Als ich bei Accenture Berufseinsteiger war, kostete selbst eine simple Änderung der Scrollbar-Farbe auf einer Website im Angebot 3.000 Euro, obwohl ein Mitarbeiter in Indien das mit zehn Zeilen Code erledigte. Kurz danach habe ich gewechselt
Theoretisch gibt es auch Menschen mit außergewöhnlicher Problemlösungskompetenz oder besonderer Domain-Erfahrung. Man kann solche Talente in einer Firma bündeln und mit Aufpreis verkaufen. Es wäre falsch, pauschal zu behaupten, alle Beratungen hätten keinerlei echte Kompetenz. Es gibt nicht nur simples „Management Consulting“, sondern auch technische Beratung, Security und andere Felder mit realer Fachlichkeit. Ich habe auch oft gesehen, dass interne Teams das Problem nicht lösen konnten oder es selbst verursacht hatten. Gute Berater holen möglichst viele verborgene Einsichten aus den internen Mitarbeitenden heraus und nutzen sie zur Problemlösung. Dazu gehören Fähigkeiten, die sich mit denen von Software Engineers überschneiden, etwa Requirements Engineering und die Kommunikation mit Managern
Beispiele aus der Praxis, wie Consulting eingesetzt wird:
Organisationen wie Regierungen ignorieren meist die Meinung ihrer internen Engineers und geben stattdessen viel Geld für externe Beratung aus, um am Ende entweder dieselbe Schlussfolgerung zu hören oder einfach nur zu demonstrieren, dass man „etwas zur Lösung unternimmt“. Manchmal geschieht das auch, weil das Management den internen Leuten misstraut oder schnelle Ergebnisse will, ohne die Teams von ihrer eigentlichen Arbeit abzuziehen. Manches dient auch nur dem sinnlosen Aufpolieren von Leistungsnachweisen oder sogar Vermittlungsprovisionen und Hinterzimmerdeals
Da interne Personen in einem Unternehmen zugleich Beteiligte und Bewertende des Problems sein können, ist externe Beratung nicht immer zwangsläufig eine schlechte Wahl. Eine unabhängige, wenn auch manchmal missverstandene Perspektive ohne direkte Eigeninteressen kann hilfreich sein
Übersehen wird hier die wichtige Rolle von Consulting bei der Verteilung rechtlicher und leistungsbezogener Verantwortung
Das ist eine Art „due diligence theater“. Vor allem das Management will wissen, was Engineers bei Konkurrenten empfehlen würden, und Berater versuchen, genau diese Art von Spitzenrat stellvertretend zu liefern
Kurz gesagt ist es „decision laundering“. Wenn man einer intern bereits feststehenden Richtung mehr Glaubwürdigkeit geben will, holt man externe Berater hinzu. Selbst CEOs geben das unter vier Augen zu
Wenn etwas schiefläuft, kann ein Director sagen: „Wir sind der Empfehlung von Deloitte gefolgt.“ Das ist als Schutzschild eindeutig etwas anderes, als zu sagen: „Bob aus der IT hat das so gesagt.“
Ich komme aus einem MBA-Hintergrund, wäre beinahe in die Beratungsbranche eingestiegen, habe mich dann aber anders entschieden und bin Software Engineer geworden. Der tatsächliche Kunde eines Beratungsprojekts ist in der Realität der „Executive“
Ich wurde einmal jemandem vorgestellt, der als eine Art Assistent nach dem Muster „Was würde Elon tun?“ fungierte. Executives wollen wissen, wie ein Konkurrent (oder ein imaginärer Konkurrent) unter denselben Informationen entscheiden würde. Gleichzeitig wollen sie auch das Urteil eines beratenden Vermittlers dazu hören
Das unterscheidet sich stark je nach Branche und Region. In manchen Großunternehmen, für die ich gearbeitet habe, war der Kunde von Consulting nicht der Executive, sondern ein mittleres Management-Level, mehrere Stufen darunter
Leichte Recherche plus das Liefern dessen, was man hören will, ist der Kern. Insofern ist AI eine Chance, den Consulting-Markt auf den Kopf zu stellen
In diesem Zusammenhang ist auch der Unterschied zwischen „Client“ und „Customer“ wichtig
Selbst wenn man die australische Regierung täuscht und Steuergeld missbraucht, ist das Ergebnis nur eine teilweise Rückzahlung
Man sehe sich den Fall Craig Wright an, dem bekannten Satoshi-Hochstapler. Schon vor seinen Bitcoin-Betrügereien erschlich er sich Millionen an GST- und F&E-Steuerrückerstattungen. Er versuchte sogar, um zig Millionen zu betrügen, wurde erwischt, floh aus Australien, zahlte einen Teil zurück und lebt den Rest ohne weitere Strafe bequem im Ausland
Im Grunde ist das strukturell kaum anders möglich. Wenn einer von zehn betrügt, ist eine vollständige Rückholung unmöglich. Man fordert nur „Kosten plus Schaden“ zurück und belässt es dabei. Würde vollständige Rückzahlung zum Grundsatz gemacht, wären die Verträge länger als die eigentliche Arbeit
Dieser Fall ist im Kern kein AI-Problem, sondern eher ein Problem mangelhafter Aufsicht bei der Berichterstellung. Die Rolle externer Beratung besteht darin, sicherzustellen, dass die Untersuchungsergebnisse einer öffentlichen Überprüfung standhalten, und genau daran ist man hier vollständig gescheitert. Erschreckend ist, dass es trotz dieser schlechten Leistung nur eine teilweise Rückzahlung gibt und keine Neubewertung laufender oder künftiger Verträge. Ob die Fehler im Bericht auf AI oder auf übermüdete Berater zurückgehen, darf für die Konsequenzen keinen Unterschied machen
CEOs glauben derzeit fälschlich, GenAI werde Personal ersetzen, doch in der Realität wollen Kunden für Ergebnisse, die mit GenAI erstellt wurden, auch deutlich weniger bezahlen. Damit verschwindet der Einspareffekt am Ende. Übrig bleibt ein Teufelskreis aus niedrigeren Margen, schlechterer Qualität und sinkenden Preisen
Hinzu kommt: Kunden bezahlen für einen Menschen, der Verantwortung übernimmt und die Aufgabe erfüllt. AI kann keine Verantwortung tragen, daher gibt es wenig Grund, für solche Berichte Geld auszugeben
Daran anknüpfend gilt: Im Post-AI-Zeitalter führt Erfolg eher darüber, mit derselben Anzahl an Menschen (oder sogar mehr) mehr Ergebnisse zu erzielen. Dank AI wird Automatisierung alltäglich und der Wert einzelner Arbeit sinkt, daher ist ein Betrieb mit bloß reduziertem Personal keine Überlebensstrategie. Stattdessen müssen „Skalierung und Qualität“, die früher unmöglich waren, zum neuen Mindestmaß werden
„Den Wert von Services gegen null konvergieren lassen und gleichzeitig neuen Wert schaffen“ beschreibt genau diese Denkweise
Dieser Bericht betrifft eine Politik, nach der Arbeitslose ihre Unterstützung verlieren können, wenn sie bei der Jobsuche scheitern — also genau jene Gruppe, von der man zugleich befürchtet, dass sie durch AI ihren Arbeitsplatz verlieren wird
Aus Kundensicht: Wenn sich mit GenAI erzeugte Ergebnisse günstiger nutzen lassen, wäre das dann nicht eher ein Hebel für mehr Umsatz? Unabhängig von der Deloitte-Kontroverse kann ein guter Einsatz von GenAI tatsächlich auch zu besseren Ergebnissen führen
Ich habe lange in Beratungsunternehmen gearbeitet, und viele Menschen scheinen Consulting nicht richtig zu verstehen. Natürlich gibt es unethische und schlechte Beispiele, aber die Vorteile und der tatsächliche Wert von Consulting sind durchaus groß. Dass die Branche weiterhin existiert und jedes Jahr Milliarden von Dollar verdient, zeigt das ebenfalls
Es gibt die Meinung, dass es außer den Big Four kaum eine andere Organisation gibt, die im Verhältnis zu ihrer wirtschaftlichen Größe so wenig gesellschaftlichen Wert schafft