- AI-Suchzusammenfassungen sind nicht immer korrekt
- Zu PS/2 Model 280 wurden bei wiederholten Abfragen jeweils unterschiedliche Informationen geliefert
- Es trat das Halluzinationsproblem der AI auf, die sogar nicht existierende Modellnummern plausibel erklärte
- Die Wahrscheinlichkeit, eine richtige Antwort zu erhalten, ist sehr gering
- Nichtfachleute laufen ein hohes Risiko, falsche Informationen leicht für die Wahrheit zu halten
Erfahrungen mit dem Zuverlässigkeitsproblem von AI-Suchzusammenfassungen
Versuch, nach IBM-PS/2-Modellen zu suchen
- Auf Google wurde nach einem bestimmten Modell eines 1992 erschienenen PS/2-Server-Systems gesucht
- Die in den Suchergebnissen angezeigten Informationen stimmten nicht mit der gesuchten Maschine überein; das eigentliche Modell zeichnete sich durch 486-Prozessoren und die Verwendung von Microchannel (MCA) aus
Wiederholte Ergebnisse und widersprüchliche Antworten
- Obwohl dieselbe Anfrage erneut ausgeführt wurde, fiel die AI-Zusammenfassung jedes Mal anders aus
- So wurde beispielsweise wiederholt behauptet, das PS/2 Model 280 sei ein 286-basiertes ISA-System
- In den einzelnen Antworten änderten sich sogar Angaben zu RAM-Kapazität und Spezifikationen, was die Inkonsistenz der Daten deutlich machte
Halluzinierte Erklärungen zu einem nicht existierenden Modell
- Nach mehreren Anfragen wurden sogar technisch unmögliche Informationen erzeugt, etwa die Behauptung, ein 286-System könne auf 128 MB erweitert werden
- Zusätzlich tauchte die Erklärung auf, das PS/2 Model 280 sei eine wichtige Weiterentwicklung der IBM-PC-Produktlinie gewesen
- Tatsächlich existiert das PS/2 Model 280 gar nicht, dennoch lieferte die AI sehr plausibel wirkende, unbegründete Erklärungen
Geringe Häufigkeit korrekter Antworten
- Erst nach mehreren Versuchen erschien gelegentlich die richtige Antwort, dass „Model 280“ innerhalb der tatsächlichen PS/2-Serie nicht existiert
- Der Anteil korrekter Antworten ist sehr niedrig; in den meisten Fällen erfindet die AI unbegründete Informationen
- Halluzinierte Antworten haben als Information keinen Wert und vermitteln im Gegenteil falsche Gewissheit
Vorsicht vor blindem Vertrauen in AI-Suchzusammenfassungen
- AI-basierte Internetsuche kann auf Nichtfachleute sehr überzeugend wirken
- Fachleute würden die Fehler schnell erkennen, doch Nutzer mit geringer Fähigkeit zur Informationsprüfung lassen sich leicht von Falschinformationen täuschen
- Die Warnung, dass AI „Fehler machen kann“, ist keineswegs leichtfertig abzutun; sich ohne verlässliche Faktenprüfung auf AI-Antworten zu verlassen, ist riskant
- Es wird betont, dass etwas, das überzeugend klingt, nicht zwangsläufig auf tatsächlichen Fakten beruht
- Bei AI-basierten Zusammenfassungen oder Suchergebnissen ist stets Skepsis und Faktenprüfung erforderlich
2 Kommentare
Ich denke, es ist am besten, LLMs nur zum Zusammenfassen zu verwenden. Der Prozess, die Quelle der Daten zu finden und zu verifizieren, ist unbedingt erforderlich.
Hacker-News-Kommentar
Erwähnung der Konfabulationsneigung von Google Gemini in den Suchergebnissen: Es erfindet einfach Antworten, damit sie so aussehen, als passten sie zur Frage; bemängelt wird, dass weder auf Kontext noch auf Genauigkeit geachtet wird. Als Gedächtnisstütze könne man es nur nutzen, wenn man das Ergebnis ohnehin schon erwartet; sonst sei es überhaupt nicht vertrauenswürdig. Auch die Resultate von Google Veo hätten sehr viele Lücken. Es wirke offensichtlich, dass AI-Ergebnissen Logik und Schlussfolgerung fehlen. Genannt werden Beispiele für absurde Veo-Ergebnisse sowie ein verlinkter Artikel zu einem Unfall, bei dem sich Tesla FSD seltsam verhielt.
AI-Video-Realismus
Nachricht zu Tesla-FSD-Unfall
Es entstehe ein Klima, in dem Ergebnisse dieser Qualität inzwischen als „normal“ und „akzeptabel“ gelten. Dass kaum jemand das ernsthaft problematisiere, sei der wirklich beunruhigende Punkt. Früher wäre so etwas völlig inakzeptabel gewesen; warum ungenaue Ergebnisse heute immer mehr akzeptiert würden, sei rätselhaft.
Jemand berichtet, nach Autofunktionen gegoogelt zu haben: Die klassische Google-Suche habe solche Anfragen früher wirklich gut verarbeitet, inzwischen sei aber 90 % der Seite mit AI-Ergebnissen vollgepflastert, die falsche Baujahre, Modelle und Marken durcheinanderwürfeln. Das einzig halbwegs Hilfreiche sei ein YouTube-Video gewesen, und ganz unten auf der Seite habe sich die richtige Antwort in einem alten Autoforum gefunden — Dank an CamaroZ28.com.
Das sei ein verstörenderes Phänomen als jede andere Technologie. Unverständlich sei, dass Google auf eine derart fehlerhafte technologische Neuausrichtung im eigenen Kerngeschäft setze. Auch Versprechen wie bei Ben Evans, dass es „besser werden wird“, wirkten nur wie leere Worte. Als Beispiel wird genannt, dass bei einer Suche nach einer Gedenkveranstaltung gestern in Deutschland die AI Overview den Namen eines bereits verstorbenen italienischen Musikers nahm und erfand, die Veranstaltungsstätte sei das größte Werk dieses Musikers. Als derselbe Text in ChatGPT eingefügt wurde, kam eine sanft spöttische und scharfe Antwort zurück, die die Fehler der AI Overview verhöhnte — eine absurde, aber komische Erfahrung.
AI tue oberflächlich so, als sei sie so klug wie nie zuvor, aber weil ihre innere Logik und ihr Schlussfolgern nicht mithalten, entstehe ein seltsames Gefühl des Uncanny Valley.
Ehrlich gesagt sei schwer nachzuvollziehen, wie Leute LLMs als Suchersatz verwenden. Chatbots lieferten immer nur Daten, die an die eigentlich gewünschte Information angrenzen — etwa Zitate statt Quellen, wenn man nach der Quelle fragt. Vielleicht, so die Selbstzweifel, benutze man nur die Suche falsch.
Obwohl man die Grenzen und den probabilistischen Charakter von LLMs kenne, sei es frustrierend zu sehen, wie Familienmitglieder oder Freunde LLMs vertrauen und sie für ungeeignete Aufgaben einsetzen; dadurch gelte man selbst als AI-Skeptiker. Diese Leute ließen AI sogar Zahlen teilen, etwa beim Aufteilen einer Rechnung, und vertrauten den Ergebnissen von LLMs bedingungslos.
Ein klassischer Fall davon, ein Low-Tech-Problem mit High-Tech zu lösen; selbst einfache Rechnungen würden unbedingt an eine Maschine delegiert, was verspottet wird.
Im Alltag seien die Ergebnisse oft „gut genug“, und genau das mache die Sache tückisch: Menschen gewöhnten sich dadurch an die Abhängigkeit.
Einfache Berechnungen von einem LLM ausführen zu lassen, sei eigentlich ziemlich komisch; halb im Scherz wird vorgeschlagen, es einfach Python für Variablen schreiben zu lassen.
Der Einsatz von LLMs selbst wird mit Passivschäden verglichen, ähnlich wie Rauchen in Innenräumen.
Zur Beobachtung „Man lässt AI rechnen und Informationen suchen und vertraut dem Ergebnis dann zu 100 %“ kommt die Gegenmeinung, dass heutige Chatbots solche einfachen mechanischen Aufgaben doch tatsächlich korrekt erledigten. Wenn verschiedene Funktionen auf einmal abgedeckt werden könnten, warum sollte man dann ständig zwischen spezialisierten Apps wechseln? Letztlich sei Usability der stärkste Treiber.
Der knappe Hinweis „AI-Antworten können Fehler enthalten“ oder die Warnung am unteren Rand von ChatGPT sei längst unzureichend. Obwohl seit Jahren vor Halluzinationen von LLMs gewarnt werde, machten Menschen weiter dieselben Fehler; daher sollten Anbieter von LLMs Nutzer viel aggressiver über die Grenzen aufklären, auch wenn das die User Experience verschlechtere.
In solchen Debatten könne man letztlich nur entweder die Modellanbieter verantwortlich machen oder das derzeitige begrenzte Warnsystem beibehalten. AI-Modelle und Cloud-Dienste seien bereits heute mehrschichtig gefiltert und zensiert; noch mehr Reibung würde am Ende nur zusätzliche Pop-ups bedeuten. Würde man die Verantwortung den Modellanbietern zuschreiben, wäre das Geschäft mit offenen Modellen im Grunde nicht mehr möglich; Unternehmen würden dann nur noch untereinander per Lizenzverträgen arbeiten, aber keine APIs mehr für die breite Öffentlichkeit anbieten. Allenfalls über einen künftigen Stimmungswandel könnten solche Beschränkungen wieder etwas gelockert werden.
Auf die Forderung nach besserer Nutzeraufklärung kommt die realistische Gegenposition, dass Menschen nur durch eigene Erfahrung lernen — man müsse erst selbst auf die Nase fallen, damit es ankomme. Keine Warnung könne so wirksam sein wie echter Schaden.
Da LLMs im Kern als Ersatz für menschliche Wissensarbeit vermarktet würden, könnten Anbieter ihre Grenzen gar nicht offensiv herausstellen; das stehe auch im Widerspruch zu wiederholten Aussagen wie vom Anthropic-CEO, dass Massenarbeitslosigkeit unvermeidlich sei.
Erwähnt werden frühere PR-Krisen rund um Apple Maps und Google Maps wegen falscher Wegbeschreibungen. Heute wirke es, als reiche ein Warnhinweis aus und damit sei alles erledigt. Enttäuschend sei, wie viel Nachsicht neue Technologien bekämen.
Die Warnung müsse ganz oben auf der Seite stehen, in großer roter Schrift.
Es wird erklärt, dass Sprachmodelle nicht dafür gebaut sind, Wissen zu „kennen“, sondern um zu „sprechen“. Deshalb heißen sie nicht „knowledge model“, sondern „language model“. Sie hängen im Wesentlichen nur probabilistisch an bereits erzeugte Wörter das nächste Wort an. Dass sie jedes Mal andere Ergebnisse liefern, liege daran, dass intern ein Wahrscheinlichkeitsverteilungssystem mit Pseudozufall den nächsten Token auswählt. Setzt man die Temperatur (
temperature) auf 0, verschwindet die Zufälligkeit und es wird immer nur das wahrscheinlichste nächste Wort gewählt; das Ergebnis sei dann sehr langweilig. Bei Themen wie IBM, PS/2, 80286 oder 80486 „weiß“ das Modell nichts, sondern reiht nur Wörter aneinander.Die Erfahrung lautet jedoch, dass selbst mit Temperatur 0 lokale Modelle gut genug funktionieren. Dass cloudbasierte UIs 0 oft blockieren, diene wohl dazu, zu verhindern, dass die breite Öffentlichkeit Bugs mit Endlosschleifen im Modell zu sehen bekommt.
Zwar stimme man der Aussage zu, dass Sprachmodelle kein „Wissen“ liefern, sondern nur Sprache erzeugen. Wer aber Google nutze, wolle kein Gespräch führen, sondern tatsächliches Wissen erhalten. Dass Google die Bereitstellung verlässlichen Wissens durch bloße „Worterzeugung“ ersetzen wolle, sei der grundlegende Fehler. Andererseits könnte das dem Unternehmen egal sein, solange die Werbeeinnahmen stimmen.
Selbst auf der Google-Suchseite sei der Warnhinweis „AI-Antworten können Fehler enthalten“ unter einem „Mehr anzeigen“-Button versteckt. Als OpenAI ChatGPT veröffentlicht wurde, habe jemand einem fachfremden Professor erklärt, dass heutige AI keine „echte AI“ sei, sondern eher ein rechnergestützter Gesellschaftstrick. Für das Abschreiben von Hausarbeiten sei dieser „Trick“ allerdings erstaunlich effektiv. Insgesamt entstehe der Eindruck, dass es nicht nur bei Aufgaben, sondern in vielen Bereichen ein hervorragendes Werkzeug zum Schummeln sei — sofern einem Qualität und Urheberrecht egal seien.
Der Ansicht, AI sehe nur oberflächlich so aus, als könne sie Code schreiben, könne es in Wahrheit aber nicht, wird widersprochen. Tatsächlich könne sie Code schreiben; was dabei im Hintergrund geschehe, wisse bei menschlichen Gehirnen letztlich auch niemand. Solche Wesensdebatten seien daher wenig sinnvoll, wichtig sei das tatsächliche Ergebnis.
Eine pragmatische Sichtweise beschreibt LLMs als Gedächtnisstützen- und Informationsabruf-Tool mit flexibler Ein-/Ausgabe-Schnittstelle.
Gemini sei auf häufig gestellte Fragen optimiert, liefere aber bei klassischer Suchintention eher konfabulierte, irreleitende Antworten. Viele Leute vertrauten der AI Overview wie einem Orakel. So erlebten große Teile der Bevölkerung AI überhaupt erst. Anders als bei „Nachrichten“ werde AI unabhängig von Alter oder Demografie allgemein geglaubt. Es scheine, als ob Menschen grundsätzlich Computerantworten mit unbegründeter Selbstsicherheit mögen.
Besonders gravierend sei die Veränderung der Google-Suche. Früher habe die Excerpt-Oberfläche am Seitenanfang über zehn Jahre funktioniert, aus vertrauenswürdigen Seiten zitiert, Klicks gespart und als verlässliche Informationsquelle gedient. Bei medizinischen Fragen sei etwa aus Mayo Clinic zitiert worden; man konnte die Stelle direkt auf der Zielseite finden und so Vertrauen aufbauen. Mit der Zeit sei dieses Vertrauenssystem durch SEO beschädigt worden; jetzt werde es durch die AI Overview ersetzt, also durch ein im Kern völlig anderes System. Der Unterschied zu einer Zeit, in der gültige und vertrauenswürdige Quellen in Echtzeit nachprüfbar waren, sei fundamental.
Nicht nur Menschen, die LLMs nicht direkt benutzen, sondern sogar Manager, die professionell mit LLMs arbeiten, formulierten ihre Fragen so lange um, bis sie die Antwort erhielten, die ihre eigene Meinung bestätigte.
Es wird ein grundlegender psychologischer Punkt angesprochen: Menschen mögen Antworten, die mit unbegründeter Sicherheit vorgetragen werden.
Es fühle sich inzwischen so an, als sei das Internet verschwunden, in dem man durch Suchen wirklich etwas lernen konnte. Alles sei voller unzuverlässigem SEO-Spam-Müll, und mit AI Overview werde es noch schlimmer. Die Vorstellung sei beängstigend, dass bald sogar groteske Antworten wie „Drucker funktionieren mit einem Flaschenzug- und Seilsystem“ geglaubt würden. Solche absurd falschen und mitunter gefährlichen Antworten habe man tatsächlich immer wieder gesehen.
Die Aussage „AI-Antworten können Fehler enthalten“ sei genau der Kernpunkt, den man dem Publikum in jeder AI-Debatte zurufen wolle. In sämtlichen Diskussionen über AI-Ethik und -Sicherheit müssten dieser Punkt und die Energie-/Klimafolgen im Zentrum stehen. Das seien die zwei Aspekte, die der Menschheit bei einem anhaltenden AI-Hype am meisten schaden könnten.
Kritik daran, dass Google den Kern der Suche völlig falsch verstanden habe: Es gehe nun nicht mehr um die Genauigkeit der Antwort, sondern um schnelle Zusammenfassungen und gesponserte Links.
Von zehn schnellen Antworten seien sechs subtil falsch, zwei offensichtlich falsch und eine sogar gefährlich. Solche Antworten könnten reale Verletzungen oder rechtliche Probleme verursachen.
Das frühere Google unter Eric Schmidt habe offenbar nach dem Prinzip gearbeitet, dass irgendeine Antwort besser sei als gar keine; heute habe sich das zu „selbst eine falsche Antwort ist besser als keine“ weiterentwickelt.
AI gleiche immer jemandem, der ohne Grundlage selbstbewusst auf alles antwortet; deshalb gebe es kaum einen Grund, ihr ernsthaft zu vertrauen.
Psychologische Faktoren seien entscheidend: Wenn Menschen unsicher wirken, erkennen andere das an nonverbalen Signalen. Bei AI fehlen solche Signale, und außerdem besteht seit Langem das Vertrauen, dass Antworten von Maschinen grundsätzlich korrekt seien. Nur wenige Menschen gingen wirklich kritisch damit um.
Noch kein AI-Unternehmen habe den Mut gehabt, sein Produkt „Cliff Clavin“ zu nennen — ein Scherz über reales Namensrisiko und fehlenden Mut.
Auf die Frage, warum Menschen AI überhaupt ernsthaft vertrauen, folgt die Gegenfrage: Wenn ein Unternehmen wie Google, das seit Jahrzehnten versucht, der Welt Informationen zu liefern und korrekte Antworten bereitzustellen, diese nun über AI anbietet — warum sollte man dem dann nicht vertrauen?
Jemand berichtet von einer jüngsten Erfahrung mit ChatGPT und Python-Code: Um eine Logger-Klasse von Gunicorn für einen bestimmten URL-Pfad auszuschließen, wurden dem Chatbot drei selbst gebaute Lösungen gegeben mit der Bitte, ihre Geschwindigkeit jeweils zu vergleichen. Zusammen mit Benchmark-Code kam das Ergebnis zurück, Regex sei am schnellsten. Beim eigenen Test stellte sich jedoch heraus, dass die Tuple-Variante mehr als fünfmal schneller war. Als dieses Resultat zurückgemeldet wurde, korrigierte der Chatbot sich sofort und bedankte sich. Der Benchmark-Code habe Zeit gespart, aber in Bereichen, in denen man die richtige Antwort nicht ohnehin ungefähr kenne, neige man danach dazu, Chatbot-Ergebnissen nicht zu vertrauen.