Führt alles in die Unwahrheit?
(aphyr.com)- Die heute als AI bezeichnete Technologie ist in Wirklichkeit ein komplexes Machine-Learning-(ML)-System, das Texte, Bilder und Audio statistisch vervollständigt
- LLMs sind Maschinen, die wie Improvisationstheater „plausible Lügen“ erzeugen, indem sie Antworten wie „Ich weiß es nicht“ vermeiden und stattdessen erfundene Fakten generieren
- Menschen halten sie leicht für bewusste Wesen, doch Selbsterklärungen und Schlussfolgerungsprozesse des Modells sind nur fiktive Erzählungen
- LLMs zeigen eine sprunghafte Leistung, bei der sie anspruchsvolle Probleme lösen, aber an einfachen Aufgaben scheitern, und offenbaren damit unzuverlässige Grenzen
- In diesem Ungleichgewicht und dieser Unsicherheit etabliert sich ML als eine Technologie, die die menschliche Gesellschaft grundlegend auf seltsame Weise verändert
Vorwort
- Eine Generation, die mit Sehnsucht auf die SF-Welten von Asimov und Clarke blickte, stellte sich das Aufkommen intelligenter Maschinen optimistisch vor, erlebte jedoch Enttäuschung in einer Realität, in der der Turing-Test zusammengebrochen ist
- Als 2019 ein großer Cloud-Konzern Hardware für das Training von LLMs ankündigte, wurden Sorgen laut, dass die Ausbreitung von Deep Learning neue Formen von Spam und Propaganda hervorbringen könnte
- Der Text erkundet den negativen Raum des AI-Diskurses und ist kein vollständiges Analysewerk, sondern ein Versuch, die Konturen von Risiken und Möglichkeiten sichtbar zu machen
- Da der Begriff „AI“ zu umfassend ist, liegt der Fokus auf einer konkreten Diskussion rund um ML und LLMs
- Einige Vorhersagen sind bereits Realität geworden, andere verbleiben weiterhin in einem unsicheren und seltsamen Bereich
Was ist „AI“?
- Was derzeit als „AI“ bezeichnet wird, ist eine Gruppe komplexer Machine-Learning-(ML)-Technologien, also Systeme, die Token-Vektoren für Text, Bild, Audio und Video erkennen, transformieren und erzeugen
- LLM (Large Language Model) verarbeitet natürliche Sprache und funktioniert, indem es statistisch mögliche Vervollständigungen eingegebener Zeichenketten vorhersagt
- Modelle werden mit Webseiten und großen Datenkorpora wie raubkopierten Büchern und Musik trainiert und können nach dem Training durch kostengünstige Inferenz (
inference) wiederholt eingesetzt werden - Modelle lernen im Lauf der Zeit nicht selbstständig weiter und werden nur durch Anpassungen durch Betreiber oder erneutes Training aktualisiert
- Das „Gedächtnis“ dialogorientierter Modelle wird in Wirklichkeit durch eine strukturelle Technik umgesetzt, bei der Zusammenfassungen früherer Gespräche in die Eingabe aufgenommen werden
Fanfiction der Wirklichkeit
- LLMs funktionieren wie Improvisationsmaschinen (
improv) und zeigen ein „yes-and“-Muster, das den gegebenen Kontext mit einem „und dann …“ fortsetzt - Dadurch erzeugen sie plausible Sätze ohne Bezug zu Tatsachen, missverstehen Satire oder Kontext und produzieren Falschinformationen
- Menschen neigen dazu, solche Ausgaben mit den Äußerungen eines tatsächlich bewussten Wesens zu verwechseln
- Da LLMs zu jeder Eingabe eine Ausgabe erzeugen, haben sie die Tendenz, mit „Ich weiß es nicht“ auszuweichen und stattdessen Unwahrheiten zu erzeugen
- Diese Unwahrheiten sind keine absichtliche Handlung, sondern erscheinen als soziotechnisches Produkt der Interaktion zwischen Mensch und Maschine
Ein unzuverlässiger Erzähler
- Menschen verlangen von LLMs Selbsterklärungen wie „Warum hast du das getan?“, doch Modelle besitzen keine Fähigkeit zur Selbstwahrnehmung
- LLMs erzeugen lediglich probabilistische Vervollständigungen auf Basis vorheriger Gespräche und des Korpus, und auch Erklärungen über sich selbst bestehen aus fiktiven Geschichten
- Auch „Reasoning“-Modelle funktionieren in einer Form, die ihren eigenen Denkprozess erzählerisch ausschmückt
- Laut Forschung von Anthropic war der Großteil von Claudes Reasoning-Protokollen ungenau, und selbst Statusmeldungen wie „am Nachdenken“ sind nur fiktive Inszenierung
Das Modell ist klug
- In den vergangenen Monaten hat sich die Wahrnehmung verbreitet, dass sich die Fähigkeiten von LLMs sprunghaft verbessert haben
- Einige Ingenieure berichten, dass Claude oder Codex komplexe Programmieraufgaben auf Anhieb lösen
- In vielen Bereichen gibt es praktische Nutzung, etwa für Ernährungsplanung, Prüfung von Bauspezifikationen, 3D-Visualisierung und das Verfassen von Selbsteinschätzungen
- Auch bei AlphaFolds Vorhersage der Proteinfaltung und der Auswertung medizinischer Bildgebung zeigen sich hohe Leistungen
- Bei englischem Stil, Bildern und Musik wird die Unterscheidung zwischen Mensch und Maschine zunehmend schwieriger, auch wenn die Videogenerierung weiterhin eingeschränkt ist
Das Modell ist dumm
- Gleichzeitig werden LLMs als „dumme“ Systeme beurteilt, die grundlegende Fehler wiederholen
- Beispielsweise verarbeitet Gemini beim Rendern von 3D-Modellen Geometrie und Materialien wiederholt falsch, und Claude erzeugt sinnlosen JavaScript-Code für Visualisierungen
- ChatGPT scheitert sogar an einfachen Anfragen zur Farbkorrektur und stellt falsche Behauptungen auf, indem es die sexuelle Orientierung von Nutzern falsch unterstellt
- Es wurden Fälle berichtet, in denen LLMs Diagramme mit falschen Daten erzeugten, Smart-Home-Steuerungen scheiterten oder finanzielle Verluste verursachten
- Googles AI-Übersichtsfunktion weist eine Fehlerquote von rund 10 % auf, und Behauptungen über „Intelligenz auf Expertenniveau“ werden als übertriebene Illusion bewertet
Zerklüftete Grenze
- Beim Menschen lässt sich der Fähigkeitsbereich im Allgemeinen abschätzen, doch die Leistung von ML-Systemen ist unregelmäßig und unvorhersehbar
- LLMs lösen anspruchsvolle Mathematik, scheitern aber an einfachen Sprachaufgaben und liefern Erklärungen ohne physikalischen Alltagsverstand
- Dieses Ungleichgewicht wird als „jagged technology frontier“ bezeichnet und hat im Unterschied zur menschlichen Fähigkeitsverteilung eine diskontinuierliche Form
- Da ML von Trainingsdaten oder dem Kontextfenster (
window) abhängt, ist es anfällig bei Aufgaben, die implizites Wissen erfordern - Bereiche wie humanoide Roboter oder Felder, die verkörpertes Wissen (
embodied knowledge) verlangen, liegen weiterhin in weiter Ferne
Wird es besser oder nicht?
- Forschende verstehen nicht einmal klar die Ursache des Erfolgs von Transformer-Modellen
- Seit dem Paper von 2017, Attention is All You Need, wurden verschiedene Architekturen ausprobiert, doch der Ansatz, einfach nur die Zahl der Parameter zu erhöhen, ist weiterhin am wirksamsten
- Trotz stark steigender Trainingskosten und Parameterzahlen verlangsamt sich der Leistungszuwachs, und es ist unklar, ob dieses Phänomen eine optische Täuschung oder eine reale Grenze ist
- Selbst wenn sich ML nicht weiter verbessert, hat es bereits tiefgreifende Auswirkungen auf Gesellschaft, Politik, Kunst und Wirtschaft
- Letztlich ist ML eine Technologie, die das menschliche Leben grundlegend auf seltsame Weise verändert, und die weitere Entwicklung dürfte sich „auf seltsame Weise entfalten“
Begriffsanmerkungen
- Da „AI“ zu umfassend ist, wird es zu ML oder LLM konkretisiert
- „Generative AI“ gilt als unvollständiger Ausdruck, weil er Wahrnehmungsaufgaben nicht einschließt
- Der Grund, warum LLMs über sich selbst lügen, liegt im Einfluss menschlicher Erzählungen über AI und der Trainingsdaten
- Auf die Behauptung „Das Modell ist dumm“ gibt es zwar den Einwand, es handle sich um ein Problem des Prompts oder der Modellauswahl, doch es wurde bestätigt, dass dieselben Fehler auch bei den neuesten kommerziellen Modellen wiederholt auftreten
1 Kommentare
Hacker-News-Kommentare
Ich denke in letzter Zeit oft, dass die aktuelle Lage der industriellen Revolution ähnelt.
Vor der industriellen Revolution galten natürliche Ressourcen als nahezu unendlich, und wegen der geringen Effizienz konnte man sie nicht vollständig erschöpfen. Mit dem Aufkommen der Maschinen wurde es jedoch möglich, dass eine kleine Zahl von Menschen Teile der Erde vollständig aufbraucht, und dadurch wurden Eigentumsrechte und Rechtssysteme notwendig.
Jetzt leben wir im Zeitalter der Informationsrevolution, und AI übernimmt im digitalen Bereich dieselbe Rolle. Ein Unternehmen trainiert AI und verwertet dabei die Werke unzähliger Urheber in industriellem Maßstab wieder. Dadurch gerät das Gleichgewicht zwischen Urhebern und Konsumenten aus den Fugen.
In einer Welt, in der ein von einem Autor geschriebener Text in ChatGPT absorbiert wird und das Original vergessen wird, fragt man sich, wer überhaupt noch weiter Inhalte produzieren will. Es wirkt gerade wie London zur Zeit von Dickens: eine raue Übergangsphase, bis Gesellschaft und Recht aufgeholt haben.
Seit Attention is All You Need ging die Entwicklung nicht nur dahin, einfach mehr Parameter hinzuzufügen, sondern zu komplexeren Architekturen wie Mixture-of-Experts, Sparse Attention und Mamba/Gated Linear Attention. Die Auslegung der Bitter Lesson nach dem Motto „man muss nur mehr Rechenleistung draufwerfen“ ist ein Missverständnis.
Die heutigen Modelle haben bereits fast alle öffentlich verfügbaren Daten gelernt. Wenn Urheberrechtsbeschränkungen verschärft werden, könnte ein Problem des Mangels an Trainingsdaten entstehen. Ohne eine neue Innovation in der Größenordnung von „Attention is All You Need“ fühlt es sich an, als nähere man sich einer Grenze bei den Leistungssteigerungen.
Zu sagen, „LLMs sind noch nicht kreativ“, ist zu simpel. Bei textbasierten Problemen sind logisches Schließen und Schlussfolgern bereits möglich, und auch in Bild- und UI-Bereichen geht die Entwicklung schnell voran.
Ich erkläre Leuten oft, dass es im Inneren von LLMs kein Bewusstsein und keine Autonomie gibt. Das Wort ‚AI‘ wird heute mit viel zu überladenen Bedeutungen verwendet.
Ich musste lachen, als ich ein Beispiel sah, in dem ein LLM ein Physikproblem falsch löste. Tatsächlich beginnen auch Physiker oft mit unrealistischen Annahmen. Es gibt schließlich sogar Witze über „reibungsfreie kugelförmige Dächer“.
Ich würde nicht sagen, dass der Turing-Test schon bestanden ist. Je länger ein Gespräch dauert, desto mehr bricht der Kontext zusammen, und für die Simulation menschlicher Eigenschaften wie Neuroplastizität gibt es klare Grenzen.
Der ursprüngliche Artikeltitel „The Future of Everything is Lies, I Guess“ passte nicht zum Inhalt und wurde deshalb geändert. Tatsächlich war der Text ausgewogen, und gemäß den HN-Richtlinien wurde der clickbaitige Titel angepasst.
Diskussionen über Bewusstsein sollten demütiger geführt werden. Nicht einmal menschliches Bewusstsein ist klar definiert, daher kann man auch über das Bewusstsein von LLMs nichts sicher behaupten.
Im späteren Teil des Textes hieß es, „AI werde die Gesellschaft insgesamt verändern“, aber diese Folge wirkt stärker auf die Grenzen von LLMs fokussiert.