Führt alles in die Unwahrheit?

(aphyr.com)

2 Punkte von GN⁺ 20 일 전 | 1 Kommentare | Auf WhatsApp teilen

Die heute als AI bezeichnete Technologie ist in Wirklichkeit ein komplexes Machine-Learning-(ML)-System, das Texte, Bilder und Audio statistisch vervollständigt
LLMs sind Maschinen, die wie Improvisationstheater „plausible Lügen“ erzeugen, indem sie Antworten wie „Ich weiß es nicht“ vermeiden und stattdessen erfundene Fakten generieren
Menschen halten sie leicht für bewusste Wesen, doch Selbsterklärungen und Schlussfolgerungsprozesse des Modells sind nur fiktive Erzählungen
LLMs zeigen eine sprunghafte Leistung, bei der sie anspruchsvolle Probleme lösen, aber an einfachen Aufgaben scheitern, und offenbaren damit unzuverlässige Grenzen
In diesem Ungleichgewicht und dieser Unsicherheit etabliert sich ML als eine Technologie, die die menschliche Gesellschaft grundlegend auf seltsame Weise verändert

Vorwort

Eine Generation, die mit Sehnsucht auf die SF-Welten von Asimov und Clarke blickte, stellte sich das Aufkommen intelligenter Maschinen optimistisch vor, erlebte jedoch Enttäuschung in einer Realität, in der der Turing-Test zusammengebrochen ist
Als 2019 ein großer Cloud-Konzern Hardware für das Training von LLMs ankündigte, wurden Sorgen laut, dass die Ausbreitung von Deep Learning neue Formen von Spam und Propaganda hervorbringen könnte
Der Text erkundet den negativen Raum des AI-Diskurses und ist kein vollständiges Analysewerk, sondern ein Versuch, die Konturen von Risiken und Möglichkeiten sichtbar zu machen
Da der Begriff „AI“ zu umfassend ist, liegt der Fokus auf einer konkreten Diskussion rund um ML und LLMs
Einige Vorhersagen sind bereits Realität geworden, andere verbleiben weiterhin in einem unsicheren und seltsamen Bereich

Was ist „AI“?

Was derzeit als „AI“ bezeichnet wird, ist eine Gruppe komplexer Machine-Learning-(ML)-Technologien, also Systeme, die Token-Vektoren für Text, Bild, Audio und Video erkennen, transformieren und erzeugen
LLM (Large Language Model) verarbeitet natürliche Sprache und funktioniert, indem es statistisch mögliche Vervollständigungen eingegebener Zeichenketten vorhersagt
Modelle werden mit Webseiten und großen Datenkorpora wie raubkopierten Büchern und Musik trainiert und können nach dem Training durch kostengünstige Inferenz (inference) wiederholt eingesetzt werden
Modelle lernen im Lauf der Zeit nicht selbstständig weiter und werden nur durch Anpassungen durch Betreiber oder erneutes Training aktualisiert
Das „Gedächtnis“ dialogorientierter Modelle wird in Wirklichkeit durch eine strukturelle Technik umgesetzt, bei der Zusammenfassungen früherer Gespräche in die Eingabe aufgenommen werden

Fanfiction der Wirklichkeit

LLMs funktionieren wie Improvisationsmaschinen (improv) und zeigen ein „yes-and“-Muster, das den gegebenen Kontext mit einem „und dann …“ fortsetzt
Dadurch erzeugen sie plausible Sätze ohne Bezug zu Tatsachen, missverstehen Satire oder Kontext und produzieren Falschinformationen
Menschen neigen dazu, solche Ausgaben mit den Äußerungen eines tatsächlich bewussten Wesens zu verwechseln
Da LLMs zu jeder Eingabe eine Ausgabe erzeugen, haben sie die Tendenz, mit „Ich weiß es nicht“ auszuweichen und stattdessen Unwahrheiten zu erzeugen
Diese Unwahrheiten sind keine absichtliche Handlung, sondern erscheinen als soziotechnisches Produkt der Interaktion zwischen Mensch und Maschine

Ein unzuverlässiger Erzähler

Menschen verlangen von LLMs Selbsterklärungen wie „Warum hast du das getan?“, doch Modelle besitzen keine Fähigkeit zur Selbstwahrnehmung
LLMs erzeugen lediglich probabilistische Vervollständigungen auf Basis vorheriger Gespräche und des Korpus, und auch Erklärungen über sich selbst bestehen aus fiktiven Geschichten
Auch „Reasoning“-Modelle funktionieren in einer Form, die ihren eigenen Denkprozess erzählerisch ausschmückt
Laut Forschung von Anthropic war der Großteil von Claudes Reasoning-Protokollen ungenau, und selbst Statusmeldungen wie „am Nachdenken“ sind nur fiktive Inszenierung

Das Modell ist klug

In den vergangenen Monaten hat sich die Wahrnehmung verbreitet, dass sich die Fähigkeiten von LLMs sprunghaft verbessert haben
Einige Ingenieure berichten, dass Claude oder Codex komplexe Programmieraufgaben auf Anhieb lösen
In vielen Bereichen gibt es praktische Nutzung, etwa für Ernährungsplanung, Prüfung von Bauspezifikationen, 3D-Visualisierung und das Verfassen von Selbsteinschätzungen
Auch bei AlphaFolds Vorhersage der Proteinfaltung und der Auswertung medizinischer Bildgebung zeigen sich hohe Leistungen
Bei englischem Stil, Bildern und Musik wird die Unterscheidung zwischen Mensch und Maschine zunehmend schwieriger, auch wenn die Videogenerierung weiterhin eingeschränkt ist

Das Modell ist dumm

Gleichzeitig werden LLMs als „dumme“ Systeme beurteilt, die grundlegende Fehler wiederholen
Beispielsweise verarbeitet Gemini beim Rendern von 3D-Modellen Geometrie und Materialien wiederholt falsch, und Claude erzeugt sinnlosen JavaScript-Code für Visualisierungen
ChatGPT scheitert sogar an einfachen Anfragen zur Farbkorrektur und stellt falsche Behauptungen auf, indem es die sexuelle Orientierung von Nutzern falsch unterstellt
Es wurden Fälle berichtet, in denen LLMs Diagramme mit falschen Daten erzeugten, Smart-Home-Steuerungen scheiterten oder finanzielle Verluste verursachten
Googles AI-Übersichtsfunktion weist eine Fehlerquote von rund 10 % auf, und Behauptungen über „Intelligenz auf Expertenniveau“ werden als übertriebene Illusion bewertet

Zerklüftete Grenze

Beim Menschen lässt sich der Fähigkeitsbereich im Allgemeinen abschätzen, doch die Leistung von ML-Systemen ist unregelmäßig und unvorhersehbar
LLMs lösen anspruchsvolle Mathematik, scheitern aber an einfachen Sprachaufgaben und liefern Erklärungen ohne physikalischen Alltagsverstand
Dieses Ungleichgewicht wird als „jagged technology frontier“ bezeichnet und hat im Unterschied zur menschlichen Fähigkeitsverteilung eine diskontinuierliche Form
Da ML von Trainingsdaten oder dem Kontextfenster (window) abhängt, ist es anfällig bei Aufgaben, die implizites Wissen erfordern
Bereiche wie humanoide Roboter oder Felder, die verkörpertes Wissen (embodied knowledge) verlangen, liegen weiterhin in weiter Ferne

Wird es besser oder nicht?

Forschende verstehen nicht einmal klar die Ursache des Erfolgs von Transformer-Modellen
Seit dem Paper von 2017, Attention is All You Need, wurden verschiedene Architekturen ausprobiert, doch der Ansatz, einfach nur die Zahl der Parameter zu erhöhen, ist weiterhin am wirksamsten
Trotz stark steigender Trainingskosten und Parameterzahlen verlangsamt sich der Leistungszuwachs, und es ist unklar, ob dieses Phänomen eine optische Täuschung oder eine reale Grenze ist
Selbst wenn sich ML nicht weiter verbessert, hat es bereits tiefgreifende Auswirkungen auf Gesellschaft, Politik, Kunst und Wirtschaft
Letztlich ist ML eine Technologie, die das menschliche Leben grundlegend auf seltsame Weise verändert, und die weitere Entwicklung dürfte sich „auf seltsame Weise entfalten“

Begriffsanmerkungen

Da „AI“ zu umfassend ist, wird es zu ML oder LLM konkretisiert
„Generative AI“ gilt als unvollständiger Ausdruck, weil er Wahrnehmungsaufgaben nicht einschließt
Der Grund, warum LLMs über sich selbst lügen, liegt im Einfluss menschlicher Erzählungen über AI und der Trainingsdaten
Auf die Behauptung „Das Modell ist dumm“ gibt es zwar den Einwand, es handle sich um ein Problem des Prompts oder der Modellauswahl, doch es wurde bestätigt, dass dieselben Fehler auch bei den neuesten kommerziellen Modellen wiederholt auftreten

1 Kommentare

GN⁺ 20 일 전

Hacker-News-Kommentare

Ich denke in letzter Zeit oft, dass die aktuelle Lage der industriellen Revolution ähnelt.
Vor der industriellen Revolution galten natürliche Ressourcen als nahezu unendlich, und wegen der geringen Effizienz konnte man sie nicht vollständig erschöpfen. Mit dem Aufkommen der Maschinen wurde es jedoch möglich, dass eine kleine Zahl von Menschen Teile der Erde vollständig aufbraucht, und dadurch wurden Eigentumsrechte und Rechtssysteme notwendig.
Jetzt leben wir im Zeitalter der Informationsrevolution, und AI übernimmt im digitalen Bereich dieselbe Rolle. Ein Unternehmen trainiert AI und verwertet dabei die Werke unzähliger Urheber in industriellem Maßstab wieder. Dadurch gerät das Gleichgewicht zwischen Urhebern und Konsumenten aus den Fugen.
In einer Welt, in der ein von einem Autor geschriebener Text in ChatGPT absorbiert wird und das Original vergessen wird, fragt man sich, wer überhaupt noch weiter Inhalte produzieren will. Es wirkt gerade wie London zur Zeit von Dickens: eine raue Übergangsphase, bis Gesellschaft und Recht aufgeholt haben.
- Dass die „Natur unendlich“ gewesen sei, stimmt so nicht. Schon seit der frühen Eisenzeit gab es Probleme mit Entwaldung, und die Spannungen zwischen Ackerbau, Weidewirtschaft und Forstwirtschaft ziehen sich seit Jahrtausenden hin.
- Viele haben ähnliche Gedanken geäußert. Der aktuelle Papst Leo XIV hat seinen Namen nach Papst Leo XIII aus der Zeit der industriellen Revolution gewählt und unter Verweis auf dessen Enzyklika Rerum novarum die soziale Verantwortung im AI-Zeitalter angesprochen. Verwandter Artikel: Vatican News
- Ich schreibe nicht nur des Geldes wegen. Ich schreibe wegen des Drangs zu erschaffen und weil ich die Welt wenigstens ein kleines Stück verändern möchte. Wenn ChatGPT meine Texte lernt und damit jemandem hilft, hat das allein schon einen Wert. Nicht jeder muss meinen Ansichten zustimmen, aber ich sehe das positiv.
- Ich sehe es eher genau umgekehrt. Kreativität ist jetzt ein digitales öffentliches Gut, an dem sich jeder beteiligen kann. AI hat das Schaffen automatisiert, also gibt es keinen Grund, warum bestimmte Urheber ein Monopol darauf haben sollten. Open Source wird AI-Unternehmen am Ende ersetzen, und wenn nicht, sollte es als öffentliche Infrastruktur verstaatlicht werden. Das Konzept digitalen Eigentums ist dem Wesen der Technik nach zum Verschwinden bestimmt.
- Schon vor der industriellen Revolution stritten Menschen um Wasser- und Flussnutzungsrechte. Der Krieg zwischen Umma und Lagasch ist zum Beispiel ein Fall eines Wasserkonflikts von vor 4000 Jahren.
Seit Attention is All You Need ging die Entwicklung nicht nur dahin, einfach mehr Parameter hinzuzufügen, sondern zu komplexeren Architekturen wie Mixture-of-Experts, Sparse Attention und Mamba/Gated Linear Attention. Die Auslegung der Bitter Lesson nach dem Motto „man muss nur mehr Rechenleistung draufwerfen“ ist ein Missverständnis.
- Der Autor hat von Anfang an offengelegt: „Ich bin kein ML-Experte“, und dieser Text ist ein Essay, der Gedanken aus den letzten zehn Jahren zusammenführt. Die Formulierung „vielleicht eine Variante der Bitter Lesson“ war nur als Denkanstoß gemeint. Ziel des Textes ist eher das Anstoßen von Reflexion als technische Präzision.
- Ich bin auch von Qwen 3 auf Qwen 3.5 umgestiegen, und obwohl die Parameterzahl gesunken ist, ist die Leistung deutlich besser geworden. Dank algorithmischer Innovationen wie Gated DeltaNet und TurboQuant ist die Speichereffizienz höher und die Kontextlänge größer geworden. Am Ende sind architektonische Innovationen der Schlüssel.
- Nach GPT-3 (175B) wird GPT-4 auf 1,8 Billionen Parameter geschätzt. Die Aussage, dass das Wachstum der Parameterzahl „seit fünf Jahren gestoppt“ habe, ist falsch.
- Ich frage mich, ob Mamba in großen Modellen tatsächlich eingesetzt wird. Soweit ich weiß, fehlt es noch an effizienten Implementierungen. Und ich würde auch gern wissen, was konkret mit „das Training ist viel ausgefeilter geworden“ gemeint ist.
- Transformer sind keine Magie. Sie waren nur viel effizienter als LSTM, RNN und CNN. In letzter Zeit sind auch Modelle aufgetaucht, die mit reasoning token arbeiten und ihren Denkprozess ausgeben. Perfekt ist das nicht, aber bisher ist es der Ansatz, der am besten funktioniert.
Die heutigen Modelle haben bereits fast alle öffentlich verfügbaren Daten gelernt. Wenn Urheberrechtsbeschränkungen verschärft werden, könnte ein Problem des Mangels an Trainingsdaten entstehen. Ohne eine neue Innovation in der Größenordnung von „Attention is All You Need“ fühlt es sich an, als nähere man sich einer Grenze bei den Leistungssteigerungen.
- Trotzdem probieren Forschende weiterhin neue Ideen aus. Ein Durchbruch in 5 bis 10 Jahren ist durchaus möglich. Allerdings werden die Kosten bis dahin hoch sein.
- In Mathematik und Software lassen sich synthetische Daten erzeugen, weshalb diese Bereiche weniger eingeschränkt sind. Das sind Felder, in denen selbstverifizierendes Lernen wie bei AlphaGo Zero möglich ist.
- Eigentlich begann der heutige Fortschritt auch mit dem Experiment: „Lasst uns die Daten einfach massiv vergrößern.“ Danach findet die Differenzierung eher in der Post-Training-Phase statt.
- Einige Unternehmen beschäftigen Menschen, um hochwertige Token zu erzeugen, und nutzen diese als Grundlage, um synthetische Daten zu generieren und erneut ins Training einzuspeisen.
Zu sagen, „LLMs sind noch nicht kreativ“, ist zu simpel. Bei textbasierten Problemen sind logisches Schließen und Schlussfolgern bereits möglich, und auch in Bild- und UI-Bereichen geht die Entwicklung schnell voran.
- Der Kernpunkt ist, dass LLMs Gedanken nicht wirklich ‚verstehen‘. Schlussfolgern ist nur eine einfache Feedback-Schleife, kein echtes Denken. Ob sich diese Grenze technisch überwinden lässt, ist eine Frage, bei der Optimismus und Pessimismus nebeneinander bestehen.
- Für mich bringt ein LLM manchmal Ideen hervor, die ich noch nie gesehen habe. Ob sie im Maßstab der gesamten Menschheit wirklich neu sind, kann ich aber nicht sicher sagen.
- Der Text behauptet nicht, „LLMs sind dumm“, sondern dass die Grenze zwischen Klugheit und Dummheit komplex und unvorhersehbar ist.
- Selbst wenn LLMs logische Probleme lösen, bleibt es schwierig, auf Weisen heranzugehen, die nicht in den Trainingsdaten angelegt waren.
- Auch die Bildgenerierung macht schnell Fortschritte. Das lässt sich zum Beispiel in Projekten wie GenAI Showdown sehen.
Ich erkläre Leuten oft, dass es im Inneren von LLMs kein Bewusstsein und keine Autonomie gibt. Das Wort ‚AI‘ wird heute mit viel zu überladenen Bedeutungen verwendet.
- Dann fragt man sich aber, wie die innere Struktur anders aussehen müsste, damit so etwas wie ‚Bewusstsein‘ oder ‚Autonomie‘ überhaupt entstehen könnte.
- Tatsächlich ist ‚AI‘ ein Fachbegriff, der seit den 1950er Jahren existiert. Ursprünglich ging es darum, menschliches Denken nachzuahmen, heute meint er schlicht intelligente rechnergestützte Systeme. Die Verwirrung entsteht, weil die Öffentlichkeit ihn weiter in einem menschlichen Sinn versteht.
- Ich finde den Begriff ‚AI‘ im Gegenteil ziemlich treffend. Maschinen vollziehen Intelligenz künstlich aus. Wie Mathematik oder Logik ist es letztlich ein mechanischer Prozess. So wie Transistoren Logik ausführen, ist auch die Vorhersage von Tokens etwas Natürliches.
- Ich frage mich auch, ob es überhaupt belastbare Gründe gibt, sicher zu sein, dass das menschliche Gehirn grundlegend anders funktioniert als ein LLM.
Ich musste lachen, als ich ein Beispiel sah, in dem ein LLM ein Physikproblem falsch löste. Tatsächlich beginnen auch Physiker oft mit unrealistischen Annahmen. Es gibt schließlich sogar Witze über „reibungsfreie kugelförmige Dächer“.
- Das ist eine typische wissenschaftliche Vorgehensweise. Zuerst nähert man sich mit einem einfachen Modell an und ergänzt darauf aufbauend die komplexe Realität.
Ich würde nicht sagen, dass der Turing-Test schon bestanden ist. Je länger ein Gespräch dauert, desto mehr bricht der Kontext zusammen, und für die Simulation menschlicher Eigenschaften wie Neuroplastizität gibt es klare Grenzen.
- Eine Zeit lang sah es so aus, als wäre er bestanden, aber inzwischen können die meisten Menschen den charakteristischen Tonfall von LLMs erkennen. Allerdings sind Modelle absichtlich freundlicher und weitschweifiger gestaltet, daher ist ein völlig fairer Vergleich schwierig.
- Der Turing-Test war ursprünglich ohnehin kein Bestehen/Nichtbestehen-Test.
- In letzter Zeit verbreitet sich die Behauptung, „LLMs hätten den Turing-Test geknackt“, aber wenn man die Bedingung berücksichtigt, dass die prüfende Person aktuelle Technik kennt, lassen sie sich in der Praxis immer noch leicht unterscheiden.
- Bei einem so strengen Test könnten allerdings auch Menschen wegen mangelnder Konzentration scheitern.
- Unter den LLMs, die ich bisher gesehen habe, konnte keines wirklich gut schreiben. Ich frage mich, ob irgendwann ein Modell kommt, mit dem Gespräche tatsächlich Freude machen.
Der ursprüngliche Artikeltitel „The Future of Everything is Lies, I Guess“ passte nicht zum Inhalt und wurde deshalb geändert. Tatsächlich war der Text ausgewogen, und gemäß den HN-Richtlinien wurde der clickbaitige Titel angepasst.
- Das war eine gute Entscheidung. Mit den im Text erwähnten „Lügen“ sind nicht Halluzinationen gemeint, sondern das Phänomen, dass ein Modell auf die Frage, „warum hast du so geantwortet?“, nachträglich eine abwegige Begründung erfindet. Menschen machen ähnliche Fehler übrigens auch.
- Dank der Kuratierung ist der Titel deutlich besser geworden.
- Der ursprüngliche Titel taugte zwar besser zum Klicken, repräsentierte den Inhalt aber schlechter.
Diskussionen über Bewusstsein sollten demütiger geführt werden. Nicht einmal menschliches Bewusstsein ist klar definiert, daher kann man auch über das Bewusstsein von LLMs nichts sicher behaupten.
- Manche Bewusstseinstheorien schließen LLMs aus, andere lassen die Möglichkeit offen. Es ist ein Bereich ohne eindeutige Antwort.
- Manche Menschen verehren LLMs wie Silikon-Idole. Sie glauben, das von ihnen geschaffene Wesen vollständig zu verstehen, und zugleich, dass darin ein geheimnisvolles Wesen von Intelligenz verborgen liege. Diese Haltung erinnert an frühere Alchemisten, die versuchten, Gold herzustellen.
Im späteren Teil des Textes hieß es, „AI werde die Gesellschaft insgesamt verändern“, aber diese Folge wirkt stärker auf die Grenzen von LLMs fokussiert.
- Tatsächlich ist dieser Text die Einleitung zu einer zehnteiligen Serie. In den späteren Teilen sollen Themen wie Politik, Kunst, Wirtschaft und menschliche Beziehungen behandelt werden.
- Im Moment ist es sogar wichtiger, immer wieder zu betonen, dass LLMs nicht perfekt sind. Denn die Welt verwechselt AI gerade mit einer Universallösung für alles.

Führt alles in die Unwahrheit?

Vorwort

Was ist „AI“?

Fanfiction der Wirklichkeit

Ein unzuverlässiger Erzähler

Das Modell ist klug

Das Modell ist dumm

Zerklüftete Grenze

Wird es besser oder nicht?

Begriffsanmerkungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare