Das Argument dafür, dass KI „denkt“

(newyorker.com)

40 Punkte von GN⁺ 2025-11-05 | 7 Kommentare | Auf WhatsApp teilen

Die Diskussion breitet sich aus, dass Large Language Models (LLMs) über bloße Wortvorhersage hinausgehen und echte Formen von Verständnis und Denken zeigen
Die Neurowissenschaftlerin Doris Tsao bewertet, dass Machine Learning in den vergangenen 100 Jahren mehr über das Wesen der Intelligenz offengelegt hat als die Neurowissenschaften
Deep Learning und neuronale Netzwerkstrukturen ahmen die Funktionsweise des menschlichen Gehirns nach und werden mit dem Konzept „Verstehen = Kompression“ erklärt
Die Forschung von Douglas Hofstadter und Pentti Kanerva wird mit der kognitiven Struktur des „seeing as“ bei LLMs in Verbindung gebracht
Grenzen und ethische Risiken von KI wie das Fehlen menschenähnlicher Lerneffizienz, Erfahrung und Bewusstsein bleiben weiterhin zentrale Aufgaben

Die Polarisierung der AI-Leistung

Anthropic-CEO Dario Amodei prognostiziert bis 2027 das Erscheinen einer KI, die in Biologie, Mathematik, Ingenieurwesen und Schreiben klüger ist als Nobelpreisträger
- Er entwirft die Vision eines „Landes der Genies“ in Rechenzentren, in dem Millionen Modellkopien jeweils eigene Forschung betreiben
OpenAI-Chef Sam Altman behauptet, die Branche stehe unmittelbar vor dem Aufbau einer „digitalen Superintelligenz“, und die 2030er-Jahre würden eine völlig andere Ära sein als alles zuvor
Die AI-Tools, die die meisten Menschen heute im Alltag nutzen, sind derzeit noch so begrenzt wie früher Microsoft Office Clippy
- Zoom AI liefert nur einfache Vorschläge wie „Was wäre ein Icebreaker für das Meeting?“
- Siri kann außer dem Setzen von Erinnerungen wenig
- Die AI von Gmail erfindet Geschichten über Reisen in die Türkei, die der Nutzer nie gemacht hat
Durch hastige und ungleichmäßige AI-Veröffentlichungen ist ein Nebel entstanden, als sei alles nur Hype, doch tatsächlich gibt es erhebliche Fortschritte

Die AI-Revolution im Programmieren

Anfangs dachte ich, AI habe nichts mit echter Intelligenz oder Verständnis zu tun, doch durch die Nutzung von AI bei der Arbeit als Programmierer änderte sich meine Sicht
Das Schreiben von Code ist die Aufgabe, die AI am besten beherrscht, weil die Struktur klarer ist als bei Prosa und sich automatisch überprüfen lässt
Zuerst nutzte ich AI statt klassischer Informationssuche, dann übergab ich ihr nach und nach kleine, unabhängige Probleme und schließlich meine eigentliche Arbeit, für die ich mein ganzes Leben trainiert worden war
- Das AI-Modell erfasst komplexe Details aus Tausenden Zeilen Code in wenigen Sekunden
- Es findet subtile Bugs und koordiniert komplexe neue Funktionen
Ich wechselte in ein schnell wachsendes Team, das AI-Tools besser nutzen wollte
AI-Agenten scheitern zwar an Urlaubsbuchungen oder Steuererklärungen, aber meine Kollegen schreiben den Großteil ihres Codes mit AI und lassen manchmal mehrere Coding-Agenten gleichzeitig laufen
Seit ich gelernt habe, sie effektiv zu nutzen, erledige ich Arbeiten, die früher einen Monat dauerten, an einem Abend
- Obwohl ich nicht wusste, wie man iOS-Apps baut, habe ich zwei iOS-Apps erstellt

Stärken und Schwächen großer Sprachmodelle

Mein Chef sagte einmal, „bei Vorstellungsgesprächen sollte man nicht nach dem Fehlen von Schwächen suchen, sondern nach Stärken“ — und auch LLMs haben viele Schwächen
- Halluzinationen, bei denen plausibel klingende Falschinformationen erzeugt werden
- Unterwürfiges Verhalten, selbst wenn der Nutzer falschliegt
- Leichtgläubigkeit gegenüber einfachen Rätseln
Früher galten Sprachgewandtheit, Flüssigkeit und die Fähigkeit, Gesprächskontext zu erfassen, als heilige Gral-Stärken
- Wenn man diese Stärken direkt erlebt, stellt sich die Frage: „Wie überzeugend muss die Illusion von Verständnis sein, bevor man sie nicht mehr Illusion nennen sollte?“
Das Beispiel von Max: Reparatur eines Spielplatz-Sprinklers
- Vor Kindern mit roten Gesichtern fand er in einem Geräteschuppen ein komplexes Labyrinth aus Rohren und Ventilen
- Er gab ChatGPT-4o ein Foto und eine Problembeschreibung
- Die AI identifizierte es als Rückflussverhinderungssystem der Bewässerungsanlage und schlug vor, das gelbe Kugelventil unten zu betätigen
- Als erfolgreich Wasser herauskam, brach auf dem Spielplatz Jubel aus

Die Konvergenz von Neurowissenschaft und AI

Doris Tsao, Neurowissenschaftsprofessorin an der UC Berkeley: „Die Fortschritte im Machine Learning haben uns über das Wesen der Intelligenz mehr gelehrt als das, was die Neurowissenschaften in den vergangenen 100 Jahren entdeckt haben“
- Bekannt für Forschung zur Entschlüsselung, wie Affen Gesichter erkennen
- Sie sagte voraus, welche Neuronen feuern würden, wenn ein Affe ein bestimmtes Gesicht sieht
- Allein aus dem Muster feuernder Neuronen ließ sich ein Gesicht rendern
- Basierend auf Forschung dazu, wie Gesichter im Inneren von AI-Modellen repräsentiert werden
Tsaos Frage: „Was ist die tiefste Einsicht, die man aus ChatGPT gewonnen hat?“
- Ihre eigene Antwort: „Ich denke, es entmystifiziert Denken grundlegend“

Geschichte und Entwicklung des Deep Learning

In den 1980er-Jahren versuchte ein Team aus Kognitionspsychologen und Informatikern (David Rumelhart, Geoffrey Hinton, James McClelland), Denken in Maschinen zu simulieren
- An der UC San Diego bildeten sie eine Forschungsgruppe
Sie betrachteten das Gehirn als ein riesiges Netzwerk, in dem Neuronen in Mustern feuern und dadurch andere Neuronengruppen aktivieren
- Dieser Tanz der Muster ist Denken
- Gelernt wird durch Veränderungen der Verbindungsstärken zwischen Neuronen
Durch die Erzeugung künstlicher neuronaler Netze und die Anwendung des Algorithmus Gradient Descent wurde die Vorhersagegenauigkeit verbessert
- Verglichen mit einem Wanderer, der von einem Berggipfel ins Tal hinabsteigt: Wenn jeder Schritt bergab führt, kommt man schließlich an
Andere AI-Forscher waren skeptisch, ob neuronale Netze für reale Aufgaben fein genug seien, doch mit größer werdenden Netzwerken wurden Probleme gelöst, die zuvor als unlösbar galten
- Probleme wie das Unterscheiden handgeschriebener Ziffern oder das Erkennen von Gesichtern in Bildern, für die früher ganze Forschungsarbeiten nötig waren, wurden von Deep-Learning-Algorithmen gelöst
Deep Learning eroberte schließlich Spracherkennung, Übersetzung, Bildbeschriftung, Brettspiele und sogar die Vorhersage von Proteinstrukturen

Next-Token-Vorhersage und Lernmechanismus

Die heutigen führenden AI-Modelle lernen an großen Teilen des Internets und verwenden die Technik der Next-Token-Vorhersage
Das Modell rät, was als Nächstes kommt, und lernt durch den Vergleich mit dem tatsächlich erscheinenden Inhalt
- Falsche Vermutungen führen zu Veränderungen der Verbindungsstärken zwischen Neuronen (Gradient Descent)
Am Ende wird das Modell so gut in Textvorhersage, dass es wirkt, als hätte es Wissen und Verständnis
Ein Gedanke dazu: Menschen auf der Suche nach dem Geheimnis der Gehirnfunktion vergrößerten ihre Modelle auf Gehirngröße — und plötzlich begannen diese Aufgaben zu übernehmen, die gehirnähnliche Intelligenz erfordern
- Haben sie vielleicht gefunden, wonach sie suchten?

Erwiderung auf AI-Skepsis

Ted Chiang brachte in seinem New-Yorker-Artikel von 2023 „ChatGPT Is a Blurry JPEG of the Web“ eine skeptische Position vor
- ChatGPT sei letztlich nur das Einspeisen des gesamten Internets in ein Programm und dessen unvollständiges Wieder-Ausspucken
- Wie eine Kopie einer Kopie unscharf, aber gut genug, um intelligent zu wirken
Das Buch „The AI Con“ der Linguistin Emily M. Bender und des Soziologen Alex Hanna vertritt eine ähnliche Position
- Bender beschreibt LLMs als „stochastische Papageien“
Tyler Austin Harper von The Atlantic: „Große Sprachmodelle verstehen nichts, können nichts und werden nichts können“
- Modelle erzeugten Texte nicht durch Denken, sondern durch statistisch informierte Vermutungen
Neben dieser technischen Debatte wurde auch eine moralische Debatte ausgelöst
- AI mache die Mächtigen reicher, verbrauche genug Energie, um den Klimawandel zu beschleunigen, und entfremde Arbeiter
- Harpers Schlussfolgerung: „Die Grundlage der AI-Industrie ist Betrug“

Neubewertung durch Neurowissenschaftler

Der Harvard-Kognitionswissenschaftler Samuel J. Gershman: „Das Argument der ‚stochastischen Papageien‘ muss irgendwann ein Ende haben“
- „Nur die hartnäckigsten Skeptiker können leugnen, dass diese Systeme Dinge tun, von denen die meisten von uns nicht geglaubt hätten, dass sie erreichbar sind“
Der kognitive Neurowissenschaftler Jonathan Cohen aus Princeton betont zwar die Grenzen von AI, argumentiert aber zugleich, dass LLMs den größten und wichtigsten Teil des menschlichen Gehirns widerspiegeln
- „Als erste Näherung ist der Neokortex ein Deep-Learning-Mechanismus“
- Menschen besitzen im Verhältnis zu ihrer Körpergröße einen weit größeren Neokortex als andere Tiere
- Arten mit dem größten Neokortex (Elefanten, Delfine, Gorillas, Schimpansen, Hunde) sind die intelligentesten

Verstehen ist Kompression, und Kompression ist Verstehen

Kernaussage aus dem Buch "What Is Thought?" des Machine-Learning-Forschers Eric B. Baum aus dem Jahr 2003
- Verstehen ist Kompression, und Kompression ist Verstehen
Lineare Regression in der Statistik: eine "bestmögliche Gerade" über die Punkte in einem Diagramm legen
- Wenn den Daten eine grundlegende Regelmäßigkeit zugrunde liegt (Schuhgröße und Körpergröße), bildet die bestmögliche Gerade diese effizient ab und sagt neue Punkte voraus
Der Neokortex destilliert das Meer roher Erfahrungen (Geräusche, visuelle Eindrücke und andere Sinnesreize) zu einer "bestmöglichen Gerade" und nutzt sie für Vorhersagen
- Ein Baby rät etwa, wie Spielzeug schmecken könnte oder wohin Essen fällt, wenn es auf den Boden fällt
- Wenn die Vorhersage falsch ist, werden die Verbindungen zwischen den Neuronen angepasst
- Mit der Zeit erfassen die Verbindungen die Regelmäßigkeiten in den Daten
- Es entsteht ein komprimiertes Modell der Welt

Kompression und Intelligenz von AI-Modellen

Auch künstliche neuronale Netze komprimieren Erfahrungen wie reale neuronale Netze
Das führende Open-Source-AI-Modell DeepSeek
- Kann Romane schreiben, medizinische Diagnosen vorschlagen und in Dutzenden Sprachen wie ein Muttersprachler sprechen
- Wurde mit mehreren Terabyte Daten auf die Vorhersage des nächsten Tokens trainiert
- Nach dem Download ist es nur noch ein Sechshundertstel der Originalgröße
- Ein Destillat des Internets, komprimiert, damit es auf einen Laptop passt
Ted Chiang hatte recht, als er frühes ChatGPT als verschwommenes JPEG des Webs bezeichnete, aber der Autor meint, genau das habe die Modelle immer intelligenter gemacht
Chiang selbst wies auch darauf hin: Wenn man eine Textdatei mit Millionen Rechenbeispielen komprimieren will, muss man kein zip-Archiv erstellen, sondern ein Rechenprogramm schreiben
- "Die beste Kompression lässt sich erreichen, indem man den Text versteht"
- Möglicherweise haben LLMs genau damit begonnen

Verschiedene Arten des Denkens

Sich vorzustellen, dass Computerprogramme tatsächlich verstehen und denken, kann unnatürlich und abstoßend wirken
Denken wird meist als etwas Bewusstes konzeptualisiert
- ein innerer Monolog im Stil von Joyce
- ein Strom sinnlicher Erinnerungen im Stil von Proust
- Schlussfolgern: ein Problem Schritt für Schritt lösen
In Debatten über AI werden diese verschiedenen Arten des Denkens verwechselt, wodurch das Urteil oberflächlich wird
- Die Behauptung, ChatGPT denke offensichtlich nicht, weil es keine Tagträume im Stil von Proust habe
- Die Behauptung, ChatGPT denke offensichtlich, weil es logische Rätsel besser lösen könne
Tatsächlich geschieht etwas Subtileres: Der Autor glaubt nicht, dass ChatGPT ein Innenleben hat, aber es scheint zu wissen, wovon es spricht

Douglas Hofstadters Theorie der Kognition

Professor für Kognitionswissenschaft und Vergleichende Literaturwissenschaft an der Indiana University
"Kognition ist Wiedererkennen"
Bekannt durch "Gödel, Escher, Bach: An Eternal Golden Braid", ausgezeichnet 1980 mit dem Pulitzer-Preis
Eine Theorie, die er über Jahrzehnte entwickelte: "etwas als etwas sehen (seeing as) ist das Wesen des Denkens"
- Einen Farbfleck als Auto erkennen, einen anderen als Schlüsselanhänger
- Den Buchstaben "A" erkennen, egal in welcher Schriftart oder wie unleserlich er geschrieben ist
Derselbe Prozess bildet die Grundlage abstrakterer Formen des Erkennens
- Wenn ein Schachmeister ein Brett betrachtet, verdichten sich Jahre der Übung zu einer bestimmten Sichtweise: der weiße Läufer ist schwach, das Endspiel endet wahrscheinlich remis
- Einen Wasserwirbel als Zeichen erkennen, dass das Durchqueren gefährlich ist
- Ein Meeting als Situation vom Typ "Des Kaisers neue Kleider" erkennen
- Der zweijährige Sohn des Autors erkennt, dass ein Spaziergang im Kinderwagen am späten Vormittag eine Chance auf ein Croissant sein könnte, und verlangt danach
Für Hofstadter ist das der Kern von Intelligenz

Pentti Kanervas Theorie hochdimensionaler Räume

Hofstadter gehörte ursprünglich zu den prominenten Skeptikern gegenüber AI
- Er schrieb, dass der Großteil der AI-Forschung nichts mit echtem Denken zu tun habe, und der Autor stimmte ihm in seiner Studienzeit in den 2000ern zu
Eine Ausnahme: Er interessierte sich für eine Gruppe an der UC San Diego und bewunderte die Arbeit des wenig bekannten finnisch-amerikanischen Kognitionswissenschaftlers Pentti Kanerva
Kanerva entdeckte ungewöhnliche Eigenschaften in der Mathematik hochdimensionaler Räume
- In hochdimensionalen Räumen können zwei beliebige Punkte sehr weit voneinander entfernt sein
- Paradoxerweise hat aber jeder Punkt eine große Wolke von Nachbarn um sich, sodass er leicht zu finden ist, wenn man "nah genug" kommt
- Das erinnert daran, wie Gedächtnis funktioniert
In seinem Buch "Sparse Distributed Memory" von 1988 argumentierte er, dass Gedanken, Empfindungen und Erinnerungen als Koordinaten in hochdimensionalen Räumen dargestellt werden können
- Das Gehirn ist die perfekte Hardware, um so etwas zu speichern
- Jede Erinnerung hat eine Art Adresse, definiert durch die Neuronen, die beim Abruf aktiviert werden
- Neue Erfahrungen lassen neue Mengen von Neuronen feuern und erzeugen so neue Adressdarstellungen
- Zwei Adressen können sich in vielerlei Hinsicht unterscheiden und sich in anderer Hinsicht ähneln
- Eine Wahrnehmung oder Erinnerung kann andere Erinnerungen in der Nähe auslösen
Beispiele: Der Geruch von Heu ruft Erinnerungen an ein Sommerlager hervor, die ersten drei Töne von Beethovens Fünfter lassen den vierten Ton erwarten, eine nie gesehene Schachstellung erinnert an alte Partien

Hofstadters Kehrtwende

Hofstadter erkannte, dass Kanerva eine "seeing-as-Maschine" beschrieb
Im Vorwort zu Kanervas Buch schrieb er: "Pentti Kanervas Gedächtnismodell war für mich eine Offenbarung. Es war die erste Forschung, die mir einen Blick auf das ferne Ziel erlaubte, zu verstehen, wie das Gehirn als Ganzes funktioniert"
Alle Arten des Denkens — im Stil von Joyce, von Proust oder logisch — hängen davon ab, dass das Richtige zum richtigen Zeitpunkt in den Sinn kommt
- So erfassen wir, in welcher Situation wir uns befinden
Kanervas Buch geriet aus dem Blickfeld, und auch Hofstadters eigener Ruhm verblasste
- Gelegentlich tauchte er nur noch als Kritiker neuer AI-Systeme auf
2018 sagte er über Google Translate und andere Systeme: "Etwas, das durch das Wort understanding vermittelt wird, fehlt diesem Ansatz immer noch auf tiefe Weise"
Mit der Veröffentlichung von GPT-4 im Jahr 2023 kam Hofstadters Moment der Kehrtwende
- "Ich bin von manchen Dingen, die diese Systeme tun, verblüfft. Vor zehn Jahren hätte ich mir das nicht vorstellen können"
- Selbst die hartnäckigsten Skeptiker können sie nicht mehr kleinreden
- Ein Programm, das so gut wie Experten übersetzen, Analogien bilden, improvisieren und verallgemeinern kann
- Man kann nicht mehr sagen, dass es nicht versteht
"Es tut etwas, das dem Denken sehr ähnelt. Auf eine etwas fremdartige Weise, aber man kann sagen, dass es denkt"

Der hochdimensionale Vektorraum von LLMs

LLMs besitzen im Kern eine "seeing-as-Maschine"
Jedes Wort wird als Zahlenfolge dargestellt, die Koordinaten in einem hochdimensionalen Raum repräsentiert, also als Vektor
In GPT-4 haben Wortvektoren tausende Dimensionen und beschreiben feine Abstufungen von Ähnlichkeiten und Unterschieden zu allen anderen Wörtern
Während des Trainings passt das Modell die Wortkoordinaten an, wenn Vorhersagefehler auftreten
- Wörter, die im Text gemeinsam vorkommen, wandern im Raum näher zusammen
So entsteht eine erstaunlich dichte Darstellung von Gebrauch und Bedeutung, und Analogien werden zu einem Problem der Geometrie
Das klassische Beispiel: Zieht man vom Wortvektor "Paris" "France" ab und addiert "Italy", ist der nächstgelegene andere Vektor "Rome"
LLMs "vektorisieren" auch Bilder und kodieren dabei Inhalt, Stimmung und sogar Gesichtsausdrücke
- Mit genug Details, um sie in einem bestimmten Stil neu zu zeichnen oder einen Absatz darüber zu schreiben
Als Max um Hilfe mit dem Sprinkler auf dem Spielplatz bat, stieß das Modell nicht bloß Text aus
- Das Foto der Wasserleitung wurde zusammen mit Max' Prompt zu einem Vektor komprimiert, der die wichtigsten Merkmale erfasst
- Der Vektor dient als Adresse, um nahegelegene Wörter und Konzepte aufzurufen
- Ideen rufen nacheinander weitere Ideen auf, während das Modell ein Gefühl für die Situation aufbaut
- Und schreibt die Antwort, indem es diese Ideen "im Kopf behält"

Anthropics Forschung zur Erkundung des Inneren

Der Autor las ein Interview mit dem Anthropic-Forscher Trenton Bricken
- Zusammen mit Kollegen arbeitete er daran, das Innere von Claude zu erkunden (Anthropics Reihe von KI-Modellen)
- Die Forschung wurde weder peer-reviewt noch in einer wissenschaftlichen Fachzeitschrift veröffentlicht
Das Team identifizierte Ensembles künstlicher Neuronen oder „Features“, die aktiv werden, wenn Claude bestimmte Inhalte aussprechen will
Features funktionieren wie Lautstärkeregler für Konzepte
- Dreht man sie hoch, spricht das Modell nur noch darüber
- In einem Experiment zur Steuerung des Denkens führte das Verstärken des Features für die Golden Gate Bridge dazu, dass auf die Bitte um ein Rezept für Schokoladenkuchen Zutaten wie „1/4 Tasse trockener Nebel“ und „1 Tasse warmes Meerwasser“ vorgeschlagen wurden
Bricken erwähnte Googles Transformer-Architektur
- Das Konstruktionsrezept für neuronale Netze, das die Grundlage der wichtigsten KI-Modelle bildet
- Das „T“ in ChatGPT steht für „Transformer“
Bricken behauptet, dass die Mathematik im Kern der Transformer-Architektur dem Modell sehr nahekommt, das Pentti Kanerva vor Jahrzehnten in „Sparse Distributed Memory“ vorgeschlagen hat

Der wechselseitige Einfluss von Neurowissenschaft und KI

Sollten wir über die Entsprechungen zwischen KI und dem menschlichen Gehirn überrascht sein?
- LLMs sind künstliche neuronale Netze, an deren Entwicklung Psychologen und Neurowissenschaftler mitgewirkt haben
Erstaunlicher ist, dass Modelle beim Üben einer einfachen Aufgabe, nämlich der Wortvorhersage, anfangen, sich auf gehirnähnliche Weise zu verhalten
Heute sind Neurowissenschaft und KI eng miteinander verflochten
- Hirnforscher verwenden KI als eine Art Modellorganismus
Die MIT-Neurowissenschaftlerin Evelina Fedorenko untersucht mit LLMs, wie das Gehirn Sprache verarbeitet
- „Ich hätte nie gedacht, dass ich mein ganzes Leben lang über solche Dinge nachdenken könnte. Ich hätte nie gedacht, dass wir ein ausreichend gutes Modell haben würden.“
Oft heißt es, KI sei eine Black Box, aber das Gegenteil könnte wahr sein
- Wissenschaftler können die Aktivität einzelner künstlicher Neuronen untersuchen und sogar verändern
Der Princeton-Neurowissenschaftler Kenneth Norman: „Ein funktionierendes System zu besitzen, das Theorien menschlicher Intelligenz umsetzt, ist der Traum der kognitiven Neurowissenschaft“
- Er erstellte Computermodelle des Hippocampus (der Hirnregion, die episodische Erinnerungen speichert), doch früher waren sie so simpel, dass man nur grobe Näherungen dessen einspeisen konnte, was in den menschlichen Geist gelangen könnte
- „Jetzt können wir dem Gedächtnismodell exakt dieselben Reize geben wie einem Menschen“

Die Metapher der Brüder Wright

Die Brüder Wright untersuchten Vögel bei ihren frühen Bemühungen, Flugzeuge zu bauen
- Sie entdeckten, dass Vögel gegen den Wind starten (ein vernünftiger Mensch hätte wohl angenommen, dass man den Wind lieber im Rücken haben möchte)
- Sie bogen die Flügelspitzen, um das Gleichgewicht zu halten
Diese Entdeckungen beeinflussten das Design ihrer primitiven Gleiter
Später bauten sie einen sechs Fuß langen Windkanal, um unter präzise kontrollierten Bedingungen eine Reihe künstlicher Flügel zu testen
Der nächste Gleitflug war deutlich erfolgreicher
Seltsamerweise wurde erst nach dem Bau einer funktionierenden Flugmaschine verständlich, wie Vögel es genau machen

Windkanal-Experimente für das Denken selbst

KI ermöglicht es Wissenschaftlern, das Denken selbst in einen Windkanal zu stellen
In der Anthropic-Arbeit „On the Biology of a Large Language Model“ (ein provokanter Titel)
- beobachteten Forscher, wie Claude auf Anfragen antwortet, und beschrieben „Schaltkreise“ als Ketten von Features, die gemeinsam komplexe Berechnungen ausführen
- Das Abrufen der richtigen Erinnerung ist ein Schritt hin zum Denken
- Erinnerungen in Schaltkreisen zu kombinieren und zu manipulieren, ist ein weiterer Schritt
Eine alte Kritik an LLMs lautet, dass sie nicht planen oder schlussfolgern können, weil sie Antworten nur Token für Token erzeugen
Wenn Claude gebeten wird, in einem Gedicht einen gereimten Forschungsvers zu vervollständigen, sorgt ein Schaltkreis zuerst dafür, das letzte Wort der neuen Zeile zu berücksichtigen, um den Reim sicherzustellen
- Danach arbeitet er rückwärts, um die ganze Zeile zu schreiben
Anthropic-Forscher sehen darin einen Beleg dafür, dass das Modell tatsächlich an Planung beteiligt ist
Wenn man nur ein wenig die Augen zusammenkneift, kann es sich anfühlen, als käme das Innenleben des Geistes zum ersten Mal in Sicht

Die Notwendigkeit eines mittleren Skeptizismus

Der Princeton-Neurowissenschaftler Norman: „Meine Sorge ist, dass Menschen von ‚dem gegenüber wirklich skeptisch‘ dazu umgeschaltet haben, ihre Verteidigung komplett fallen zu lassen“
- „Es gibt noch vieles, das geklärt werden muss“
Der Autor ist einer der Menschen, von denen Norman spricht (möglicherweise war er zu leicht beeindruckt von der Konvergenz zwischen Sparse Distributed Memory und dem Anthropic-Modell)
In den vergangenen ein bis zwei Jahren begann er Geoffrey Hinton zu glauben: „Deep Learning wird wohl alles können“ (Hinton erhielt kürzlich den Nobelpreis für seine KI-Forschung)
Größere Modelle sind jedoch nicht immer bessere Modelle
- Die Kurve, die die Modellleistung im Verhältnis zur Größe darstellt, beginnt sich abzuflachen
- Es wird schwieriger, hochwertige Daten zu finden, die die Modelle noch nicht „verdaut“ haben, und Rechenleistung wird immer teurer
Als GPT-5 im August veröffentlicht wurde, war es nur eine schrittweise Verbesserung
- Eine so große Enttäuschung, dass sie die KI-Investitionsblase zum Platzen bringen könnte
Der gegenwärtige Moment verlangt nach einer mittleren Form des Skeptizismus
- Die heutigen KI-Modelle ernst zu nehmen, ohne zu glauben, dass keine schwierigen Probleme mehr offen sind

Modelle entwerfen, die so effizient wie Menschen lernen

Das wichtigste Problem: Wie entwirft man Modelle, die so effizient lernen wie Menschen?
Es wird geschätzt, dass GPT-4 während des Trainings Billionen von Wörtern ausgesetzt war
- Ein Kind braucht nur einige Millionen, um fließend zu werden
Kognitionswissenschaftler sagen, dass das Gehirn eines Neugeborenen bestimmte „inductive biases“ besitzt, die das Lernen beschleunigen
- Natürlich ist das Gehirn das Ergebnis von Millionen Jahren Evolution (was selbst eine Art Trainingsdaten ist)
Menschliche Babys haben Erwartungen darüber, dass die Welt aus Objekten besteht und andere Wesen Überzeugungen und Absichten haben
- Wenn die Mutter „Banane“ sagt, verknüpft das Kleinkind dieses Wort nicht mit dem Ende oder der Schale, sondern mit dem ganzen gelben Objekt, das sie ansieht
Kleinkinder führen kleine Experimente durch: Kann man das essen? Wie weit kann ich das werfen?
Sie werden durch Emotionen wie Verlangen, Neugier und Frustration motiviert
Kinder versuchen ständig, etwas zu tun, das knapp über ihren aktuellen Fähigkeiten liegt
Lernen ist effizient, weil es verkörpert, adaptiv, absichtsvoll und kontinuierlich ist
Um die Welt wirklich zu verstehen, muss man sich womöglich in ihr betätigen

Die dürftige Erfahrung der KI

Die Erfahrung von KI ist so dürftig, dass man sie eigentlich nicht einmal „Erfahrung“ nennen kann
Große Sprachmodelle werden mit bereits enorm stark aufbereiteten Daten trainiert
Der UC-Berkeley-Neurowissenschaftler Tsao: „Dass es funktioniert, liegt daran, dass es auf Sprache aufsattelt“
- Sprache ist wie vorgekaute Erfahrung
- Andere Datentypen haben eine geringere Bedeutungsdichte
Der Harvard-Kognitionswissenschaftler Gershman: „Warum gab es keine ähnliche Revolution im Bereich des Schlussfolgerns über Videodaten?“
- Die Art von Vision-Modellen, die wir haben, hat nach wie vor Schwierigkeiten mit alltagsphysikalischem Schlussfolgern
Ein aktuelles Modell von DeepMind kann Videos erzeugen, in denen Farbe korrekt gemischt und Labyrinthe gelöst werden
- Es stellt jedoch auch dar, wie Glas hochspringt statt zu zerbrechen und wie Seile unter Missachtung der Physik zu Knoten zerknittern
Die Kognitionsneurowissenschaftlerin Ida Momennejad von Microsoft Research führte ein Experiment durch, bei dem einem LLM eine virtuelle Führung durch ein Gebäude gegeben wurde und anschließend Fragen zu Routen und Abkürzungen gestellt wurden
- Für Menschen ist das eine leichte Form des räumlichen Schlussfolgerns
- Abgesehen von den allereinfachsten Setups scheiterte die KI oder halluzinierte nicht existierende Wege
- „Plant sie wirklich? Eher nicht“

Der gedankenlose Sturm der KI-Industrie

In Gesprächen mit Neurowissenschaftlern nahm der Autor die Sorge wahr, dass die AI-Industrie etwas gedankenlos voranrast
Der Princeton-Kognitionswissenschaftler Brenden M. Lake: Wenn das Ziel darin bestehe, einen künstlichen Geist zu schaffen, der so leistungsfähig ist wie der menschliche, dann „trainieren wir die Systeme nicht auf die richtige Weise“
Wenn AI ihr Training abgeschlossen hat, wird das „Gehirn“ des neuronalen Netzes eingefroren
- Wenn man dem Modell Fakten über sich selbst mitteilt, werden die Neuronen nicht neu verschaltet
- Stattdessen wird ein grober Ersatz verwendet: ein wenig Text wird notiert („Der Nutzer hat ein Kleinkind und lernt Französisch“)
- Das wird berücksichtigt, bevor weitere Anweisungen gegeben werden
Das menschliche Gehirn aktualisiert sich fortlaufend selbst
Eine schöne Theorie zu einem der Mechanismen: Im Schlaf werden aus episodischen Erinnerungen ausgewählte Schnappschüsse abgespielt, um den Neokortex zu trainieren
- Der hochdimensionale Denkraum wird durch die abgespielten Erinnerungen eingedellt
- Man wacht mit einer leicht neuen Sichtweise auf

Probleme der AI-Community

Die AI-Community ist finanziell so stark in den rasenden Fortschritt investiert und davon abhängig, dass sie manchmal so tut, als sei weiterer Fortschritt unvermeidlich und als gebe es keine Wissenschaft mehr zu betreiben
Wissenschaft hat mitunter die unangenehme Eigenschaft zu stocken
Zwar nennt Silicon Valley AI-Unternehmen „Labs“ und einige Mitarbeitende „Forscher“, doch im Kern ist es eine Engineering-Kultur, die alles tut, was funktioniert
Cohen: „Ich bin immer wieder erstaunt, wie wenig es die Machine-Learning-Community interessiert, auf ihre eigene Vorgeschichte und die Kognitionswissenschaft zu schauen oder sie zu respektieren“

Grundlegende Unterschiede zum Gehirn

Die heutigen AI-Modelle verdanken ihren Erfolg zwar Entdeckungen über das Gehirn aus vergangenen Jahrzehnten, unterscheiden sich aber weiterhin tiefgreifend vom Gehirn
Welche Unterschiede sind nebensächlich, und welche sind grundlegend?
- Jede Gruppe von Neurowissenschaftlern hat ihre eigene Theorie
- Diese Theorien lassen sich nun auf eine Weise testen, die früher unmöglich war
Doch niemand erwartet eine einfache Antwort
Die Probleme, die AI-Modelle weiterhin plagen, werden „gelöst, indem man sorgfältig identifiziert, auf welche Weise die Modelle sich nicht so intelligent verhalten, wie wir es möchten, und das dann behebt“
- „Das ist immer noch ein Prozess mit menschlichen Wissenschaftlern im Loop“

Vergleich mit dem Human Genome Project

In den 1990er Jahren flossen Milliarden Dollar in das Human Genome Project
- In der Annahme, dass DNA-Sequenzierung die schwierigsten Probleme der Medizin lösen könne (Krebs, Erbkrankheiten, sogar das Altern)
Eine Zeit der Großspurigkeit und des Selbstvertrauens
- Die Ära des geklonten Schafs Dolly und von „Jurassic Park“
- Biotechnologie hatte die Oberhand, und Kommentatoren fragten sich, ob der Mensch Gott spielen sollte
Biologen stellten bald fest, dass die Realität komplizierter war
- Sie heilten weder Krebs noch fanden sie die Ursachen von Alzheimer oder Autismus
- Sie lernten, dass DNA nur einen Teil der Geschichte des Lebens erzählt
Tatsächlich ließe sich argumentieren, dass die Biologie von einer Art Gen-Hype erfasst wurde
- Weil es Mittel gab, DNA zu erforschen und zu verstehen, fixierte man sich auf DNA
Doch niemand würde behaupten, Francis Crick habe sich geirrt, als er 1953 nach der Bestätigung der DNA-Struktur in einen Pub in Cambridge ging und verkündete, „wir haben das Geheimnis des Lebens entdeckt“
- Er und seine Kollegen taten mehr als fast alle anderen, um das Leben zu entmystifizieren
- Die Jahrzehnte nach ihrer Entdeckung gehörten zu den produktivsten und aufregendsten in der Wissenschaftsgeschichte
- DNA wurde zu einem allgemein bekannten Begriff, und jeder Oberstufenschüler lernte etwas über die Doppelhelix

Ausblick und Sorgen im AI-Zeitalter

Auch bei AI erleben wir erneut einen Moment der Großspurigkeit und des Selbstvertrauens
Sam Altman spricht davon, eine halbe Billion Dollar einzusammeln, um in den USA Stargate aufzubauen, einen neuen Cluster von AI-Rechenzentren
Menschen diskutieren das Rennen um Superintelligenz mit einem Ernst und einer Dringlichkeit, die unbegründet und sogar lächerlich wirken können
Der Verdacht des Autors: Der Grund, warum Menschen wie Amodei und Altman messianische Erklärungen abgeben, ist, dass sie glauben, das grundlegende Bild der Intelligenz sei gelöst
- Alles Weitere seien nur Details

Geteilte Reaktionen unter Neurowissenschaftlern

Auch einige Neurowissenschaftler glauben, dass ein wichtiger Schwellenwert überschritten wurde
Uri Hasson aus Princeton: „Ich glaube wirklich, dass neuronale Netze das richtige Modell der Kognition sein könnten“
- Das begeistert ihn ebenso sehr, wie es ihn wütend macht
Hasson: „Ich habe die gegenteilige Sorge wie die meisten Leute“
- „Meine Sorge ist nicht, dass diese Modelle uns ähnlich sind. Meine Sorge ist, dass wir diesen Modellen ähnlich sind“
Wenn einfache Trainingstechniken Programme dazu bringen können, sich wie Menschen zu verhalten, dann sind Menschen vielleicht nicht so besonders, wie wir dachten
Das könnte auch bedeuten, dass AI uns nicht nur beim Wissen, sondern auch bei Urteilsvermögen, Originalität und Raffinesse übertreffen und dadurch letztlich auch an Macht gewinnen könnte
Hasson: „Ich mache mir inzwischen Sorgen, dass wir tatsächlich erfolgreich darin sein könnten zu verstehen, wie das Gehirn funktioniert“
- „Es könnte ein gewaltiger Fehler der Menschheit gewesen sein, dieser Frage nachzugehen“
Er vergleicht AI-Forscher mit den Atomwissenschaftlern der 1930er Jahre
- „Das ist die aufregendste Zeit im Leben dieser Menschen. Gleichzeitig wissen sie, dass das, woran sie arbeiten, enorme Folgen für die Menschheit hat. Aber aus Neugier auf das Lernen können sie nicht aufhören“

Hofstadters zwiespältige Gefühle

Das Lieblingsbuch des Autors von Hofstadter: „Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought“
- Es versetzte den Autor in seinen Studienjahren in Aufregung
- Die Prämisse: Fragen wie „Was ist Denken?“ sind nicht nur philosophisch, sondern haben tatsächlich eine Antwort
- Als es 1995 erschien, konnten Hofstadter und seine Forschungsgruppe nur andeuten, wie diese Antwort aussehen könnte
Der Autor fragte sich, ob Hofstadter begeistert wäre, weil AI-Forscher vielleicht genau das erreicht haben, wonach Hofstadter sich sehnte: eine mechanistische Erklärung der Grundlagen des Denkens
Im Gespräch klang Hofstadter jedoch so, als sei er zutiefst enttäuscht und verängstigt
Die aktuelle AI-Forschung „bestätigt viele meiner Ideen, aber sie raubt dem, was die Menschheit ist, ihre Schönheit“
„Als ich viel jünger war, wollte ich die Grundlagen der Kreativität kennen, die Mechanismen der Kreativität. Das war für mich der heilige Gral. Aber jetzt möchte ich, dass es ein Geheimnis bleibt“
Das Geheimnis des Denkens könnte einfacher sein, als irgendjemand erwartet hatte
- Vielleicht von einer Art, die selbst Oberstufenschüler oder sogar Maschinen verstehen können

7 Kommentare

bobcat 2025-11-07

Maschinelles Lernen umfasst viele Bereiche, aber auffällig ist, dass solche evangelistenhaften Reaktionen nur bei LLMs auftreten. Das ist ausgesprochen interessant.
Selbst wenn man sehr wohlwollend urteilt, bleibt der aktuelle Stand beim chinesischen-Zimmer-Argument hängen; und nachdem man so oft erlebt hat, wie Leute wie Altman mit AGI bluffen, sehe ich das umso kritischer.

savvykang 2025-11-08

Das liegt wohl einfach daran, dass es der neueste Trend ist.

conanoc 2025-11-06

Das ist genau das Gebiet, das mich am meisten interessiert, also wirklich spannend.

Dass im Teil zur Erklärung von Verständnis Vektor-Embeddings erwähnt wurden, entspricht auch meiner Sicht. Verstehen ist letztlich Ähnlichkeit, und diese Ähnlichkeit lässt sich als Vektorähnlichkeit umsetzen. Wir können ein neues Objekt nur dadurch „verstehen“, dass wir beurteilen, wie ähnlich es dem ist, was wir bereits kennen.

Denken baut auf Verstehen auf, hat aber einen anderen Charakter. Denken kommt eher einer „mit dem Kopf ausgeführten Handlung“ nahe, und auch die Next-Token-Generierung eines LLM kann man als eine Art „Handlung“ sehen, sodass man sagen kann, dass auch ein LLM denkt. Die Frage ist nicht, ob ein LLM denken kann, sondern ob es „so gut wie ein Mensch“ denken kann, und daran mangelt es derzeit noch deutlich.

ndrgrd 2025-11-06

Ich habe bisher keinen Coding-Agenten gefunden, mit dem ich wirklich zufrieden wäre ... Die meiste Arbeit muss man selbst erledigen, und sobald man ihnen mehr als Autovervollständigung oder Aufgaben auf Snippet-Niveau gibt, scheitern sie.
Mich würde interessieren, was im Beispiel des Haupttextes verwendet wird.