Rich Suttons KI-Kreativität und Entdeckung
(twitter.com/RichardSSutton)- Durch überwachtes Lernen trainierte generative KI ist ein Imitationsmodell, das sich ähnlich wie Beispiele verhält; selbst wenn sie nützlich ist, hat sie Grenzen bei neuen Entdeckungen in Wissenschaft und Mathematik
- Bei Internetantworten oder Dokumentzusammenfassungen wird Neuartigkeit eher zur Halluzination, und gute Antworten entstehen aus der Qualität des Quellenmaterials
- Selbst in Fällen, in denen Neuartigkeit nötig ist, etwa bei Romanen oder Bildgenerierung, ist schwer zu erkennen, wie nah die Ausgabe am Trainingsmaterial ist; Zufälligkeit erzeugt Neuartigkeit, wird aber ohne Bewertung nicht zu einer guten Entdeckung
- Systeme wie AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code und RL-Lyft finden durch Bewertung und selektive Bewahrung neue und gute Ergebnisse
- Wenn man einen vollständigen KI-Wissenschaftler will, muss man explizite Ziele teilen, damit die KI erzeugen, bewerten und entdecken kann; nötig ist die Automatisierung von Kreativität und Entdeckung
Grenzen und Nutzen generativer KI
- Generative KI ist ein Imitationsmodell, das mit vielen Beispielen trainiert wird und Texte wie Menschen erzeugt, Bilder wie Künstler oder die Natur erstellt oder Videos wie im Internet produziert
- Generative KI kann sehr nützlich sein, aber auf weite Teile trifft die alte Pointe zu: „Die guten Teile sind nicht neu, und die neuen Teile sind nicht gut.“
- Wenn man im Internet nach Antworten sucht oder Dokumente zusammenfasst, muss KI nicht neuartig sein, und die Qualität der Antwort kommt aus dem Quellenmaterial wie Dokumentautoren oder Internetbeiträgen
- Wenn eine KI-Antwort über das Quellenmaterial hinaus etwas hinzufügt, ist das eine Halluzination, und in den meisten Fällen wollen Nutzer nicht, dass die KI etwas erfindet
Das Problem von Neuartigkeit, Zufälligkeit und Bewertung
- Wenn Nutzer nicht Fakten oder Realität, sondern Romane und Unterhaltung wollen, ist Neuartigkeit ausnahmsweise erforderlich
- Man kann generative KI um eine Gute-Nacht-Geschichte für ein Kind bitten oder um ein Bild, das sich von bestehenden Internetbildern unterscheidet und doch auf ihnen basiert
- Weil das Internet zu groß ist und es zu viele mögliche Quellen gibt, ist praktisch schwer zu erkennen, wie kreativ die Geschichten, Gedichte oder Bilder einer KI tatsächlich sind
- Die Verarbeitung generativer KI ist teilweise stochastisch, sodass jede Entscheidung mehrere Richtungen nehmen und jedes Mal eine andere Trajektorie erzeugen kann
- Wenn eine Trajektorie auf Zufall basiert, ist sie neu, und wenn sie auf Trainingsdaten basiert, kann sie wegen der Datenqualität gut sein, aber sie ist nicht gleichzeitig neu und gut
Entdeckungen, die Wissenschaft und Mathematik brauchen
- Auch wenn generative KI nicht zugleich gut und neu sein kann, ist das für die meisten Anwendungen kein fatales Problem; wenn sie schnell, billig, klein, anpassbar und replizierbar ist, kann sie eine transformative Technologie sein
- In Wissenschaft und Mathematik reicht bloß imitierende KI nicht aus; nötig sind echte Kreativität und Entdeckung
- Zug 37 von AlphaGo, der originelle Schachstil von AlphaZero und die Leistung von GT-Sophy im Simulationsrennen sind Beispiele dafür, dass etwas Neues und Gutes gefunden wurde
- AlphaFold, AlphaProof und Claude-Code werden als Beispiele genannt, die in Wissenschaft, Mathematik und Programmierung echten Fortschritt gebracht haben
- RL-Lyft ist ein System, das optimiert, wie im Ride-Hailing-Geschäft Fahrzeuge den Fahrgästen zugewiesen werden
- Einige Sprachmodelle wurden so verstärkt, dass sie über generative KI auf Basis überwachtem Lernen hinausgehen
Die drei Stufen der Entdeckung
- Entdeckung ist der Prozess, viele Dinge auszuprobieren, zu sehen, was funktioniert, und dann das zu behalten, was am besten funktioniert hat
- Evolution durch natürliche Selektion, die wissenschaftliche Methode sowie Alltag und Lernen funktionieren alle so, dass man etwas ausprobiert und sich merkt, was funktioniert hat
- In der Psychologie nennt man das instrumentelles Lernen oder operante Konditionierung, im maschinellen Lernen Reinforcement Learning
- Auch bei Planung und kombinatorischer Suche funktioniert die Idee der Entdeckung als „generieren und testen“
- Der Kern der Entdeckung ist die Verbindung von drei Stufen: Variation, Bewertung und selektive Bewahrung
- Mit überwachtem Lernen allein gibt es zur Laufzeit keine Möglichkeit, Erzeugnisse zu bewerten; ohne Bewertung gibt es auch keine selektive Bewahrung und damit keine Entdeckung
- Neuartigkeit kann kurz auftauchen, aber wenn ihr Wert nicht erkannt wird, verschwindet sie und geht verloren
Bewertung, Ziele und Autonomie
- Wenn ein Mensch mit generativer KI mehrere Bilder erstellt und eines auswählt, das ihm gefällt, vollendet das Mensch+KI-System die Entdeckung
- Auch bei klaren Zielen ist Bewertung möglich: Manche Züge führen zum Schachmatt, manche Schritte zu einem Beweis und manche Handlungen zu hoher Belohnung
- Manche Genotypen erzeugen mehr Replikation, und manche Theorien erklären Daten besser
- Variation muss nicht völlig zufällig sein; ein guter Wissenschaftler wählt die zu testenden Theorien nicht beliebig aus
- Wenn vollständig feststeht, wo die Antwort liegt, ist es keine Entdeckung; Entdeckung braucht Unsicherheit
- Gewichtsaktualisierungen durch Backpropagation sind deterministisch, aber die Gewichte werden mit kleinen Zufallswerten initialisiert, sodass Variation vorhanden ist
- Zufällige Initialisierung ist eine notwendige Form von Variation, die richtig durchgeführt werden muss, um gute Leistung zu erzielen
- Bei Backpropagation tritt Variation nur einmal bei der Netzwerkinitialisierung auf, daher ist ihre Wirkung vorübergehend, und später kann das Netzwerk seine Lernfähigkeit verlieren
- „continual backpropagation“ initialisiert seltener genutzte Neuronen gelegentlich mit kleinen zufälligen Gewichten neu, damit die Variation fortbesteht und die Plastizität erhalten bleibt
- Entdeckung braucht Bewertung durch Menschen oder durch explizite Ziele; vollständige Autonomie ist möglich, wenn explizite Ziele die Bewertung liefern
- Wenn man die vollen Fähigkeiten eines KI-Wissenschaftlers will, muss man Ziele teilen, damit die KI erzeugt, bewertet, entdeckt und an der Zielerreichung mitwirkt
1 Kommentare
Hacker-News-Kommentare
Wie beim Coding scheinen die erfolgreichsten Anwendungen nicht das Ergebnis reiner LLM-/generativer Modellierung zu sein, sondern davon, die Schleife mit einem agentischen Harness zu schließen
Die Schleife aus Generieren, Testen und selektiver Verbesserung ist das Kernmuster wissenschaftlicher Arbeit, und LLM + Reinforcement Learning mit verifizierbarer Belohnung + Feedback durch Compiler-/Terminal-Ausführung bildet diesen Prozess ziemlich gut nach
Das kommt einer auf modernen Rechensystemen implementierten Fisher/Box-Feedbackschleife nahe (https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...), und das LLM ist dabei nur ein Baustein
Schade, dass Sutton nicht das heutige Gesamtbild behandelt hat und sich nur auf LLMs/Backpropagation konzentriert. Mich interessiert wirklich, ob solche Schleifen Entdeckungen zumindest teilweise automatisieren können
Zu Entdeckungen gehört noch mehr, und es ist weiterhin unklar, woher anfängliche Funktionsmodelle/Hypothesen kommen oder wie Updates ausgewählt werden. Ich habe gesehen, dass Hansons Patterns of Discovery in diese Richtung geht; ich habe es noch nicht gelesen, frage mich aber, ob es mechanistische Hinweise gibt
Allein mit Reinforcement Learning ist es oft schwer, überhaupt eine Belohnung zu erreichen, weshalb Aufgaben nur mit reinem RL schwer zu lernen sind. Auch Menschen lösen Entdeckungsprobleme, indem sie Aufsichtssignale aus Büchern mit explorativer Problemsuche kombinieren; jemand ohne jede anfängliche Ausbildung in Mathematik wird selbst bei hoher Intelligenz kaum Großes leisten. Das Bootstrapping war eine Erkundung, deren Kosten in der Vergangenheit bereits bezahlt wurden
Allerdings sieht das für mich nach denselben Problemen aus, die evolutionäre Algorithmen hatten. Man kann Kandidatenlösungen erzeugen, bis das Geld ausgeht, aber man muss diese Lösungen immer noch bewerten. Man braucht eine Fitnessfunktion, und das bedeutet, dass man zumindest die grobe Form der Lösung kennen muss. Falls jemand Arbeiten zu offeneren Fitnessfunktionen kennt, würde ich sie gern lesen
Wegen dieser mathematischen Grenzen sind LLMs vielleicht nicht der Weg zu echter AGI, aber im Moment scheint das ehrlich gesagt nicht besonders wichtig zu sein
Mir gefällt dieses Framing sehr: „Neu Erzeugtes muss bewertet werden, damit Kreativität entsteht. Ohne Bewertung und das Bewahren der besten Ergebnisse wird nichts erschaffen. Neuheit taucht kurz auf, aber wenn ihr Wert nicht erkannt wird, verschwindet sie und geht verloren“
Viele Leute in den Twitter-Kommentaren, vermutlich auch einige hier, scheinen nach der Einleitung nicht weitergelesen zu haben. Er sagt nicht, dass AI-Systeme keine Kreativität und keine Entdeckungen leisten können, sondern dass generative AI ohne Harness das nicht kann
Das heißt, es braucht ein anderes System, das den Wert neuer Ideen erkennt und speichert. Er zeigt auch Beispiele, in denen dieser Schritt der Werterkennung automatisiert wird und Kreativität sowie Entdeckung in einem vollständig automatischen System im Sinne seiner eigenen Definition erreicht werden
Wenn ich nichts übersehe, gilt dieses Argument nur für das ursprüngliche Vortrainings-Zeitalter (z. B. GPT 1~4). Machen die Paradigmen von Nachtraining und Reinforcement Learning nicht ganz offensichtlich bereits Variation, Bewertung und selektive Bewahrung?
Ich frage mich, ob das ein Vorzeichen dafür ist, dass Keen Tech sich David Silvers Ansatz der Ineffable Intelligence zuwendet
Es gibt also zwar Bewertung und Bewahrung, aber keine Variation oder „Planung“
Das heißt nicht, dass man LLMs nicht nutzen kann. AlphaEvolve macht genau das. Es verwendet nur einen einfachen evolutionären Planer von außen. Sein zentraler Punkt ist, dass unser Planer noch „dumm“ ist und wir hier mehr investieren sollten
Wenn man ein LLM in Claude Code iterativ steuert, übernimmt der Nutzer effektiv die Rolle des externen Planers, und auch das funktioniert gut
Die Problemstellung beim Vergleich von AlphaGo mit solchen generativen AI-Modellen wirkt seltsam.
AlphaGo wurde einer strengen, von außen vorgegebenen Bewertung unterzogen; es hat diese nicht selbst hervorgebracht.
Auch generative AI-Modelle können in vielen Bereichen erfolgreich sein, wenn sie einer strengen externen Bewertung unterzogen werden. Besonders bemerkenswert ist, dass sie von einfachen Programmieraufgaben bis hin zu Mathematik an der Forschungsfront (zuletzt etwa durch das Aufzeigen eines Gegenbeispiels zu einer Vermutung) und dem Schreiben stärker optimierten Kernel-Codes in sehr unterschiedlichen Bereichen Erfolge zeigen.
In Feldern, in denen die Lösung extrem komplex, die Bewertung aber vergleichsweise weniger komplex ist, gibt es auch viel Reinforcement Learning, und Auswahlpfade der Entdeckung sowie „evolutionsähnliche“ Verläufe treten tatsächlich auf.
Deshalb wirkt der Vergleich mit AlphaGo merkwürdig. AlphaGo erhielt in einem engen Bereich eine strenge Bewertung, die von einer externen Quelle, nämlich dem Menschen, kam und unabhängig von ihm selbst war. Auch generative AI kann ziemlich erstaunliche Ergebnisse zeigen, wenn eine solche Bewertung gegeben ist.
Noch seltsamer ist, dass Innovation und Fortschritt in vielen Fällen gar nicht wirklich neue Ideen erfordern, sondern daraus entstehen, unterschiedliche Methoden, Taktiken und Ideen in hoher Qualität schichtweise auszuführen. In vielen Bereichen ist unser kollektives Wissen äußerst spärlich und komplex; deshalb ist die Fähigkeit, Werkzeuge, Modelle und Ideen selektiv in hoher Qualität neu zu kombinieren, sehr mächtig.
Bei einem endlichen Suchhorizont (Zeit, Ressourcen) ist der Unterschied zwischen 1 % und 3 % „guten Entscheidungen“ eine völlig andere Welt.
Am wichtigsten ist, dass es bei dem oben Gesagten nicht um Intelligenz geht, sondern um trockenen Lösungsackerbau für wichtige und wertvolle Probleme, die wir haben. Der Großteil der AGI- und Intelligenzdebatte scheint diese einfache Tatsache zu übersehen. Das ist wie die gängige Analogie, dass es für den Nutzen irrelevant ist, dass ein Flugzeug nicht wie ein Vogel fliegt oder ein U-Boot nicht schwimmt.
Und zuletzt: Glaubt ihr wirklich, dass diese Systeme bei den Problemen, denen gewöhnliche Menschen im Laufe ihres Lebens begegnen, im Durchschnitt nicht besser sein könnten? In einer Realität, in der man in allgemeinen Prüfungen in Wissenschaft oder Medizin mit 60–70 % einen Abschluss bekommt, wie soll man dann menschliche Intelligenz definieren?
Es gibt auch Vögel wie den Albatros, die fast ohne Flügelschlag fliegen.
Ein großer Teil des Deep Learning ist meines Erachtens kompositionelle Generalisierung. Modelle lernen wiederverwendbare Bausteine, also Abstraktionen, Stile, Prozeduren, Einschränkungen usw., und setzen sie auf Weisen neu zusammen, in denen sie als Ganzes in den Trainingsdaten nie vorgekommen sind.
Daher kann die endgültige Komposition in einem sinnvollen Sinne neu sein, auch wenn die Zutaten aus vergangenen Daten stammen.
Ich verstehe seinen Punkt nicht richtig. Meint er a), dass ein neuer grundlegender Algorithmus nötig ist, der Ziele, also „Präferenzen“, direkt in die Trainingsphase integriert, oder b), dass ein trainiertes Modell bei Iterationen auf ein Ziel ausgerichtet werden sollte?
Falls a): Einen solchen Algorithmus hat er nicht vorgeschlagen, und ich wüsste auch nicht, wie man abstrakte Ziele auf so niedriger Ebene quantifizieren sollte. Hat er so einen Algorithmus vorgeschlagen und ich habe es falsch gelesen? Falls b): Das existiert bereits. AlphaEvolve oder die vielen von ihm genannten Beispiele sind genau das, und etwas boshaft könnte man sagen, man gibt einfach
/goalein und lässt es laufen.Außerdem halte ich die Aussage, LLMs könnten nichts Gutes und Neues tun, kategorisch für falsch. Wenn sie es können, kann man natürlich sagen: „Das ist nicht neu, sondern nur abgeleitet“ — aber wenn ich zum Beispiel mit einem LLM eine Programmiersprache gebaut habe und sie für meinen Zweck gut funktioniert, ist das dann nicht etwas Neues und Gutes? Soll das heißen, dass außer FORTRAN alle anderen Sprachen nicht neu sind?
Alles ist abgeleitet, und man kann ein LLM in die Schleife zur Bewertung der Dinge setzen, die das LLM ausprobiert hat. Er ist nicht so stumpf, dass er so falsch liegen würde, also habe ich vermutlich etwas missverstanden.
AlphaGo bewertet mögliche Züge und nutzt Entdeckung bei Iterationen.
Claude Code nutzt Entdeckung, wenn es Skripte erzeugt und anschließend bewertet, ob sie funktionieren.
Er sagt, dass wir AI-Systeme auch in Wissenschaft und Technik dazu bringen sollten, selbst zu bewerten und zu iterieren, so wie bei Code.
Im Grunde ist das Harness Engineering für Engineering.
https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
Ungefähr bei Minute 35.
Wenn man in Bezug auf AI Wörter wie „kreativ“ verwendet, muss man sehr konkret sein
Kann AI Kunst schaffen? Etwas sensorisch Angenehmes kann sie erzeugen. Aber Kunst dient letztlich dazu, menschliche Gefühle und Emotionen zu vermitteln. Selbst unter Menschen ist das Verständnis von Kunst nicht universell. „Gefühle und Emotionen“ — daher kann Kunst tief an die geteilten Überzeugungen und Erfahrungen einer bestimmten Gruppe gebunden sein
Kann sie in nicht subjektiven Bereichen wie Mathematik oder Wissenschaft kreativ sein? Einstein leitete die Allgemeine Relativitätstheorie durch kreative Gedankenexperimente her. Wenn AI verschiedene mathematische Rahmen testen würde, um ein in Experimenten sichtbar gewordenes Problem zu lösen, und dabei die Feldgleichungen der Allgemeinen Relativitätstheorie hervorbringen würde, wäre das kreativ? Vielleicht, aber sicher nicht auf dieselbe Weise
Wenn die Frage lautet, ob eine Maschine Kunst schaffen kann, dann musste am Ende doch jemand diese Maschine einschalten und so entwerfen, dass sie Kunst macht; streng genommen könnte man also auch sagen, dass diese Person oder diese Personen die Kunst schaffen
Historisch wurde die Frage „Ist x Kunst?“ letztlich immer mit „ja“ beantwortet. Ich weiß nicht, warum Menschen immer wieder in dieselbe Falle tappen
Der Wikipedia-Artikel über Kunst beginnt so
„Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience“
https://en.wikipedia.org/wiki/Art
Daher kann auch AI Kunst machen. Denn sie muss lediglich eine emotionale Reaktion beim Rezipienten auslösen
Das eigentliche Problem ist, dass die Prompt-Befolgung der Modelle stark begrenzt ist. Das Detailniveau, das sich beim Szenendesign festlegen lässt, ist viel zu grob. Deshalb kann zwar ein „Slop“-Effekt mit vielen auszufüllenden Pastiche-Details entstehen, aber solche Werke, bei denen jedes einzelne Nebenobjekt absichtlich so platziert ist, dass es die Aussage verstärkt, können sie nicht schaffen
https://en.wikipedia.org/wiki/The_Awakening_Conscience
Im Grunde ist das die Expertenversion des Problems „Zeichne mir einen Pelikan auf einem Fahrrad“
In manchen Situationen braucht man ein solches Maß an kreativer Kontrolle, und aktuelle Bildgeneratoren kommen nicht annähernd dahin
Und ohne diese Kontrolle können sie nicht die Ebene der Meta-Kreativität erreichen, auf der neue Ästhetiken entstehen, die zu kulturellen Meilensteinen werden, wie berühmte Künstler es getan haben und weiterhin tun
Sie wollen einfach Dopamin. Denken tut weh, also wollen sie es nicht
Ich glaube nicht, dass Machine Learning nicht kreativ sein oder nichts entdecken kann. Kreativität und Entdeckung bedeuten letztlich, scheinbar voneinander entfernte, aber richtige Konzepte gleichzeitig zu denken, während algorithmisches Denken eher mit offensichtlicher zusammenhängenden Konzepten umgeht
Auch ohne LLM kann ein Modell zufällige Ideen erzeugen, sie bewerten und dann das beste Ergebnis ausgeben
Ich denke nur, dass Menschen in solchen Dingen besser sind und Machine Learning besser im algorithmischen Denken ist. „Besser“ heißt hier effizienter und etwas, das wir lieber tun; außerdem kann es insbesondere das, was für Menschen subjektiv anziehend ist — einschließlich uns selbst —, also Geschmack, genauer bewerten
Machine Learning erfordert mehr Generalisierung als Programmierung, sollte aber meiner Ansicht nach immer noch überwiegend für logische Arbeit optimiert werden. Dinge wie Softwareentwicklung, Übersetzung und Werkzeuge für Kunst und Entdeckung
Ist schon okay. LLMs sind auch in ihrer jetzigen Form nützlich. Selbst wenn sie niemals die nächste Generation von Mathematik oder Physik hervorbringen
Selbst unter Menschen sind Gehirne, die sprunghafte Denkschritte ermöglichen, so selten, dass wir sie beim Namen kennen
Alternativer Link: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
Bei mir kommt derzeit 502 „Bad Gateway“, aber vermutlich wird es irgendwann wieder funktionieren