Ilya Sutskever: Wir wechseln vom Zeitalter der Skalierung in das Zeitalter der Forschung
(dwarkesh.com)- Er weist auf die Grenzen der Generalisierung von AI-Modellen und die Verzerrung durch RL-zentriertes Training hin und erklärt, warum heutige Systeme strukturell nicht so flexibel denken wie Menschen
- Transfer Learning (pre-training) gewinnt natürliches Wissen aus gewaltigen Datenmengen, wird jedoch als unzureichend anpassungsfähig an reale Umgebungen bewertet
- Das Zeitalter der Skalierung (2012–2025) sei vorbei, und nun sei der Zeitpunkt für neue Lernprinzipien und forschungsgetriebene Innovation gekommen
- SSI zielt auf Modelle mit Lernfähigkeit auf menschlichem Niveau, indem es Continual Learning mit Lernen durch Deployment in der realen Welt kombiniert
- Aus der Perspektive, dass Künstliche Intelligenz „Emotionen und Value Functions“, „Generalisierungsfähigkeit“ und „ethisches Alignment“ integrieren müsse, skizziert er die Richtung künftiger AI-Forschung
Instabilität von Modellen und das Generalisierungsproblem
- Aktuelle AI-Modelle sind in Evals hervorragend, zeigen in realen Umgebungen jedoch wiederholt Fehlerhaftigkeit in Form von „Jaggedness“
- Als Beispiel wird das Phänomen genannt, dass bei einer Bitte zur Code-Korrektur zwar ein Bug behoben, dafür aber ein anderer erneut erzeugt wird
- Er analysiert, dass RL-Training zu stark auf bestimmte Bewertungsmetriken zugeschnitten ist und dadurch zu einer Verschlechterung der Generalisierungsfähigkeit führt
- Im Vergleich zum menschlichen Lernen werden Modelle so beschrieben, als seien sie „Competitive-Programming-Studenten“, die auf bestimmte Probleme überangepasst sind und deshalb in realen Anwendungen schwächer abschneiden
Emotionen und Value Function
- Das menschliche Emotionssystem spiele eine Schlüsselrolle bei Entscheidungen und könne als biologisches Gegenstück einer Value Function interpretiert werden
- Anhand von Fällen emotionaler Defizite beim Menschen wird betont, dass Emotionen ein unverzichtbarer Bestandteil effizienter Urteilsfindung und des Lernens sind
- Heutiges Reinforcement Learning stützt sich nur auf die finale Belohnung, doch Value Functions ermöglichen Feedback in Zwischenstufen und erhöhen so die Lerneffizienz
- Daraus folgt die Andeutung, dass künftige AI Value-Function-Strukturen mit emotionaler Regulation einführen sollte
Vom Zeitalter der Skalierung zum Zeitalter der Forschung
- 2012–2020 werden als forschungsgetriebene Entwicklungsphase, 2020–2025 als skalierungsgetriebene Entwicklungsphase eingeordnet
- Die bloße Ausweitung von Daten, Parametern und Compute habe ihre Grenzen erreicht; nun müsse nach neuen Lernrezepten gesucht werden
- RL sei zwar als neue Skalierungsachse aufgestiegen, doch effiziente Ressourcennutzung und neue Lernprinzipien seien die Kernaufgaben der nächsten Phase
- Mit der Erklärung „Jetzt ist wieder das Zeitalter der Forschung“ wird die Notwendigkeit grundlegender Innovation jenseits bloßer Skalierung unterstrichen
Menschliche Generalisierungsfähigkeit und Lerneffizienz
- Menschen lernen schnell mit wenig Daten; das wird mit evolutionärem Vorwissen (prior) und effizienten Value Functions erklärt
- Dass Menschen auch in evolutionsfremden Bereichen wie Sprache, Mathematik und Coding hervorragend lernen, deutet auf die Existenz grundlegender Lernprinzipien hin
- Menschen lernen über Self-Correction, was der Robustheit eingebetteter Value Functions zugeschrieben wird
- Sutskever erwähnte, dass es einen Weg gebe, Lernprinzipien auf menschlichem Niveau zu implementieren, Details dazu bleiben jedoch nicht öffentlich
SSIs Strategie und der Ansatz zur Superintelligenz
- SSI operiert mit $3B Finanzierung forschungszentriert und konzentriert sich mehr auf Grundlagenforschung als auf Produkte
- Die Strategie eines „Superintelligence Straight Shot“ soll beibehalten werden, gleichzeitig seien schrittweise Veröffentlichung und Lernen durch Deployment geplant
- Ziel ist eine „AI, die alles lernen kann“, also kein abgeschlossener Wissensbestand, sondern ein Super Learner mit kontinuierlicher Lernfähigkeit
- Sollte ein solches Modell breit in der Wirtschaft eingesetzt werden, sei rasches Wirtschaftswachstum möglich
Alignment und Sicherheit
- Das Kernproblem von AI sei „Power“; je mächtiger ein System, desto wichtiger seien schrittweises Deployment und Echtzeit-Feedback
- Künftig seien kooperative Sicherheitsforschung zwischen AI-Unternehmen und stärkere staatliche Eingriffe unvermeidlich
- SSI ziele auf eine AI, die „sentient life“ berücksichtigt, und argumentiere, dass dies realistischer sei als rein menschenzentriertes Alignment
- Vorgeschlagen wird, die Macht von Superintelligenz zu begrenzen oder sie über gegenseitige Vereinbarungen zu kontrollieren
Mensch-AI-Koevolution und langfristiges Gleichgewicht
- Langfristig wird ein Szenario skizziert, in dem Menschen sich mit AI verbinden (Neuralink++) müssen, um Verständnis und Kontrolle zu ermöglichen
- Erwähnt wird das neurowissenschaftliche Rätsel, wie menschliche soziale Wünsche und Emotionen evolutionär in so hochdimensionaler Form kodiert wurden
- Diese hochdimensionalen Wunschstrukturen könnten einen Hinweis für die AI-Alignment-Forschung liefern
SSIs Identität und technische Differenzierung
- SSI versteht sich als „forschungsorientiertes Unternehmen“ und setzt die Erforschung von Generalisierungsprinzipien als zentrales Ziel
- Im Unterschied zu anderen Unternehmen verfolgt es neue technische Ansätze und erwartet künftig eine Konvergenz von Alignment-Strategien
- Es wird prognostiziert, dass innerhalb von 5 bis 20 Jahren Lernsysteme auf menschlichem Niveau entstehen, woraufhin über Marktmechanismen Spezialisierung und Differenzierung einsetzen dürften
Self-play und Multi-Agenten
- Self-play wird als interessante Methode bewertet, mit der allein über Compute und ohne Daten gelernt werden kann
- Allerdings sei dies in seiner Lernweise auf soziale Fähigkeiten wie Verhandlung und Strategie begrenzt
- In jüngerer Zeit habe sich dies in Formen wie Prover–Verifier-Strukturen oder LLM-as-a-Judge weiterentwickelt und eröffne die Möglichkeit, durch Wettbewerb zwischen Agenten Vielfalt zu sichern
Research Taste
- Gute Forschung müsse zugleich „Schönheit, Einfachheit und die richtige Inspiration im Kopf“ besitzen
- Man solle sich vom menschlichen Gehirn inspirieren lassen, dabei aber die wesentlichen Strukturen präzise nachbilden
- Erläutert wird, dass nicht Bottom-up-Experimentergebnisse, sondern die Überzeugung in übergeordneten Konzepten (Top-down Belief) die treibende Kraft für kontinuierliche Forschung sei
Zusammenfassung : Ilya Sutskever erklärt, „das Zeitalter der skalierungszentrierten Entwicklung sei vorbei, und nun beginne das Zeitalter der Forschung mit Fokus auf Generalisierung, Continual Learning und Alignment“, und betont, dass SSI im Zentrum dieses Wandels stehe.
1 Kommentare
Hacker-News-Kommentare
Es ist verwirrend, dass Modelle heutzutage viel klüger wirken, als es ihrer tatsächlichen wirtschaftlichen Wirkung entspricht.
Ich integriere seit 20 Jahren KI und Algorithmen in die Workflows von Menschen, und solche Veränderungen brauchen Zeit.
Man muss erst lernen, wie man Werkzeuge nutzt und wie man sie in bestehende Systeme einbettet.
Selbst wenn die Modelle nicht intelligenter werden als heute, werden sich in ein paar Jahren sicherlich klare Ergebnisse zeigen.
Wenn Mitarbeitende bereits effizient arbeiten, steigt die Produktivität nicht zwangsläufig stark, nur weil KI die Arbeit beschleunigt.
Im Gegenteil: Viele Organisationen sind personell überbesetzt, um „geschäftige Arbeit“ zu erzeugen, sodass selbst bei weniger tatsächlicher Arbeit die Ergebnisse gleich bleiben können.
Ich weiß nicht, ob das eine technische oder organisatorische Grenze ist.
Die meiste Zeit geht nicht in technische Probleme, sondern in menschliche Themen wie Abstimmung von Prioritäten oder das Herstellen von Konsens.
Ein Professor sagte mir an der Universität einmal: „Jedes System ist zu 90 % fertig und verbringt 90 % der Zeit in diesem Zustand.“ Das stimmte wirklich.
Wenn es zum Beispiel ein Modell namens „Dave“ gäbe, würden Microsoft, OpenAI, Meta, Oracle und sogar die US-Regierung alle Dave einstellen.
Am Ende wäre die Welt voller Dutzender kopierter Denkweisen, und der wahre Verlust wäre die fehlende Vielfalt.
Wichtiger als Forschung werden Vernetzung und Geschäftssinn.
Die breite Öffentlichkeit wird Marken wie ChatGPT oder Copilot besser kennen als Forschende wie Ilya oder Andrej.
Zahlreiche Basistechnologien wie Wikipedia, OCR und Cloud Computing haben sich aufgeschichtet und heutige LLMs erst möglich gemacht, und das ist nur eine Zwischenstufe auf dem Weg zu etwas Größerem.
Wenn „Era of Scaling“ eine Zeit vorhersehbarer Leistungssteigerungen bedeutet, in der sich leicht Investitionen einwerben lassen, dann klingt das ähnlich wie ein „AI summer“.
Dann könnte „Era of Research“ ein Euphemismus für einen „AI winter“ sein.
So wie Kreative Hollywood Ideen pitchen, wird es statt Bug Bounties Research Bounties geben.
Der Titel wirkt, als sei er absichtlich so paradox formuliert worden.
Die Modelle sind bereits intelligent genug, und jetzt kommen die „Ära der Forschung“ und die „Ära des Engineerings“.
Frühere KI-Winter entstanden nicht, weil es keinen Fortschritt gab, sondern weil die kommerzielle Produktisierung ausblieb.
Vielleicht kommt Hardware, die LLM-Training und Inferenz um das Millionenfache beschleunigt, aber von AGI sind wir weiterhin weit entfernt.
Das bringt einen dazu, darüber nachzudenken, welche Bedingungen nötig wären, damit KI selbst Emotionen oder Wünsche entwickelt.
Es könnte eine Situation kommen, in der Investoren zu bloßen Werkzeugen der KI werden.
Formulierungen wie „ein im Meer der Information geborenes Lebewesen“ lassen eine Zeit erahnen, in der sich menschliches Gedächtnis und KI-Gedächtnis nicht mehr unterscheiden lassen.
Die Stichprobeneffizienz des Menschen ist ein Ergebnis der Evolution.
Die Evolution hat eine enorme Menge an Lernen geleistet, und wir lernen schnell dank dieser „vortrainierten“ Struktur.
Die Menschheit hat über Generationen Wissen komprimiert und weitergegeben, und künstliche Modelle verfügen noch nicht über diese Qualität synthetischer Daten.
Menschen nehmen vom Moment der Geburt an über ihre Sinne Daten auf und komprimieren sie im Schlaf.
Die Datenmenge, die LLMs erhalten, wirkt zwar groß, ist aber viel geringer als die Informationsmenge, die ein Mensch in 20 Jahren erfährt.
Das menschliche Gehirn verarbeitet nur einen winzigen Teil der Eingaben bewusst und durchläuft dennoch eine komplexe Komprimierungspipeline.
Trotzdem reicht das nicht an die Größenordnung iterativen Lernens im modernen Machine Learning heran.
Die beiden Systeme haben strukturell fast keine Gemeinsamkeiten.
Ein Slogan wie „Der Vordenker der bestfinanzierten Industrie der Welt kündigt einen großen Sprung zurück in die Entwurfsphase an“ würde gut passen.
Die echte Innovation in der KI kommt derzeit nicht einfach daher, dass Modelle größer werden.
Auch wenn Benchmark-Werte steigen, ist die spürbare Verbesserung aus Nutzersicht gering.
Selbst an einfachen Problemen, etwa dem Zählen von Buchstaben in einem Wort, scheitern Modelle noch immer, und die meisten Menschen wollen kein Modell mit Forschungsfähigkeiten auf Promotionsniveau.
Jetzt werden Forschung statt Skalierung sowie die Integration von Produkt und Modell wichtiger.
Testergebnisse für Menschen spiegeln möglicherweise nicht die Intelligenz von Maschinen wider.
Der Grund ist, dass sich die Overfitting-Eigenschaften menschlicher Gehirne und von Modellen unterscheiden.
Das Pretraining ist fast abgeschlossen, und die Rechenkosten werden viel höher sein als heute.
Das Modell ist nur ein Werkzeug, um diese Intelligenz zu extrahieren und zu nutzen.
Statt eines Zeichenstroms, wie Menschen ihn sehen, erkennt das Modell Sätze als Sequenzen numerischer Tokens.
Die Situation heute ist ein wenig so, als hätte 1996 plötzlich jeder 1-Gbit/s-Internet bekommen.
Geld fließt in die Infrastruktur, aber ohne Killer-Apps wie YouTube oder Dropbox wirkt es, als würde das Potenzial verschwendet.
Diese Podcast-Reihe war wirklich großartig.
Besonders die Geopolitik-Reihe mit Sarah Paine des Moderators, die man auch auf YouTube sehen kann, war hervorragend.
Das erinnert an den Satz: „Zurück ans Reißbrett.“
Selbst wenn Billionen an Investitionen nicht zurückgeholt werden, werden am Ende doch die Steuerzahler retten.
Menschliche Intelligenz könnte nicht nur aus individuellen Erfahrungen lernen, sondern auch aus den Erfahrungen der Vorfahren.
Es gibt zum Beispiel Studien, nach denen die Angst eines Vaters bis in die Enkelgeneration weitergegeben werden kann.
(Nature-Paper-Link)
Vielleicht generalisieren Menschen deshalb mit wenig Daten so gut.
Menschen mussten zur Sicherung ihres Überlebens die Zukunft vorhersagen und verallgemeinern, weshalb ihre Stichprobeneffizienz evolutionär gestiegen ist.
Wenn Skalierung ein Niveau erreicht, auf dem sie bessere Forschung als Menschen leisten kann, würden Skalierung und Forschung letztlich dasselbe bedeuten.
Dass Ilya sagt, dieses Niveau sei noch nicht erreicht, könnte jedoch auch eine strategische Aussage zur Einwerbung von Investitionen sein.
Wichtiger als ein einzelnes Genie ist die kollektive Intelligenz der gesamten Menschheit.
Selbst eine noch so intelligente KI ist nicht zwangsläufig besser als Tausende Forschende.
Es wirkt, als würde man fälschlich annehmen, man könne eine S-Kurve unendlich exponentiell ausdehnen.