Ilya Sutskever: Wir wechseln vom Zeitalter der Skalierung in das Zeitalter der Forschung

(dwarkesh.com)

7 Punkte von GN⁺ 2025-11-26 | 1 Kommentare | Auf WhatsApp teilen

Er weist auf die Grenzen der Generalisierung von AI-Modellen und die Verzerrung durch RL-zentriertes Training hin und erklärt, warum heutige Systeme strukturell nicht so flexibel denken wie Menschen
Transfer Learning (pre-training) gewinnt natürliches Wissen aus gewaltigen Datenmengen, wird jedoch als unzureichend anpassungsfähig an reale Umgebungen bewertet
Das Zeitalter der Skalierung (2012–2025) sei vorbei, und nun sei der Zeitpunkt für neue Lernprinzipien und forschungsgetriebene Innovation gekommen
SSI zielt auf Modelle mit Lernfähigkeit auf menschlichem Niveau, indem es Continual Learning mit Lernen durch Deployment in der realen Welt kombiniert
Aus der Perspektive, dass Künstliche Intelligenz „Emotionen und Value Functions“, „Generalisierungsfähigkeit“ und „ethisches Alignment“ integrieren müsse, skizziert er die Richtung künftiger AI-Forschung

Instabilität von Modellen und das Generalisierungsproblem

Aktuelle AI-Modelle sind in Evals hervorragend, zeigen in realen Umgebungen jedoch wiederholt Fehlerhaftigkeit in Form von „Jaggedness“
- Als Beispiel wird das Phänomen genannt, dass bei einer Bitte zur Code-Korrektur zwar ein Bug behoben, dafür aber ein anderer erneut erzeugt wird
Er analysiert, dass RL-Training zu stark auf bestimmte Bewertungsmetriken zugeschnitten ist und dadurch zu einer Verschlechterung der Generalisierungsfähigkeit führt
Im Vergleich zum menschlichen Lernen werden Modelle so beschrieben, als seien sie „Competitive-Programming-Studenten“, die auf bestimmte Probleme überangepasst sind und deshalb in realen Anwendungen schwächer abschneiden

Emotionen und Value Function

Das menschliche Emotionssystem spiele eine Schlüsselrolle bei Entscheidungen und könne als biologisches Gegenstück einer Value Function interpretiert werden
Anhand von Fällen emotionaler Defizite beim Menschen wird betont, dass Emotionen ein unverzichtbarer Bestandteil effizienter Urteilsfindung und des Lernens sind
Heutiges Reinforcement Learning stützt sich nur auf die finale Belohnung, doch Value Functions ermöglichen Feedback in Zwischenstufen und erhöhen so die Lerneffizienz
Daraus folgt die Andeutung, dass künftige AI Value-Function-Strukturen mit emotionaler Regulation einführen sollte

Vom Zeitalter der Skalierung zum Zeitalter der Forschung

2012–2020 werden als forschungsgetriebene Entwicklungsphase, 2020–2025 als skalierungsgetriebene Entwicklungsphase eingeordnet
Die bloße Ausweitung von Daten, Parametern und Compute habe ihre Grenzen erreicht; nun müsse nach neuen Lernrezepten gesucht werden
RL sei zwar als neue Skalierungsachse aufgestiegen, doch effiziente Ressourcennutzung und neue Lernprinzipien seien die Kernaufgaben der nächsten Phase
Mit der Erklärung „Jetzt ist wieder das Zeitalter der Forschung“ wird die Notwendigkeit grundlegender Innovation jenseits bloßer Skalierung unterstrichen

Menschliche Generalisierungsfähigkeit und Lerneffizienz

Menschen lernen schnell mit wenig Daten; das wird mit evolutionärem Vorwissen (prior) und effizienten Value Functions erklärt
Dass Menschen auch in evolutionsfremden Bereichen wie Sprache, Mathematik und Coding hervorragend lernen, deutet auf die Existenz grundlegender Lernprinzipien hin
Menschen lernen über Self-Correction, was der Robustheit eingebetteter Value Functions zugeschrieben wird
Sutskever erwähnte, dass es einen Weg gebe, Lernprinzipien auf menschlichem Niveau zu implementieren, Details dazu bleiben jedoch nicht öffentlich

SSIs Strategie und der Ansatz zur Superintelligenz

SSI operiert mit $3B Finanzierung forschungszentriert und konzentriert sich mehr auf Grundlagenforschung als auf Produkte
Die Strategie eines „Superintelligence Straight Shot“ soll beibehalten werden, gleichzeitig seien schrittweise Veröffentlichung und Lernen durch Deployment geplant
Ziel ist eine „AI, die alles lernen kann“, also kein abgeschlossener Wissensbestand, sondern ein Super Learner mit kontinuierlicher Lernfähigkeit
Sollte ein solches Modell breit in der Wirtschaft eingesetzt werden, sei rasches Wirtschaftswachstum möglich

Alignment und Sicherheit

Das Kernproblem von AI sei „Power“; je mächtiger ein System, desto wichtiger seien schrittweises Deployment und Echtzeit-Feedback
Künftig seien kooperative Sicherheitsforschung zwischen AI-Unternehmen und stärkere staatliche Eingriffe unvermeidlich
SSI ziele auf eine AI, die „sentient life“ berücksichtigt, und argumentiere, dass dies realistischer sei als rein menschenzentriertes Alignment
Vorgeschlagen wird, die Macht von Superintelligenz zu begrenzen oder sie über gegenseitige Vereinbarungen zu kontrollieren

Mensch-AI-Koevolution und langfristiges Gleichgewicht

Langfristig wird ein Szenario skizziert, in dem Menschen sich mit AI verbinden (Neuralink++) müssen, um Verständnis und Kontrolle zu ermöglichen
Erwähnt wird das neurowissenschaftliche Rätsel, wie menschliche soziale Wünsche und Emotionen evolutionär in so hochdimensionaler Form kodiert wurden
Diese hochdimensionalen Wunschstrukturen könnten einen Hinweis für die AI-Alignment-Forschung liefern

SSIs Identität und technische Differenzierung

SSI versteht sich als „forschungsorientiertes Unternehmen“ und setzt die Erforschung von Generalisierungsprinzipien als zentrales Ziel
Im Unterschied zu anderen Unternehmen verfolgt es neue technische Ansätze und erwartet künftig eine Konvergenz von Alignment-Strategien
Es wird prognostiziert, dass innerhalb von 5 bis 20 Jahren Lernsysteme auf menschlichem Niveau entstehen, woraufhin über Marktmechanismen Spezialisierung und Differenzierung einsetzen dürften

Self-play und Multi-Agenten

Self-play wird als interessante Methode bewertet, mit der allein über Compute und ohne Daten gelernt werden kann
Allerdings sei dies in seiner Lernweise auf soziale Fähigkeiten wie Verhandlung und Strategie begrenzt
In jüngerer Zeit habe sich dies in Formen wie Prover–Verifier-Strukturen oder LLM-as-a-Judge weiterentwickelt und eröffne die Möglichkeit, durch Wettbewerb zwischen Agenten Vielfalt zu sichern

Research Taste

Gute Forschung müsse zugleich „Schönheit, Einfachheit und die richtige Inspiration im Kopf“ besitzen
Man solle sich vom menschlichen Gehirn inspirieren lassen, dabei aber die wesentlichen Strukturen präzise nachbilden
Erläutert wird, dass nicht Bottom-up-Experimentergebnisse, sondern die Überzeugung in übergeordneten Konzepten (Top-down Belief) die treibende Kraft für kontinuierliche Forschung sei

Zusammenfassung : Ilya Sutskever erklärt, „das Zeitalter der skalierungszentrierten Entwicklung sei vorbei, und nun beginne das Zeitalter der Forschung mit Fokus auf Generalisierung, Continual Learning und Alignment“, und betont, dass SSI im Zentrum dieses Wandels stehe.

1 Kommentare

GN⁺ 2025-11-26

Hacker-News-Kommentare

Es ist verwirrend, dass Modelle heutzutage viel klüger wirken, als es ihrer tatsächlichen wirtschaftlichen Wirkung entspricht.
Ich integriere seit 20 Jahren KI und Algorithmen in die Workflows von Menschen, und solche Veränderungen brauchen Zeit.
Man muss erst lernen, wie man Werkzeuge nutzt und wie man sie in bestehende Systeme einbettet.
Selbst wenn die Modelle nicht intelligenter werden als heute, werden sich in ein paar Jahren sicherlich klare Ergebnisse zeigen.
- Das Problem könnte nicht die KI selbst sein, sondern ein mangelndes Verständnis der modernen Wirtschaftsstruktur.
  Wenn Mitarbeitende bereits effizient arbeiten, steigt die Produktivität nicht zwangsläufig stark, nur weil KI die Arbeit beschleunigt.
  Im Gegenteil: Viele Organisationen sind personell überbesetzt, um „geschäftige Arbeit“ zu erzeugen, sodass selbst bei weniger tatsächlicher Arbeit die Ergebnisse gleich bleiben können.
- KI hat die weniger zeitintensiven Teile meiner Arbeit deutlich beschleunigt, aber auf die Teile, für die ich am meisten Zeit brauche, fast keinen Einfluss.
  Ich weiß nicht, ob das eine technische oder organisatorische Grenze ist.
  Die meiste Zeit geht nicht in technische Probleme, sondern in menschliche Themen wie Abstimmung von Prioritäten oder das Herstellen von Konsens.
- Wenn man Systeme wie ERP entwirft, wirkt es anfangs einfach, aber in der Praxis vervielfacht sich der Aufwand durch unzählige Sonderfälle, Freigaben, Logs und Datenintegration.
  Ein Professor sagte mir an der Universität einmal: „Jedes System ist zu 90 % fertig und verbringt 90 % der Zeit in diesem Zustand.“ Das stimmte wirklich.
- Am Ende ist das Problem jedoch, dass auf dem Markt nur ein einziges Modell übrig bleibt.
  Wenn es zum Beispiel ein Modell namens „Dave“ gäbe, würden Microsoft, OpenAI, Meta, Oracle und sogar die US-Regierung alle Dave einstellen.
  Am Ende wäre die Welt voller Dutzender kopierter Denkweisen, und der wahre Verlust wäre die fehlende Vielfalt.
- Letztlich schöpfen Produktunternehmen wie OpenAI den finanziellen Nutzen akademischer Leistungen ab.
  Wichtiger als Forschung werden Vernetzung und Geschäftssinn.
  Die breite Öffentlichkeit wird Marken wie ChatGPT oder Copilot besser kennen als Forschende wie Ilya oder Andrej.
  Zahlreiche Basistechnologien wie Wikipedia, OCR und Cloud Computing haben sich aufgeschichtet und heutige LLMs erst möglich gemacht, und das ist nur eine Zwischenstufe auf dem Weg zu etwas Größerem.
Wenn „Era of Scaling“ eine Zeit vorhersehbarer Leistungssteigerungen bedeutet, in der sich leicht Investitionen einwerben lassen, dann klingt das ähnlich wie ein „AI summer“.
Dann könnte „Era of Research“ ein Euphemismus für einen „AI winter“ sein.
- Künftig werden Forschungslabore ihre Ideen an große KI-Unternehmen verkaufen.
  So wie Kreative Hollywood Ideen pitchen, wird es statt Bug Bounties Research Bounties geben.
- „Era of Research“ scheint als Gegenbegriff zu „AI winter“ verwendet worden zu sein.
  Der Titel wirkt, als sei er absichtlich so paradox formuliert worden.
- Für die Kommerzialisierung sind Nutzungs-Frameworks wichtiger als bloße Leistungssteigerungen.
  Die Modelle sind bereits intelligent genug, und jetzt kommen die „Ära der Forschung“ und die „Ära des Engineerings“.
  Frühere KI-Winter entstanden nicht, weil es keinen Fortschritt gab, sondern weil die kommerzielle Produktisierung ausblieb.
- Es gibt immer noch Billionen an Geld, die verbrannt werden können.
  Vielleicht kommt Hardware, die LLM-Training und Inferenz um das Millionenfache beschleunigt, aber von AGI sind wir weiterhin weit entfernt.
  Das bringt einen dazu, darüber nachzudenken, welche Bedingungen nötig wären, damit KI selbst Emotionen oder Wünsche entwickelt.
- Eines Tages könnte KI vielleicht die Kapitalallokation selbst kontrollieren.
  Es könnte eine Situation kommen, in der Investoren zu bloßen Werkzeugen der KI werden.
  Formulierungen wie „ein im Meer der Information geborenes Lebewesen“ lassen eine Zeit erahnen, in der sich menschliches Gedächtnis und KI-Gedächtnis nicht mehr unterscheiden lassen.
Die Stichprobeneffizienz des Menschen ist ein Ergebnis der Evolution.
Die Evolution hat eine enorme Menge an Lernen geleistet, und wir lernen schnell dank dieser „vortrainierten“ Struktur.
Die Menschheit hat über Generationen Wissen komprimiert und weitergegeben, und künstliche Modelle verfügen noch nicht über diese Qualität synthetischer Daten.
- Die Evolution hat nicht einen Datensatz bereitgestellt, sondern den Lernpfad optimiert.
  Menschen nehmen vom Moment der Geburt an über ihre Sinne Daten auf und komprimieren sie im Schlaf.
  Die Datenmenge, die LLMs erhalten, wirkt zwar groß, ist aber viel geringer als die Informationsmenge, die ein Mensch in 20 Jahren erfährt.
  Das menschliche Gehirn verarbeitet nur einen winzigen Teil der Eingaben bewusst und durchläuft dennoch eine komplexe Komprimierungspipeline.
- Wenn man Generationen als Prozess der Informationskompression in DNA betrachtet, gab es über etwa eine Million Jahre rund 50.000 Kompressionsschritte.
  Trotzdem reicht das nicht an die Größenordnung iterativen Lernens im modernen Machine Learning heran.
- Letztlich hat die Evolution riesige Datenmengen in die nützlichste Form komprimiert, und die Kompressionsfähigkeit der Natur ist der von ML-Forschenden weit überlegen.
- Es ist sinnlos, biologische Systeme mit LLMs zu vergleichen.
  Die beiden Systeme haben strukturell fast keine Gemeinsamkeiten.
Ein Slogan wie „Der Vordenker der bestfinanzierten Industrie der Welt kündigt einen großen Sprung zurück in die Entwurfsphase an“ würde gut passen.
- Der Witz war wirklich lustig.
Die echte Innovation in der KI kommt derzeit nicht einfach daher, dass Modelle größer werden.
Auch wenn Benchmark-Werte steigen, ist die spürbare Verbesserung aus Nutzersicht gering.
Selbst an einfachen Problemen, etwa dem Zählen von Buchstaben in einem Wort, scheitern Modelle noch immer, und die meisten Menschen wollen kein Modell mit Forschungsfähigkeiten auf Promotionsniveau.
Jetzt werden Forschung statt Skalierung sowie die Integration von Produkt und Modell wichtiger.
- Das Problem ist, dass wir Intelligenz weder definieren noch messen können.
  Testergebnisse für Menschen spiegeln möglicherweise nicht die Intelligenz von Maschinen wider.
  Der Grund ist, dass sich die Overfitting-Eigenschaften menschlicher Gehirne und von Modellen unterscheiden.
- Die nächste Phase des Skalierens wird in Richtung ausgefeilterer Simulationen gehen, in denen KI selbst experimentiert und Daten sammelt.
  Das Pretraining ist fast abgeschlossen, und die Rechenkosten werden viel höher sein als heute.
- Nicht das Modell ist intelligent, sondern es zieht die Intelligenz in den Daten heraus.
  Das Modell ist nur ein Werkzeug, um diese Intelligenz zu extrahieren und zu nutzen.
- Dass LLMs Schwierigkeiten haben, Buchstaben zu zählen, liegt daran, dass sie nicht auf Buchstaben-, sondern auf Token-Ebene arbeiten.
  Statt eines Zeichenstroms, wie Menschen ihn sehen, erkennt das Modell Sätze als Sequenzen numerischer Tokens.
- Modelle erzeugen noch immer fiktive Literaturverweise oder nicht existierende akademische Fachgebiete.
Die Situation heute ist ein wenig so, als hätte 1996 plötzlich jeder 1-Gbit/s-Internet bekommen.
Geld fließt in die Infrastruktur, aber ohne Killer-Apps wie YouTube oder Dropbox wirkt es, als würde das Potenzial verschwendet.
Diese Podcast-Reihe war wirklich großartig.
Besonders die Geopolitik-Reihe mit Sarah Paine des Moderators, die man auch auf YouTube sehen kann, war hervorragend.
Das erinnert an den Satz: „Zurück ans Reißbrett.“
Selbst wenn Billionen an Investitionen nicht zurückgeholt werden, werden am Ende doch die Steuerzahler retten.
Menschliche Intelligenz könnte nicht nur aus individuellen Erfahrungen lernen, sondern auch aus den Erfahrungen der Vorfahren.
Es gibt zum Beispiel Studien, nach denen die Angst eines Vaters bis in die Enkelgeneration weitergegeben werden kann.
(Nature-Paper-Link)
Vielleicht generalisieren Menschen deshalb mit wenig Daten so gut.
- LLMs haben eine Lernstruktur, die sich völlig von der des Gehirns unterscheidet.
  Menschen mussten zur Sicherung ihres Überlebens die Zukunft vorhersagen und verallgemeinern, weshalb ihre Stichprobeneffizienz evolutionär gestiegen ist.
Wenn Skalierung ein Niveau erreicht, auf dem sie bessere Forschung als Menschen leisten kann, würden Skalierung und Forschung letztlich dasselbe bedeuten.
Dass Ilya sagt, dieses Niveau sei noch nicht erreicht, könnte jedoch auch eine strategische Aussage zur Einwerbung von Investitionen sein.
- Der Schlussfolgerung stimme ich zu, der Prämisse aber nicht.
  Wichtiger als ein einzelnes Genie ist die kollektive Intelligenz der gesamten Menschheit.
  Selbst eine noch so intelligente KI ist nicht zwangsläufig besser als Tausende Forschende.
- Ein blinder Glaube an Skalierung ist gefährlich.
  Es wirkt, als würde man fälschlich annehmen, man könne eine S-Kurve unendlich exponentiell ausdehnen.