11 Punkte von GN⁺ 2025-10-25 | 1 Kommentare | Auf WhatsApp teilen
  • Llion Jones, der die Transformer-Architektur mitentwickelte und ihr den Namen gab, erklärte, dass sich die KI-Forschung vom transformerzentrierten Paradigma lösen werde, da sie „zu eng geworden“ sei
  • Er stellt die selbstkritische Diagnose, dass Transformer, die Basistechnologie wichtiger KI-Systeme wie ChatGPT und Claude sind, die nächste Innovationswelle eher behindern könnten
  • Er warnt, dass nur noch sichere Themen gewählt werden und Kreativität verloren geht, und bezeichnet die Lage als eine Schieflage zugunsten von Exploitation gegenüber Exploration, wodurch die KI-Industrie möglicherweise größere Innovationen verpasst
  • Zur Zeit der Entstehung der Transformer-Arbeit habe es ein freies Umfeld für Experimente gegeben, heute garantiere selbst ein sehr hohes Gehalt keine Forschungsfreiheit mehr
  • Bei Sakana AI wolle er eine Forschungskultur mit freier, explorativer Ausrichtung wiederherstellen und betont, dass „die nächste Innovation im Transformer-Maßstab vielleicht direkt neben uns liegt“

Selbstkritik des Transformer-Erfinders und eine neue Erklärung

  • Llion Jones, Mitautor der 2017 erschienenen Arbeit "Attention Is All You Need" und direkter Urheber der Bezeichnung Transformer, kritisierte auf der TED AI Conference in San Francisco die Vereinheitlichung der KI-Forschung scharf
  • Eine ungewöhnliche öffentliche Aussage eines Autors einer historischen Arbeit mit mehr als 100.000 Zitierungen, der über seine eigene Schöpfung sagt, sie gehe ihm „gründlich auf die Nerven“
  • Er ist derzeit CTO und Mitgründer des in Tokio ansässigen Unternehmens Sakana AI
    • Er erklärte, die KI-Forschung sei in einer einzigen Struktur gefangen, reduziere seine Zeit für Transformer-Forschung und erkunde neue Architekturen
    • Er betonte, dass es im KI-Bereich zwar mehr Talente und Kapital gebe als je zuvor, die Forschung aber paradoxerweise enger werde
    • Als Ursache nennt er Druck auf Investorenerträge und überhitzten Wettbewerb; Forschende verlören ihre Kreativität und arbeiteten in einem Umfeld, in dem man „schnell Papers herausbringen“ müsse

Das Paradox: mehr Ressourcen, aber weniger Kreativität

  • KI-Forschende müssten heute davon ausgehen, dass 3 bis 4 Gruppen gleichzeitig am selben Thema arbeiten, und ständig prüfen, ob ein anderes Team ihnen „zuvorgekommen“ sei
  • In der Wissenschaft verstärkt sich die Tendenz, statt riskanter, aber innovativer Projekte sicher publizierbare Themen zu wählen
    • Durch Wettbewerbsdruck würden Arbeiten hastig eingereicht, wodurch wissenschaftliche Strenge leidet und Kreativität sinkt
    • Forschende verlagerten sich auf "exploitation" und vernachlässigten "exploration"
  • Überträgt man das Konzept des Exploration-Exploitation-Trade-offs aus KI-Algorithmen, könnte die Branche durch übermäßige Nutzung bestehender Ansätze in einem banalen lokalen Optimum feststecken und bessere Alternativen verpassen
  • So wie Forschende vor dem Aufkommen der Transformer an schrittweisen Verbesserungen rekurrenter neuronaler Netze (RNNs) festhielten, besteht auch heute die Gefahr, dass man sich nur auf Varianten einer einzelnen Architektur konzentriert und dadurch eine bevorstehende Innovation verpasst

„Wenn Forschende vor der Transformer-Ära gewusst hätten, dass die nächste Innovation kurz bevorsteht, hätten sie nicht so viel Zeit verschwendet.“

Die Entstehung der Transformer: Innovation aus Freiheit

  • Jones erinnert sich, dass die Transformer-Forschung damals in einer völlig druckfreien, freien Atmosphäre begann
    • „Die Idee entstand aus Diskussionen in der Mittagspause oder aus Kritzeleien auf dem Whiteboard.“
  • Das Forschungsteam hatte keine klar ausgearbeitete Idee, bekam aber genügend Zeit und Freiheit, und es gab überhaupt keinen Druck des Managements bezüglich bestimmter Projekte oder Leistungskennzahlen
    • keine Vorgaben zu einer bestimmten Zahl von Publikationen
    • kein Druck zur Verbesserung von Kennzahlen
    • autonome Exploration durch Experimente und Versuch-und-Irrtum
  • Selbst Forschende, die heute mit mehr als 1 Million Dollar Jahresgehalt angeworben werden, könnten sich eher unter Druck fühlen, ihren Wert beweisen zu müssen, statt gewagte Ideen auszuprobieren

„Sie wählen sichere Forschung, um zu beweisen, dass sie wertvolle Talente sind.“

Das Experiment von Sakana AI: Freiheit schlägt hohe Bezahlung

  • Jones versucht bei Sakana AI, das freie Forschungsumfeld aus der Zeit vor den Transformern wiederherzustellen
    • Orientierung an von der Natur inspirierten Ansätzen
    • minimaler Druck in Bezug auf Paper-Veröffentlichungen oder direkten Wettbewerb mit Konkurrenten
  • Er teilt einen Rat des Engineers Brian Cheung: "Man sollte nur an Forschung arbeiten, die nicht passieren würde, wenn man sie nicht selbst macht."
  • Als konkretes Beispiel nennt er das Projekt "continuous thought machine"
    • Forschung zur Integration von Synchronisationsmechanismen des Gehirns in neuronale Netze
    • Der Vorschlagende hätte an seinem früheren Arbeitsplatz oder in der Wissenschaft wahrscheinlich skeptische Reaktionen und den Druck erlebt, keine Zeit zu verschwenden
    • Bei Sakana erhielt er eine Woche Explorationszeit, und daraus entwickelte sich schließlich ein Erfolgsbeispiel, das auf der wichtigen Konferenz NeurIPS Aufmerksamkeit erhielt
  • Er argumentiert, dass ein exploratives Umfeld selbst ein starkes Instrument zur Gewinnung von Talenten sein kann
    • talentierte und ehrgeizige Menschen würden ein solches Umfeld ganz natürlich suchen

Das Paradox des Transformer-Erfolgs: Reife als Innovationsbremse

  • Er sagt, der Erfolg der Transformer sei „so mächtig, dass er neue Innovationen gerade deshalb blockiert
  • „Je perfekter die aktuelle Technik ist, desto geringer wird die Motivation, nach etwas Besserem zu suchen“, analysiert er
  • Zugleich lehnt er Transformer-Forschung als solche nicht ab und ergänzt, dass sie „weiterhin echten praktischen Wert schaffen kann“
  • Er betont jedoch: „Wenn man die heutigen enormen Ressourcen und Talente betrachtet, könnten wir viel breiter explorieren.“
  • Seine Schlussfolgerung war die Bedeutung von Zusammenarbeit und offener Exploration
    • „Wir müssen den Exploration-Regler nicht durch Konkurrenz, sondern durch Zusammenarbeit hochdrehen. Nur so ist echter Fortschritt möglich.“

Welche Bedeutung das „Explorationsproblem“ der KI-Industrie hat

  • Jones’ Warnung findet gerade jetzt großen Widerhall, da über Grenzen der KI-Skalierung und die Notwendigkeit neuer Architekturen diskutiert wird
  • In der Branche verbreitet sich bereits die Auffassung, dass reine Transformer-Skalierung an ihre Grenzen stößt
  • Führende Forschende beginnen, die grundlegenden Grenzen des aktuellen Paradigmas offen zu diskutieren
    • Es verbreitet sich die Einsicht, dass für weiterentwickelte KI-Systeme nicht nur Scale, sondern auch architektonische Innovation nötig ist
  • Während jedes Jahr Dutzende Milliarden Dollar in die KI-Entwicklung fließen und harter Wettbewerb zwischen Laboren Geheimhaltung und schnelle Publikationszyklen verstärkt, wird die von Jones beschriebene freie, explorative Forschung in der Realität immer seltener
  • Warum Jones’ Insiderperspektive besonderes Gewicht hat
    • Als jemand, der die Technologie, die das Feld heute dominiert, selbst mit geschaffen hat, versteht er die Bedingungen für innovative Entdeckungen besonders gut
    • Dass er sich bewusst von den Transformern abwendet, die seinen Ruf begründet haben, verleiht seiner Botschaft zusätzliche Glaubwürdigkeit
  • Die nächste Innovation im Transformer-Maßstab könnte von Forschenden entdeckt werden, die die Freiheit zum Erkunden haben, oder unentdeckt bleiben, während Tausende Forschende um schrittweise Verbesserungen konkurrieren
  • Jones weiß als einer der Menschen, die am längsten an Transformern gearbeitet haben, vielleicht besser als die meisten, dass es jetzt Zeit ist, den nächsten Schritt zu gehen

„Ein Durchbruch im Transformer-Maßstab könnte vielleicht schon direkt neben uns liegen, wird aber nur vom Wettbewerb verdeckt.“

1 Kommentare

 
GN⁺ 2025-10-25
Hacker-News-Kommentare
  • Meiner Ansicht nach ist der Transformer eine der produktivsten Erfindungen der jüngeren Geschichte
    Seit seinem ersten Auftauchen 2017 hat er in nur acht Jahren viele Bereiche vollständig verändert und sogar teilweise zu Nobelpreisen beigetragen
    Die im Kern wichtige Idee ist meines Erachtens das probabilistische grafische Modell (probabilistic graphical model). Der Ansatz, Wahrscheinlichkeiten mit Sequenzen, Bäumen und Graphen zu verbinden, wird auch künftig einen hohen Forschungswert haben

    • Ehrlich gesagt glaube ich nicht, dass es bei der Architektur selbst noch einen großen Durchbruch geben wird
      Der Transformer ist bereits ein hervorragender Universal Approximator (universal approximator). Kleine Verbesserungen sind möglich, aber etwas noch „Universelleres“ zu finden, ist praktisch schwierig
      Stattdessen sollten wir vielleicht eher auto-regressive tasks, Cross-Entropy-Loss und Gradient Descent selbst neu überdenken
    • Ich frage mich, welche Bereiche sich denn vollständig verändert haben sollen
      Auch in meinem Fachgebiet gab es Auswirkungen, aber ehrlich gesagt waren sie fast nur negativ
    • Als jemand, der früher viel mit probabilistischen grafischen Modellen gearbeitet hat, hoffe ich, dass meine Erfahrung im Transformer-Zeitalter wieder nützlich wird
      Bisher sehe ich dafür aber noch keine Anzeichen. Trotzdem gibt es Hoffnung
    • Ich selbst habe auch schon ein persönliches Modell eines probabilistischen Hypergraphen im Kopf
      Ich habe es noch nicht zu einem Paper ausgearbeitet, aber man sieht hier und da Bewegungen, die in diese Richtung konvergieren
      Ich wünschte, der Tag hätte mehr Stunden
    • Stimme zu. Kausale Inferenz (causal inference) und symbolisches Schließen (symbolic reasoning) sind meiner Meinung nach die eigentlichen Aufgaben nach dem Transformer
  • Jones, Mitgründer und CTO von Sakana AI, sagte, er wende sich vom Transformer ab und suche nach dem „nächsten großen Ding“, aber ehrlich gesagt klingt das für mich nach PR zur Investorengewinnung

    • „Attention is all he needs“ passt da perfekt
    • Wenn man trotzdem etwas Neues machen will, braucht man eben Geld, also könnten beide Dinge gleichzeitig wahr sein
    • Wissenschaftler sind nun mal ständig auf der Suche nach etwas Neuem und Kreativem
    • Auf jeden Fall haben wir seinen Worten attention geschenkt
    • Ich frage mich allerdings, was genau sie eigentlich verkaufen wollen
  • Als Witz gesagt: Ich dachte, 2024 käme die Singularität (singularity), aber durch die Zeitverzögerung zwischen „Monetarisierung“ und „Selbstverbesserung“ wirkt es, als wäre alles ins Stocken geraten
    Es sieht so aus, als würden wir noch 20 Jahre bei Transformer-Modellen bleiben, bis aus ihnen das ganze Geld herausgepresst wurde

    • Gerade werden Hardware- und Energieinfrastrukturen massiv ausgebaut
      Da sie nicht nur für Transformer gedacht sind, entsteht eher ein Anreiz, neue Architekturen zu finden, die diese Infrastruktur maximal ausnutzen
    • Vielleicht läuft rekursive Selbstverbesserung (recursive self-improvement) bereits
      Nur eben nicht schnell genug, als dass Menschen sie wahrnehmen könnten
  • Für die meisten Menschen ist „KI“ am Ende ein sichtbares Softwareprodukt
    Aber das Kernmodell ist nur ein Teil davon, und der Rest wird von Tausenden schlecht bezahlten Arbeitskräften mit Human Feedback verfeinert
    In Wirklichkeit sind es 90 % Produktentwicklung und nur 10 % ML-Forschung
    Die meisten Paper sind Karriereforschung für den Doktortitel, und nur ein kleiner Teil ist wirklich experimentelle Forschung

  • Der Transformer ist so entworfen, dass er zu GPUs extrem gut passt, sodass man für ein neues Modell sogar die Hardwarehersteller überzeugen müsste
    Letztlich braucht es eine gleichzeitige Evolution von Hardware und Software
    Grundlegende Veränderungen werden wohl auf einer Skala von Jahrzehnten stattfinden

    • Aber das ist doch rückwärts gedacht
      Parallelisierbare Algorithmen sind grundsätzlich überlegen, deshalb haben sich GPUs passend dazu entwickelt
      RNNs sind sequentiell und schwer zu parallelisieren, aber der Transformer hat diesen Engpass beseitigt
  • Ich habe den Eindruck, dass Forschung abseits des Transformers weiterhin lebendig ist
    Sie ist nur weniger sichtbar, weil das Geld in chatbotartige CRM-Systeme fließt
    Ich glaube nicht, dass neue Architekturen die Antwort sind. Wichtiger ist eher, die Dateneffizienz zu erhöhen
    Auch Ilya Sutskever hat Lernmethoden betont, die „auch ohne das gesamte Internet auskommen“

    • Im Artikel wurde nicht gesagt, „neue Architektur sei die Antwort“, sondern dass das Gleichgewicht zwischen Exploration und Exploitation gestört sei
    • Die Diskussion über neue Architekturen ist in Wahrheit eine Debatte für AGI
      Wenn man wie ein Mensch lernen will, muss es anders funktionieren, als einfach nur Internetdaten zu füttern
    • Die meisten Forscher von vor 2017 konzentrieren sich inzwischen auf den Transformer
      Die Zahl der Forschenden ist zwar gestiegen, aber der Anteil nicht-transformerbasierter Forschung dürfte eher gesunken sein
  • Jemand machte den Witz, dass es wegen der vielen Gedankenstriche (—) im letzten Abschnitt so wirke, als hätte den Text ein Transformer geschrieben

    • Der nächste KI-Hype könnten vielleicht die „disrupters“ sein
  • Der Transformer hat alle Aufmerksamkeit und alle Gelder aufgesogen
    Auch Forschende wurden von der Transformer-Industrie absorbiert
    Vermutlich wird das so weitergehen, bis man auf eine große Grenze stößt
    Ich hoffe, dass der Energieverbrauch zur echten Grenze wird und dadurch die Forschungsrichtung wechselt

    • Tatsächlich könnte Energie bald zum Engpass werden
      xAI hat das Stromproblem durch Gasturbinen rund um sein Rechenzentrum gelöst, dabei aber Gesundheitsprobleme für Anwohner verursacht
      Ich glaube, solche Methoden werden bald reguliert
  • Menschen neigen dazu, sich zu sehr auf neue Innovationen bei Modellarchitekturen zu fixieren
    Modelle sind letztlich nur Werkzeuge, um komprimierte Repräsentationen von Daten zu erzeugen
    Selbst effizientere Kompression verändert die Fähigkeiten nicht dramatisch
    Wichtiger ist es, die Trainingseffizienz zu erhöhen. Reinforcement Learning (RL) ist dafür derzeit ein gutes Beispiel

    • Aber Trainingseffizienz ist letztlich mit der Architektur verbunden
      Neue Strukturen zu erforschen ist keine übertriebene Fixierung, sondern ein Versuch, das Gleichgewicht zwischen Exploration und Exploitation herzustellen
  • Ich frage mich, ob die transformerzentrierte Industriestruktur nicht durch die rechnerische Bequemlichkeit von GPU/NPU entstanden ist
    Es mag bessere KI-Technologien geben, aber auf bestehender Hardware könnten ihre Rechenkosten einfach zu hoch sein
    Unser Gehirn verbraucht schließlich keine 500 Watt, vielleicht ist das ein Hinweis