Co-Autor der Studie "Attention Is All You Need" erklärt, er habe Transformer nun "satt"
(venturebeat.com)- Llion Jones, der die Transformer-Architektur mitentwickelte und ihr den Namen gab, erklärte, dass sich die KI-Forschung vom transformerzentrierten Paradigma lösen werde, da sie „zu eng geworden“ sei
- Er stellt die selbstkritische Diagnose, dass Transformer, die Basistechnologie wichtiger KI-Systeme wie ChatGPT und Claude sind, die nächste Innovationswelle eher behindern könnten
- Er warnt, dass nur noch sichere Themen gewählt werden und Kreativität verloren geht, und bezeichnet die Lage als eine Schieflage zugunsten von Exploitation gegenüber Exploration, wodurch die KI-Industrie möglicherweise größere Innovationen verpasst
- Zur Zeit der Entstehung der Transformer-Arbeit habe es ein freies Umfeld für Experimente gegeben, heute garantiere selbst ein sehr hohes Gehalt keine Forschungsfreiheit mehr
- Bei Sakana AI wolle er eine Forschungskultur mit freier, explorativer Ausrichtung wiederherstellen und betont, dass „die nächste Innovation im Transformer-Maßstab vielleicht direkt neben uns liegt“
Selbstkritik des Transformer-Erfinders und eine neue Erklärung
- Llion Jones, Mitautor der 2017 erschienenen Arbeit "Attention Is All You Need" und direkter Urheber der Bezeichnung Transformer, kritisierte auf der TED AI Conference in San Francisco die Vereinheitlichung der KI-Forschung scharf
- Eine ungewöhnliche öffentliche Aussage eines Autors einer historischen Arbeit mit mehr als 100.000 Zitierungen, der über seine eigene Schöpfung sagt, sie gehe ihm „gründlich auf die Nerven“
- Er ist derzeit CTO und Mitgründer des in Tokio ansässigen Unternehmens Sakana AI
- Er erklärte, die KI-Forschung sei in einer einzigen Struktur gefangen, reduziere seine Zeit für Transformer-Forschung und erkunde neue Architekturen
- Er betonte, dass es im KI-Bereich zwar mehr Talente und Kapital gebe als je zuvor, die Forschung aber paradoxerweise enger werde
- Als Ursache nennt er Druck auf Investorenerträge und überhitzten Wettbewerb; Forschende verlören ihre Kreativität und arbeiteten in einem Umfeld, in dem man „schnell Papers herausbringen“ müsse
Das Paradox: mehr Ressourcen, aber weniger Kreativität
- KI-Forschende müssten heute davon ausgehen, dass 3 bis 4 Gruppen gleichzeitig am selben Thema arbeiten, und ständig prüfen, ob ein anderes Team ihnen „zuvorgekommen“ sei
- In der Wissenschaft verstärkt sich die Tendenz, statt riskanter, aber innovativer Projekte sicher publizierbare Themen zu wählen
- Durch Wettbewerbsdruck würden Arbeiten hastig eingereicht, wodurch wissenschaftliche Strenge leidet und Kreativität sinkt
- Forschende verlagerten sich auf "exploitation" und vernachlässigten "exploration"
- Überträgt man das Konzept des Exploration-Exploitation-Trade-offs aus KI-Algorithmen, könnte die Branche durch übermäßige Nutzung bestehender Ansätze in einem banalen lokalen Optimum feststecken und bessere Alternativen verpassen
- So wie Forschende vor dem Aufkommen der Transformer an schrittweisen Verbesserungen rekurrenter neuronaler Netze (RNNs) festhielten, besteht auch heute die Gefahr, dass man sich nur auf Varianten einer einzelnen Architektur konzentriert und dadurch eine bevorstehende Innovation verpasst
„Wenn Forschende vor der Transformer-Ära gewusst hätten, dass die nächste Innovation kurz bevorsteht, hätten sie nicht so viel Zeit verschwendet.“
Die Entstehung der Transformer: Innovation aus Freiheit
- Jones erinnert sich, dass die Transformer-Forschung damals in einer völlig druckfreien, freien Atmosphäre begann
- „Die Idee entstand aus Diskussionen in der Mittagspause oder aus Kritzeleien auf dem Whiteboard.“
- Das Forschungsteam hatte keine klar ausgearbeitete Idee, bekam aber genügend Zeit und Freiheit, und es gab überhaupt keinen Druck des Managements bezüglich bestimmter Projekte oder Leistungskennzahlen
- keine Vorgaben zu einer bestimmten Zahl von Publikationen
- kein Druck zur Verbesserung von Kennzahlen
- autonome Exploration durch Experimente und Versuch-und-Irrtum
- Selbst Forschende, die heute mit mehr als 1 Million Dollar Jahresgehalt angeworben werden, könnten sich eher unter Druck fühlen, ihren Wert beweisen zu müssen, statt gewagte Ideen auszuprobieren
„Sie wählen sichere Forschung, um zu beweisen, dass sie wertvolle Talente sind.“
Das Experiment von Sakana AI: Freiheit schlägt hohe Bezahlung
- Jones versucht bei Sakana AI, das freie Forschungsumfeld aus der Zeit vor den Transformern wiederherzustellen
- Orientierung an von der Natur inspirierten Ansätzen
- minimaler Druck in Bezug auf Paper-Veröffentlichungen oder direkten Wettbewerb mit Konkurrenten
- Er teilt einen Rat des Engineers Brian Cheung: "Man sollte nur an Forschung arbeiten, die nicht passieren würde, wenn man sie nicht selbst macht."
- Als konkretes Beispiel nennt er das Projekt "continuous thought machine"
- Forschung zur Integration von Synchronisationsmechanismen des Gehirns in neuronale Netze
- Der Vorschlagende hätte an seinem früheren Arbeitsplatz oder in der Wissenschaft wahrscheinlich skeptische Reaktionen und den Druck erlebt, keine Zeit zu verschwenden
- Bei Sakana erhielt er eine Woche Explorationszeit, und daraus entwickelte sich schließlich ein Erfolgsbeispiel, das auf der wichtigen Konferenz NeurIPS Aufmerksamkeit erhielt
- Er argumentiert, dass ein exploratives Umfeld selbst ein starkes Instrument zur Gewinnung von Talenten sein kann
- talentierte und ehrgeizige Menschen würden ein solches Umfeld ganz natürlich suchen
Das Paradox des Transformer-Erfolgs: Reife als Innovationsbremse
- Er sagt, der Erfolg der Transformer sei „so mächtig, dass er neue Innovationen gerade deshalb blockiert“
- „Je perfekter die aktuelle Technik ist, desto geringer wird die Motivation, nach etwas Besserem zu suchen“, analysiert er
- Zugleich lehnt er Transformer-Forschung als solche nicht ab und ergänzt, dass sie „weiterhin echten praktischen Wert schaffen kann“
- Er betont jedoch: „Wenn man die heutigen enormen Ressourcen und Talente betrachtet, könnten wir viel breiter explorieren.“
- Seine Schlussfolgerung war die Bedeutung von Zusammenarbeit und offener Exploration
- „Wir müssen den Exploration-Regler nicht durch Konkurrenz, sondern durch Zusammenarbeit hochdrehen. Nur so ist echter Fortschritt möglich.“
Welche Bedeutung das „Explorationsproblem“ der KI-Industrie hat
- Jones’ Warnung findet gerade jetzt großen Widerhall, da über Grenzen der KI-Skalierung und die Notwendigkeit neuer Architekturen diskutiert wird
- In der Branche verbreitet sich bereits die Auffassung, dass reine Transformer-Skalierung an ihre Grenzen stößt
- Führende Forschende beginnen, die grundlegenden Grenzen des aktuellen Paradigmas offen zu diskutieren
- Es verbreitet sich die Einsicht, dass für weiterentwickelte KI-Systeme nicht nur Scale, sondern auch architektonische Innovation nötig ist
- Während jedes Jahr Dutzende Milliarden Dollar in die KI-Entwicklung fließen und harter Wettbewerb zwischen Laboren Geheimhaltung und schnelle Publikationszyklen verstärkt, wird die von Jones beschriebene freie, explorative Forschung in der Realität immer seltener
- Warum Jones’ Insiderperspektive besonderes Gewicht hat
- Als jemand, der die Technologie, die das Feld heute dominiert, selbst mit geschaffen hat, versteht er die Bedingungen für innovative Entdeckungen besonders gut
- Dass er sich bewusst von den Transformern abwendet, die seinen Ruf begründet haben, verleiht seiner Botschaft zusätzliche Glaubwürdigkeit
- Die nächste Innovation im Transformer-Maßstab könnte von Forschenden entdeckt werden, die die Freiheit zum Erkunden haben, oder unentdeckt bleiben, während Tausende Forschende um schrittweise Verbesserungen konkurrieren
- Jones weiß als einer der Menschen, die am längsten an Transformern gearbeitet haben, vielleicht besser als die meisten, dass es jetzt Zeit ist, den nächsten Schritt zu gehen
„Ein Durchbruch im Transformer-Maßstab könnte vielleicht schon direkt neben uns liegen, wird aber nur vom Wettbewerb verdeckt.“
1 Kommentare
Hacker-News-Kommentare
Meiner Ansicht nach ist der Transformer eine der produktivsten Erfindungen der jüngeren Geschichte
Seit seinem ersten Auftauchen 2017 hat er in nur acht Jahren viele Bereiche vollständig verändert und sogar teilweise zu Nobelpreisen beigetragen
Die im Kern wichtige Idee ist meines Erachtens das probabilistische grafische Modell (probabilistic graphical model). Der Ansatz, Wahrscheinlichkeiten mit Sequenzen, Bäumen und Graphen zu verbinden, wird auch künftig einen hohen Forschungswert haben
Der Transformer ist bereits ein hervorragender Universal Approximator (universal approximator). Kleine Verbesserungen sind möglich, aber etwas noch „Universelleres“ zu finden, ist praktisch schwierig
Stattdessen sollten wir vielleicht eher auto-regressive tasks, Cross-Entropy-Loss und Gradient Descent selbst neu überdenken
Auch in meinem Fachgebiet gab es Auswirkungen, aber ehrlich gesagt waren sie fast nur negativ
Bisher sehe ich dafür aber noch keine Anzeichen. Trotzdem gibt es Hoffnung
Ich habe es noch nicht zu einem Paper ausgearbeitet, aber man sieht hier und da Bewegungen, die in diese Richtung konvergieren
Ich wünschte, der Tag hätte mehr Stunden
Jones, Mitgründer und CTO von Sakana AI, sagte, er wende sich vom Transformer ab und suche nach dem „nächsten großen Ding“, aber ehrlich gesagt klingt das für mich nach PR zur Investorengewinnung
Als Witz gesagt: Ich dachte, 2024 käme die Singularität (singularity), aber durch die Zeitverzögerung zwischen „Monetarisierung“ und „Selbstverbesserung“ wirkt es, als wäre alles ins Stocken geraten
Es sieht so aus, als würden wir noch 20 Jahre bei Transformer-Modellen bleiben, bis aus ihnen das ganze Geld herausgepresst wurde
Da sie nicht nur für Transformer gedacht sind, entsteht eher ein Anreiz, neue Architekturen zu finden, die diese Infrastruktur maximal ausnutzen
Nur eben nicht schnell genug, als dass Menschen sie wahrnehmen könnten
Für die meisten Menschen ist „KI“ am Ende ein sichtbares Softwareprodukt
Aber das Kernmodell ist nur ein Teil davon, und der Rest wird von Tausenden schlecht bezahlten Arbeitskräften mit Human Feedback verfeinert
In Wirklichkeit sind es 90 % Produktentwicklung und nur 10 % ML-Forschung
Die meisten Paper sind Karriereforschung für den Doktortitel, und nur ein kleiner Teil ist wirklich experimentelle Forschung
Der Transformer ist so entworfen, dass er zu GPUs extrem gut passt, sodass man für ein neues Modell sogar die Hardwarehersteller überzeugen müsste
Letztlich braucht es eine gleichzeitige Evolution von Hardware und Software
Grundlegende Veränderungen werden wohl auf einer Skala von Jahrzehnten stattfinden
Parallelisierbare Algorithmen sind grundsätzlich überlegen, deshalb haben sich GPUs passend dazu entwickelt
RNNs sind sequentiell und schwer zu parallelisieren, aber der Transformer hat diesen Engpass beseitigt
Ich habe den Eindruck, dass Forschung abseits des Transformers weiterhin lebendig ist
Sie ist nur weniger sichtbar, weil das Geld in chatbotartige CRM-Systeme fließt
Ich glaube nicht, dass neue Architekturen die Antwort sind. Wichtiger ist eher, die Dateneffizienz zu erhöhen
Auch Ilya Sutskever hat Lernmethoden betont, die „auch ohne das gesamte Internet auskommen“
Wenn man wie ein Mensch lernen will, muss es anders funktionieren, als einfach nur Internetdaten zu füttern
Die Zahl der Forschenden ist zwar gestiegen, aber der Anteil nicht-transformerbasierter Forschung dürfte eher gesunken sein
Jemand machte den Witz, dass es wegen der vielen Gedankenstriche (—) im letzten Abschnitt so wirke, als hätte den Text ein Transformer geschrieben
Der Transformer hat alle Aufmerksamkeit und alle Gelder aufgesogen
Auch Forschende wurden von der Transformer-Industrie absorbiert
Vermutlich wird das so weitergehen, bis man auf eine große Grenze stößt
Ich hoffe, dass der Energieverbrauch zur echten Grenze wird und dadurch die Forschungsrichtung wechselt
xAI hat das Stromproblem durch Gasturbinen rund um sein Rechenzentrum gelöst, dabei aber Gesundheitsprobleme für Anwohner verursacht
Ich glaube, solche Methoden werden bald reguliert
Menschen neigen dazu, sich zu sehr auf neue Innovationen bei Modellarchitekturen zu fixieren
Modelle sind letztlich nur Werkzeuge, um komprimierte Repräsentationen von Daten zu erzeugen
Selbst effizientere Kompression verändert die Fähigkeiten nicht dramatisch
Wichtiger ist es, die Trainingseffizienz zu erhöhen. Reinforcement Learning (RL) ist dafür derzeit ein gutes Beispiel
Neue Strukturen zu erforschen ist keine übertriebene Fixierung, sondern ein Versuch, das Gleichgewicht zwischen Exploration und Exploitation herzustellen
Ich frage mich, ob die transformerzentrierte Industriestruktur nicht durch die rechnerische Bequemlichkeit von GPU/NPU entstanden ist
Es mag bessere KI-Technologien geben, aber auf bestehender Hardware könnten ihre Rechenkosten einfach zu hoch sein
Unser Gehirn verbraucht schließlich keine 500 Watt, vielleicht ist das ein Hinweis