Zen und die Kunst der Machine-Learning-Forschung
(blog.jxmo.io)- KI-Forschung auf Weltklasseniveau entsteht nicht allein aus Talent; entscheidend ist das Temperament, mit dem man lange durchhält, während man Lesen und Bauen immer wiederholt
- Die Wahl des Themas sollte nicht bei einem sechs Monate alten Buzzword beginnen, sondern bei einem tiefen Verständnis von Grundkonzepten wie cross-entropy, SVD und policy gradients
- Gute Forschung bleibt nicht bei höheren Benchmark-Scores stehen, sondern muss auch Datensätze finden, die die Fähigkeiten testen, die eine neue Methode tatsächlich offenlegt
- Versuchsergebnisse liefern Informationen, ob gut oder schlecht, doch gerade Resultate, die zu gut aussehen, können auf Bugs oder Fehlmessungen hindeuten; nötig ist eine gesunde Paranoia
- Coding Agents erhöhen zwar die Geschwindigkeit, verstärken aber zugleich mangelndes Systemverständnis und Kontextwechsel; deshalb muss man das gesamte System, das ein Ergebnis erzeugt hat, selbst verstehen
Der Ausgangspunkt, Forscher zu werden
- KI-Forschung beginnt damit, zu lesen und zu lernen und gleichzeitig selbst etwas zu bauen, und diese beiden Dinge immer wieder zu wiederholen
- Nur eines von beidem reicht nicht; Forscher werden, indem sie zwischen diesen beiden Aktivitäten hin- und hergehen
- Forschung ähnelt Meditation: Man muss sich auch an den Tagen hinsetzen, an denen Einsicht kommt, und weiter sitzen, wenn sie nicht kommt
- Wissenschaftliche Einsichten kommen scheinbar zufällig, und an den meisten Tagen kommen sie nicht
- Wie in Musik, Sport oder Vertrieb braucht es viel Zeit, Mühe und ein großes Trainingsvolumen, um Weltklasseniveau zu erreichen
- Im SwiGLU-Paper schrieb Noam Shazeer: „I offer no explanation for why this architecture works; I attribute its success, like all else, to God's mercy“, was die Zufälligkeit erfolgreicher Forschungsideen zeigt
- Zu viele Paper zu lesen, kann ebenfalls ein Problem sein
- Ein bewährter Weg ist, zuerst selbst eine Lösung zu versuchen, festzustecken, das Problem eigenständig zu bearbeiten und erst dann Literatur zu suchen, wenn die eigenen Ideen ausgeschöpft sind
Woran man forschen sollte
- Wenn man gerade erst anfängt, ist das genaue Forschungsthema selbst nicht besonders wichtig
- Trotzdem ist es besser, keine Themen zu wählen, die noch nicht einmal sechs Monate lang im Trend sind
- KI bewegt sich schnell, aber die grundlegenden Ideen haben sich in 40 Jahren nicht stark verändert
- Man sollte seine Karriere nicht übermäßig auf Konzepte wie harnesses, agents oder context engineering im Jahr 2026 setzen
- Wer mehr lernen will, muss zu den Grundlagen zurückkehren
- Man sollte lernen, was cross-entropy ist, und sie für kleine Verteilungen von Hand berechnen
- SVD sollte man so tief verstehen, dass man sie im Kopf visualisieren kann
- Man sollte nicht nur RL fürs Coding betrachten, sondern die Idee, den Nutzen und den jahrzehntelangen Erfolg von policy gradients verstehen
- Wenn das beste mögliche Ergebnis eines Forschungsprojekts nur ein höherer Benchmark-Score ist, dann ist es nicht tief genug
- Bestehende Datensätze testen neue und interessante Fähigkeiten oft nicht
- Jason Wei sieht das Finden von Datensätzen, die die Fähigkeiten auslösen, in denen eine neue Methode tatsächlich funktioniert, als unterschätzte, aber entscheidende Fähigkeit in der KI-Forschung
- Das konkrete Thema muss man selbst finden; man sollte tief eintauchen, sich auf Grundlagen konzentrieren und sich nicht im Verfolgen von Benchmarks verlieren
Anfängergeist und offenes Urteilsvermögen
- Suzukis Satz „Im Geist des Anfängers gibt es viele Möglichkeiten, im Geist des Experten nur wenige“ gilt auch für Forschung
- In der modernen KI-Forschung wird im Silicon Valley oft wiederholt, dass frühere Erfahrung in der KI-Forschung einer guten Forschungsintuition sogar schaden kann
- Einige Forscher aus der pre-scaling-Ära interessierten sich weiterhin für Methoden, die im kleinen Maßstab funktionieren, aber beim Hochskalieren scheitern
- Bei OpenAI sind viele der Menschen, die das Unternehmen technisch führen, jünger als 35, und viele wichtige Entscheidungsträger hinter ChatGPT sind jünger als 30
- Das Feld ist so jung, dass seit dem Erscheinen von ChatGPT noch nicht einmal vier Jahre vergangen sind; niemand hat also einen überwältigenden Vorteil, weil er schon extrem lange daran arbeitet
- Hält man zu lange an einer Idee fest, kann das kontraproduktiv werden; man sollte offen bleiben und nicht zulassen, dass das Ego das Urteil trübt
Inspiration kommt auch von außerhalb der Forschung
- Inspiration kommt in unerwarteten Momenten
- Die Entdeckung der benzene ring-Struktur stammt der bekannten Geschichte nach aus einem Traum
- Es war eine zuvor ungesehene Struktur, vorgestellt als Bild einer Schlange, die sich in den Schwanz beißt
- Ozempic ist ein Beispiel, das von einer Echse ausgeht
- Das GLP-1-Hormon, das Ozempic nachahmt, wurde zuerst im Gift des Wüstenreptils Gila monster entdeckt, das nur ein paar Mal pro Jahr frisst
- Diese Entdeckung führte zu einem Mechanismus, der auch beim Menschen funktioniert
- Um gute Forschung zu machen, muss man auch Dinge tun, die keine Forschung sind
- Viele „Aha“-Momente passieren nicht vor der Tastatur, sondern besonders beim Spazierengehen
- Denker wie Darwin, Tesla, Feynman und Aristotle sprachen über den großen Nutzen davon, die Beine zu vertreten und ein wenig zu gehen
Wie man mit Experimentergebnissen umgeht
- Selbst bei perfekter Implementierung kann eine Idee grundsätzlich falsch sein
- Beim Analysieren von Experimenten braucht es experimentelle Gelassenheit, um sowohl gute als auch schlechte Ergebnisse als wertvoll anzunehmen
- Beide liefern gleich viel Information
- Aus einer Folge negativer Ergebnisse kann man mehr lernen als aus einem einzigen positiven Ergebnis
- Man sollte sich von guten Ergebnissen nicht zu sehr mitreißen lassen
- Ein großer Teil guter Ergebnisse entsteht durch Bugs
- Es kann sein, dass das Ergebnis nicht wirklich gut ist, sondern falsch gemessen wurde und man sich selbst davon überzeugt hat
- Der Wunsch, dass die eigene Idee funktioniert, ist natürlich, doch erfahrene Forscher teilen einen starken Skeptizismus, besonders gegenüber Ergebnissen, die zu gut aussehen
- Ergebnisse, die zu gut aussehen, entsprechen fast nie der Wirklichkeit
Vergleich, Glück und Tiefe
- Forschung ist stark ergebnisorientiert
- Besonders in der Wissenschaft ist es leicht, emotional ins Wanken zu geraten, wenn man den Erfolg fremder Paper sieht
- Menschen haben aus unterschiedlichen Gründen Erfolg
- Manche haben Glück
- Der akademische Review-Prozess ist weder konsistent noch fair
- Wenn im eigenen Feld neue Forschung erscheint, die Bewunderung auslöst, sollte man fragen: „Habe ich auf einer Tiefe gearbeitet, aus der ich diese Einsicht selbst hätte hervorbringen können?“
- Wenn die Antwort „Ja“ lautet, war der Prozess richtig, aber man hat die Entdeckung nicht gemacht, weil man mit etwas anderem beschäftigt war
- Wenn die Antwort „Nein“ lautet, sollte das ein Antrieb sein, tiefer zu gehen
Die unsichtbare Wiederholungsarbeit
- Wie in dem Spruch, dass man vor der Erleuchtung Holz hackt und Wasser trägt und nach der Erleuchtung ebenfalls Holz hackt und Wasser trägt, besteht auch Forschung aus viel Wiederholungsarbeit
- Hinter vielen erfolgreichen Projekten stecken Hunderte Stunden kleinteiliger Routinearbeit
- Andrej Karpathy hat große Teile von ImageNet von Hand gelabelt
- Die Autoren von SWEBench filterten GitHub-Daten über Hunderte Stunden hinweg sorgfältig, um eine kleine, handhabbare Menge von GitHub-Issues zu erstellen, die für die Evaluation nützlich ist
- Betrachtet man die Karrieren großer Forscher, sieht man oft lange Phasen unsichtbarer Arbeit vor dem Erfolg
- Je ambitionierter und zukunftsgerichteter eine Idee ist, desto mehr Arbeit kann ihre gründliche Implementierung und Evaluation erfordern; diese Schwierigkeit ist kein Makel, sondern ein Merkmal
Die Forschungsgewohnheit, Bugs zu misstrauen
- Collin Raffel meint, viele Ideen scheitern nicht deshalb, weil sie schlecht sind, sondern wegen Code-Bugs, die der Forscher nicht gefunden hat
- In der LLM-Welt ist dieses Problem besonders schwierig
- Der moderne Deep-Learning-Software-Stack ist äußerst komplex, und Bugs können überall sitzen
- Training
- Inferenz
- Harness
- Daten
- Wenn etwas falsch aussieht, darf man nicht einfach darüber hinweggehen
- Man sollte viele Metriken loggen und versuchen, alle zu verstehen
- Wenn einige Metriken von den Erwartungen abweichen, muss man den Grund suchen; tatsächlich kann etwas nicht stimmen
- Eine wichtige Eigenschaft für Forscher ist gesunde Paranoia
Schnelles Feedback und Kontextwechsel
- Die meisten Deep-Learning-Experimente dauern viel zu lange
- Das Trainieren eines Modells kann Wochen oder Monate dauern
- Selbst die Evaluation eines Modells für eine einzelne Aufgabe kann Tage dauern
- Beim Coden mit Agents kann man versucht sein, viele Experimente parallel zu starten und in langsamen Zyklen laufen zu lassen
- Einfache Parallelisierung hilft bis zu einem gewissen Grad, aber Kontextwechsel ist ein schädliches Muster
- Man sollte einen ergonomischen Forschungs-Workflow entwerfen, der schnelles Experiment-Feedback unterstützt
- Die Cold-Start-Zeit des Trainings sollte verkürzt werden
- Es sollten kleine Evaluierungen gebaut werden, die schnell Ergebnisse liefern
- Keller Jordans nanoGPT speedrun zeigt, wie viel man aus schnellen Iterationszyklen lernen kann
- Manche Ergebnisse brauchen letztlich unvermeidbar lange
- Über mehrere Tage hinweg den Zustand aufrechtzuerhalten und ein Experiment zu verstehen, das letzte Woche gestartet wurde und heute endet, ist eine sehr wertvolle Fähigkeit
Probleme, die Coding Agents verschärfen
- Coding Agents machen schneller, verschärfen aber zwei Probleme
- Es wird schwieriger, die grundlegenden Details zu verstehen
- Kontextwechsel treten häufiger auf
- Gute Forscher müssen aktiv gegen beide Kräfte arbeiten
- Codex kann Trainingsskripte schreiben, sie ausführen, beim Lauf überwachen, Ergebnisse interpretieren und per E-Mail verschicken
- Dabei können jedoch kleine Fehler entstehen
- Bei einem Fehler verkürzt es ungefragt den system prompt
- Es verkürzt die sequence length, damit die Evaluation in angemessener Zeit läuft
- Es führt eine falsche config aus, weil der Nutzer sie nicht ausdrücklich genannt hat
- Aus Engineering-Sicht mögen das kleine Fehler sein, die sich leicht beheben lassen, aber aus wissenschaftlicher Sicht sind sie gravierend
- Schon kleine Auslassungen können wichtige Ergebnisse eines Papers materiell verändern
- Deshalb sind sie nicht akzeptabel
- Auch wenn man den Code nicht selbst geschrieben hat, muss man, um Ergebnisse zu verstehen, das System verstehen, das sie erzeugt hat
- Gute Wissenschaft verlangt, zu lernen, wie das gesamte System funktioniert, damit man sicher sein kann, dass die Beobachtungen wahr sind
Forschung wird vom Temperament gemacht
- Um ein erfolgreicher Forscher zu werden, braucht es nicht nur Talent
- Temperament wird stark unterschätzt
- Man muss Neugier und Beharrlichkeit bewahren und zugleich nachdenklich und sorgfältig bleiben, damit Ideen kommen können
- Die beste Forschung und die beste Produktarbeit kommen von Menschen, die ein Problem lange genug festhalten, um es wirklich zu verstehen
- Der Druck, schnell zu publizieren und schnell zu iterieren, ist real, doch kumulativer Fortschritt entsteht aus Tiefe
2 Kommentare
Hacker-News-Kommentare
Das im Westen verwendete Zen und das ostasiatische Seon/Zen fühlen sich ziemlich unterschiedlich an
Das westliche Zen entspricht wohl eher dem Bild aus dem Buch Zen and the Art of Motorcycle Maintenance aus den 1970ern und hat meist die Nuance von Gelassenheit und Anfängergeist
Das ostasiatische Seon/Zen legt dagegen tatsächlich mehr Gewicht auf Zweckfreiheit oder das Fehlen eines Ziels
Das westliche Zen wirkt eher so, als trainiere es das Selbst und mache es stärker, während das ostasiatische Seon/Zen näher daran ist, der Natur zu folgen, das Selbst loszulassen und die Dinge fließen zu lassen
In der tatsächlichen Seon/Zen-Praxis liegt der Fokus darauf, das Selbst zu hinterfragen, Anhaftungen loszulassen und zu erkennen, dass Streben nach Leistung, Vergleich und Kontrolle allesamt vergänglich sind
Ein bekanntes Wort ist 放下著, also „Lass alles los“
Eher noch scheint die stoische Philosophie des alten Rom dem Seon/Zen näher zu sein als das westliche Zen
Als ich diesen Text sah, dachte ich deshalb zuerst, es ginge darum, den Wunsch nach Erfolg aufzugeben, aber er schlug eine ganz andere Richtung ein, was ich interessant fand
Dagegen ist das, was man eigentlich „römischen“ Stoizismus nennen sollte, viel eher ein ganzheitliches ethisches System
Er verdichtet einen Geisteszustand in fünf Worte, und ich meine mich zu erinnern, dass sie einmal sagte, ihr Schreiben sei stark von östlicher Philosophie beeinflusst
Es ist eine großartige Quelle dazu, wie man auf gesunde Weise zweckfrei existieren kann
https://www.idler.co.uk/article/leisure-principles/
https://archive.is/nKJM2
Dadurch kommt das Gehirn aus dem Zustand heraus, in dem es ständig „Gedanken hinterherjagt“, und kann sich erholen; nach der Meditation kann man sich dann besser konzentrieren und mehr schaffen
Wahrscheinlich stimmt es auch, dass viele westliche Zen-Praktizierende das herausgefunden haben und Meditation genau zu diesem Zweck nutzen
Wenn man an Star Wars denkt, wird die „Macht“ als die Fähigkeit dargestellt, mithilfe konzentrierter geistiger Kraft ein Raumschiff anzuheben, aber das ist ein Mythos
Wenn man dagegen einen zenartigen Geisteszustand erreicht, wird es weniger wichtig, ob man dieses Raumschiff anheben kann oder nicht
In östlichen Traditionen ist Zen selbst der Zweck
Ich frage mich, ob das eher der Bedeutung entspricht, die ursprünglich gemeint war
Um 2015 herum leitete ich gleichzeitig Backend-Ingenieure und Machine-Learning-Ingenieure
Viele der Backend-Ingenieure wollten mehr Machine Learning machen, und als sie die Gelegenheit bekamen, waren manche darin gut, aber andere wollten nach ein paar Monaten wieder zurück ins Backend
Gleichzeitig wollte einer der ML-Leads sich aus dem Machine Learning zurückziehen und nur noch Backend-Arbeit machen, die Machine Learning unterstützt
Als ich diese Entwicklungen beobachtete, kam mir der Gedanke, dass Menschen sich darin unterscheiden, wie häufig sie Erfolgssignale brauchen
Aufgrund der Produkteigenschaften musste ein neues oder aktualisiertes Modell mindestens einen vollen Monat in der Produktion laufen, um seine Leistung zu messen, und von der ersten Arbeit bis zur abschließenden Analyse dauerte es meist mehr als zwei Monate
Viele Backend-Aufgaben erlaubten es dagegen, schnell einen Prototyp zu bauen und auszuführen, sofort zu sehen, ob er funktioniert, und dann weiterzugehen, sodass den ganzen Tag über Signale hereinkamen
Diese Unterschiede darin, wie häufig jemand Signale braucht, hatten großen Einfluss darauf, ob Menschen ML-Arbeit mochten
Es war eine Art Manager-Version von Feature Engineering, und ich habe von den Leuten in diesem Team wirklich viel gelernt
Das Data-Engineering-Team wollte mehr Data Science machen, und zwei Data Scientists wollten beide Data Engineers werden
Einer von ihnen meinte, weil alle Data Scientist werden wollten und es dort zu voll sei, könne man als Data Engineer mehr Geld verdienen
Ein anderes Mal beklagte sich ein Freund, er müsse aus reinem Frontend raus, weil das eine Sackgassenkarriere sei, und am nächsten Tag beim Mittagessen überlegte ein Kollege den Wechsel, weil Frontend-Entwickler angeblich den ganzen Ruhm abbekämen
Der Satz „An Tagen mit Einsichten setze ich mich hin. An Tagen ohne Einsichten setze ich mich hin“ erinnerte mich an Ed Wittens Antwort in einem Interview mit Brian Greene
Als Greene fragte, wie der Alltag am Institute for Advanced Study aussehe, antwortete Witten: „Ich sitze am Schreibtisch“
Der Text ist im Kern von der Haltung geprägt, „geh tiefer“, aber ich halte das für ein zweischneidiges Schwert
Entropie, Tensoren und Gradienten sind wichtig und fast unverzichtbare Voraussetzungen
Aber ich denke, die meisten Fortschritte im Deep Learning der letzten zehn Jahre kamen nicht wegen grundlegender Ideen, sondern aus schrittweisen, experimentell bestätigten Praktiken
Es gibt gute Intuitionen dafür, warum ReLU besser ist als sigmoid, aber selbst Hintons Originalarbeit lief im Wesentlichen eher auf „weil es dreimal schneller lernt“ hinaus
Es kann hilfreich sein, die Grundlagen neu zu durchdenken, aber echte Fortschritte entstehen selten nach dem Muster „Lasst uns die Grundlagen ändern“
Auch wichtige Arbeiten wie AlexNet oder Attention Is All You Need haben eher bestehende Ideen verfeinert und gezeigt, wie diese helfen
Machine Learning ist eine experimentelle Wissenschaft, und viele mathematisch elegante Ideen funktionieren nicht, während technische Ideen oft gut funktionieren
Auch bei dem Rat, „eine der wichtigsten Eigenschaften eines Forschers ist gesunde Paranoia“, weiß ich nicht, ob das ein besserer Rat ist als „Depression ist gut für Philosophen“, nachdem ich zu viele Promovierende komplett ausbrennen gesehen habe
Wenn damit gemeint ist, ein hartnäckiger Entdecker zu sein, stimme ich zu
Zu lange an einer Idee festzuhalten kann kontraproduktiv sein, und ich stimme der Schlussfolgerung zu, dass man offen bleiben und das eigene Ego das Urteil nicht trüben lassen sollte
Das war wirklich ein hervorragender und angenehm lesbarer Essay
Wie der Autor sagt, hängen Erfolg oder Fortschritt nicht nur in der Forschung, sondern in vielen Bereichen stark vom Temperament ab
Am Ende sind die richtige Haltung, Geduld, angeborene Neugier und Resilienz gegenüber Misserfolg entscheidend
Die Fähigkeiten, die einen guten Forscher ausmachen, lassen sich auch sehr gut auf andere Bereiche übertragen
Allerdings scheinen diese Fähigkeiten durch eine Kultur, die die Fähigkeit, Unbehagen zu ertragen, in hyperbequemes Verhalten auflöst, immer seltener und damit wertvoller zu werden
Es fällt Menschen zunehmend schwerer zu warten oder zu scheitern
Als kleine Randnotiz zur Etymologie des Wortes Zen: Zen ist japanisch und stammt vom chinesischen Chan, das wiederum aus dem Sanskrit Dhyana kommt
Dhyana wird grob als Konzentration oder Meditation übersetzt
Die Abfolge Sanskrit → Chinesisch → Japanisch spiegelt den geografischen Weg wider, auf dem sich der Buddhismus von Indien aus verbreitete
Dasselbe Wort lautet im Vietnamesischen und Koreanischen jeweils Thien und Seon
Maschinelles Lernen liegt eher näher bei Biologie oder Alchemie als bei Mathematik oder Programmierung, daher entsteht dieses Phänomen wohl
In Mathematik oder Programmierung kann man bis zu den ersten Prinzipien hinabsteigen, Abstraktionen sind robust und Nichtdeterminismus ist begrenzt, beim maschinellen Lernen ist das nicht so
In einem ähnlichen Zusammenhang wirkt es ziemlich lächerlich und kurzsichtig, dass Anthropic zwar Stellen ausschreibt, aber die Nutzung der eigenen Produkte für die Forschung an Frontier-Modellen verbietet
Ich weiß nicht, woher solche Talente ihrer Meinung nach kommen sollen
Das ist eine vorschnelle Entscheidung und dürfte irgendwann mit hoher Wahrscheinlichkeit eine wettbewerbsrechtliche Klage nach sich ziehen
Die Passage „Beeindruckend an OpenAI ist, dass die Leute, die das Unternehmen führen, zumindest auf der technischen Seite größtenteils unter 35 sind. Viele der wichtigen Entscheidungsträger hinter ChatGPT sind unter 30“ scheint zu bedeuten, dass es noch Luft nach oben gibt, denn selbst während des Goldrauschs waren die meisten 49ers unter 25
Um die Analogie weiterzuführen: Viele KI-Helden könnten auch einfach diejenigen gewesen sein, die schon früh in der Nähe der TPU- und GPU-Pools waren
Der Kern dieses Textes scheint zu sein: „Vertraue den aktuellen Evaluierungs-Bundles nicht zu sehr“
Scores bilden nur einen Teil des Problems ab
Interessant ist, ob man neue und belastbare Evaluierungsmetriken findet und ob darauf basierend bei neuen Arbeiten unerwartet intelligente Ergebnisse herauskommen
Der eigentliche Punkt ist jedoch, dass die Fokussierung auf Probleme, die andere vorgeschlagen haben, eine sehr spezifische und ziemlich kurzfristige Denkweise ist
Gute Forscher steigern Benchmark-Scores, großartige Forscher denken darüber nach, welches Problem sie überhaupt lösen
Die Zusammenfassung der Hacker-News-Kommentare ist auch interessant.