24 Punkte von GN⁺ 4 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Paper argumentiert, dass sich eine wissenschaftliche Theorie herausbildet, die zentrale Eigenschaften des Deep Learning charakterisiert, darunter Lernprozess, verborgene Repräsentationen, finale Gewichte und Leistung
  • Als zentrale Belege werden fünf Forschungsströmungen genannt: lösbare idealisierte Settings, behandelbare Grenzfälle, einfache mathematische Gesetze, Theorien zu Hyperparametern und universelle Verhaltensweisen
  • Diese Theorie fokussiert auf die Dynamik des Lernprozesses, beschreibt grobe aggregierte Statistiken und betont falsifizierbare quantitative Vorhersagen
  • Als Name für dieses neue theoretische Framework für die Dynamik des Lernprozesses wird "learning mechanics" vorgeschlagen
  • Ergebnisse wie deep linear network, NTK, Mean-Field sowie die Unterscheidung zwischen lazy und rich machen es möglich, Lerndynamik, Generalisierung, Feature Learning und Scaling Laws quantitativ zu behandeln
  • Das Paper skizziert eine symbiotische Beziehung zu statistischen und informationstheoretischen Perspektiven sowie zur mechanistic interpretability und gibt einen Ausblick auf die zukünftige Richtung der Deep-Learning-Theorie

Die Kernthese des Papers

  • Es entsteht eine wissenschaftliche Theorie (scientific theory), die wichtige Eigenschaften und Statistiken von Deep Learning charakterisiert, etwa Lernprozess, verborgene Repräsentationen, finale Gewichte und Leistung
  • Durch die Zusammenführung zentraler aktueller Strömungen der Deep-Learning-Theorie identifiziert das Paper fünf Forschungsrichtungen, die die Existenz dieser Theorie stützen
    • (a) Lösbare idealisierte Settings (solvable idealized settings): liefern Intuition für die Lerndynamik realistischer Systeme
    • (b) Behandelbare Grenzfälle (tractable limits): offenbaren Einsichten in grundlegende Lernphänomene
    • (c) Einfache mathematische Gesetze (simple mathematical laws): erfassen wichtige makroskopische Beobachtungsgrößen (macroscopic observables)
    • (d) Theorien zu Hyperparametern (theories of hyperparameters): trennen Hyperparameter vom Rest des Lernprozesses und hinterlassen dadurch ein einfacheres System
    • (e) Universelle Verhaltensweisen (universal behaviors): machen über system- und settingübergreifend geteilte Phänomene klar, was überhaupt erklärungsbedürftig ist
  • Die aufkommende Theorie lässt sich am treffendsten als Dynamik des Lernprozesses verstehen; dafür wird die Bezeichnung "learning mechanics" vorgeschlagen
  • Diskutiert wird auch die Beziehung zu anderen Ansätzen für den Aufbau einer Deep-Learning-Theorie, etwa statistischen und informationstheoretischen Perspektiven
  • Insbesondere wird eine symbiotische Beziehung zwischen learning mechanics und mechanistic interpretability erwartet

Einleitung

  • Deep Learning ist äußerst leistungsfähig, doch ein wissenschaftlicher Rahmen, der seine innere Funktionsweise integriert erklärt, fehlt weiterhin
    • Neuronale Netze erzielen in vielen Aufgaben übermenschliche Leistung, aber es gibt keine einheitliche Theorie, die erklärt, warum sie so funktionieren und wie diese Leistung zustande kommt
    • Auch die praktische Trainingsweise beruht noch stark auf Trial-and-Error statt auf first principles, und Theorie spielt im alltäglichen Deep-Learning-Einsatz bisher nur eine begrenzte Rolle
  • Mit dem Zeitalter großer Sprachmodelle und von Diffusion Models ist das Rätsel noch tiefer geworden, aber eine wissenschaftliche Deep-Learning-Theorie beginnt tatsächlich Form anzunehmen, und diese Form liegt näher an den Mechanics des Lernprozesses
  • Der Fokus der Deep-Learning-Theorie hat sich im Lauf der Zeit verändert
    • Früh lag der Schwerpunkt darauf, welche Funktionen Modelle darstellen können und wie sie diese aus Daten lernen
    • Später verlagerte sich der Fokus auf die Frage, wann bei endlichen Stichproben generalisiert wird; dabei entwickelten sich classical learning theory, Computational Learning Theory, PAC-Theorie und klassische Optimierungstheorie
    • Parallel dazu entstand auch die Tradition der statistical physics of machine learning, die das durchschnittliche Verhalten einfacher Modelle behandelt
  • Mehrschichtige Netze, Backpropagation sowie die massive Skalierung von Daten und Rechenressourcen machten die Grenzen bestehender Theorien sichtbar
    • Neuronale Netze haben eine nichtkonvexe, überparametrisierte Struktur und unterscheiden sich damit von den einfachen, konvexen Modellen, die klassische Theorien gut behandeln konnten
    • Sie lernen über niedrigen Trainingsfehler hinaus strukturierte interne Repräsentationen und zeigen Regelmäßigkeiten über Aufgaben und Skalen hinweg
  • Dadurch wechselte die Deep-Learning-Theorie von einer mathematischen Frage danach, was möglich ist, zu einer wissenschaftlichen Phase, in der das Verhalten komplexer empirischer Systeme beschrieben und vorhergesagt wird
    • Deshalb ist ein wissenschaftlicher Ansatz nötig, der empirische Beobachtungen aufnimmt, vereinheitlichende Prinzipien sucht und wiederkehrende Muster identifiziert
    • Der weitere Weg dürfte daher eher der Reifung eines wissenschaftlichen Fachgebiets ähneln als der Entwicklung eines rein mathematischen Teilgebiets

Was ist learning mechanics?

  • Das Lernen neuronaler Netze lässt sich analog zu den mechanics von Objekten verstehen, die sich in Raum und Zeit bewegen
    • So wie sich ein Objekt unter Kräften kontinuierlich durch den physischen Raum bewegt, bewegt sich ein Modell durch diskrete Updates im parameter space
    • Wie in der Physik Kräfte aus Wechselwirkungen zwischen Bestandteilen eines Systems entstehen, wird auch im Deep Learning das Lernen durch das Zusammenspiel von Parametern, Datensatz, Aufgabe und Lernregel geformt
  • Es gibt auch eine Entsprechung zwischen Feldern in der Physik und dem Gradient im Deep Learning
    • So wie sich ein physikalisches System in einem lokalen Minimum eines Potentials einpendelt, das durch interne Wechselwirkungen und äußere Randbedingungen bestimmt ist, konvergiert auch ein neuronales Netz zu einem lokalen Minimum der loss landscape, die durch Architektur und Trainingsdaten erzeugt wird
  • Diese Analogie ist nicht bloß rhetorisch, sondern passt auch zu den laufenden Forschungsströmungen
    • So wie verschiedene Teilgebiete der Mechanics analysierbare Settings, vereinfachte Grenzfälle, zusammenfassende Statistiken, Analysen von Systemparametern und universelle Phänomene nutzen, verwendet learning mechanics dieselben Werkzeuge
    • Besonders wie in continuum mechanics und statistical mechanics, die viele wechselwirkende Elemente behandeln, ist es auch im Deep Learning oft nützlich, Statistiken auf vergrößerter Ebene zu erklären statt jedes einzelne Element separat
  • Dieses Forschungsprogramm lässt sich unter dem Namen learning mechanics zusammenfassen

Sieben notwendige Bedingungen für learning mechanics

  • Fundamentalität

    • Das Training neuronaler Netze muss ausgehend von first principles logisch entwickelt werden
    • Annahmen über Gewichte, Dynamik oder Leistung können in Zwischenschritten als Werkzeuge dienen, müssen am Ende aber ebenfalls aus first principles erklärt werden
  • Mathematische Form

    • Für wichtige Eigenschaften neuronaler Netze müssen eindeutige quantitative Aussagen formuliert werden
    • Rein qualitative Beschreibungen reichen für Mechanics nicht aus
  • Vorhersagefähigkeit

    • Es müssen Aussagen gemacht werden, die sich durch einfache und reproduzierbare empirische Messungen überprüfen lassen
    • Da die experimentelle Kontrolle über diese Systeme sehr hoch ist, sollten wesentliche Fortschritte klar experimentell überprüfbar sein
  • Umfassendheit

    • Trainingsprozess, interne Repräsentationen und finale Gewichte müssen in einem gemeinsamen Bild verbunden werden
    • Statt jedes Detail erfassen zu wollen, sollte eine angemessene Auflösung gewählt werden, die Einsicht liefert, auch wenn dafür einzelne Details geopfert werden
  • Intuitivität

    • Einfache und erhellende Einsichten sollten Vorrang vor technischer Komplexität haben
    • Es sollte eine Theorie sein, die befriedigt, weil sie dem Mysterium des Deep Learning etwas von seinem Schleier nimmt
  • Nützlichkeit

    • Wie die Physik Grundlage anderer Ingenieurdisziplinen ist, sollte sie die wissenschaftliche Basis für angewandtes Deep Learning bilden
    • Dazu gehören konkrete Ziele wie weniger Hyperparameter-Tuning, Vorhersagewerkzeuge für Dataset Design und eine strenge Grundlage für AI Safety
  • Bescheidenheit

    • Es muss klar gemacht werden, was gut erklärt wird und was nicht
    • Selbst Mechanics, die auf realistisches Deep Learning anwendbar sind, können in kleinen, von Hand entworfenen Spezialfällen versagen; das ist der Preis für ein einfaches Bild in dem Bereich, der eigentlich interessiert

Warum learning mechanics wichtig ist

  • Wissenschaftliche Gründe

    • Der technische Erfolg großer neuronaler Netze deutet darauf hin, dass sie tiefe Prinzipien von Lernen und Repräsentation nutzen, die noch nicht verstanden sind
    • Als Beispiele für Technik, die der Theorie vorausging, werden die Dampfmaschine und die Thermodynamik sowie das Flugzeug und die Aerodynamik genannt
    • Die Lernprinzipien künstlicher neuronaler Netze könnten auch das Verständnis von biological intelligence erhellen und damit Implikationen für Neurowissenschaften und Kognitionswissenschaft haben
  • Praktische Gründe

    • Eine ausgereifte Deep-Learning-Theorie könnte Modellentwurf, Optimierung, Skalierung und Deployment auf verlässlichere Prinzipien stützen
    • In einigen Bereichen spielt Theorie bereits heute eine Rolle
      • empirical scaling laws
      • mathematische Rezepte für die Skalierung von Hyperparametern
      • theoretisch motivierte Optimizer und Verfahren für Data Attribution
    • Eine tiefere und vollständigere Theorie könnte mehr solcher Leitlinien liefern und sie präziser sowie vorhersagbarer machen
  • Sicherheitsbezogene Gründe

    • Um immer leistungsfähigere AI-Systeme zu beschreiben, zu charakterisieren und zu kontrollieren, müssen die relevanten Variablen, Mechanismen und Organisationsprinzipien klar benannt werden können
    • Eine Technologie, die sich nicht klar beschreiben lässt, ist schwer zu regulieren; eine fundamentale Theorie könnte die nötige Klarheit für Reliability, Oversight und Control liefern
    • Besonders hervorgehoben wird die Möglichkeit, über Unterstützung der mechanistic interpretability zu AI Safety beizutragen

Hinweise darauf, dass learning mechanics entsteht

  • Die Kernbestandteile von Deep Learning sind explizit und messbar
    • Die Architektur ist als neuronales Netz f(x; θ) gegeben, definiert als Komposition einfacher linearer und nichtlinearer Transformationen
    • Die Daten sind als Stichprobenmenge D = {(xi, yi)} aus einer unbekannten datenerzeugenden Verteilung gegeben
    • Die Aufgabe wird durch eine Zielfunktion L(θ) definiert, die die Leistung auf dem Datensatz misst
    • Die Lernregel wird etwa durch gradientenbasierte Updates wie θ(t+1) = θ(t) −η∇L(θ(t)) sowie Initialisierung und Optimierungs-Hyperparameter beschrieben
  • Im Lernprozess ist nur sehr wenig verborgen
    • Anders als bei vielen komplexen Systemen legt Deep Learning die equations of motion, die seine Dynamik bestimmen, direkt offen
    • Alle Gewichte, Aktivierungen, Gradienten und Loss-Werte lassen sich aufzeichnen, und daraus können beliebige Statistiken erzeugt werden
    • Das erleichtert Experimentdesign, Reproduktion und Verifikation und begünstigt sowohl die Entdeckung empirischer Regelmäßigkeiten als auch strenge Tests theoretischer Vorhersagen
  • Das zentrale Problem ist nicht Undurchsichtigkeit, sondern Komplexität
    • Das Zusammenspiel von Architektur, Daten, Aufgabe und Lernregel erzeugt nichtlineare, gekoppelte und hochdimensionale Lerndynamiken
    • Die Dynamik reagiert empfindlich auf die Wahl der Hyperparameter, und auch die Datenverteilung selbst lässt sich nicht einfach charakterisieren
  • Dennoch verbergen sich unter dieser Komplexität Regelmäßigkeiten; fünf Beobachtungen stützen diese Sicht
    • (a) Lösbare idealisierte Settings (solvable idealized settings)
    • (b) Behandelbare Grenzfälle (tractable limits)
    • (c) Einfache mathematische Gesetze (simple mathematical laws)
    • (d) Theorien zu Hyperparametern (theories of hyperparameters)
    • (e) Universelle Verhaltensweisen (universal behaviors)

=== Inhalt des Papers ausgelassen ===

  • Zusätzliche Einführungen, Perspektiven und offene Fragen gibt es unter learningmechanics.pub
  • Das Paper umfasst 41 Seiten

1 Kommentare

 
GN⁺ 4 일 전
Hacker-News-Kommentare
  • Aus Sicht von jemandem, der in diesem Bereich arbeitet, fasst dieser Text die derzeit meistdiskutierten Forschungsthemen ziemlich gut zusammen.
    Besonders die letzten open problems waren am nützlichsten, weil sie praktisch fast die gesamten zentralen Forschungsrichtungen abdecken.
    Dass es in den Kommentaren so viel Skepsis gibt, zeigt leider auch, wie wenig diese Forschung der breiten Öffentlichkeit vermittelt wird.
    Es gibt zwar noch nicht viele Mechanismen, mit denen sich das optimale Netzwerkdesign mathematisch direkt herleiten lässt, aber das liegt meist daran, dass Experimente schneller vorankommen als Theorie und man vieles erst im Nachhinein erklärt.
    Trotzdem rückt inzwischen eine recht belastbare Antwort auf die Frage näher, warum neuronale Netze besser funktionieren als andere Modelle.
    Das Problem ist nur, dass das gar nicht die Frage war, die die Leute eigentlich wirklich interessiert hat, und deshalb scheint jetzt der Punkt erreicht, an dem man festlegen muss, was man als Nächstes fragen sollte.

    • Ich glaube, wir befinden uns gerade in einer seltsamen Phase, in der sich die informationstheoretische Grundlage des Deep Learning schnell verfestigt.
      Die Frage, warum es funktioniert, ist im Wesentlichen beantwortet; im Kern geht es darum, irreversible Informationsverluste im Verhältnis zum noise floor effizient zu minimieren.
      Die Mathematik weist auf effizientere Wege hin, aber die Branche verschwendet seit Jahren viel, weil sie einfach nur immer größere Modelle forciert.
      Ein gut gebautes 70B-Modell könnte man auch mit ungefähr 16 GB betreiben und sogar weitertrainieren, ohne Fähigkeitsverlust, aber das Geld ist immer nur in bigger geflossen.
      Inzwischen hat die Branche ihre Ziele auf Agency und Long-horizon Persistence verlagert, und der Übergang von einem vorhersagenden Taschenrechner zu einem langlebigen System ist eher ein Problem der Nichtgleichgewichts-Thermodynamik.
      Dafür gibt es Mathematik und Gesetzmäßigkeiten, die sich auch direkt auf KI anwenden lassen, und die Prinzipien, nach denen Signale im Modell fortbestehen, und die Prinzipien, nach denen Agenten fortbestehen, laufen faktisch auf dieselbe Mathematik hinaus.
      Genau diese Persistenz ist auch mein Fachgebiet, und wenn ich sehe, wie man im KI-Bereich mühsam wieder erste Prinzipien lernt, die in anderen Feldern längst bekannt sind, ist das ehrlich gesagt manchmal frustrierend.
      Deshalb schreibe und teile ich Dokumente, die erklären, wie diese Mathematik funktioniert und wie man sie auf die jeweiligen Domänen anwendet; wenn man das gelesen hat, weiß man statt bloß nach Gefühl viel genauer, was man verbessern muss, damit Persistenz zunimmt.
      Fragen wie, ob man ein Modell ein paar Stunden lang arbeiten lassen kann, wirken da schon fast niedlich — die eigentlich grundlegenden Fragen liegen woanders.
    • Falls das stimmt, wäre das wirklich sehr erfreulich.
      Aus klassischer Perspektive sind Überparametrisierung und die Wirkung anderer neuronaler Netzstrukturen ehrlich gesagt schwer nachzuvollziehen.
      Ich erkenne an, dass double descent empirisch funktioniert, aber eigentlich fühlt es sich so an, als dürfte das nicht der Fall sein.
      Als jemand, der Hastie et al.s Elements schätzt, scheint allein schon der bias-variance tradeoff solche Resultate eher nicht nahezulegen.
      Das beschäftigt mich seit Jahren, daher wäre jeder Fortschritt hierzu schon auf philosophischer Ebene enorm wertvoll.
      Ich habe zwar erst die Einleitung gelesen, aber der Text ist gut geschrieben, und ein solches Forschungsprogramm würde ich sehr gern unterstützen.
      Es wirkt ähnlich wie bei bagging oder boosting, die anfangs ebenfalls erst empirisch erfolgreich waren, bevor eine Theorie dahinterstand.
    • Bei Forschung zum Verständnis neuronaler Netze überrascht es mich immer wieder, wie viele Leute von Anfang an sagen, es sei eine black box und deshalb prinzipiell nicht verstehbar.
      Wahrscheinlich liegt das auch daran, dass neuronale Netze oft als Gegenpol zur klassisch interpretierbaren linear regression dargestellt werden.
      Da das Engineering sich so schnell bewegt, herrscht außerdem oft eine Stimmung, in der Forschung nicht abgewartet wird, wenn sie nicht sofort sichtbare Resultate liefert.
      Selbst Forschende zur Interpretierbarkeit scheinen oft zu schnell aufzugeben, wenn nicht sofort auffällige Ergebnisse kommen.
    • Die Frage warum neuronale Netze besser funktionieren als andere Modelle finde ich spannend.
      Falls es dafür Materialien gibt, die auch für Nichtfachleute geeignet sind, würde ich sie gern kennen.
    • Ich bin nicht sicher, ob man wirklich eindeutig sagen kann, dass neuronale Netze besser als andere Modelle sind.
      Es stimmt zwar, dass sie eine viel breitere Klasse von Problemen wie Bilder abdecken können, bei denen traditionelles ML schwächer ist, aber dort, wo faire Vergleiche möglich sind, schneidet gradient boosting meines Wissens oft besser ab.
  • Was ich nicht verstehe, ist Folgendes.
    Die Idee neuronaler Netze gibt es seit Jahrzehnten, sie bekam aber lange wenig Aufmerksamkeit, und erst nach Attention Is All You Need von 2017 ist Deep Learning explosionsartig gewachsen.
    Ich verstehe, dass GPUs Deep Learning beschleunigen, aber das Konzept des Transformers selbst hätte man doch vielleicht auch schon früher auf viel langsamerer Hardware ausprobieren können.

    • Der eigentliche Wendepunkt war 2012 mit AlexNet.
      Wie https://en.wikipedia.org/wiki/AlexNet zeigt, brachte AlexNet im ImageNet-Klassifikationswettbewerb einen Leistungssprung, der in einer ganz anderen Größenordnung lag als alles davor, und danach stellten praktisch alle wichtigen ML-Bildlabore auf tiefe CNNs um.
      Innerhalb weniger Jahre verschwanden andere Ansätze in SOTA-Bildwettbewerben fast vollständig, und anschließend dominierten tiefe neuronale Netze auch andere ML-Bereiche.
      Die gängige Erklärung ist letztlich die Kombination aus zwei Dingen.
      Erstens massiv mehr Rechenleistung als früher, und zweitens viel größere, hochwertige Datensätze wie ImageNet, die man manuell kuratiert und gelabelt hatte.
      Attention war besonders nützlich, um in Sequenzen mit relativ freier Ordnungsstruktur wie Text komplexe Beziehungen zu lernen, aber inzwischen sehen viele Leute Architektur eher als eine Art tradeoff-Option, wenn Daten und Compute knapp sind, und nicht als das eigentliche Wesen des Lernens.
      Letztlich gilt oft wie bei https://en.wikipedia.org/wiki/Bitter_lesson: mehr Compute und mehr Daten schlagen am Ende häufig das scheinbar klügere Modell, das nicht gut skaliert.
      Menschen haben ungefähr 10^11 Neuronen, Hunde etwa 10^9 und Mäuse etwa 10^7; auffällig ist dabei vor allem, dass das alles extrem große Zahlen sind.
      Selbst begrenzte Intelligenz wie bei einer Maus braucht Hunderte Millionen Neuronen, und Intelligenz scheint erst jenseits einer gewissen Rechenkapazität überhaupt aufzutauchen.
      Vermutlich liegt das daran, dass man viele Parameter braucht, um mit der inhärenten Komplexität anspruchsvoller Lernumgebungen umzugehen.
      Bei einfachen oder stark strukturierten Problemen dagegen gibt es viele Verfahren, die mit wenigen Parametern gut funktionieren oder sogar nachweislich optimal sind.
      Wenn wir von Lernen und Intelligenz sprechen, setzen wir meist komplexe Umgebungen voraus, und diese Komplexität verlangt ihrem Wesen nach eine große Zahl an Parametern.
    • Der frühere große Sieg des Deep Learning war tatsächlich AlexNet 2012 in der Bilderkennung.
      Das dominierte den Wettbewerb, und innerhalb weniger Jahre war dieser Ansatz für Bildaufgaben faktisch Standard.
      Ich meine, es war Jeremy Howard, der um 2017 herum schrieb, dass man im NLP noch auf eine Form von transfer learning warte, die dort so gut funktioniert wie ConvNets bei Bildern.
      Das Attention-Paper beherrschte nicht sofort im selben Jahr die Welt; damals war auch die Hardware noch zu schwach, und es gab keinen Konsens, dass Skalierung alles löst.
      Bis GPT-3 dauerte es fast fünf weitere Jahre, und erst dann begann die heutige Welle.
      Außerdem unterschätzen viele, in welcher Compute-Größenordnung diese Monster trainiert werden: Mit einem einzelnen 1-GHz-Prozessor würde das Training eines solchen Modells grob 100 Millionen Jahre dauern.
      Selbst ein Modell auf GPT-3-Niveau braucht Monate auf etwa 25.000 GPUs, und mit dem schwachen Speicher von GPUs vor zehn Jahren war das Training großer Transformer praktisch unmöglich.
      Früher hatte eine k80 rund 12 GB, heute haben H100/H200 mehrere Hundert GB, und große Transformer konnte man realistisch erst ab den frühen 2020er-Jahren bauen.
      Das erinnert auch an die Beschwerden von Gamern Ende der 2010er, dass ML die GPU-Preise explodieren lasse.
    • Wie andere schon gesagt haben, begann der explosionsartige Aufschwung des Interesses, als deep convolutional networks bei Bildproblemen funktionierten.
      Interessant ist, dass neuronale Netze davor eher als unwichtig behandelt wurden.
      Als ich um 2000 entsprechende Lehrveranstaltungen besuchte, war die Stimmung im Großen und Ganzen genau so.
      Damit das Feld wieder Feuer fing, brauchte es am Ende offenbar sowohl riesige Trainingsdatenmengen wie ImageNet als auch schnelle Prozessoren.
      Danach setzten sich Folgeentwicklungen zu spezifischen Architekturen immer weiter fort und wuchsen wie ein Schneeball.
      In der breiteren Community gilt AlexNet als großer Wendepunkt, aber innerhalb der Wissenschaft hatte sich die Stimmung schon zwei bis drei Jahre vorher zu drehen begonnen.
      Ich habe etwa ab 2008/09 bemerkt, dass Vorträge über neuronale Netze auf Workshops nicht mehr einfach ignoriert wurden.
    • Etwas Ähnliches gab es auch bei Matrizen.
      Matrizen gibt es seit 400 Jahren, aber die lineare Algebra, insbesondere die numerische lineare Algebra, explodierte erst mit dem Aufkommen des Computers.
      Früher war es Standard, lineare Gleichungssysteme über die Theorie der minors zu lösen, doch mit Computern entwickelten sich Theorien wie Gaussian elimination oder Krylov-Räume stark weiter.
    • Das Transformer-Konzept hätte man auf langsamer Hardware vielleicht tatsächlich schon früher einsetzen können, aber in kleinem Maßstab bekommt man nicht dieselben Ergebnisse.
      Die Leute konnten es sich vielleicht vorstellen, hatten aber nicht die Hardware, um es wirklich umzusetzen.
      Vereinfacht gesagt ist ein LLM im Grunde ein Transformer plus riesige Datenmengen, und um Daten in diesem Umfang tatsächlich trainierbar zu machen, braucht man zwingend ausreichend starke Hardware.
  • Es ist interessant, dass wir versuchen, mit einem Lernwerkzeug, dem Gehirn, ein anderes Lernwerkzeug zu verstehen.
    SGD funktioniert bereits gut genug, und selbst wenn man es um ein Mehrfaches verbessert, beantwortet das womöglich noch nicht die grundlegendere Frage, was die Black Box eigentlich tatsächlich tut.
    Wie gelernt wird und was das Modell tatsächlich tut, sind verschiedene Fragen, denn auch unser Gehirn ist in vieler Hinsicht selbst eine Black Box.
    Deshalb scheint es mehr Verbindungen zwischen Forschung zu Lernmechanismen, Psychologie und philosophischen Ideen über die Natur von Denken und Sprache zu brauchen.

  • Das ist ermutigend, aber ich halte den Titel für etwas übertrieben.
    Angriffspunkte, um zu verstehen, was Deep Learning tatsächlich tut wäre vermutlich präziser gewesen, aber weniger aufmerksamkeitsstark.
    Wenn daraus eine Methode entstehen könnte, zu messen, wann Deep-Learning-Systeme Halluzinationen erzeugen, hätte das enormen Wert.
    Bis dahin lassen sich Deep-Learning-Systeme nur eingeschränkt für Aufgaben nutzen, bei denen der Schaden klein bleibt, wenn sie Unsinn ausgeben.

    • Ich denke, ein großes Hindernis in diesem Feld sind die wunschgetriebene Merkhilfe und die Anthropomorphisierung, die LLMs anhängen.
      Schon das Wort hallucination verleiht LLM-Ausgaben künstlich eine menschliche Bedeutung.
      Aus Sicht der tatsächlichen mathematischen Funktionsweise ist eine Halluzination einfach nur eine weitere Ausgabe, und zwischen ihr und anderen Ausgaben ist keine klare Grenze definiert.
    • Zu messen, wann Deep-Learning-Systeme Halluzinationen erzeugen, ist wirklich ein hoch lohnendes Problem.
      Das ist auch meine primäre Forschungsrichtung, daher bin ich womöglich voreingenommen.
      Ein gängiger Ansatz ist OOD detection, aber ich habe immer empfunden, dass schon die Problemformulierung dabei instabil ist.
      Deshalb versuchen Kolleg:innen und ich einen grundsätzlicheren Zugang über die Messung von Modell-misspecification, aber die Rechenkosten sind so hoch, dass das bisher eher ein Nischenthema bleibt.
      Egal in welche Richtung: Bis zum Durchbruch wird es wohl noch dauern.
  • Das erinnert mich konzeptionell an vibecoding.
    Man bringt erst einmal irgendetwas zum Laufen, und erst danach ist das Verstehen, warum und wie es funktioniert, eine ganz eigene Aufgabe.

  • Moment mal, man hat also etwas gebaut, das man weder wirklich versteht noch ordentlich erklären kann, und nennt es jetzt science?
    Seit Jahrzehnten leiht man sich Begriffe aus der Biologie, insbesondere der Neurobiologie, und am Ende wirkt manches wie bloßes copy paste im Affen-nachmachen-Stil.

  • Ehrlich gesagt fand ich diese zwei Versuche einer allgemeinen Theorie interessanter:
    https://arxiv.org/abs/2510.12269
    https://www.mdpi.com/1099-4300/28/3/332
    Mich interessiert auch die Verbindung zu fuzzy logic.
    Neuronale Netze scheinen auf vage Weise zu schlussfolgern, aber ich weiß nicht genau, wie man das formal nennen sollte.
    Jahrelang gab es Versuche, fuzzy reasoning zu formalisieren, aber inzwischen scheint das niemanden mehr zu interessieren.
    Für mich wirken neuronale Netze und Transformer wie OOP im ML.
    Extrem populär und in der Praxis oft ziemlich wirksam, aber in den Grundlagen noch immer undurchsichtig, und irgendwie auch so, als würde man etwas, das man früher schon ausdrücken konnte, in einer neuen Sprache neu formulieren — wobei schwer zu benennen ist, wo genau der Gewinn entsteht.

  • Ich habe den Aufsatz noch nicht vollständig gelesen, aber er ist wirklich packend geschrieben und wirkt ziemlich durchdacht.
    Es ist enorm viel Stoff, den man verarbeiten muss, aber ich finde es äußerst spannend, das alles an einem Ort zusammengebunden zu sehen.

  • Dass Deep Learning auf hohem Niveau gut funktioniert, liegt meiner Ansicht nach letztlich daran, dass es besser als andere Ansätze in der Lage ist, aus immer mehr Daten weiterzulernen.
    Ohne die heute verfügbaren gewaltigen Datenmengen wäre die Architektur aber vermutlich nicht so wichtig gewesen.
    Wenn man nicht beide Seiten der Modell-Daten-Gleichung gemeinsam erklärt, ist es schwer, eine belastbare wissenschaftliche Theorie zu Fragen aufzustellen wie etwa, warum ein reasoning-Modell überhaupt schlussfolgert.
    Ein Modell ist das Produkt aus Architektur und Trainingsdaten zusammen.
    Im Moment wirkt dieses Problem noch fast so unzugänglich wie die Frage, wie Menschen oder Tiere aus gigantischen Mengen an Input überhaupt bestimmte Dinge lernen.
    Das empirische Verständnis wird besser werden, aber die Grundlagen lassen sich am Ende vielleicht nicht wieder einfach auf Informatik zurückführen.
    Der eigentliche Kern der Komplexität liegt aus meiner Sicht eher in den Gigadatensätzen als in der Architektur.

  • Theorie wird in dem Moment entscheidend wichtig, in dem man Fehlermodi vorhersagen können muss.
    Ein System zur Entscheidungsunterstützung, das die meiste Zeit ungefähr richtig liegt, in edge cases aber still versagt, ist sogar gefährlicher als ein einfacheres System mit klar erkennbaren Grenzen.
    Wenn man die Mechanismen von Verzerrungen versteht, hilft das dabei zu unterscheiden, wann ein Modell wirklich zuversichtlich ist und wann es nur pattern matching betreibt.
    Dieser Unterschied ist gerade in Umgebungen mit hohem Einsatz besonders wichtig.