Kolmogorov-Arnold-Netzwerke könnten neuronale Netze verständlicher machen

(quantamagazine.org)

1 Punkte von GN⁺ 2024-09-14 | 1 Kommentare | Auf WhatsApp teilen

Das im April 2024 vorgestellte Kolmogorov-Arnold network (KAN) wurde als besser lesbare Alternative zu herkömmlichen MLP-basierten neuronalen Netzen vorgeschlagen und kann bei bestimmten Problemklassen nahezu alle Aufgaben übernehmen, die normale neuronale Netze erledigen
KANs platzieren auf Kanten statt numerischer Gewichte lernbare nichtlineare Funktionen, um die Ausgabe anzupassen; diese Struktur wurzelt im Kolmogorov-Arnold-Theorem von 1957
Das Team um Ziming Liu und Max Tegmark am MIT stieß bei 2-schichtigen KANs an Grenzen und probierte daraufhin Strukturen mit 3 oder mehr Schichten aus; es zeigte, dass ein 3-schichtiges KAN Funktionen darstellen kann, die sich mit 2 Schichten nicht exakt ausdrücken lassen
In der Knotentheorie und beim Problem der Anderson localization lieferte KAN nicht nur Antworten, sondern zeigte auch relevante Formeln oder Zusammenhänge; besonders nützlich könnte es bei wissenschaftlichen Problemen mit wenigen Variablen sein, etwa in der Physik
Folgestudien bestätigten Stärken bei Interpretierbarkeitsaufgaben und beim Lösen partieller Differentialgleichungen, während MLPs bei Computer Vision und Audioverarbeitung besser abschnitten; KAN 2.0 wurde als besser nutzbare Version veröffentlicht

MLP-Blackboxes und das Aufkommen von KAN

Ein typischer Grundbaustein moderner neuronaler Netze ist das multilayer perceptron (MLP); bei Skalierung auf große Datensätze liefert es starke Leistung
Trotz ihres Erfolgs sind MLP-basierte Netze für Menschen schwer nachzuvollziehen, und es ist nicht leicht zu erkennen, ob es grundlegende Prinzipien gibt, die ihre Ergebnisse erklären
Im April 2024 schlug das KAN-Paper ein transparenteres Kolmogorov-Arnold network (KAN) vor, das bei bestimmten Problemklassen fast alles leisten kann, was normale neuronale Netze tun
Alan Yuille von der Johns Hopkins University hält KANs für besser interpretierbar und sieht sie als besonders nützlich für wissenschaftliche Anwendungen, bei denen Regeln aus Daten extrahiert werden müssen

Wie KAN Funktionen anpasst

Übliche neuronale Netze verbinden Schichten künstlicher Neuronen oder Knoten über Kanten und passen die Gewichte dieser Kanten im Lernprozess so an, dass die Ausgabe näher an die richtige Antwort rückt
Ein häufiges Ziel neuronaler Netze ist es, eine mathematische Funktion oder Kurve zu finden, die Datenpunkte am besten verbindet
- Wird ein physikalischer Prozess modelliert, erwartet man, dass die Ausgabefunktion eine Gleichung ist, die die Physik beschreibt – also eine Form eines physikalischen Gesetzes
Für MLPs gibt es mathematische Theoreme, die angeben, wie nah sie einer optimalen Funktion kommen können; daraus folgt, dass MLPs diese Funktion nicht perfekt ausdrücken können
KANs verwenden auf Kanten keine einfachen numerischen Gewichte, sondern lernbare nichtlineare Funktionen
- Diese Kantenfunktionen können komplexere Kurven darstellen
- Sie lassen sich feiner anpassen als die numerischen Gewichte eines MLP

Das Theorem von 1957 und 35 Jahre Skepsis

Im Kern von KAN steht ein mathematisches Ergebnis, das Andrey Kolmogorov und Vladimir Arnold 1957 jeweils veröffentlichten
- Es besagt, dass sich eine mathematische Funktion mit mehreren Variablen in eine Kombination von Funktionen mit jeweils einer Variablen umwandeln lässt
Eine wichtige Einschränkung ist, dass die vom Theorem erzeugten Funktionen einer Variablen nicht glatt sein müssen
- Sie können scharfe Stellen haben, etwa die Spitze eines V
- Damit sich ein Netzwerk während des Trainings an Zielwerte anpassen kann, müssen einfache eindimensionale Bausteine glatt sein
Ein Paper von Tomaso Poggio und anderen am MIT aus dem Jahr 1989 erklärte ausdrücklich, die zentrale mathematische Idee hinter KAN sei „im Kontext von Netzwerken zum Lernen irrelevant“
Ziming Liu und Max Tegmark bemerkten, dass ein Netzwerk diese Funktionen mit glatten Funktionen approximieren kann, selbst wenn die Funktionen einer Variablen nicht glatt sind, und dass die meisten in der Wissenschaft vorkommenden Funktionen glatt sind
Da Software und Hardware seit 1989 große Fortschritte gemacht haben, griff Liu eine früher wenig beachtete Idee erneut auf

Vom 2-Schichten-KAN zum mehrschichtigen KAN

Liu baute etwa eine Woche lang einen Prototyp der einfachsten Form, eines 2-schichtigen KAN, erzielte damit bei den anvisierten wissenschaftlichen Aufgaben jedoch keine gute Leistung
Ein 2-schichtiges KAN schien natürlich zu der Struktur zu passen, in der das Kolmogorov-Arnold-Theorem eine Funktion mehrerer Variablen in eine Menge innerer und äußerer Funktionen zerlegt
Tegmark schlug vor, KANs mit mehr als zwei Schichten auszuprobieren, und dieser Ansatz führte zu Ergebnissen
Das Forschungsteam stellte gemeinsam mit Kollegen vom MIT, dem California Institute of Technology und der Northeastern University eine Kooperation zusammen, an der Mathematiker und Fachleute aus Anwendungsbereichen beteiligt waren
Im Paper vom April 2024 zeigte das Team, dass ein 3-schichtiges KAN möglich ist, und präsentierte Fälle, in denen ein 3-schichtiges KAN Funktionen exakt darstellt, die sich mit einem 2-schichtigen KAN nicht exakt ausdrücken lassen
Anschließend experimentierten sie mit bis zu 6 Schichten und bestätigten, dass sich mit zunehmender Schichtzahl komplexere Ausgabefunktionen anpassen lassen

Interpretierbarkeit in realen Problemen

Knotentheorie
- 2021 entwickelte ein Team von DeepMind ein MLP, das mehrere Eigenschaften eines bestimmten Knotens als Eingabe nimmt und eine topologische Eigenschaft dieses Knotens vorhersagt
- Das neue KAN reproduzierte dieses Ergebnis und zeigte außerdem, wie die vorhergesagte Eigenschaft mit anderen Eigenschaften zusammenhängt
- Liu bewertet dies als etwas, das ein MLP überhaupt nicht leisten kann
Anderson localization
- Das zweite Problem betrifft das Phänomen der Anderson localization in der Festkörperphysik
- Ziel war es, die Grenze vorherzusagen, an der ein bestimmter Phasenübergang auftritt, und eine mathematische Formel zu finden, die den Prozess beschreibt
- Ein MLP hatte diese Aufgabe zuvor nicht bewältigt; das KAN des Forschungsteams schaffte sie
- Tegmark sieht den größten Vorteil von KAN und die Hauptmotivation der jüngsten Entwicklung in der Interpretierbarkeit
- Er beschreibt als eine Form von Interpretierbarkeit, aus gegebenen Daten eine Formel zu liefern, die man auf ein T-Shirt drucken könnte
- Brice Ménard von Johns Hopkins urteilt, dass KANs ziemlich gut darin sind, eine solche Gleichung zu finden, wenn ein Problem tatsächlich durch eine einfache Gleichung beschrieben wird
- Allerdings dürfte der Bereich, in dem KANs am besten funktionieren, auf Probleme mit sehr wenigen Variablen beschränkt sein, etwa in der Physik

Folgestudien und KAN 2.0

Das KAN-Paper von Liu und Tegmark wurde in rund 3 Monaten 75-mal zitiert, und auch andere Forschungsgruppen begannen mit eigenen KAN-Arbeiten
Ein im Juni 2024 online veröffentlichtes Paper von Yizheng Wang und anderen von der Tsinghua University erklärte, dass Kolmogorov-Arnold-basierte neuronale Netze (KINN) MLPs beim Lösen partieller Differentialgleichungen (PDEs) deutlich übertrafen
- Wang sagt, PDEs kämen in der gesamten Wissenschaft vor
Ein Paper von Forschern der National University of Singapore aus dem Juli 2024 kam zu gemischteren Ergebnissen
- KANs waren bei Aufgaben rund um Interpretierbarkeit besser als MLPs
- Bei Computer Vision und Audioverarbeitung erzielten MLPs bessere Ergebnisse
- Bei Natural Language Processing und anderen Machine-Learning-Aufgaben waren die beiden Netzwerke im Großen und Ganzen ähnlich
Liu findet diese Ergebnisse nicht überraschend
- Der Fokus der ursprünglichen KAN-Forschung lag auf wissenschaftlichen Aufgaben, bei denen Interpretierbarkeit höchste Priorität hat
Im August 2024 veröffentlichten Liu und seine Koautoren das Paper zu KAN 2.0
- Liu beschreibt es eher als Benutzerhandbuch denn als traditionelles Paper
- KAN 2.0 ist einfacher zu verwenden und bietet unter anderem Multiplikationswerkzeuge, die im ursprünglichen Modell nicht vorhanden waren

Von anwendungszentriert zu verständniszentriert

Liu und seine Koautoren sehen KANs nicht nur als Mittel zum Zweck, sondern als Förderung neugiergetriebener Wissenschaft
Der in Machine Learning lange dominierende Ansatz ist anwendungszentrierte Wissenschaft
- Beobachtet man etwa die Bewegung von Himmelskörpern, konzentriert sich ein anwendungsorientierter Forscher auf die Vorhersage künftiger Zustände
- Ein neugiergetriebener Forscher versucht, die Physik hinter dieser Bewegung offenzulegen
Mit KANs können Forschende neuronale Netze nicht nur nutzen, um Hilfe beim Lösen schwieriger Rechenprobleme zu bekommen, sondern Verständnis selbst zum Ziel machen

1 Kommentare

GN⁺ 2024-09-14

Meinungen auf Hacker News

Der Hauptautor von KAN hielt gestern eine Tutorial-Session auf der MLCAD, einer Konferenz an der Schnittstelle von Hardware-/Halbleiterdesign und Machine Learning/Deep Learning.
Für Einsichten und Interpretationen physikalischer Systeme, etwa symbolische Ausdrücke, Erhaltungsgrößen und Symmetrien, wirkte das wirklich interessant und passend.
Für Wissenschaft und Mathematik kann es nützlich sein, aber im Engineering ist diese Interpretierbarkeit möglicherweise nicht das oberste Ziel von Machine Learning/Deep Learning.
Die Fähigkeit, schwierigere Aufgaben zu lernen, bzw. die Lernkapazität ist noch unklar, und auch die Wahl der Basisfunktionen für die KAN-„Aktivierungen“ oder die Frage, an welche Architekturen man diese Schicht anhängen sollte, damit sie Vorteile bringt, ist noch wenig erforscht.
Wenn mehr Leute mit KAN experimentieren, dürften sich auf diese Fragen mehr Antworten ergeben.
- Es gibt einen Vortrag desselben Autors von vor 2 Monaten: https://www.youtube.com/watch?v=FYYZZVV5vlY
- Ich frage mich, ob es eine öffentliche Version dieser Session gibt.
Ich halte das für unmöglich.
Nur weil eine interne Operation verständlich ist, wird dadurch nicht das gesamte neuronale Netz verständlich.
Selbst bei deutlich einfacheren Entscheidungsbäumen werden sie in Lehrbüchern als verständliche Systeme vorgestellt, die jeweils anhand eines Merkmals entscheiden und an den Blättern eine Ausgabe liefern.
In den 90ern, als Computer langsam und Bäume klein waren, stimmte das, aber heute können riesige Entscheidungsbäume und Random Forests Bäume mit Millionen von Knoten erzeugen, und die sind nicht interpretierbar.
Beim Verständnis komplexer Systeme gibt es eine grundlegende mathematische Lücke, die nicht durch einen weiteren Typ neuronaler Netze gelöst wird.
- Ich denke: „Hätte Newton damit die Formeln für die Kräfte finden können, die er analysierte, zum Beispiel Gravitation = g m_1 m_2 / d^2?“
  Ich habe früher einen Physikprofessor gefragt, ob das prinzipiell möglich sei, und er sagte ja.
  KAN scheint solche Formeln aus gegebenen Experimentaldaten finden zu können, und wenn das stimmt, halte ich es für angemessen, das Interpretierbarkeit zu nennen.
- Es kann sein, dass es für komplexe Systeme von vornherein keine Formeln oder Gleichungen gibt, mit denen man über sie schlussfolgern kann.
  Um Komplexität zu erschließen, muss man diese Komplexität vermutlich tatsächlich vollständig ausführen.
- Im Großen und Ganzen stimme ich zu, und bei ausreichend komplexen nichtlinearen Modellen halte ich das Streben nach Interpretierbarkeit für vergebliche Mühe.
  Trotzdem würde es mich eher überraschen, wenn es in der nichtlinearen Dynamik oder Musterbildung nicht irgendwann einen erfolgreichen Durchbruch gäbe.
- Auch sehr komplexe Entscheidungsbäume sind bis zu einem gewissen Grad interpretierbar.
  Denn man kann dem Baum folgen und Fragen beantworten wie: „Wäre das Ergebnis anders gewesen, wenn diese Bedingung nicht wahr gewesen wäre?“
  Den ganzen Baum auf einmal im Kopf zu behalten, dürfte schwierig sein, aber es ist möglich, bei Bedarf den tatsächlich durchlaufenen Pfad zu untersuchen, um ihn zu verstehen.
- Viele Leute bezeichnen Baum-Ensembles als Black Boxes.
  Ich sehe sie eher als graue Boxen oder dunkelgraue Boxen.
  Wenn man will, kann man sie interpretieren, aber wer möchte schon tatsächlich alle 500 Bäume durchgehen?
Der halbautomatische Vereinfachungsalgorithmus aus dem KAN-Paper scheint ein ähnliches Problem zu lösen wie https://arxiv.org/pdf/2112.04035.
Allerdings mit der zusätzlichen Einschränkung, dass er nicht auf einen verallgemeinerten abstrakten Kompressor zielt, sondern auf die Interpretierbarkeit der Vorwärtspropagationsfunktion.
Das ist nicht der Fall.
Bei trivialen Function-Fitting-Problemen ermöglicht KAN zu visualisieren, wie stark jede Basisfunktion zur nächsten Schicht beiträgt.
Aber solche flachen und trivialen neuronalen Netze muss man ohnehin kaum genauer betrachten.
Tiefe neuronale Netze werden durch diesen Ansatz nicht erklärbar.
- Genau.
  Ich weiß nicht, ob etwas mit Millionen bis Milliarden Parametern auf die Weise „erklärbar“ werden kann, die wir uns wünschen.
  Wenn man sich vorstellt, eine allgemeine multivariate Funktion mit Milliarden Termen auf ein riesiges Whiteboard geschrieben zu haben: Könnte man wirklich verstehen, warum sie eine bestimmte Zahl ausgibt?
  KAN hat vielleicht eine Größenordnung weniger Parameter, aber das Grundproblem bleibt dasselbe.
Das ist vielleicht nicht direkt mit dem Thema verbunden, aber ich frage mich etwas.
Eine Stärke neuronaler Netze besteht darin, die enorme Parallelität von GPUs zu nutzen – lassen wir da nicht Rechenressourcen ungenutzt, wenn wir nur skalare Gewichte verwenden?
Wie wäre es, statt Gewichtsmatrizen Funktionsmatrizen zu verwenden?
- Es ist zutreffender, neuronale Netze bereits als aus Funktionen aufgebaut zu betrachten.
  Bündel von geschichteten Knoten werden zu komplexen nichtlinearen Funktionen.
  Zum Beispiel kann schon ein kleines neuronales Netz mit 3 Schichten darauf trainiert werden, eine kubische Spline-Funktion zu modellieren.
  Das Innere der Funktion wird in jedem Schritt, bei jeder Addition und Multiplikation gelernt.
  Man kann die Zahl der Funktionen in einem neuronalen Netz als einen Bruchteil der Zahl der Gewichte betrachten; deshalb ist es theoretisch flexibler und leistungsfähiger, als komplexere Funktionen direkt zu modellieren.
  Wenn man die richtige Funktion kennt, könnte man ein kleines festes Funktions-MLP mit einer bestimmten Funktion modellieren und die Lerneffizienz erhöhen, aber wenn man nicht vorsichtig ist, kann man auch Performance verlieren.
  Das Hauptproblem ist, dass man nicht weiß, welche Funktion man verwenden sollte, und das Hinzufügen nichtlinearer Funktionen kann neue Schwierigkeiten bei Performance, Präzision, Initialisierung und Regularisierung mit sich bringen.
  Lineare Mathematik ist einfach und leistungsstark und kann bereits komplexe Funktionen modellieren, aber nichtlineare Mathematik kann ebenfalls nützlich sein; dazu scheint weitere Forschung nötig.
- GPUs sind für Matrizen aus Gleitkommawerten optimiert, deshalb basieren heutige neuronale Netze auf Matrizen mit skalaren Gewichten.
- Diese Beschreibung ist tiefen gaußschen Prozessen sehr ähnlich.
- Eine Nichtlinearität an jede Zeile oder Spalte der Gewichte zu hängen, ist im Grunde eine lernbare Funktion.
Das wurde kürzlich auch hier diskutiert: https://news.ycombinator.com/item?id=40219205
Der Kern der Interpretierbarkeit in wissenschaftlichen Anwendungen liegt in der symbolischen Regression.
Ein MLP kann nicht für jeden Datensatz immer eine Gleichung ausgeben, KAN hingegen schon.
- Ich dachte, MLPs seien universelle Funktionsapproximatoren: https://en.wikipedia.org/wiki/Universal_approximation_theorem
Kannst du erklären, was genau an neuronalen Netzen „unbekannt“ ist?
Wir haben sie gebaut, wissen, woraus sie bestehen, und auch, wie sie funktionieren.
Wir können zwar nicht jede Verbindung zwischen den Knoten dieses „mehrschichtigen Perzeptrons“ einzeln zuordnen, aber wissen wir nicht, wie solche Verbindungen entstehen?
- Moderne LLMs wie GPT-4o können b64-codierten Text grundsätzlich verstehen.
  Auch wir haben Algorithmen zum Decodieren und Encodieren von b64-Text, aber führt GPT-4o genau diesen Algorithmus aus?
  Hat das Training diesen Algorithmus gelernt? Offensichtlich nicht, oder zumindest nicht vollständig.
  Denn b64-Tippfehler, bei denen unser Algorithmus die Bedeutung des Originaltexts nicht mehr extrahieren könnte, sind für 4o kaum ein Problem.
  Wie decodiert es also b64? Wir wissen es nicht.
  Wir „bauen“ neuronale Netze nicht wirklich, sondern wir bauen ihre Struktur und trainieren sie.
  Abgesehen von der Bereitstellung der Trainingsdaten liegt das, was sie lernen, außerhalb direkter menschlicher Kontrolle.
  Außer bei trivialen Spielzeugbeispielen ist weitgehend unbekannt, was sie gelernt haben.
  Wir wissen, dass Verbindungen entstehen, können die Gewichte sehen und können auch die Matrixmultiplikationen sehen.
  Aber wir wissen nicht, was diese Berechnungen tun oder was sie bedeuten.
  Kann man sagen, dass ein Alien C-Code versteht, nur weil es sehen kann, wie er ausgeführt wird?
- Wir wissen nicht, was jede einzelne Verbindung bedeutet oder welche Information in jedem Gewicht codiert ist.
  Ebenso wissen wir nicht, wie sich das Verhalten ändert, wenn man eines von Millionen bis Billionen Gewichten verändert.
  Verglichen mit einem Wörterbuch ist bei einem Wörterbuch klar, welche Informationen auf jeder Seite und in jeder Zeile stehen.
- Lässt man einige Details weg, wendet ein Modell viele hochdimensionale Funktionen auf die Eingabe an, und wir kennen den Grund nicht, warum diese Funktionen das Problem lösen.
  Die Dimensionen der Gewichte auf für Menschen lesbare Werte zu reduzieren, ist nicht trivial, und mehrere Neuronen interagieren auf schwer vorhersagbare Weise miteinander.
  Forschung zur Interpretierbarkeit hat viele nützliche Ergebnisse und ansprechende Visualisierungen[1][2] hervorgebracht, und es gibt auch viele Bemühungen, Transformer zu verstehen[3][4], aber davon, die heute eingesetzten großen Modelle vollständig zu erklären, sind wir noch weit entfernt.
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- Ein LLM ist kein Gehirn, aber das Gehirn ist eine nützliche Analogie.
  So wie wir nicht vollständig verstehen können, wie wir denken, nur indem wir alle unsere Neuronen betrachten, lassen sich auch LLMs nicht allein durch die Analyse einzelner Komponenten verstehen.
  Das Entschlüsseln von LLMs ist vermutlich einfacher als das des Gehirns, aber das heißt nicht, dass es einfach ist.
- Wir wissen, wie Verbindungen entstehen und wie man sie entstehen lässt.
  Wir wissen jedoch nicht, warum genau diese konkrete Art der Entstehung das vorliegende Problem löst.
  Inzwischen ist selbst diese Formulierung nicht mehr ganz präzise.
  Denn es wird viel daran geforscht, was innerhalb der Blackbox passiert.
  Das Problem ist, dass es nie eine vollständig schwarze Box war. Man konnte jederzeit ins Innere schauen, aber es war schwer, es zu verstehen.
  KAN hilft dabei, einen Teil davon in eine mathematische Formulierung zu überführen, und Aktivierungskarten für Daten zu erstellen liefert auf ähnliche Weise Einsichten.

Kolmogorov-Arnold-Netzwerke könnten neuronale Netze verständlicher machen

MLP-Blackboxes und das Aufkommen von KAN

Wie KAN Funktionen anpasst

Das Theorem von 1957 und 35 Jahre Skepsis

Vom 2-Schichten-KAN zum mehrschichtigen KAN

Interpretierbarkeit in realen Problemen

Knotentheorie

Anderson localization

Folgestudien und KAN 2.0

Von anwendungszentriert zu verständniszentriert

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News