Versor: Ein PyTorch-Framework, das geometrische Rotationen (Rotoren) statt Matrixmultiplikation verwendet
(github.com/Concode0)Hinter den erstaunlichen Erfolgen des Deep Learning stand bisher fast immer das „Matrixprodukt (Wx+b)“. Versor stellt diesen Standard jedoch infrage. Die These lautet: „Matrizen erzeugen bei der Verarbeitung von Daten Verzerrungen, die Mannigfaltigkeiten (Manifolds) zerreißen oder zerknittern.“
Versor ist ein auf Geometric Algebra basierendes PyTorch-Framework, das entwickelt wurde, um diese „Linear Algebra Ceiling“ zu überwinden. Anstelle von Matrizen verwendet es Rotoren und präsentiert damit ein neues Deep-Learning-Paradigma, das die inhärente topologische Struktur der Daten bewahrt.
Kernphilosophie: Unbending (Glätten) vor Filtering (Herausfiltern)
Der Ansatz von Versor bedeutet nicht einfach nur, „alle Dimensionen beizubehalten, ohne sie zu reduzieren“. Der Kern ist vielmehr, „die Daten auszurichten, ohne sie zu beschädigen, und anschließend nur die benötigten Informationen sauber herauszufiltern“.
-
Unbending (Rotor)
Gewöhnliche Matrizen gehen mit Scherung (Shear) und Dehnung (Stretch) einher, die Sandwich-Multiplikation eines Rotors ist jedoch eine Isometrie. Wie beim Glätten eines zerknitterten Blattes Papier werden die Daten gedreht und entfaltet, wobei Abstände und Winkel vollständig erhalten bleiben.
-
Geometric Filtering (BladeSelector)
Sobald die Daten geometrisch korrekt entfaltet sind, richten sich die Informationen entlang bestimmter Achsen (Basis Blades) oder Grade aus. Dann verwirft der
BladeSelectorRauschen und behält nur die zentrale geometrische Information (z. B. Vektorkomponenten) bei, um die Dimensionalität zu reduzieren. Das ist eine qualitativ andere Form der Kompression als herkömmliche Verfahren (Projection), die Dimensionen durch erzwungenes Verformen reduzieren.
Wichtige Merkmale
-
Metric-Agnostic Kernel: Von euklidisch (Cl(3,0)) über Raumzeit (Cl(1,3)) bis hin zu konformer Geometrie (Cl(4,1)) funktioniert derselbe Code, solange nur die Signatur angepasst wird.
-
White-Box AI: Die Lernparameter sind keine unverständlichen Zahlen, sondern „Rotationsebenen (Bivektoren)“. Das Modell lässt sich dahingehend interpretieren, „in welcher Ebene und um wie viel es die Daten gedreht und ausgerichtet hat“.
-
Leichtgewichtig bei hoher Leistung: Unterstützt O(n)-Skalierung und ist so schlank, dass Echtzeit-Inferenz (5,8 ms/Molekül) sogar auf einer M4-CPU möglich ist.
Während zuletzt in der Forschung beachtete Ansätze wie GATr einen „architektonischen Ansatz“ verfolgen und GA innerhalb einer Transformer-Struktur nutzen, konzentriert sich Versor auf das „geometrische Wesen“ und führt Rotoren bereits auf der kleinsten Recheneinheit ein, um räumliche Verzerrungen von Grund auf zu verhindern. Dadurch erreicht es ein leichtgewichtiges Design, das Echtzeit-Inferenz mit deutlich weniger Parametern ermöglicht.
Benchmark-Ergebnisse
-
QM9 (molekulare Eigenschaften): Mit 3D-euklidischer Geometrie (Cl(3,0)) wurde auf einer einzelnen 4090-GPU nach nur einer Stunde Training ein MAE von 14,42 meV erreicht.
-
Motion Alignment (UCI-HAR): Hochdimensionale Bewegungsdaten wurden allein durch Rotation in einen latent space ausgerichtet, der linear separierbar ist, und erreichten dabei eine Genauigkeit von ~100 %.
-
Semantic Disentanglement (NLP): Auf dem 20-Newsgroups-Datensatz wurde durch geometrische Trennung eine Grade Purity von 100 % erreicht. (Eine Grade Purity von 100 % bedeutet, dass komplex verflochtene Daten ohne Rauschen vollständig und ausschließlich in „Vektor“-Komponenten getrennt und ausgerichtet wurden; das belegt mathematisch einen erfolgreichen Lernprozess geometrischer Strukturen.)
Ist das nicht Overfitting?
Das schnelle Konvergenztempo und die hohe Genauigkeit mögen Zweifel wecken, doch sie beruhen auf einem starken geometrischen inductive bias.
-
Eine gewöhnliche Matrix (n x n) hat zu viele Freiheitsgrade und lernt dadurch sogar Rauschen mit,
-
der Rotor von Versor ist mathematisch jedoch so eingeschränkt, dass er nur „Rotation“ ausführen kann.
-
Weil Scherung (Shear) und Dehnung (Stretch) strukturell unmöglich sind, kann das Modell nichts anderes lernen als die wesentliche Struktur der Daten. Dadurch erzielt es mit wenigen Parametern eine starke Generalisierungsleistung.
Da Versor auf PyTorch läuft, kann eine sehr ähnliche Schnittstelle weiterverwendet werden. Außerdem werden derzeit aktiv neue Tasks und Metriken entwickelt, daher ist Feedback sehr willkommen.
10 Kommentare
Könnten Sie vielleicht erläutern, wie das von Ihnen gepostete Projekt mit der folgenden Arbeit zusammenhängt?
Versor: A Geometric Sequence Architecture
https://arxiv.org/abs/2602.10195
https://github.com/VersorAI/Versor
Der Name ist identisch, und auch die verwendeten Konzepte scheinen ähnlich zu sein. Da ich mich in diesem Bereich nicht gut auskenne, ist mir nicht ganz klar, in welcher Weise sie zusammenhängen.
Wenn man sich die konkreten Demos ansieht, wirken sie unterschiedlich, daher vermute ich, dass es sich vielleicht um einen Fall handelt, in dem ähnliche Ideen ungefähr zur gleichen Zeit parallel aufgekommen sind. Deshalb wollte ich nachfragen, ob sich der aktuelle Trend in diesem Fachgebiet insgesamt in diese Richtung bewegt.
Vielen Dank für Ihr Interesse. Die von Ihnen erwähnte Arbeit ist mir bereits bekannt, und ich habe selbst eine eingehende technische Prüfung durchgeführt.
Bei der Prüfung habe ich zahlreiche Anzeichen für schwerwiegendes wissenschaftliches Fehlverhalten (Research Misconduct) festgestellt, darunter die physikalische Unmöglichkeit der in der Arbeit behaupteten Leistungskennzahlen sowie Datenmanipulation. Dementsprechend habe ich bereits eine offizielle Meldung an den Forschungsethikausschuss der Institution der Autoren, QMUL (Queen Mary University of London), eingereicht.
Derzeit habe ich von der Universität die Rückmeldung erhalten, dass die Meldung ordnungsgemäß eingegangen ist und ein offizielles Untersuchungsverfahren (Triage stage) eingeleitet wurde. Daher wäre ich Ihnen dankbar, wenn Sie diese Arbeit nicht als Fall zufällig ähnlicher Ideen verstehen würden, sondern als einen Vorgang, bei dem forschungsethische Mängel festgestellt wurden und nun eine offizielle Untersuchung läuft.
Nochmals vielen Dank, dass Sie den Wert des Originalprojekts erkannt und eine Frage hinterlassen haben.
Verstehe. Ich hoffe jedenfalls, dass sich alles auf natürliche Weise zum Guten fügt.
Oh, interessant.
Gibt es Ergebnisse, die sich nicht mit vagen Maßstäben wie „herausragend“, sondern mit Zahlen belegen lassen?
Vielen Dank für das Feedback. Die im Haupttext genannten Zahlen mögen Ihnen vielleicht etwas ungewohnt erschienen sein, sodass sie als „vage“ wirken konnten, doch Versor wurde konsequent auf Grundlage numerischer Belege entwickelt. Ich fasse die zentralen Kennzahlen noch einmal zusammen.
Bei der QM9-Task wurden mit einer einzelnen 4090 in weniger als einer Stunde 14,42 meV erreicht. Im Vergleich zu bisherigen SOTA-Modellen, die mehrere Tage Rechenzeit auf großen Clustern benötigen, belegt dieser Wert eine um ein Vielfaches höhere Ressourceneffizienz.
Auch in einer CPU-Umgebung (M4) wurde mit 5,8 ms/Molekül eine Inferenzgeschwindigkeit erzielt, die die Effizienz gegenüber anderen Modellen bestätigt.
Auch bei der UCI-HAR-Task wurden durch geometrische Ausrichtung 100 % Genauigkeit und Grade Purity erreicht. Das ist keine bloße statistische Schätzung, sondern die klarste Kennzahl dafür, dass die topologische Struktur der Daten perfekt ausgerichtet wurde.
Versor belegt die mathematische Realität geometrischer Beschränkungen. Auch bei künftigen veröffentlichten Benchmarks werden wir mit Zahlen antworten, daher freuen wir uns über Ihr weiteres Interesse.
Sie haben die Zahlen zwar gut angegeben, aber ein Vergleich der Werte wäre hilfreich. Mich würde eher interessieren, wie viel schneller es bei ähnlichen Aufgaben auf derselben Hardware geworden ist; die reine Angabe, wie hoch die Geschwindigkeit „ist“, vermittelt ehrlich gesagt wenig, und ich denke, viele Leute interessiert das auch nicht besonders.
Vergleichsdaten werden selbstverständlich noch ergänzt. Allerdings sind wir zu dem Schluss gekommen, dass bereits die bislang vorgelegten Effizienzkennzahlen pro Stunde auf einer einzelnen GPU ausreichen, um die Innovationskraft der Architektur hinreichend zu verdeutlichen. Wenn Sie einen intuitiveren Vergleich wünschen, würden wir uns freuen, wenn Sie auf die in Kürze aktualisierten Grafiken warten könnten.
So ein Ansatz scheint mir wirklich sehr gut zu sein
Ich dachte, dass die algebraische Topologie vielleicht sinnvoll wäre, aber dieser Ansatz ist viel einfacher.
Vielen Dank für Ihre Zustimmung. Ich habe im Forschungsprozess ebenfalls einen algebraisch-topologischen Ansatz in Betracht gezogen, bin aber letztlich zu dem Schluss gekommen, dass sich aus Engineering-Perspektive die Klarheit der geometrischen Algebra besser mit Deep Learning verbinden lässt. Dass Sie den Wert dieser „Einfachheit“ erkannt haben, gibt mir großes Vertrauen in meinen Ansatz.