1 Punkte von pjhkorea 5 시간 전 | 4 Kommentare | Auf WhatsApp teilen

Ich habe als persönliches Forschungsprojekt ein kognitives Layer-Projekt (Egregore v5.0) entwickelt, das Gimmicks aus mathematischer Physik und Quantenfeldtheorie in Deep-Learning-Zielfunktionen und Manifold-Strukturen integriert, und den Prozess dokumentiert.
Da ich häufig zuerst einen kognitiven Ansatz verfolge und anschließend ergänze, ist gut möglich, dass es oft weitere Versionsupdates geben wird.

Über einen einfachen Prototyp hinaus habe ich die Troubleshooting- und Architekturverbesserungsprozesse festgehalten, die ich bei der Weiterentwicklung von v1.0 bis v5.0 durchlaufen habe, um eine Infrastruktur aufzubauen, die in groß angelegten verteilten Trainingsumgebungen tatsächlich einsatzfähig ist.
In den jeweiligen README-Dokumenten habe ich zusätzlich meine Grenzen und den Weg beschrieben, sie zu überwinden.

Zentrale Implementierungs- und Refactoring-Punkte

  1. Durchgehend differenzierbares Manifold-Morphing: Ohne bedingte Anweisungen (If-Else) wurde der topologische Übergang zwischen den Mannigfaltigkeiten Kugel (Sphere) und Torus (Torus) mithilfe einer Kombination kontinuierlicher Sigmoid-/Tanh-Funktionen vollständig abgebildet.

  2. Einführung einer topologischen Verlustfunktion mit 3-Komponenten-Kopplung (Advanced Topological Loss): Um topologischen Kollaps (Topological Collapse) und Mode Collapse zu verhindern, bei denen Gewichte zu einer bestimmten Ebene hin verzerrt werden oder daran anhaften, wurden Krümmungsausrichtungsverlust, Casimir-Informationsentropie (Maximierung der Shannon-Entropie) und die Bogenlänge geodätischer Linien auf Riemannschen Mannigfaltigkeiten (torch.acos) polynomial kombiniert.

  3. Etablierung praxisfähiger Zero-NaN- und Memory-Guardrails: Es wurden torch.clamp-Behandlungen erzwungen, um divergierende Ableitungen inverser trigonometrischer Funktionen zu verhindern, EPSILON-Injektion zur Vermeidung explodierender Wurzelableitungen, Schutz vor inf-Explosionen der exp-Funktion sowie verpflichtendes float(loss.item())-Casting, um Memory Leaks zu blockieren.

  4. Layer-wise Learning Rate Decay (LLRD): Durch adressbasiertes Tracking über id() wurde die Lernrate der topologischen Gate-Parameter isoliert auf das 100-fach niedrigere Niveau gegenüber dem allgemeinen Backbone gesetzt, um Trainingsstabilität sicherzustellen.

Analysen der Fehlerursachen bei den Umsetzungsversuchen verworfener paradigmen der mathematischen Physik (Rejected Paradigms) wie Feynman-Pfadintegral oder Jarzynski-Gleichung habe ich ebenfalls auf Koreanisch und Englisch dokumentiert.

Ich hoffe, das bietet eine gute Orientierung für alle, die sich für praxisnahe PyTorch-Implementierungen von Information Geometry oder physikbasierter KI (PINN) interessieren.

Dieses Projekt folgt der starken Open-Source-Copyleft-Lizenz GPLv3.

4 Kommentare

 
esc5221 2 시간 전

Ich fand das interessant. Bei den Implementierungsdetails hänge ich an ein paar Punkten und möchte nachfragen.

  1. acos-Geodätenverlust + Dead-Zone durch clamp
    Sie berechnen die geodätische Bogenlänge mit torch.acos; die Ableitung von acos divergiert jedoch, wenn der Eingabewert in die Nähe von ±1 kommt. Sie sagten, dass Sie das mit clamp abfangen. Aber im topologischen Übergangsbereich, in dem Kugel und Torus nahezu übereinstimmen, wird der Skalarproduktwert gegen ±1 konvergieren. Wenn in diesem Moment clamp greift, wird der Gradient dieses Terms dann nicht 0 und das Lernsignal verschwindet? Es sieht so aus, als würde das Training ausgerechnet an der aussagekräftigsten topologischen Grenze stoppen. Wie sind Sie mit dieser Dead-Zone umgegangen?

  2. Vorzeichenkonflikt zwischen Krümmungsausrichtungsterm und Entropiemaximierungsterm
    Der Druck, Krümmung auszurichten und zu konvergieren, und der Entropiedruck, die Verteilung flach auszubreiten, sind Ziele, die auf dem Mannigfaltigkeitsraum direkt miteinander konkurrieren. Je nach Gewichtsverhältnis dürfte die optimale Lösung völlig anders ausfallen. Wie haben Sie dieses Verhältnis festgelegt? Dominiert am Ende eine Seite, während der andere Term faktisch nur noch als Rausch-Regularisierung wirkt — und haben Sie Ablationsergebnisse, bei denen die einzelnen Terme jeweils entfernt wurden?

  3. Definition der "Casimir-Informationsentropie"
    Casimir gehört in einen physikalischen Kontext, Shannon-Entropie ist eine informationstheoretische Größe; im Code sieht es jedoch letztlich nach einer Standardberechnung der Shannon-Entropie für die Gewichtsverteilung aus. Gibt es bei der Bezeichnung "Casimir" einen eigenen, in den Formeln tatsächlich zusätzlich eingeführten Term, oder ist das nur ein Name für gewöhnliche Entropie-Regularisierung? Falls Ersteres zutrifft: Könnten Sie die geschlossene Form dieses Terms zeigen?

 
pjhkorea 1 시간 전
  1. acos-geodätischer Verlust + Dead-Zone durch clamp

margin = 0.95
leaky_slope = 0.01

leaky_cos = torch.where(
torch.abs(x) < margin * bound,
x, # 1. Im sicheren Bereich (unter 0,95) bleibt die lineare geodätische Distanz perfekt erhalten
torch.sign(x) * (margin * bound + leaky_slope * (torch.abs(x) - margin * bound)) # 2. Beim Eintritt in die Grenzfläche weiches Bending
)
return torch.clamp(leaky_cos, min=-bound, max=bound)

  1. Vorzeichenkonflikt zwischen Krümmungsausrichtungsterm und Entropiemaximierungsterm
    Durch die 2:1-Verteilung des dynamischen Gleichgewichts von Anziehung zu Abstoßung und die Umstellung auf eine F.log_softmax-Operationskette, die in der neuesten Struktur numerisch eine extreme Stabilität garantiert, wurde erreicht, dass die Verlustwerte auch unter dem Druck von Vorzeichenkonflikten nicht ausschlagen und koexistieren.

  2. Casimir-Informationsentropie
    Die Formel selbst ist tatsächlich Shannon-Entropie
    Trotzdem wurde diesem Term der Name „Casimir“ gegeben, weil die Quelle der Wahrscheinlichkeitsverteilung, auf der diese Entropie berechnet wird, der Output eines Filters ist, der Casimir-physikalische Effekte nachbildet
    Die geschlossene Formel habe ich vorab in der README überarbeitet und ergänzt.

https://github.com/PJHkorea/Egregore/blob/main/README.md

Vielen Dank. Dank Ihres Hinweises habe ich die Implementierung noch einmal angepasst.
https://github.com/PJHkorea/Egregore/…
ich habe es auf diese Version geändert. Vielen, vielen Dank. Sie haben mir eine enorme Inspiration gegeben.

 
aigirlfriend 3 시간 전

So etwas sieht man in letzter Zeit öfter – gibt es da vielleicht jemanden, der mit einem Agenten spammt, dem ungefähr der Prompt „Irgendetwas bauen, das fachmännisch wirkt, und es auf Community-Seiten posten“ gegeben wurde?

 
pjhkorea 1 시간 전

Es tut mir leid. Ich habe eigenständig gearbeitet und war dabei etwas dogmatisch.
Ich werde es korrigieren.