18 Punkte von princox 10 일 전 | 7 Kommentare | Auf WhatsApp teilen
  • Open-Source-Projekt, das die Struktur von Claude Mythos annimmt und als eine Form eines „iterativ denkenden Transformers“ implementiert
  • OpenMythos rekonstruiert die Architektur von Claude Mythos, das als nächstes Modell von Anthropic gilt, indem öffentliche Informationen und Forschungsideen kombiniert werden
  • Es handelt sich nicht um das tatsächliche Modell, sondern um ein Projekt, das die Hypothese „es könnte auf diese Weise funktionieren“ als Code umsetzt

Kernidee

Der Kern dieses Projekts ist, dass es sich im Unterschied zu bestehenden LLMs nicht darauf konzentriert, das Modell größer zu machen,
sondern dieselbe Struktur mehrfach wiederholt auszuführen.

Dabei wird eine einzelne Schicht mehrfach durchlaufen und der interne Zustand schrittweise aktualisiert,
wodurch tiefere Schlussfolgerungen ermöglicht werden.

Wichtige Strukturmerkmale

  • Struktur, in der derselbe Transformer-Block wiederholt ausgeführt wird
  • Während der Wiederholungen werden unterschiedliche Experten (MoE) selektiv aktiviert
  • Zwischenergebnisse werden nicht als externe Tokens ausgegeben, sondern im internen Zustand verarbeitet
  • Einsatz einer Attention-Struktur zur Verbesserung der Speichereffizienz

Unterschied zu bisherigen Ansätzen

Während typische LLMs beim Erzeugen von Tokens ihren Denkprozess nach außen sichtbar machen,
ist diese Struktur eher darauf ausgelegt, intern mehrfach zu rechnen und erst danach nur das Endergebnis auszugeben.

Mit anderen Worten: nicht „beim Sprechen denken“,
sondern „im Stillen gründlich nachdenken und dann sprechen“.

Bedeutung

Dieser Ansatz hängt auch mit dem Kostenproblem durch steigenden Token-Verbrauch zusammen.
Wenn die Inferenz durch interne Wiederholungen verarbeitet wird, kann die Zahl der nach außen erzeugten Tokens reduziert werden.

Außerdem lässt sich dies als neuer Trend verstehen, weil die Modellleistung nicht durch mehr Parameter,
sondern durch mehr Rechenaufwand in der Inferenzphase gesteigert werden soll.

Grenzen

Es gibt keine Garantie, dass die Struktur dem tatsächlichen Claude Mythos entspricht,
und es mangelt bislang noch an validierter Leistung oder Ergebnissen aus groß angelegten Experimenten.

Ein-Satz-Insight

  • Anstatt Modelle weiter zu vergrößern, könnte das wiederholte Ausführen desselben Modells für tieferes Denken zu einem Designprinzip der nächsten LLM-Generation werden

7 Kommentare

 
aliveornot 9 일 전

Ein Downvote-Button wäre auf GeekNews schön.

 
skageektp 8 일 전

Es gibt keine Garantie, dass die Struktur mit der des tatsächlichen Claude Mythos identisch ist,

Dann ist es doch überhaupt kein Reverse Engineering;;

 
rtyu1120 9 일 전

Es wurde nicht einmal veröffentlicht – wie soll man das denn per Reverse Engineering nachbauen ...??

 
akapwhd 8 일 전

Es ist nicht das eigentliche Modell, sondern ein Projekt, das die Hypothese als Code umsetzt, dass es „auf diese Weise funktionieren könnte“..

Warum macht man dann nicht gleich GPT-6 und sagt einfach, es könnte vielleicht so funktionieren~ haha

 
pmc7777 9 일 전

Wenn es irgendwo ein Thema gibt, das Aufmerksamkeit bekommt, produziert diese Person jedes Mal massenhaft Sachen nach dem Namensmuster open*; daher ist der Eindruck davon wohl nicht gerade der beste..

 
twiddlingguidable 9 일 전

Als ich sah, wer dahintersteckt, und merkte, dass es der Leiter eines Krypto-Projekts ist, habe ich nur noch nickend zugestimmt..

 
princox 9 일 전

Ah, stimmt. Wenn ich mir die Repository-Liste ansehe, gibt es noch ein paar weitere Projekte, die mit Open anfangen..