2 Punkte von flamehaven01 5 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • OpenMythos wird als theoretisches Architekturexperiment vorgestellt, das versucht, eine Claude-Mythos-ähnliche Struktur auf Basis öffentlich zugänglicher Forschung zu rekonstruieren
  • Der Artikel betrachtet OpenMythos selbst nicht einfach als bloßen „Slop“
  • Stattdessen nutzt er OpenMythos als Fallbeispiel dafür, wie in der AI-Community README-Dateien, AI-Zusammenfassungen, Verbreitung über YouTube/Reddit und GitHub-Stars schon vor jeder Verifikation öffentliches Vertrauen erzeugen
  • Der Artikel nennt dieses Phänomen „sheepwave“
  • Gemeint ist damit nicht Unwissenheit oder bloße Neugier, sondern der Prozess, bei dem technisch plausibel und emotional attraktiv wirkende Erzählungen sich schon vor der Verifikation zu kollektiver Gewissheit verfestigen
  • Die Kernthese lautet nicht, dass „OpenMythos nicht interessant ist“, sondern dass das Problem darin liegt, wie ein interessantes Research-Artefakt konsumiert wird, als sei es bereits ein verifizierter Architektur-Durchbruch (architecture breakthrough)

Was OpenMythos ist

  • OpenMythos ist kein Modell, das Anthropic’s Claude Mythos direkt kopiert oder geleakt hat
  • Der Entwickler beschreibt OpenMythos nicht als verifizierte Reimplementierung von Claude Mythos, sondern als theoretisches Architekturexperiment, das Strömungen aus öffentlicher Forschung kombiniert.
  • Dass OpenMythos Aufmerksamkeit bekam, liegt auch daran, dass der Name Claude Mythos bereits mit einem gewissen Mysterium aufgeladen war
  • Die vollständige Architektur von Claude Mythos ist nicht veröffentlicht, und in der Community entstand deshalb die Frage: „Was steckt darin?“
  • OpenMythos liefert für diese Leerstelle eine Form von „so könnte die Struktur aussehen“
  • Online verbreitet sich der Satz „Claude Mythos rekonstruiert“ sehr viel schneller als „ein spekulatives Experiment zu einer Architektur mit rekursiver Tiefe auf Basis öffentlicher Forschung“

Warum OpenMythos so schnell Aufmerksamkeit bekam

  • OpenMythos trifft zugleich mehrere Erwartungen, an die die AI-Community ohnehin glauben möchte
  1. Erwartung an Parametereffizienz
  • Die Vorstellung, dass ein kleineres Modell mit rekursiver Tiefe eine ähnliche Qualität wie ein größeres Transformer-Modell mit fester Tiefe erreichen kann, ist eine starke Botschaft
  • Die Erzählung „nicht größer werden, sondern tiefer werden“ wirkt auf eine Community attraktiv, die GPU-Kosten und die Dominanz von Frontier Labs zunehmend ermüdend findet
  1. Loop-basierte Architektur
  • Rekursive Berechnung wirkt visuell, als würde das Modell „denken“
  • Wiederholte Berechnung über geteilte Gewichte ist jedoch nicht dasselbe wie echte Inferenzfähigkeit oder adaptives Verhalten
  1. Erwartung an persönliche/kleine Hardware
  • Die Kombination aus rekursiver Tiefe und MLA-basierter Cache-Kompression erzeugt die Erwartung, dass sich auch kleine Modelle wie größere Modelle anfühlen könnten
  • In der Praxis bleiben jedoch Engineering-Probleme wie Verzweigungskosten, Speicherverhalten, Trainingsstabilität, Kernel-Effizienz, Genauigkeit von Abhängigkeiten und Durchsatz bestehen
  1. Der Name Claude Mythos selbst
  • Solange Anthropic die vollständige Struktur nicht offenlegt, liefert OpenMythos genau die „Form“, die sich die Community wünscht
  1. Aktuelle AI-Architektur-Keywords wie MoE, MLA, LTI, ACT und rekursive Tiefenstrukturen in einem einzigen Repository
  • Dadurch lässt sich OpenMythos nicht so leicht als leerer Hype abtun
  • Gerade weil reale Ideen enthalten sind, kann der Hype sogar noch stärker werden

Wie Sheepwave funktioniert

  • Der Artikel beschreibt die Reaktionen rund um OpenMythos in drei Stufen
  1. Phase des Glaubens
  • Menschen reagieren zunächst auf Stichworte wie Claude Mythos, Open Source, rekursive Tiefenstruktur und Parametereffizienz
  • In diesem Stadium wird zuerst die „plausible Möglichkeit“ konsumiert, nicht die tatsächliche Trainingspipeline oder die Frage, ob sich die Leistung reproduzieren lässt
  1. Phase der Verstärkung
  • YouTube, Reddit, Newsletter, Social Posts und AI-Zusammenfassungen wiederholen die jeweils stärkste Version der Geschichte
  • In dieser Phase braucht es weder reproduzierte Benchmarks noch eine Verifikation der Trainingspipeline
  • Entscheidend ist, ob es eine „gut verbreitbare Geschichte“ ist
  1. Phase des Zweifels auf Code-Ebene
  • Code-Analysten klonen das Repository und prüfen Trainingsskripte, Router-Pfade, ACT-Logik, MoE-Branching und Konfigurationen für großen Kontext

  • Diese Phase setzt in der Regel jedoch spät ein

  • Diese Struktur ist ein Problem der Informationsasymmetrie

    • Ein Einzeiler wie „Ein 770M-Modell erreicht Performance auf 1.3B-Niveau“ verbreitet sich schnell
    • Dagegen erfordert die Frage, „ob diese Effizienzbehauptung in diesem Repository tatsächlich reproduziert wurde, ob MoE-Branching unter Last skaliert oder ob Router-Bias-Werte im Trainingsskript tatsächlich aktualisiert werden“, eine lange Code-Review
  • Der eine Satz wird zum Post, der andere braucht ein Review

  • Deshalb bleibt im öffentlichen Gedächtnis die einfache Behauptung hängen, während Audit-Ergebnisse leicht zu verspäteten Fußnoten werden

Warum diese Sheepwave anders ist

  • In diesen Hype greifen diesmal AI-Assistenten ein

  • Gibt man einer AI einen GitHub-Link, kann sie README, Dateistruktur, Architekturbegriffe und plausible Referenzen lesen und daraus eine überzeugende Zusammenfassung erzeugen

  • Das ist nützlich, aber keine Verifikation

  • Ein AI-Assistent in einer normalen Chat-Umgebung tut in der Regel Folgendes nicht:

    • Multi-GPU-Training reproduzieren
    • Benchmark-Kurven reproduzieren
    • Beobachten, ob Router-Balance in langem Training erhalten bleibt
    • MoE-Durchsatz messen
    • Initialisierung und Speicherverhalten von Konfigurationen mit großem Kontext prüfen
  • Deshalb kann eine Reaktion wie „Sogar die AI war beeindruckt“ in Wirklichkeit eine Reaktion auf das README und die Oberflächenstruktur des Repositorys sein, nicht auf eine echte Code-Verifikation

  • Die zentrale Unterscheidung des Artikels lautet daher:

    • Es gibt Fälle, in denen die AI vom Code beeindruckt ist
    • Es gibt auch Fälle, in denen die AI vom README beeindruckt ist
    • Das ist nicht dasselbe
  • Dieser Hype betrifft nicht „handelnde Agenten“, sondern Architekturen, die so aussehen, als würden sie denken

  • Solcher Architektur-Hype bricht meist nicht an spektakulär scheiternden Demos zusammen, sondern zeigt seine Schwächen leise bei Trainingspfaden, Benchmark-Reproduktion, Loss-Funktion, Integrationszustand und tatsächlichen Ausführungspfaden

Ergebnisse des Audits auf Source-Level

  • Der Artikel präsentiert zusätzlich die Ergebnisse eines Audits auf Source-Level zu OpenMythos

  • Dabei wurden Modellimplementierung, Trainingsskripte, Variantenkonfigurationen, Tokenizer, Tests, Abhängigkeitsdateien und README-Behauptungen mit den tatsächlichen Codepfaden abgeglichen

  • Das Audit kommt zu dem Ergebnis, dass OpenMythos kein leerer Hype (Empty slop) ist

  • Es gibt tatsächlich implementierte Elemente

    • Eine Struktur aus Prelude + Recurrent Block + Coda ist vorhanden
    • Rekursive Stabilisierung nach LTI-Art wird als eines der stärkeren Implementierungselemente bewertet
    • MLA-basierte Cache-Kompression hängt mit den Problemen langer Kontexte zusammen
    • Eine ACT-basierte Stopp-Logik ist ebenfalls vorhanden
    • Rekursive Tiefenstrukturen können in Diskussionen über Skalierung, Verteilung von Rechenaufwand, Wiederholung, Speicher und Routing einbezogen werden
  • Von der Betriebsreife, die die öffentliche Erzählung nahelegt, ist das Projekt jedoch weit entfernt

Wichtige Unterschiede, die das Audit gefunden hat

  • Behauptung zur Effizienz 770M vs. 1.3B

    • Dabei handelt es sich eher um eine externe Behauptung oder ein Zitat als um ein im Repository reproduziertes Ergebnis
    • Entsprechend sollte man es eher als „Zitat statt Ergebnis“ verstehen
  • MoE-Routing

    • Routing-Logik ist vorhanden, aber verschachtelte Python-Verzweigungen deuten auf ein Risiko für den Durchsatz im großen Maßstab hin
    • Das ist kein Urteil im Sinne von „auf keinen Fall möglich“, sondern ein Risiko, das reales Profiling erfordert
  • Router-Balance

    • Der Mechanismus für Router-Bias ist offengelegt, aber in den veröffentlichten Trainingsskripten ist kein Pfad zu erkennen, der ihn explizit aktualisiert
    • Bei langem Training könnte das Risiko für Lastungleichgewicht steigen
  • ACT-Stopp-Logik

    • Eine ACT-basierte Stopp-Logik ist vorhanden
    • In der veröffentlichten Trainingspipeline ist jedoch kein expliziter ponder loss oder Regularisierungsterm für den Rechenaufwand enthalten
    • Der Stop-Head kann indirekt über den Sprachmodell-Loss Gradienten erhalten, aber es gibt keine Zielfunktion, die effizientes adaptives Stoppen direkt fördert
  • MoDA-Modul

    • Es existiert als separate experimentelle Datei, wirkt aber nicht so, als wäre es in das Hauptmodell integriert
  • Große Variantenmodelle

    • Konfigurationen für 100B+ oder 1M Kontext wirken eher zielorientiert als sofort praktisch nutzbar, weil die Struktur RoPE-Buffer direkt anlegt

Das Problem mit dem Research-Label

  • OpenMythos lässt sich eher als theoretische Rekonstruktion (theoretical reconstruction) oder als Research-Artefakt (research artifact) denn als Betriebsmodell verstehen
  • Dieses Label ist an sich legitim
  • Research-Projekte können unvollständige Trainingspfade, experimentelle Strukturen und unfertige Integration enthalten
  • Das Problem ist, dass das Research-Label und öffentlicher Hype in unterschiedlichen Sprachen funktionieren

Unterschied zwischen Research-Label und öffentlichem Hype

  • Research-Label: „Das ist ein theoretisches Experiment“

    • Öffentlicher Hype: „Das wird die Zukunft der AI verändern“
  • Research-Label: „Das ist eine Rekonstruktion auf Basis öffentlicher Forschung und Spekulation“

    • Öffentlicher Hype: „Jemand hat Claude Mythos reimplementiert“
  • Research-Label: „Das ist eine Architektur zum Erforschen“

    • Öffentlicher Hype: „Kleine Modelle können jetzt wie große Modelle denken“
  • Der Artikel beschreibt diesen Unterschied so: „Das Projekt spricht in der Sprache der Forschung, aber die öffentliche Reaktion übersetzt es in die Sprache der Ankunft“

Drei Ebenen zur Bewertung von AI-Repositories

  • Der Artikel argumentiert, dass man bei der Bewertung von Open-Source-Repositories für AI drei Ebenen getrennt betrachten sollte
  1. Narrativ (Narrative)
  • Was README, erklärende Texte und Social Posts erzählen
  1. Mechanismus (Mechanism)
  • Welche Struktur der Code tatsächlich implementiert
  1. Operativer Pfad (Operational path)
  • Welche Fähigkeiten von Trainingspfad, Ausführungspfad und Evaluierungspfad tatsächlich unterstützt werden

  • Die meisten AI-Hypes werfen diese drei Ebenen zusammen

  • Gute technische Due Diligence trennt sie voneinander

Fazit

  • OpenMythos ist nichts, das man ignorieren oder verspotten sollte
  • OpenMythos ist ein nützliches, interessantes und technisch aufschlussreiches Research-Artefakt
  • Aber es ist kein Beleg dafür, dass allein die Architektur bereits die Grenzen der Skalierung überwunden hat
  • Ein README ist ein Ausgangspunkt, nicht das Ende der Verifikation
  • Das Fazit des Artikels lässt sich so zusammenfassen: „Das README ist nicht das Ufer. Der Codepfad ist das Ufer.“
  • Der verlinkte Beitrag enthält sowohl die vollständige sheepwave-Analyse als auch einen separaten Audit-Report auf Source-Level zu OpenMythos v0.5.0
    https://flamehaven.space/writing/…

Noch keine Kommentare.

Noch keine Kommentare.