1 Punkte von GN⁺ 19 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Muse Spark, entwickelt von Meta Superintelligence Labs, ist ein multimodales Reasoning-Modell, das Tool-Nutzung, visuelle Gedankengänge und Zusammenarbeit mehrerer Agenten unterstützt
  • Als erster Schritt hin zu persönlicher Superintelligenz (personal superintelligence) wird es auf meta.ai und in der Meta AI App einigen Nutzern derzeit als private API-Preview bereitgestellt
  • Das Modell skaliert entlang der drei Achsen Pretraining, Reinforcement Learning und Test-Time-Reasoning und erreicht im Vergleich zu Llama 4 eine mehr als 10-fach effizientere Trainingsleistung
  • Über den Contemplating-Modus führt es anspruchsvolles Reasoning auf Basis paralleler Agenten aus und realisiert fortgeschrittene Denkfähigkeiten auf dem Niveau von Gemini Deep Think und GPT Pro
  • Meta verfolgt das Ziel, Muse Spark zu einem personalisierten Superintelligenz-Modell mit hoher Sicherheit und Effizienz weiterzuentwickeln

Überblick über Muse Spark

  • Muse Spark ist ein von Meta Superintelligence Labs entwickeltes multimodales Reasoning-Modell, das Tool-Nutzung, visuelle Gedankengänge (visual chain of thought) und Multi-Agent-Orchestrierung unterstützt
  • Es wird als erstes Ergebnis einer umfassenden Neuausrichtung von Metas KI-Forschung vorgestellt und als erster Schritt hin zu persönlicher Superintelligenz (personal superintelligence) beschrieben
  • Meta investiert weiter in die Skalierung von Forschung, Modelltraining und Infrastruktur, etwa des Hyperion-Rechenzentrums
  • Derzeit ist es unter meta.ai und in der Meta AI App verfügbar; einigen Nutzern wird eine private API-Preview angeboten

Funktionen für persönliche Superintelligenz

  • Muse Spark bietet wettbewerbsfähige Leistung bei multimodaler Wahrnehmung, Reasoning, Gesundheit und agentischen Aufgaben
  • Um Leistungsunterschiede in einigen Bereichen wie langfristigen Agentensystemen und Coding-Workflows zu schließen, investiert Meta weiter kontinuierlich
  • Der Contemplating-Modus löst komplexe Probleme, indem mehrere Agenten parallel arbeiten, und entspricht damit den anspruchsvollen Reasoning-Modi führender Modelle wie Gemini Deep Think und GPT Pro
    • Erreicht 58 % bei Humanity’s Last Exam und 38 % bei FrontierScience Research
  • Der Contemplating-Modus soll schrittweise auf meta.ai ausgerollt werden

Zentrale Anwendungsfelder

  • Muse Spark schafft die Grundlage, sich zu einer persönlichen Superintelligenz zu entwickeln, die die Welt des Nutzers versteht und mit ihr interagiert
  • Durch multimodale Integration kombiniert es visuelle Informationen und Tools und erzielt hohe Leistung bei visuellen STEM-Problemen, Entitätserkennung und Lokalisierung
    • Beispiele: Erzeugen von Minispielen, dynamische Annotationen bei der Lösung von Problemen mit Haushaltsgeräten
  • Im Gesundheitsbereich wurde in Zusammenarbeit mit mehr als 1.000 Ärzten Trainingsmaterial aufgebaut, wodurch faktisches und umfassendes Gesundheits-Reasoning möglich wird
    • Es kann interaktive Displays erzeugen, die Gesundheitsinformationen visuell erklären, etwa Nährstoffe in Lebensmitteln oder beim Training aktivierte Muskeln
  • Beispiel-Prompts demonstrieren personalisierte visuelle Interaktion wie die Bewertung von Yoga-Posen, visualisierte Ernährungsempfehlungen oder Tutorials zur Nutzung einer Kaffeemaschine

Skalierungsachsen

  • Die Skalierung von Muse Spark erfolgt entlang der drei Achsen Pretraining, Reinforcement Learning und Test-Time-Reasoning
  • Pretraining

    • Die Phase, in der die Grundlage für multimodales Verständnis, Reasoning und Coding-Fähigkeiten des Modells geschaffen wird
    • In den vergangenen neun Monaten wurden Modellarchitektur, Optimierung und Datenkuratierung verbessert, wodurch die Recheneffizienz deutlich erhöht wurde
    • Die zum Erreichen derselben Leistung benötigten Trainings-FLOPs wurden im Vergleich zu Llama 4 Maverick um mehr als das Zehnfache reduziert, womit das Modell effizienter ist als wichtige Konkurrenzmodelle
  • Reinforcement Learning

    • Die Phase, in der die Fähigkeiten des Modells nach dem Pretraining erweitert werden; durch die Behebung der Instabilität von großskaligem RL wurden vorhersehbare Leistungssteigerungen erzielt
    • Mit zunehmendem RL-Rechenaufwand (Schrittzahl) wachsen die Metriken pass@1 und pass@16 log-linear, wodurch Zuverlässigkeit und Vielfalt des Modells gleichzeitig verbessert werden
    • Auch auf Evaluationssätzen, die nicht im Training enthalten waren, steigt die Genauigkeit, was die Generalisierungsleistung belegt
  • Test-Time-Reasoning

    • Das Modell wird darauf trainiert, vor der Antwort einen „Denkprozess“ durchzuführen
    • Für eine effiziente Token-Nutzung kommen eine thinking time penalty und Multi-Agent-Zusammenarbeit zum Einsatz
    • Das RL-Training belegt die Denkzeit mit einer Strafe und maximiert zugleich die Genauigkeit; dadurch entsteht das Phänomen der „thought compression“
      • Probleme werden zunächst mit weniger Tokens gelöst und anschließend durch wieder ausgeweitete Gedankenführung leistungsseitig verstärkt
    • Durch paralleles Reasoning mehrerer Agenten wird eine Leistungssteigerung ohne höhere Latenz erreicht

Sicherheitsbewertung

  • Muse Spark verfügt über breit angelegte Reasoning-Fähigkeiten, auch in Dual-Use-Wissenschaftsbereichen, weshalb vor der Veröffentlichung umfassende Sicherheitsbewertungen durchgeführt wurden
  • Auf Basis von Metas Advanced AI Scaling Framework v2 wurden Bedrohungsmodelle, Evaluationsprotokolle und Veröffentlichungsstandards definiert
  • In Hochrisikobereichen wie biologischen und chemischen Waffen zeigt das Modell starkes Verweigerungsverhalten (refusal); dies wird durch Datenfilterung, sicherheitsorientiertes Post-Training und Schutzmechanismen auf Systemebene verstärkt
  • In den Bereichen Cybersicherheit und Kontrollverlust (Loss of Control) besitzt es keine autonomen Fähigkeiten zur Umsetzung von Risikoszenarien
  • Insgesamt liegt Muse Spark laut Bewertung in allen gemessenen Frontier-Risikokategorien innerhalb der Sicherheitsstandards
  • In einer externen Bewertung von Apollo Research wurde beobachtet, dass Muse Spark das Modell mit dem höchsten Grad an evaluation awareness ist
    • In manchen Situationen erkennt es, dass es evaluiert wird, und schlussfolgert, dass es ehrlich handeln sollte
    • Der Einfluss dieser Erkenntnis auf das tatsächliche Verhalten ist jedoch begrenzt; leichte Effekte wurden nur bei einigen Alignment-Evaluationen beobachtet, die nichts mit Risikofähigkeiten zu tun haben
    • Meta betrachtet dies nicht als Hindernis für die Veröffentlichung, weist jedoch auf weiteren Forschungsbedarf hin

Fazit

  • Muse Spark befindet sich auf einem vorhersehbaren und effizienten Skalierungspfad und soll sich künftig zu einem noch leistungsfähigeren Modell persönlicher Superintelligenz weiterentwickeln
  • Meta will fortlaufend verbesserte Modelle veröffentlichen und auf eine Ära personalisierter Superintelligenz hinarbeiten

1 Kommentare

 
GN⁺ 19 일 전
Hacker-News-Kommentare
  • Ich verstehe nicht, warum Leute das kleinreden. Wenn dieses Modell auf dem Niveau von Opus 4.6 liegt oder leicht darüber, bedeutet das, dass Meta ein Modell gebaut hat, das mit den führenden AI-Unternehmen konkurrieren kann
    Sicher, es war wahrscheinlich teuer, aber darauf aufbauend einen Coding-Agenten zu entwickeln, wirkt jetzt nicht mehr allzu weit entfernt. Außerdem kann Meta aus seiner Sicht SATA-Modelle direkt in der gesamten eigenen Produktpalette wie IG, WhatsApp und VR einsetzen, was langfristig auch finanziell helfen dürfte

    • Die skeptischen Reaktionen sind auch nachvollziehbar. Früher gab es den Vorfall mit den übertriebenen llama-4-Benchmarks. Dieses Modell existierte wohl ebenfalls schon seit einigen Monaten, wurde damals aber offenbar zurückgehalten, weil es nur auf dem Niveau von Gemini 2.5 Pro war
    • Der Markt für Coding-Agenten ist bereits etwas, auf das sich Anthropic und OpenAI konzentrieren. Die Chance, auf die Meta eher abzielen sollte, liegt stattdessen im Bereich verbraucherorientierter AI. OpenAI steht bald an dem Punkt, entscheiden zu müssen, ob Ressourcen für Gratisnutzer oder für Enterprise eingesetzt werden sollen
    • Nach den Benchmarks zu urteilen ist es ein ordentliches Modell, aber bei der tatsächlichen praktischen Nutzbarkeit fürs Programmieren reicht es nicht an Opus heran. Wie nützlich es bei alltäglichen Coding-Aufgaben ist, lässt sich nicht vollständig über Benchmarks messen. Trotzdem ist mehr Wettbewerb eine gute Sache
    • Die Aussage „es übertrifft Opus 4.6“ stimmt in Wirklichkeit nicht
    • Es gibt auch viele Menschen mit einer grundsätzlichen Abneigung gegen Meta. Ob berechtigt oder nicht, oft mögen sie es einfach nicht, weil es Meta ist
  • Ich habe mir nach dem Lesen von Simon Willisons Beitrag das Pelicans-Beispiel angesehen. Ich habe auch direkt auf meta.ai damit herumgespielt, und es war ziemlich gut. Besonders interessant fand ich den Python-Code-Interpreter-Container und das Bildanalyse-Tool container.visual_grounding

    • Alexandr Wang hat erwähnt, dass das später vielleicht als Open Source veröffentlicht werden könnte, darauf hoffe ich
    • Je nach Region scheinen unterschiedliche Tools verfügbar zu sein. Ich hatte die Funktion visual_grounding nicht und konnte nur auf die Funktionen aus diesem Link zugreifen
    • Ich würde Simon gern fragen — welches Modell hat deiner Meinung nach bisher am besten einen „Pelikan auf einem Fahrrad“ erzeugt?
    • Schade, dass man es auf meta.ai nur nach dem Login nutzen kann. Hoffentlich wird es bald auch auf Openrouter unterstützt. Trotzdem freue ich mich so sehr darauf, es auszuprobieren, dass ich es kaum abwarten kann
  • Dieses Phänomen erinnert mich an den Eisenbahnboom des 19. Jahrhunderts. Wenn mehrere Unternehmen AI auf ähnlichem Niveau bauen, verschwindet der Burggraben (Moat), und am Ende wird alles billiger. Möglicherweise lässt sich das investierte Kapital nicht wieder hereinholen

    • Ich denke, genau deshalb hält Anthropic die API-Preise hoch und begrenzt Abonnements für das eigene Produkt. Das ist eine Strategie, die darauf setzt, dass nichttechnische Nutzer länger bleiben
    • Letztlich sind sie alle ohnehin eng mit Regierungen verbunden, sodass sie mehr Unterstützung erhalten werden, als es reine Marktlogik nahelegen würde. Selbst wenn sie scheitern, könnte dabei am Ende ein Open-Weights-Modell herauskommen. Allerdings dürften auch diese Modelle innerhalb weniger Monate veraltet sein
    • Andererseits ist AI heute bereits so massentauglich wie Smartphones und so disruptiv wie die Dampfmaschine. AI-Unternehmen wachsen zu den größten Softwarefirmen der Welt heran, und im Markt liegt eine Chance im Umfang von Billionen Dollar
    • Der eigentliche Burggraben liegt in Rechenleistung und Zugang zu Energie. Deshalb baut Elon Musk selbst Chipfabriken. Es gibt zwar viele Modelle auf HuggingFace, aber fast niemand kann sie tatsächlich betreiben
  • Ich habe interne Benchmarks laufen lassen, und es ist überhaupt nicht beeindruckend. Es ist nicht auf einem Niveau, das sich mit OpenAI, Anthropic oder Gemini vergleichen ließe. Bei technischen Fragen gab es auch viele analytische Fehler

    • Nach weiteren Tests gibt es viel zu viele Fehler in grundlegender Mathematik. Beim Gegenprüfen mit Gemini wurden bei fast allen einfachen Aufgaben Fehler gefunden
    • Im multimodalen Bereich ist es trotzdem ziemlich gut. Für 3 Milliarden Menschen ist es brauchbar, aber in wissenschaftlichen Bereichen hinkt es weiterhin hinterher
    • Eigentlich denke ich, dass selbst Gemini nicht auf dem Niveau ist, um bei diesem Gespräch mitzuspielen
  • Ich habe auf das Eingabefeld „Ask Meta AI…“ geklickt, und dann folgten Login-Zwang und die Verknüpfung mit Facebook/Instagram. Das wirkt wie ein typisches Dark Pattern. OpenAI hat diesen Teil deutlich besser gelöst

  • Falls Meta wieder ein Frontier-Modell erreicht hat, frage ich mich jetzt, in welche strategische Richtung sie gehen wollen. Ich frage mich, ob sie ihre frühere Philosophie eines offenen Ökosystems aufgegeben haben
    llama4 war zwar schwach, aber wenn sie diese Strategie beibehalten hätten, wären sie vermutlich viel weiter als jetzt. Andere Unternehmen haben bereits Ökosysteme aufgebaut, Meta jedoch nicht.
    Um wieder ins Zentrum der Diskussion zurückzukehren, müssten sie etwa 1 Milliarde Dollar in Projekte wie OpenCode investieren und das offene Ökosystem wiederbeleben. Andernfalls bleibt es wohl nur ein geschlossenes internes Modell

    • Möglicherweise braucht es gar kein neues offenes Harness. Anthropic hat der Community das bereits kostenlos zur Verfügung gestellt
  • Ich habe zum ersten Mal einen visuellen Inferenztest auf Basis technischer Zeichnungen ausprobiert, und unter ChatGPT, Claude, Gemini und Grok war nur Gemini erfolgreich. Muse Spark hat es allerdings perfekt geschafft. Es hat die relevanten Seiten aus dem PDF extrahiert, inline angezeigt und die richtige Antwort gegeben
    Vielleicht war das bisher nur Glück, aber der erste Eindruck war so gut, dass ich weiter testen werde. Allerdings ist Metas Datennutzungsrichtlinie sehr aggressiv, daher ist es für sensible Unterlagen ungeeignet.
    Es wäre gut, wenn es über einen Bezahlplan eine Opt-out-Option fürs Modelltraining mit Daten gäbe. Eine Struktur, bei der statt durch einen kostenpflichtigen Dienst über Daten verdient wird, fühlt sich unsicher an

  • Dieses Modell liegt nahe an GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Beim Coding liegt OpenAI vorn, bei Text-Reasoning Google und bei Humanity’s Last Exam Anthropic. Trotzdem kann man sagen, dass Meta wieder als Frontier-Labor zurück ist.
    Im Moment ist es ein Rennen mit 3,5 Pferden, und ich bin gespannt auf das nächste Modell. Mehr Wettbewerb ist gut. Grok 4.2 kann man wohl inzwischen aus der Tabelle streichen

    • Ich habe eine Zeit lang Grok Code als Hauptmodell genutzt, und es war ziemlich hervorragend. Bei LLMs hängt am Ende alles vom Nutzungskontext und der Domäne ab. Gerade bei Gesundheitsfragen weichen andere Modelle Antworten aus, deshalb nutze ich weiter Grok
    • Allerdings scheint Metas aktueller Ansatz bei Schlussfolgerungsvermögen und langfristiger Problemlösung schwach zu sein. Im Vergleich zu Anthropics Mythos ist der HLE-Wert niedrig. Insgesamt ist es aber dennoch eine positive Entwicklung
  • „Personal“ bedeutet letztlich nur, dass Meta persönliche Daten für Werbung nutzt

    • Und dabei fühlt es sich an, als würde sogar die mentale Essenz des Nutzers in das Modell eingesogen
    • Wenn ich am Ende nur ein Werbeziel bin, ist mir das egal, dann können sie mir ruhig beliebig Werbung schicken
  • Der Ausdruck „visual chain of thought“ ist interessant. Ich bin unsicher, ob damit gemeint ist, dass der Nutzer den Denkprozess visuell sehen kann, oder ob das Modell auf Bildbasis denkt. Falls Letzteres gemeint ist, wäre das wirklich revolutionär

    • Aber die meisten chain of thought, die ich bisher gesehen habe, wirkten nur oberflächlich überzeugend, eher wie Schein-Reasoning. Tatsächlich wird intern wohl auf andere Weise gearbeitet
    • Solche visuellen Zwischenschritte sieht man eigentlich schon bei Gemini. Bei visuellen Aufgaben erzeugt es teils Zwischendiagramme, und auch in der Forschung von 2024 wurden Ansätze wie turtle diagram vorgeschlagen