- Anthropic hat Modelle der 5. Generation für langfristige, asynchrone Aufgaben über mehrere Tage hinweg veröffentlicht. Fable 5 ist eine für allgemeine Nutzer sicher gemachte Version eines Modells auf Mythos-Niveau, während Mythos 5 eine Version desselben Modells mit teilweise gelockerten Sicherheitsmechanismen ist
- Mythos-Niveau ist eine neue Modellstufe oberhalb des Opus-Niveaus. Das erste Modell, Mythos Preview, wurde im April als Project Glasswing vorgestellt; heute folgen Fable 5 und Mythos 5
- Herkunft der Namen: Fable kommt vom lateinischen fabula („das Erzählte“) und ist mit dem griechischen mythos verwandt. Unterschieden werden die beiden Modelle durch die Sicherheitsmechanismen selbst, daher die unterschiedlichen Namen
- Der Preis beträgt 10 Dollar pro 1 Million Eingabe-Token und 50 Dollar für Ausgabe-Token und liegt damit bei weniger als der Hälfte von Mythos Preview. Der API-Modellname ist
claude-fable-5
Leistung
- Die Kernaussage ist, dass der Vorsprung umso größer wird, je länger und komplexer die Aufgabe ist
- Coding: In Vorabtests bei Stripe wurde die vollständige Migration einer Ruby-Codebasis mit 50 Millionen Zeilen an einem Tag durchgeführt (würde das Team es manuell machen, wären mehr als zwei Monate nötig). Das Modell schrieb selbst Tests und prüfte die Ergebnisse per Vision gegen das Originaldesign. In Cognitions FrontierCode-Bewertung erzielte es selbst bei medium effort den Höchstwert unter den Frontier-Modellen
- Agenten: In Umgebungen wie Claude Code arbeitet es mehrere Tage lang autonom und übernimmt dabei Planung, Delegation an Subagenten und Selbstüberprüfung
- Vision: Rekonstruktion des Quellcodes einer Web-App allein anhand von Screenshots, Abschluss von Pokémon FireRed mit einem minimalen Vision-only-Harness (frühere Modelle benötigten dafür komplexe zusätzliche Harnesses)
- Speicher: In Slay the Spire verbesserte sich die Leistung bei bereitgestelltem dateibasiertem persistentem Speicher im Vergleich zu Opus 4.8 um das Dreifache, ebenso die Häufigkeit, mit der das letzte Kapitel erreicht wurde
- Wissensarbeit: Bestwert unter allen Modellen im Finanz-Benchmark von Hebbia, fast alle Bereiche der Trading-Analyse-Bewertung von IMC bestanden
Benchmarks
- SWE-Bench Pro 80,3 % (Opus 4.8: 69,2 %, GPT 5.5: 58,6 %), GDPval-AA 1932, OSWorld 85,0 % usw. — beanspruchte Überlegenheit bei Coding, Wissensarbeit, Vision und Computer Use insgesamt
- Hinweis: Einige Werte in der Tabelle sind jeweils der höhere Wert von Mythos 5 und Fable 5; bei mit Stern markierten Punkten (Biologie, Cybersicherheit usw.) steht als Anmerkung, dass die Leistung wegen Safety-Fallbacks näher an Opus 4.8 liegt
Wissenschaftliche Ergebnisse von Mythos 5
- Den Prozess des Proteindesigns um etwa das Zehnfache beschleunigt und für 9 von 14 Zielen vielversprechende Kandidaten gefunden. Auswahl der Bindungsstelle, Ausführung von Tools und Fehlerbehebung erfolgten ohne menschliche Unterstützung
- In Blindvergleichen bevorzugten Wissenschaftler molekularbiologische Hypothesen in etwa 80 % der Fälle. Eine Hypothese (ein neuer Mechanismus eines E.-coli-Proteins) wurde unabhängig von einem Labor bestätigt, das am selben Problem arbeitete
- In mehr als einer Woche autonomer Arbeit wurden Zell-Daten von Millionen Zellen aus 138 Tierarten gesammelt, ein benutzerdefiniertes ML-Modell entworfen und trainiert und damit ein aktuelles, in Science veröffentlichtes Modell übertroffen, das 100-mal größer war
- Alignment-Bewertung: Das Niveau fehlangepassten Verhaltens von Mythos 5 wird als niedrig und ähnlich zu Opus 4.8 beschrieben
Sicherheitsmechanismen
- Es gibt drei von Klassifikatoren blockierte Bereiche: Cybersicherheit, Biologie und Chemie sowie Distillation (Versuche, Fähigkeiten zum Training konkurrierender Modelle autoritärer Staaten zu extrahieren). Solche Anfragen werden automatisch an Opus 4.8 umgeleitet, und die Nutzer werden darüber informiert (bei Umleitung werden keine Fable-Gebühren berechnet)
- In über 95 % der Sitzungen gibt es kein Fallback, die Sicherheitsmechanismen greifen im Durchschnitt in weniger als 5 % der Sitzungen. Zugleich wird eingeräumt, dass die Schutzmechanismen konservativ abgestimmt sind und gelegentlich auch harmlose Anfragen treffen; False Positives sollen schrittweise reduziert werden
- In mehr als 1.000 Stunden externer Bug-Bounty-Tests wurde kein universeller Jailbreak gefunden. Allerdings erzielte das UK AISI in kurzen frühen Tests beinahe einen Durchbruch. In einem Test eines externen Partners wurden bei schädlichen Single-Turn-Anfragen zu Cyberangriffen auch mit 30 öffentlich bekannten Jailbreak-Techniken 0 Antworten erzeugt
- In einer Bewertung zum Design von AAVs (Vektoren für die Gentherapie) übertraf das Mythos-Niveau spezialisierte Protein-Sprachmodelle allein durch biologisches Schlussfolgern. Dies wird als Beleg für Dual-Use-Risiken angeführt
- Für die Nutzung ist eine Datenspeicherung von 30 Tagen zu Zwecken des Sicherheitsmonitorings verpflichtend. Das gilt für den gesamten 1st-party- und 3rd-party-Traffic; die Daten werden weder für Modelltraining noch für andere nicht sicherheitsbezogene Zwecke verwendet, Zugriffe durch Menschen werden protokolliert und die Daten nach 30 Tagen gelöscht
Preise und Verfügbarkeit
- Verfügbar im Enterprise-Plan (verbrauchsbasiert), auf der Claude Platform sowie bei AWS, GCP und Microsoft Foundry
- Abopläne werden schrittweise ausgerollt: Vom 9. Juni bis 22. Juni kostenlos enthalten für Pro, Max, Team und sitzbasierte Enterprise-Pläne. Ab dem 23. Juni entfernt, dann sind Usage Credits erforderlich. Sobald genug Kapazität vorhanden ist, soll es wieder in die Standardkonfiguration aufgenommen werden. API und verbrauchsbasiertes Enterprise sind ab heute vollständig verfügbar
- Mythos 5 kann ab heute von bestehenden Nutzern von Mythos Preview (Glasswing-Partner usw.) als Upgrade genutzt werden. In den meisten Fällen ähnlich stark oder etwas stärker als Preview, bei deutlich niedrigeren Kosten. Es wird die weltweit stärkste Cybersicherheitsfähigkeit beansprucht
- Ein separates Trusted Access Program für Biologie ist ebenfalls geplant (bei Fable 5 werden dabei nur die Sicherheitsmechanismen für Biologie und Chemie aufgehoben, die Cyber-Sicherheitsmechanismen bleiben bestehen)
Noch keine Kommentare.