Claude Fable 5/Mythos 5 vorgestellt, Anthropics Frontier-Modelle der 5. Generation

boradi · 2026-06-10T02:46:30+09:00

Anthropic hat Modelle der 5. Generation für langfristige, asynchrone Aufgaben über mehrere Tage hinweg veröffentlicht. Fable 5 ist eine für allgemeine Nutzer sicher gemachte Version eines Modells auf Mythos-Niveau, während Mythos 5 eine Version desselben Modells mit teilweise gelockerten Sicherheitsmechanismen ist Mythos-Niveau ist eine neue Modellstufe oberhalb des Opus-Niveaus. Das erste Modell, Mythos Preview, wurde im April als Project Glasswing vorgestellt; heute folgen Fable 5 und Mythos 5 Herkunft der Namen: Fable kommt vom lateinischen fabula („das Erzählte“) und ist mit dem griechischen mythos verwandt. Unterschieden werden die beiden Modelle durch die Sicherheitsmechanismen selbst, daher die unterschiedlichen Namen Der Preis beträgt 10 Dollar pro 1 Million Eingabe-Token und 50 Dollar für Ausgabe-Token und liegt damit bei weniger als der Hälfte von Mythos Preview. Der API-Modellname ist claude-fable-5 Leistung Die Kernaussage ist, dass der Vorsprung umso größer wird, je länger und komplexer die Aufgabe ist Coding: In Vorabtests bei Stripe wurde die vollständige Migration einer Ruby-Codebasis mit 50 Millionen Zeilen an einem Tag durchgeführt (würde das Team es manuell machen, wären mehr als zwei Monate nötig). Das Modell schrieb selbst Tests und prüfte die Ergebnisse per Vision gegen das Originaldesign. In Cognitions FrontierCode-Bewertung erzielte es selbst bei medium effort den Höchstwert unter den Frontier-Modellen Agenten: In Umgebungen wie Claude Code arbeitet es mehrere Tage lang autonom und übernimmt dabei Planung, Delegation an Subagenten und Selbstüberprüfung Vision: Rekonstruktion des Quellcodes einer Web-App allein anhand von Screenshots, Abschluss von Pokémon FireRed mit einem minimalen Vision-only-Harness (frühere Modelle benötigten dafür komplexe zusätzliche Harnesses) Speicher: In Slay the Spire verbesserte sich die Leistung bei bereitgestelltem dateibasiertem persistentem Speicher im Vergleich zu Opus 4.8 um das Dreifache, ebenso die Häufigkeit, mit der das letzte Kapitel erreicht wurde Wissensarbeit: Bestwert unter allen Modellen im Finanz-Benchmark von Hebbia, fast alle Bereiche der Trading-Analyse-Bewertung von IMC bestanden Benchmarks SWE-Bench Pro 80,3 % (Opus 4.8: 69,2 %, GPT 5.5: 58,6 %), GDPval-AA 1932, OSWorld 85,0 % usw. — beanspruchte Überlegenheit bei Coding, Wissensarbeit, Vision und Computer Use insgesamt Hinweis: Einige Werte in der Tabelle sind jeweils der höhere Wert von Mythos 5 und Fable 5; bei mit Stern markierten Punkten (Biologie, Cybersicherheit usw.) steht als Anmerkung, dass die Leistung wegen Safety-Fallbacks näher an Opus 4.8 liegt Wissenschaftliche Ergebnisse von Mythos 5 Den Prozess des Proteindesigns um etwa das Zehnfache beschleunigt und für 9 von 14 Zielen vielversprechende Kandidaten gefunden. Auswahl der Bindungsstelle, Ausführung von Tools und Fehlerbehebung erfolgten ohne menschliche Unterstützung In Blindvergleichen bevorzugten Wissenschaftler molekularbiologische Hypothesen in etwa 80 % der Fälle. Eine Hypothese (ein neuer Mechanismus eines E.-coli-Proteins) wurde unabhängig von einem Labor bestätigt, das am selben Problem arbeitete In mehr als einer Woche autonomer Arbeit wurden Zell-Daten von Millionen Zellen aus 138 Tierarten gesammelt, ein benutzerdefiniertes ML-Modell entworfen und trainiert und damit ein aktuelles, in Science veröffentlichtes Modell übertroffen, das 100-mal größer war Alignment-Bewertung: Das Niveau fehlangepassten Verhaltens von Mythos 5 wird als niedrig und ähnlich zu Opus 4.8 beschrieben Sicherheitsmechanismen Es gibt drei von Klassifikatoren blockierte Bereiche: Cybersicherheit, Biologie und Chemie sowie Distillation (Versuche, Fähigkeiten zum Training konkurrierender Modelle autoritärer Staaten zu extrahieren). Solche Anfragen werden automatisch an Opus 4.8 umgeleitet, und die Nutzer werden darüber informiert (bei Umleitung werden keine Fable-Gebühren berechnet) In über 95 % der Sitzungen gibt es kein Fallback, die Sicherheitsmechanismen greifen im Durchschnitt in weniger als 5 % der Sitzungen. Zugleich wird eingeräumt, dass die Schutzmechanismen konservativ abgestimmt sind und gelegentlich auch harmlose Anfragen treffen; False Positives sollen schrittweise reduziert werden In mehr als 1.000 Stunden externer Bug-Bounty-Tests wurde kein universeller Jailbreak gefunden. Allerdings erzielte das UK AISI in kurzen frühen Tests beinahe einen Durchbruch. In einem Test eines externen Partners wurden bei schädlichen Single-Turn-Anfragen zu Cyberangriffen auch mit 30 öffentlich bekannten Jailbreak-Techniken 0 Antworten erzeugt In einer Bewertung zum Design von AAVs (Vektoren für die Gentherapie) übertraf das Mythos-Niveau spezialisierte Protein-Sprachmodelle allein durch biologisches Schlussfolgern. Dies wird als Beleg für Dual-Use-Risiken angeführt Für die Nutzung ist eine Datenspeicherung von 30 Tagen zu Zwecken des Sicherheitsmonitorings verpflichtend. Das gilt für den gesamten 1st-party- und 3rd-party-Traffic; die Daten werden weder für Modelltraining noch für andere nicht sicherheitsbezogene Zwecke verwendet, Zugriffe durch Menschen werden protokolliert und die Daten nach 30 Tagen gelöscht Preise und Verfügbarkeit Verfügbar im Enterprise-Plan (verbrauchsbasiert), auf der Claude Platform sowie bei AWS, GCP und Microsoft Foundry Abopläne werden schrittweise ausgerollt: Vom 9. Juni bis 22. Juni kostenlos enthalten für Pro, Max, Team und sitzbasierte Enterprise-Pläne. Ab dem 23. Juni entfernt, dann sind Usage Credits erforderlich. Sobald genug Kapazität vorhanden ist, soll es wieder in die Standardkonfiguration aufgenommen werden. API und verbrauchsbasiertes Enterprise sind ab heute vollständig verfügbar Mythos 5 kann ab heute von bestehenden Nutzern von Mythos Preview (Glasswing-Partner usw.) als Upgrade genutzt werden. In den meisten Fällen ähnlich stark oder etwas stärker als Preview, bei deutlich niedrigeren Kosten. Es wird die weltweit stärkste Cybersicherheitsfähigkeit beansprucht Ein separates Trusted Access Program für Biologie ist ebenfalls geplant (bei Fable 5 werden dabei nur die Sicherheitsmechanismen für Biologie und Chemie aufgehoben, die Cyber-Sicherheitsmechanismen bleiben bestehen)

(anthropic.com)

20 Punkte von boradi 2026-06-10 | 14 Kommentare | Auf WhatsApp teilen

Anthropic hat Modelle der 5. Generation für langfristige, asynchrone Aufgaben über mehrere Tage hinweg veröffentlicht. Fable 5 ist eine für allgemeine Nutzer sicher gemachte Version eines Modells auf Mythos-Niveau, während Mythos 5 eine Version desselben Modells mit teilweise gelockerten Sicherheitsmechanismen ist
Mythos-Niveau ist eine neue Modellstufe oberhalb des Opus-Niveaus. Das erste Modell, Mythos Preview, wurde im April als Project Glasswing vorgestellt; heute folgen Fable 5 und Mythos 5
Herkunft der Namen: Fable kommt vom lateinischen fabula („das Erzählte“) und ist mit dem griechischen mythos verwandt. Unterschieden werden die beiden Modelle durch die Sicherheitsmechanismen selbst, daher die unterschiedlichen Namen
Der Preis beträgt 10 Dollar pro 1 Million Eingabe-Token und 50 Dollar für Ausgabe-Token und liegt damit bei weniger als der Hälfte von Mythos Preview. Der API-Modellname ist claude-fable-5

Leistung

Die Kernaussage ist, dass der Vorsprung umso größer wird, je länger und komplexer die Aufgabe ist
Coding: In Vorabtests bei Stripe wurde die vollständige Migration einer Ruby-Codebasis mit 50 Millionen Zeilen an einem Tag durchgeführt (würde das Team es manuell machen, wären mehr als zwei Monate nötig). Das Modell schrieb selbst Tests und prüfte die Ergebnisse per Vision gegen das Originaldesign. In Cognitions FrontierCode-Bewertung erzielte es selbst bei medium effort den Höchstwert unter den Frontier-Modellen
Agenten: In Umgebungen wie Claude Code arbeitet es mehrere Tage lang autonom und übernimmt dabei Planung, Delegation an Subagenten und Selbstüberprüfung
Vision: Rekonstruktion des Quellcodes einer Web-App allein anhand von Screenshots, Abschluss von Pokémon FireRed mit einem minimalen Vision-only-Harness (frühere Modelle benötigten dafür komplexe zusätzliche Harnesses)
Speicher: In Slay the Spire verbesserte sich die Leistung bei bereitgestelltem dateibasiertem persistentem Speicher im Vergleich zu Opus 4.8 um das Dreifache, ebenso die Häufigkeit, mit der das letzte Kapitel erreicht wurde
Wissensarbeit: Bestwert unter allen Modellen im Finanz-Benchmark von Hebbia, fast alle Bereiche der Trading-Analyse-Bewertung von IMC bestanden

Benchmarks

SWE-Bench Pro 80,3 % (Opus 4.8: 69,2 %, GPT 5.5: 58,6 %), GDPval-AA 1932, OSWorld 85,0 % usw. — beanspruchte Überlegenheit bei Coding, Wissensarbeit, Vision und Computer Use insgesamt
Hinweis: Einige Werte in der Tabelle sind jeweils der höhere Wert von Mythos 5 und Fable 5; bei mit Stern markierten Punkten (Biologie, Cybersicherheit usw.) steht als Anmerkung, dass die Leistung wegen Safety-Fallbacks näher an Opus 4.8 liegt

Wissenschaftliche Ergebnisse von Mythos 5

Den Prozess des Proteindesigns um etwa das Zehnfache beschleunigt und für 9 von 14 Zielen vielversprechende Kandidaten gefunden. Auswahl der Bindungsstelle, Ausführung von Tools und Fehlerbehebung erfolgten ohne menschliche Unterstützung
In Blindvergleichen bevorzugten Wissenschaftler molekularbiologische Hypothesen in etwa 80 % der Fälle. Eine Hypothese (ein neuer Mechanismus eines E.-coli-Proteins) wurde unabhängig von einem Labor bestätigt, das am selben Problem arbeitete
In mehr als einer Woche autonomer Arbeit wurden Zell-Daten von Millionen Zellen aus 138 Tierarten gesammelt, ein benutzerdefiniertes ML-Modell entworfen und trainiert und damit ein aktuelles, in Science veröffentlichtes Modell übertroffen, das 100-mal größer war
Alignment-Bewertung: Das Niveau fehlangepassten Verhaltens von Mythos 5 wird als niedrig und ähnlich zu Opus 4.8 beschrieben

Sicherheitsmechanismen

Es gibt drei von Klassifikatoren blockierte Bereiche: Cybersicherheit, Biologie und Chemie sowie Distillation (Versuche, Fähigkeiten zum Training konkurrierender Modelle autoritärer Staaten zu extrahieren). Solche Anfragen werden automatisch an Opus 4.8 umgeleitet, und die Nutzer werden darüber informiert (bei Umleitung werden keine Fable-Gebühren berechnet)
In über 95 % der Sitzungen gibt es kein Fallback, die Sicherheitsmechanismen greifen im Durchschnitt in weniger als 5 % der Sitzungen. Zugleich wird eingeräumt, dass die Schutzmechanismen konservativ abgestimmt sind und gelegentlich auch harmlose Anfragen treffen; False Positives sollen schrittweise reduziert werden
In mehr als 1.000 Stunden externer Bug-Bounty-Tests wurde kein universeller Jailbreak gefunden. Allerdings erzielte das UK AISI in kurzen frühen Tests beinahe einen Durchbruch. In einem Test eines externen Partners wurden bei schädlichen Single-Turn-Anfragen zu Cyberangriffen auch mit 30 öffentlich bekannten Jailbreak-Techniken 0 Antworten erzeugt
In einer Bewertung zum Design von AAVs (Vektoren für die Gentherapie) übertraf das Mythos-Niveau spezialisierte Protein-Sprachmodelle allein durch biologisches Schlussfolgern. Dies wird als Beleg für Dual-Use-Risiken angeführt
Für die Nutzung ist eine Datenspeicherung von 30 Tagen zu Zwecken des Sicherheitsmonitorings verpflichtend. Das gilt für den gesamten 1st-party- und 3rd-party-Traffic; die Daten werden weder für Modelltraining noch für andere nicht sicherheitsbezogene Zwecke verwendet, Zugriffe durch Menschen werden protokolliert und die Daten nach 30 Tagen gelöscht

Preise und Verfügbarkeit

Verfügbar im Enterprise-Plan (verbrauchsbasiert), auf der Claude Platform sowie bei AWS, GCP und Microsoft Foundry
Abopläne werden schrittweise ausgerollt: Vom 9. Juni bis 22. Juni kostenlos enthalten für Pro, Max, Team und sitzbasierte Enterprise-Pläne. Ab dem 23. Juni entfernt, dann sind Usage Credits erforderlich. Sobald genug Kapazität vorhanden ist, soll es wieder in die Standardkonfiguration aufgenommen werden. API und verbrauchsbasiertes Enterprise sind ab heute vollständig verfügbar
Mythos 5 kann ab heute von bestehenden Nutzern von Mythos Preview (Glasswing-Partner usw.) als Upgrade genutzt werden. In den meisten Fällen ähnlich stark oder etwas stärker als Preview, bei deutlich niedrigeren Kosten. Es wird die weltweit stärkste Cybersicherheitsfähigkeit beansprucht
Ein separates Trusted Access Program für Biologie ist ebenfalls geplant (bei Fable 5 werden dabei nur die Sicherheitsmechanismen für Biologie und Chemie aufgehoben, die Cyber-Sicherheitsmechanismen bleiben bestehen)

14 Kommentare

makekr 2026-06-11

Selbst wenn man darum bittet, die Sicherheit des eigenen Projekts zu stärken, blockieren diese verdammten Sicherheitsmechanismen das.
Dass man das in diesem Zustand veröffentlicht hat, wirkt für mich einfach wie eine technische Machtdemonstration nur für den Börsengang.

wkang586 2026-06-10

Es heißt, dass es ab heute in Cursor nutzbar ist, also wollte ich nachsehen, wie die Bewertungen ausfallen, aber bisher gibt es noch nicht viele Informationen.
Die Leistungsbewertung soll höher sein als bei Opus, daher muss man es wohl selbst einmal ausprobieren, um es zu wissen.
Ich mache mir Sorgen, wie viele Tokens es verschlingen wird.

gkhcdef 2026-06-11

Beim 5x-Tarif reicht schon ein einziger Code-Review-Durchlauf, und es arbeitet dann 40 Minuten lang und verbraucht dabei gleich das gesamte 5-Stunden-Limit;;;; Nicht jeder Code Review verbraucht so viel, und Verbesserungspunkte findet es durchaus gut, aber na ja ...
Etwas spitz formuliert: Wenn Opus oder GPT auch so fleißig arbeiten würden, gäbe es beim Ergebnis wohl keinen großen Unterschied. In manchen Bereichen kann es aber auch ein riesiger Vorteil sein, 40 Minuten lang auf diese Weise zu arbeiten.

bluekai17 2026-06-11

Ich habe es gestern ausprobiert, und der Token-Verbrauch war definitiv ziemlich schnell. Die Code-Qualität scheint besser geworden zu sein, und sogar Reviews und Sicherheitsprobleme wurden auf einmal mit erledigt.

seoseonyu 2026-06-10

Ich würde es gern ausprobieren, aber selbst wenn ich für Claude bezahle,
wird es ab dem 23. Juni nicht mehr auf das Abo-Kontingent angerechnet, daher greife ich nicht wirklich dazu...

awbrg789 2026-06-10

Ich gebe es zu..

savvykang 2026-06-10

Als ich in der Unterhaltung zu dem Link den Fall erwähnte, in dem Fable die Lösung einer Biologie-I-Aufgabe der CSAT verweigert hat, wurde das Gesprächsthema als gefährlich eingestuft und ich wurde zwangsweise auf Opus 4.8 umgestellt. Ich überlege ernsthaft, auf einen günstigeren Tarif zu wechseln.

dhkd63 2026-06-10

Ich überlege, ob ich von Claude zu Codex wechseln soll,
aber ich weiß es noch nicht. Ich muss es erst einmal ausprobieren.

winkagn 2026-06-10

Zunächst hieß es, dass Tokens doppelt so schnell verbraucht werden wie bei opus, also habe ich es ausprobiert, aber einen spürbaren Unterschied merke ich ehrlich gesagt nicht ... Und je nach Aufgabe gibt es Fälle, in denen automatisch zum opus-Modell gewechselt wird, und zwar aus den folgenden Gründen: (https://support.claude.com/en/articles/15363606)

bluekai17 2026-06-11

Der Tokenverbrauch ist auf jeden Fall deutlich spürbar. Das Umschalten erfolgt wohl automatisch, wenn es als sensibles Sicherheitsproblem eingestuft wird, aber ich glaube, diese Schwelle ist noch zu hoch.

newdps 2026-06-10

Ich habe gerade noch Codex benutzt, das kurz ausprobiert und sofort 200 Dollar bezahlt.

shakespeares 2026-06-10

Welche Vorteile gab es?

jimmy2056 2026-06-10

Meinem Eindruck nach bieten sie eine angemessene Arbeitsqualität bei geringem Token-Verbrauch. Die 200 Dollar für Claude reichen nicht aus, aber bei den 200 Dollar für Codex bleibt bei mir etwas übrig.