Cursor Composer 2.5 wird zum meistgewählten Modell in Cursor — 10-facher Nutzungsbonus
(x.com/mntruell)- Cursor-CEO Michael Truell gab auf X bekannt: „Composer 2.5 ist zum meistgewählten Modell in Cursor geworden. Für einen Tag erhalten alle Nutzer die 10-fache Nutzung.“
- Ein Signal für die schnelle Akzeptanz direkt nach dem Launch: Das eigene Modell wird gegenüber Anthropic-/OpenAI-Modellen als Standard gewählt.
Kernaussagen zu Composer 2.5
• Das am 18. Mai offiziell veröffentlichte agentische Coding-Modell der dritten Generation von Cursor
• Basiert wie Composer 2 auf dem Open-Source-Modell Kimi K2.5 von Moonshot AI; diesmal wird das bereits im ersten Absatz der Ankündigung ausdrücklich offengelegt (offenbar als Reaktion auf Kritik im März, als die Kimi-Basis nicht klar benannt wurde)
• 85 % der gesamten Compute-Ressourcen fließen in Cursors eigene Reinforcement-Learning-Pipeline und das Post-Training; im Vergleich zu Composer 2 wurden 25-mal mehr synthetische Coding-Tasks verwendet
• Zur Erhöhung der Zuverlässigkeit bei Long-Horizon-Aufgaben wurde „targeted RL auf Basis von Text-Feedback“ eingeführt — statt nach einem langen Rollout nur ein einzelnes Reward zu vergeben, werden gezielt Hinweise an den konkreten Stellen fehlerhafter Tool-Calls eingespeist, um das Credit Assignment zu präzisieren
Benchmarks (Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69,3 % vs 69,4 % vs 82,7 % vs 61,7 %  — praktisch gleichauf mit Opus 4.7, rund 13 Punkte hinter GPT-5.5
• SWE-Bench Multilingual: 79,8 % vs 80,5 % vs 77,8 % vs 73,7 %  — 0,7 Punkte hinter Opus 4.7, vor GPT-5.5
• CursorBench v3.1 (default setting): Composer 2.5 63,2 %, Opus 4.7 xhigh default 61,6 %, GPT-5.5 medium default 59,2 %  — in den tatsächlichen Standard-Einstellungen von Entwicklern überholt es beide Frontier-Modelle
Preis — die stärkste Waffe
• Standard tier: Input $0.50/M, Output $2.50/M. Fast tier (interaktiver Standard): Input $3.00/M, Output $15.00/M 
• Bei SWE-Bench Multilingual erreicht es Leistung auf Opus-4.7-Niveau bei etwa einem Zehntel der Anthropic-Preise 
• Laut CursorBench werden 63 % Genauigkeit bei durchschnittlichen Task-Kosten von unter $1 erreicht — Opus/GPT mit vergleichbarer Leistung kosten pro Task mehrere Dollar mehr 
Das größere Bild, das zugleich vorgestellt wurde
• Cursor kündigte außerdem an, unabhängig von Composer 2.5 gemeinsam mit der xAI-Infrastruktur (SpaceXAI) ein etwa 10-mal größeres Modell von Grund auf zu trainieren und dafür rund 1 Million H100-äquivalente GPUs von Colossus 2 zu nutzen (Veröffentlichungsdatum offen) 
• Laut CEO Michael Truell werden derzeit 35 % der intern bei Cursor gemergten PRs von autonomen Agenten erzeugt 
• Während Claude Code Cursor unter Druck setzt und auf $2,5 Mrd. ARR sowie 300.000 Geschäftskunden gewachsen ist, wirkt dies wie ein Gegenangriff mit einem eigenen Modell 
Einschränkungen bei der Nutzung / Kommentar
• Composer 2.5 ist nur in Cursor IDE, Cursor CLI und im Cursor-Web nutzbar — keine externe API, kein HuggingFace-Mirror, keine Drittanbieter-Gateways 
• Die Basis auf Kimi K2.5 bleibt in regulierten Branchen oder bei bundesnahen Aufgaben weiterhin ein Faktor, der berücksichtigt werden muss 
• Ein Release, das zeigt, dass Cursor sich vom „IDE wrapper“ zu einem echten Model-Lab entwickelt. Ein Beispiel dafür, mit derselben Basis allein durch Post-Training mehr als +6 Punkte herauszuholen — ein guter Datenpunkt für die Frage, wie weit „vertical RL“ rohe Skalierung schlagen kann
• Quelle: X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai
1 Kommentare
Ich habe es gerade ausprobiert, weil es neu ist, und Composer 2.5 ist ziemlich brauchbar.