Cursor Composer 2.5 wird zum meistgewählten Modell in Cursor — 10-facher Nutzungsbonus
(x.com/mntruell)- Cursor-CEO Michael Truell gab auf X bekannt: „Composer 2.5 ist zum meistgewählten Modell in Cursor geworden. Für einen Tag erhalten alle Nutzer die 10-fache Nutzung.“
- Ein Signal für die schnelle Akzeptanz direkt nach dem Launch: Das eigene Modell wird gegenüber Anthropic-/OpenAI-Modellen als Standard gewählt.
Kernaussagen zu Composer 2.5
• Das am 18. Mai offiziell veröffentlichte agentische Coding-Modell der dritten Generation von Cursor
• Basiert wie Composer 2 auf dem Open-Source-Modell Kimi K2.5 von Moonshot AI; diesmal wird das bereits im ersten Absatz der Ankündigung ausdrücklich offengelegt (offenbar als Reaktion auf Kritik im März, als die Kimi-Basis nicht klar benannt wurde)
• 85 % der gesamten Compute-Ressourcen fließen in Cursors eigene Reinforcement-Learning-Pipeline und das Post-Training; im Vergleich zu Composer 2 wurden 25-mal mehr synthetische Coding-Tasks verwendet
• Zur Erhöhung der Zuverlässigkeit bei Long-Horizon-Aufgaben wurde „targeted RL auf Basis von Text-Feedback“ eingeführt — statt nach einem langen Rollout nur ein einzelnes Reward zu vergeben, werden gezielt Hinweise an den konkreten Stellen fehlerhafter Tool-Calls eingespeist, um das Credit Assignment zu präzisieren
Benchmarks (Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69,3 % vs 69,4 % vs 82,7 % vs 61,7 %  — praktisch gleichauf mit Opus 4.7, rund 13 Punkte hinter GPT-5.5
• SWE-Bench Multilingual: 79,8 % vs 80,5 % vs 77,8 % vs 73,7 %  — 0,7 Punkte hinter Opus 4.7, vor GPT-5.5
• CursorBench v3.1 (default setting): Composer 2.5 63,2 %, Opus 4.7 xhigh default 61,6 %, GPT-5.5 medium default 59,2 %  — in den tatsächlichen Standard-Einstellungen von Entwicklern überholt es beide Frontier-Modelle
Preis — die stärkste Waffe
• Standard tier: Input $0.50/M, Output $2.50/M. Fast tier (interaktiver Standard): Input $3.00/M, Output $15.00/M 
• Bei SWE-Bench Multilingual erreicht es Leistung auf Opus-4.7-Niveau bei etwa einem Zehntel der Anthropic-Preise 
• Laut CursorBench werden 63 % Genauigkeit bei durchschnittlichen Task-Kosten von unter $1 erreicht — Opus/GPT mit vergleichbarer Leistung kosten pro Task mehrere Dollar mehr 
Das größere Bild, das zugleich vorgestellt wurde
• Cursor kündigte außerdem an, unabhängig von Composer 2.5 gemeinsam mit der xAI-Infrastruktur (SpaceXAI) ein etwa 10-mal größeres Modell von Grund auf zu trainieren und dafür rund 1 Million H100-äquivalente GPUs von Colossus 2 zu nutzen (Veröffentlichungsdatum offen) 
• Laut CEO Michael Truell werden derzeit 35 % der intern bei Cursor gemergten PRs von autonomen Agenten erzeugt 
• Während Claude Code Cursor unter Druck setzt und auf $2,5 Mrd. ARR sowie 300.000 Geschäftskunden gewachsen ist, wirkt dies wie ein Gegenangriff mit einem eigenen Modell 
Einschränkungen bei der Nutzung / Kommentar
• Composer 2.5 ist nur in Cursor IDE, Cursor CLI und im Cursor-Web nutzbar — keine externe API, kein HuggingFace-Mirror, keine Drittanbieter-Gateways 
• Die Basis auf Kimi K2.5 bleibt in regulierten Branchen oder bei bundesnahen Aufgaben weiterhin ein Faktor, der berücksichtigt werden muss 
• Ein Release, das zeigt, dass Cursor sich vom „IDE wrapper“ zu einem echten Model-Lab entwickelt. Ein Beispiel dafür, mit derselben Basis allein durch Post-Training mehr als +6 Punkte herauszuholen — ein guter Datenpunkt für die Frage, wie weit „vertical RL“ rohe Skalierung schlagen kann
• Quelle: X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai
2 Kommentare
Ich bin die enSHITification-Zyklen von Claude und OpenAI so leid, dass ich wohl wieder zu Cursor zurückkehren muss ...
Ich habe es gerade ausprobiert, weil es neu ist, und Composer 2.5 ist ziemlich brauchbar.