Cursor veröffentlicht Composer 2, ein auf Coding spezialisiertes KI-Modell

Cursor hat Composer 2 vorgestellt, ein auf Coding spezialisiertes KI-Modell mit Spitzenleistung zu niedrigen Kosten.

Leistung

In allen wichtigen Benchmarks wurden im Vergleich zum Vorgänger deutliche Verbesserungen erzielt.

Das Modell wurde mit drei Tests bewertet.

CursorBench — ein von Cursor selbst entwickelter Benchmark für reale Coding-Aufgaben. Von Composer 1 → 1.5 → 2 stieg der Wert von 38.0 → 44.2 → 61.3. Von 1 auf 2 entspricht das einer Leistungssteigerung von etwa 61 %, besonders der Sprung von 1.5 → 2 um rund 17 Punkte war in dieser Generation der größte Fortschritt.

Terminal-Bench 2.0 — eine vom Laude Institute betreute terminalbasierte Bewertung für Agenten. Gemessen wird die Fähigkeit, Aufgaben durch das Ausführen echter Befehle im Terminal abzuschließen. Die Werte stiegen von 40.0 → 47.9 → 61.7 und zeigen damit fast das gleiche Wachstumsmuster wie CursorBench.

SWE-bench Multilingual — die mehrsprachige Version des bekannten Software-Engineering-Benchmarks, bei dem reale GitHub-Issues per Code gelöst werden. Die Werte stiegen von 56.9 → 65.9 → 73.7. Bereits bei Composer 1 lag der Wert mit 56 Punkten höher als in den beiden anderen Benchmarks, was darauf hindeutet, dass die Fähigkeit zum Schreiben von Code-Patches schon relativ früh stark ausgeprägt war.

Zentrale Punkte

In allen drei Benchmarks ist der Zuwachs von 1.5 → 2 deutlich größer als von 1 → 1.5 — genau das ist der Kern dieser Ankündigung. Hier zeigt die Kombination aus fortlaufendem Pretraining und Reinforcement Learning ihre Wirkung. Der Wert von 73.7 bei SWE-bench Multilingual gehört unter den derzeit veröffentlichten Modellen zur Spitzengruppe.

Standardversion: Eingabe $0.50 / Ausgabe $2.50 (pro Million Tokens)
Schnelle Version (fast): Eingabe $1.50 / Ausgabe $7.50 (pro Million Tokens)

Die schnelle Version soll als Standardoption angeboten werden und punktet mit einem niedrigeren Preis als vergleichbare schnelle Modelle. Für Nutzer des Personal-Plans ist ein separates Nutzungskontingent mit einer großzügigen Grundmenge enthalten.

Kommentar

Bemerkenswert ist, dass Cursor sich ernsthaft von einer Schicht löst, die externe Modelle wie Claude oder GPT nutzt, und stattdessen den Kurs einschlägt, eigene Modelle direkt zu trainieren. Vor allem die Positionierung beim Preis-Leistungs-Verhältnis ist offensiv und lässt sich als Strategie lesen, im Markt für Coding-Agenten bis zur Modellebene vertikal zu integrieren. Wer bisher Claude Sonnet oder GPT-4o in Cursor verwendet hat, sollte einen Wechsel zu Composer 2 in Betracht ziehen.