- Composer, vorgestellt von Cursor, ist ein schnelles intelligentes Agentenmodell für Software Engineering und erreicht im Vergleich zu ähnlichen Modellen eine 4-fach höhere Geschwindigkeit bei der Codegenerierung
- Es wird darauf trainiert, reale Probleme in großen Codebasen zu lösen, und nutzt Such- und Bearbeitungswerkzeuge, um Aufgaben unterschiedlicher Schwierigkeit zu bewältigen
- Durch die Kombination aus Mixture-of-Experts(MoE)-Architektur und Reinforcement Learning(RL) unterstützt es Verstehen und Generierung in langen Kontexten wie Codebearbeitung, Planung und Antworten
- Über die Bewertung mit Cursor Bench misst man nicht nur die Genauigkeit des Modells, sondern auch Konsistenz innerhalb der Codebasis und die Einhaltung von Engineering-Praktiken
- Mithilfe einer asynchronen RL-Infrastruktur auf Basis von PyTorch und Ray sowie MXFP8-Training mit niedriger Präzision werden effizientes Training auf Tausenden GPUs und eine höhere Inferenzgeschwindigkeit ermöglicht
Überblick über Composer
- Composer ist ein neues Agentenmodell, das mit dem Ziel entwickelt wurde, Intelligenz und Geschwindigkeit für Software Engineering zu vereinen
- In Benchmarks erreichte es eine 4-fach höhere Geschwindigkeit bei der Codegenerierung im Vergleich zu ähnlichen Modellen
- Innerhalb von Cursor ist es als Agent zur Lösung von Problemen in großen Codebasen optimiert
- Das Modell wird darauf trainiert, in realen Umgebungen mithilfe von Such- und Bearbeitungswerkzeugen Probleme mit unterschiedlichem Schwierigkeitsgrad zu lösen
- Dadurch entsteht eine schnelle interaktive Entwicklungserfahrung
Hintergrund der Entwicklung
- Composer geht aus den Erfahrungen von Cursor bei der Entwicklung des benutzerdefinierten Modells zur Code-Autovervollständigung (Cursor Tab) hervor
- Dabei wurde festgestellt, dass Entwickler intelligente und zugleich schnell reagierende Modelle bevorzugen
- Auf Basis des frühen experimentellen Modells Cheetah wurde Composer als schnellere und klügere Version konzipiert
- Ziel war der Aufbau eines Modells, das sofort reagiert und dabei den Entwicklungsfluss aufrechterhält
Modellarchitektur und Trainingsansatz
- Composer ist ein Mixture-of-Experts(MoE)-Sprachmodell und unterstützt Verstehen und Generierung in langen Kontexten
- Durch Reinforcement Learning(RL) wird es für verschiedene Entwicklungsumgebungen spezialisiert
- In jedem Trainingsschritt erhält es eine Problembeschreibung und erzeugt optimale Codeänderungen, Pläne und Antworten
- Das Modell nutzt Werkzeuge wie Dateien lesen und bearbeiten, Ausführen von Terminal-Befehlen und semantische Suche über die gesamte Codebasis
- Im RL-Prozess lernt das Modell selbstständig nützliche Verhaltensweisen wie komplexe Suchen ausführen, Linter-Fehler beheben sowie Unit-Tests schreiben und ausführen
Evaluierung und Benchmarking
- Cursor Bench ist ein internes Evaluierungsset mit realen Engineering-Anfragen und optimalen Antworten
- Gemessen werden Genauigkeit, Einhaltung der Abstraktionen der Codebasis und Übereinstimmung mit Software-Engineering-Praktiken
- Composer wird als Modell der Kategorie „Fast Frontier“ eingeordnet und mit auf effiziente Inferenz ausgerichteten Modellen wie Haiku 4.5 und Gemini Flash 2.5 verglichen
- Es ist langsamer als Top-Frontier-Modelle wie GPT-5 und Sonnet 4.5, bietet jedoch eine hohe Effizienz im Verhältnis zur Geschwindigkeit
Infrastruktur und Systemdesign
- Für das Training großer MoE-Modelle wurde eine asynchrone RL-Infrastruktur auf Basis von PyTorch und Ray aufgebaut
- Dabei werden MXFP8-MoE-Kernel, Experten-Parallelisierung und hybrides Sharding für Datenparallelisierung kombiniert
- So lässt sich das Training auf Tausende NVIDIA-GPUs skalieren, während die Kommunikationskosten minimiert werden
- Durch MXFP8-Training mit niedriger Präzision werden die Inferenzgeschwindigkeit erhöht und nachträgliche Quantisierung überflüssig
- Während des RL kann das Modell alle Werkzeuge des Cursor Agent aufrufen
- Unterstützt werden Codebearbeitung, semantische Suche, String-Grep, das Ausführen von Terminal-Befehlen und mehr
- Dafür laufen Hunderttausende Cloud-Sandbox-Umgebungen parallel
- Durch die Erweiterung der bestehenden Background Agents-Infrastruktur werden burstartige Trainingslasten verarbeitet
Interne Nutzung und Bereitstellung
- Das Cursor-Team nutzt Composer aktiv für die eigene Entwicklungsarbeit
- Viele Engineers verwenden Composer im täglichen Software-Development
- Mit dieser Veröffentlichung hofft man, dass auch andere Entwickler das Modell sinnvoll einsetzen können
Anhang: Interne Benchmark-Klassifizierung
- Fast Frontier: Modelle für effiziente Inferenz (Haiku 4.5, Gemini Flash 2.5 usw.)
- Best Open: Modelle mit offenen Gewichten (Qwen Coder, GLM 4.6 usw.)
- Frontier 7/2025: Beste Modelle mit Stand Juli 2025
- Best Frontier: Modelle mit höherer Leistung als Composer, etwa GPT-5 und Sonnet 4.5
- Die Berechnung von Tokens per Second ist auf Basis des aktuellen Anthropic-Tokenizers standardisiert
1 Kommentare
Hacker-News-Kommentare
Ich finde, es mangelt viel zu sehr an Transparenz
Die Modellleistung wird nur anhand eigener Benchmarks veröffentlicht, und selbst diese Daten sind nicht öffentlich, daher ist es schwer, dem zu vertrauen
Es wird zwar über RL-Training gesprochen, aber zentrale Informationen wie Pre-Training oder ob Fine-Tuning stattgefunden hat, fehlen komplett
Bis Details offengelegt werden oder externe Stellen unabhängige Benchmarks durchführen können, bleibe ich bei allen Behauptungen skeptisch
Wenn sie öffentlich wären, könnten diese Daten in die Trainingssätze anderer LLMs einfließen und damit ihre wissenschaftliche Validität verlieren
Andererseits besteht bei Nichtveröffentlichung auch die Möglichkeit, dass nur für sie vorteilhafte Daten ausgewählt wurden
Am Ende ist das ein schwer aufzulösendes Dilemma
Cursor sammelt in Echtzeit Tausende von Accept/Reject-Datenpunkten, und das ist der beste Feedback-Loop überhaupt
Reaktionen echter Nutzer sind weit nützlicher als Benchmarks und ermöglichen schnelle Modellverbesserungen
Kürzlich kam außerdem die Funktion Multi-Agent + Git-Tree-Integration hinzu, wodurch Nutzerverhalten als Lernsignal genutzt wird
Ich denke, diese Art von Wettbewerb hebt die Qualität des gesamten Markts und senkt zugleich die Nutzungskosten in einem positiven Kreislauf
Für mich ist das Tab-Modell von Cursor immer noch das Beste
Das wird im offiziellen Blogbeitrag gut erklärt
Es wäre wirklich spannend, wenn sich dieser Ansatz auch auf agentische Coding-Modelle anwenden ließe
Die Motivation für dieses Projekt entstand überhaupt erst aus der Idee, einen Agenten wie Tab zu bauen
Ich lasse Claude Code fast ständig laufen, und Tab greift nur ein, wenn das Modell vollständig feststeckt
Beeindruckend ist, dass solche Fehlersituationen immer seltener werden
Ich hätte sie lieber auf etwas wie
shift+tabgeändertImmer wenn ich selbst Code schreibe, fühlt es sich unangenehm an, als würde ich mit der AI um die Einrückung konkurrieren
Ich bin ML-Forscher bei Cursor und war an diesem Projekt beteiligt
Feedback zum Modell oder zum Blogpost ist willkommen
Wenn Composer aber ein per RL feinabgestimmtes offenes Modell ist, frage ich mich, warum die Gewichte nicht öffentlich sind
Ein kleiner Leistungsvorsprung verschwindet schnell, daher wäre eine Open-Strategie vermutlich besser geeignet, um Vertrauen bei Entwicklern aufzubauen
Persönlich interessieren mich geschlossene Modelle kaum
Früher hatte ich Cursor ausprobiert und wieder aufgegeben, aber dieses Composer1 war deutlich schneller und präziser als GPT5 Codex
Sowohl Geschwindigkeit als auch Qualität waren gut genug, dass ich es erneut nutzen will
Eine Version mit einzelnen Namen statt ohne Modellgruppierung wäre fairer gewesen
Für die Planungsphase nutze ich Claude, aber in der Ausführungsphase ist Composer deutlich effizienter
Sonnet 4.5 ist ungefähr die untere Qualitätsgrenze, die ich noch akzeptieren kann
Wichtiger als Geschwindigkeit ist für mich, nicht mit dem Modell ringen zu müssen, um die gewünschte Ausgabe zu bekommen
Vielleicht habe ich es falsch verstanden, aber ich frage mich, ob alle in diesem Beitrag verglichenen Modelle interne Cursor-Modelle sind
Die einen wollen, dass das Modell lange Aufgaben autonom erledigt,
die anderen wollen interaktiv mit dem Modell zusammenarbeiten
Für Letztere ist Geschwindigkeit viel wichtiger, für Erstere eher Intelligenz
Für mich ist mangelndes Kontextverständnis das größere Problem, daher hängt es von der Situation ab
Wenn ich andere Modelle als Claude nutze, steigen die Token-Kosten und die Effizienz sinkt
Claude 4.5 Sonnet erledigt dieselbe Aufgabe zum halben Preis
Ich bevorzuge schnelles Feedback gegenüber maximaler Genauigkeit
Schön, dass ein neues Modell da ist, aber ohne Zahlen oder Modellnamen in der Grafik ist es schwer, dem zu vertrauen
Trainingsdetails lassen sich schwer offenlegen, aber man sagt, man habe das Ergebnis erhalten, dass RL gut skaliert
Viele sind kritisch gegenüber Cursor, aber ich habe Copilot, Claude Code, Codex, Gemini CLI, Cline und andere ausprobiert, und am Ende war Cursor am ausgereiftesten
Vor allem Geschwindigkeit und Stabilität sind hervorragend, und es fühlt sich wie ein echtes Produkt an
Oft hingen Anfragen länger als 30 Sekunden fest, während Claude Code viel schneller und stabiler war
Heute habe ich das neue Modell erneut ausprobiert; Composer1 ist schnell, hatte aber weiterhin Verbindungsfehler
Wenn ich schnell umsetzen will, was ich im Kopf habe, ist Cursor am besten
Auch die Autovervollständigung ist beim Refactoring ziemlich nützlich
Unter den Wettbewerbern ist Cursor der Einzige, der die Zeit bis zur vollständigen Antwort wirklich ernst nimmt
In diesem Punkt liegt Cursor klar vorn
Ich habe das neue System ausprobiert, und für mich fühlte es sich eher nach einem Leistungsrückgang an
Nicht einmal einfache Apps funktionierten richtig, und auch CSS oder Terminal-Kontext wurden nicht korrekt verarbeitet
Es wurde außerdem immer langsamer, und am Ende bin ich wieder zu Sonnet zurückgekehrt
Hoffentlich ist das nicht die stabile Version
Ich mag Cursor wirklich sehr
Ich habe Copilot, Claude und andere Tools verwendet, bin am Ende aber immer wieder zu Cursor zurückgekehrt
Besonders die Tab-Autovervollständigung ist bei Refactoring-Arbeiten sehr präzise
Es war langsam und die Qualität der Vorschläge war niedrig
Cursor ist viel schneller und die Vorschläge sind nützlicher
Allerdings ist es manchmal so schnell, dass ständig unnötige Vorschläge auftauchen
Das lässt sich aber mit der Snooze-Funktion lösen
Es gibt ein Bild eines Pelikans auf einem Fahrrad für Composer 1
Bildlink