Composer: Ein schnelles Frontier-Modell, aufgebaut mit Reinforcement Learning

(cursor.com)

2 Punkte von GN⁺ 2025-10-30 | 1 Kommentare | Auf WhatsApp teilen

Composer, vorgestellt von Cursor, ist ein schnelles intelligentes Agentenmodell für Software Engineering und erreicht im Vergleich zu ähnlichen Modellen eine 4-fach höhere Geschwindigkeit bei der Codegenerierung
Es wird darauf trainiert, reale Probleme in großen Codebasen zu lösen, und nutzt Such- und Bearbeitungswerkzeuge, um Aufgaben unterschiedlicher Schwierigkeit zu bewältigen
Durch die Kombination aus Mixture-of-Experts(MoE)-Architektur und Reinforcement Learning(RL) unterstützt es Verstehen und Generierung in langen Kontexten wie Codebearbeitung, Planung und Antworten
Über die Bewertung mit Cursor Bench misst man nicht nur die Genauigkeit des Modells, sondern auch Konsistenz innerhalb der Codebasis und die Einhaltung von Engineering-Praktiken
Mithilfe einer asynchronen RL-Infrastruktur auf Basis von PyTorch und Ray sowie MXFP8-Training mit niedriger Präzision werden effizientes Training auf Tausenden GPUs und eine höhere Inferenzgeschwindigkeit ermöglicht

Überblick über Composer

Composer ist ein neues Agentenmodell, das mit dem Ziel entwickelt wurde, Intelligenz und Geschwindigkeit für Software Engineering zu vereinen
- In Benchmarks erreichte es eine 4-fach höhere Geschwindigkeit bei der Codegenerierung im Vergleich zu ähnlichen Modellen
- Innerhalb von Cursor ist es als Agent zur Lösung von Problemen in großen Codebasen optimiert
Das Modell wird darauf trainiert, in realen Umgebungen mithilfe von Such- und Bearbeitungswerkzeugen Probleme mit unterschiedlichem Schwierigkeitsgrad zu lösen
- Dadurch entsteht eine schnelle interaktive Entwicklungserfahrung

Hintergrund der Entwicklung

Composer geht aus den Erfahrungen von Cursor bei der Entwicklung des benutzerdefinierten Modells zur Code-Autovervollständigung (Cursor Tab) hervor
- Dabei wurde festgestellt, dass Entwickler intelligente und zugleich schnell reagierende Modelle bevorzugen
Auf Basis des frühen experimentellen Modells Cheetah wurde Composer als schnellere und klügere Version konzipiert
- Ziel war der Aufbau eines Modells, das sofort reagiert und dabei den Entwicklungsfluss aufrechterhält

Modellarchitektur und Trainingsansatz

Composer ist ein Mixture-of-Experts(MoE)-Sprachmodell und unterstützt Verstehen und Generierung in langen Kontexten
Durch Reinforcement Learning(RL) wird es für verschiedene Entwicklungsumgebungen spezialisiert
- In jedem Trainingsschritt erhält es eine Problembeschreibung und erzeugt optimale Codeänderungen, Pläne und Antworten
- Das Modell nutzt Werkzeuge wie Dateien lesen und bearbeiten, Ausführen von Terminal-Befehlen und semantische Suche über die gesamte Codebasis
Im RL-Prozess lernt das Modell selbstständig nützliche Verhaltensweisen wie komplexe Suchen ausführen, Linter-Fehler beheben sowie Unit-Tests schreiben und ausführen

Evaluierung und Benchmarking

Cursor Bench ist ein internes Evaluierungsset mit realen Engineering-Anfragen und optimalen Antworten
- Gemessen werden Genauigkeit, Einhaltung der Abstraktionen der Codebasis und Übereinstimmung mit Software-Engineering-Praktiken
Composer wird als Modell der Kategorie „Fast Frontier“ eingeordnet und mit auf effiziente Inferenz ausgerichteten Modellen wie Haiku 4.5 und Gemini Flash 2.5 verglichen
- Es ist langsamer als Top-Frontier-Modelle wie GPT-5 und Sonnet 4.5, bietet jedoch eine hohe Effizienz im Verhältnis zur Geschwindigkeit

Infrastruktur und Systemdesign

Für das Training großer MoE-Modelle wurde eine asynchrone RL-Infrastruktur auf Basis von PyTorch und Ray aufgebaut
- Dabei werden MXFP8-MoE-Kernel, Experten-Parallelisierung und hybrides Sharding für Datenparallelisierung kombiniert
- So lässt sich das Training auf Tausende NVIDIA-GPUs skalieren, während die Kommunikationskosten minimiert werden
Durch MXFP8-Training mit niedriger Präzision werden die Inferenzgeschwindigkeit erhöht und nachträgliche Quantisierung überflüssig
Während des RL kann das Modell alle Werkzeuge des Cursor Agent aufrufen
- Unterstützt werden Codebearbeitung, semantische Suche, String-Grep, das Ausführen von Terminal-Befehlen und mehr
- Dafür laufen Hunderttausende Cloud-Sandbox-Umgebungen parallel
- Durch die Erweiterung der bestehenden Background Agents-Infrastruktur werden burstartige Trainingslasten verarbeitet

Interne Nutzung und Bereitstellung

Das Cursor-Team nutzt Composer aktiv für die eigene Entwicklungsarbeit
- Viele Engineers verwenden Composer im täglichen Software-Development
Mit dieser Veröffentlichung hofft man, dass auch andere Entwickler das Modell sinnvoll einsetzen können

Anhang: Interne Benchmark-Klassifizierung

Fast Frontier: Modelle für effiziente Inferenz (Haiku 4.5, Gemini Flash 2.5 usw.)
Best Open: Modelle mit offenen Gewichten (Qwen Coder, GLM 4.6 usw.)
Frontier 7/2025: Beste Modelle mit Stand Juli 2025
Best Frontier: Modelle mit höherer Leistung als Composer, etwa GPT-5 und Sonnet 4.5
Die Berechnung von Tokens per Second ist auf Basis des aktuellen Anthropic-Tokenizers standardisiert

1 Kommentare

GN⁺ 2025-10-30

Hacker-News-Kommentare

Ich finde, es mangelt viel zu sehr an Transparenz
Die Modellleistung wird nur anhand eigener Benchmarks veröffentlicht, und selbst diese Daten sind nicht öffentlich, daher ist es schwer, dem zu vertrauen
Es wird zwar über RL-Training gesprochen, aber zentrale Informationen wie Pre-Training oder ob Fine-Tuning stattgefunden hat, fehlen komplett
Bis Details offengelegt werden oder externe Stellen unabhängige Benchmarks durchführen können, bleibe ich bei allen Behauptungen skeptisch
- Ich verstehe, warum sie ihre internen Benchmarks nicht veröffentlichen
  Wenn sie öffentlich wären, könnten diese Daten in die Trainingssätze anderer LLMs einfließen und damit ihre wissenschaftliche Validität verlieren
  Andererseits besteht bei Nichtveröffentlichung auch die Möglichkeit, dass nur für sie vorteilhafte Daten ausgewählt wurden
  Am Ende ist das ein schwer aufzulösendes Dilemma
- Eigentlich sind Daten aus realer Nutzung entscheidend
  Cursor sammelt in Echtzeit Tausende von Accept/Reject-Datenpunkten, und das ist der beste Feedback-Loop überhaupt
  Reaktionen echter Nutzer sind weit nützlicher als Benchmarks und ermöglichen schnelle Modellverbesserungen
  Kürzlich kam außerdem die Funktion Multi-Agent + Git-Tree-Integration hinzu, wodurch Nutzerverhalten als Lernsignal genutzt wird
  Ich denke, diese Art von Wettbewerb hebt die Qualität des gesamten Markts und senkt zugleich die Nutzungskosten in einem positiven Kreislauf
Für mich ist das Tab-Modell von Cursor immer noch das Beste
Das wird im offiziellen Blogbeitrag gut erklärt
Es wäre wirklich spannend, wenn sich dieser Ansatz auch auf agentische Coding-Modelle anwenden ließe
- Unser Team nutzt Tab ebenfalls häufig
  Die Motivation für dieses Projekt entstand überhaupt erst aus der Idee, einen Agenten wie Tab zu bauen
- Mich würde interessieren, ob du Windsurfs schon ausprobiert hast
- Das Tab-Modell ist gut, aber es wirkt auch ein bisschen wie ein Wettbewerb darum, die bessere Pferdepeitsche zu bauen
  Ich lasse Claude Code fast ständig laufen, und Tab greift nur ein, wenn das Modell vollständig feststeckt
  Beeindruckend ist, dass solche Fehlersituationen immer seltener werden
- Das Tab-Modell ist großartig, aber schade ist, dass es den Kontext der aktuellen AI-Chat-Session nicht versteht
- Die Funktion ist gut, aber die Tastenkombination ist unglücklich
  Ich hätte sie lieber auf etwas wie shift+tab geändert
  Immer wenn ich selbst Code schreibe, fühlt es sich unangenehm an, als würde ich mit der AI um die Einrückung konkurrieren
Ich bin ML-Forscher bei Cursor und war an diesem Projekt beteiligt
Feedback zum Modell oder zum Blogpost ist willkommen
- Die Systembeschreibung war beeindruckend
  Wenn Composer aber ein per RL feinabgestimmtes offenes Modell ist, frage ich mich, warum die Gewichte nicht öffentlich sind
  Ein kleiner Leistungsvorsprung verschwindet schnell, daher wäre eine Open-Strategie vermutlich besser geeignet, um Vertrauen bei Entwicklern aufzubauen
  Persönlich interessieren mich geschlossene Modelle kaum
- Das war wirklich überraschend
  Früher hatte ich Cursor ausprobiert und wieder aufgegeben, aber dieses Composer1 war deutlich schneller und präziser als GPT5 Codex
  Sowohl Geschwindigkeit als auch Qualität waren gut genug, dass ich es erneut nutzen will
- Die erste Grafik im Blog war zu vage
  Eine Version mit einzelnen Namen statt ohne Modellgruppierung wäre fairer gewesen
- Ich habe heute Composer, Sonnet 4.5 und Gemini 2.5 Pro zusammen verwendet, und die Kombination aus Geschwindigkeit und Qualität von Composer hat mich am meisten überzeugt
  Für die Planungsphase nutze ich Claude, aber in der Ausführungsphase ist Composer deutlich effizienter
- Die Log-Grafik legt nahe, dass etwa 50 % mehr Rechenleistung nötig wären, um ein Frontier-Modell zu erreichen; ich frage mich, warum das Training genau dort gestoppt wurde
Sonnet 4.5 ist ungefähr die untere Qualitätsgrenze, die ich noch akzeptieren kann
Wichtiger als Geschwindigkeit ist für mich, nicht mit dem Modell ringen zu müssen, um die gewünschte Ausgabe zu bekommen
Vielleicht habe ich es falsch verstanden, aber ich frage mich, ob alle in diesem Beitrag verglichenen Modelle interne Cursor-Modelle sind
- Interessant, dass Sonnet 4.5 erst seit einem Monat draußen ist und du es schon als „Untergrenze“ betrachtest
- Ich denke, es gibt zwei Arten von Nutzern
  Die einen wollen, dass das Modell lange Aufgaben autonom erledigt,
  die anderen wollen interaktiv mit dem Modell zusammenarbeiten
  Für Letztere ist Geschwindigkeit viel wichtiger, für Erstere eher Intelligenz
  Für mich ist mangelndes Kontextverständnis das größere Problem, daher hängt es von der Situation ab
- Sonnet 4.5 ist großartig, aber ich frage mich, ob du Composer auch ausprobiert hast
- Bei mir ist es ähnlich
  Wenn ich andere Modelle als Claude nutze, steigen die Token-Kosten und die Effizienz sinkt
  Claude 4.5 Sonnet erledigt dieselbe Aufgabe zum halben Preis
- Der Vergleich wurde angesprochen, um zu zeigen, wie ernst Cursor eine geschwindigkeitszentrierte User Experience nimmt
  Ich bevorzuge schnelles Feedback gegenüber maximaler Genauigkeit
Schön, dass ein neues Modell da ist, aber ohne Zahlen oder Modellnamen in der Grafik ist es schwer, dem zu vertrauen
- In der Fußnote gibt es immerhin Erklärungen zu den Modellen
  Trainingsdetails lassen sich schwer offenlegen, aber man sagt, man habe das Ergebnis erhalten, dass RL gut skaliert
Viele sind kritisch gegenüber Cursor, aber ich habe Copilot, Claude Code, Codex, Gemini CLI, Cline und andere ausprobiert, und am Ende war Cursor am ausgereiftesten
Vor allem Geschwindigkeit und Stabilität sind hervorragend, und es fühlt sich wie ein echtes Produkt an
- Ich habe Cursor auch genutzt, dann aber wegen Zuverlässigkeitsproblemen aufgegeben
  Oft hingen Anfragen länger als 30 Sekunden fest, während Claude Code viel schneller und stabiler war
  Heute habe ich das neue Modell erneut ausprobiert; Composer1 ist schnell, hatte aber weiterhin Verbindungsfehler
- Ich habe ebenfalls viele Tools ausprobiert, bin am Ende aber zu Cursor zurückgekehrt
  Wenn ich schnell umsetzen will, was ich im Kopf habe, ist Cursor am besten
- Cursor hängt sich zwar gelegentlich auf, aber weil man in der UI leicht zurückrollen kann, ist das nicht besonders störend
  Auch die Autovervollständigung ist beim Refactoring ziemlich nützlich
- Du sagst, du hast viele Alternativen ausprobiert, aber hast du Zed vielleicht nicht getestet?
- Interessant, dass du Claude ausprobiert hast und trotzdem Cursor bevorzugst
Unter den Wettbewerbern ist Cursor der Einzige, der die Zeit bis zur vollständigen Antwort wirklich ernst nimmt
In diesem Punkt liegt Cursor klar vorn
- Auch wir mögen verschiedene Modelle, aber wir halten es für wichtig, den richtigen Ausgleich zwischen schnell und intelligent zu finden (Cursor-Forscher)
Ich habe das neue System ausprobiert, und für mich fühlte es sich eher nach einem Leistungsrückgang an
Nicht einmal einfache Apps funktionierten richtig, und auch CSS oder Terminal-Kontext wurden nicht korrekt verarbeitet
Es wurde außerdem immer langsamer, und am Ende bin ich wieder zu Sonnet zurückgekehrt
Hoffentlich ist das nicht die stabile Version
Ich mag Cursor wirklich sehr
Ich habe Copilot, Claude und andere Tools verwendet, bin am Ende aber immer wieder zu Cursor zurückgekehrt
Besonders die Tab-Autovervollständigung ist bei Refactoring-Arbeiten sehr präzise
- Vor einem Monat bin ich kurz zu VS Code + Copilot zurückgegangen, habe aber nach vier Tagen wieder aufgegeben
  Es war langsam und die Qualität der Vorschläge war niedrig
  Cursor ist viel schneller und die Vorschläge sind nützlicher
  Allerdings ist es manchmal so schnell, dass ständig unnötige Vorschläge auftauchen
  Das lässt sich aber mit der Snooze-Funktion lösen
Es gibt ein Bild eines Pelikans auf einem Fahrrad für Composer 1
Bildlink
- Es ist deutlich besser geworden als erwartet

Composer: Ein schnelles Frontier-Modell, aufgebaut mit Reinforcement Learning

Überblick über Composer

Hintergrund der Entwicklung

Modellarchitektur und Trainingsansatz

Evaluierung und Benchmarking

Infrastruktur und Systemdesign

Interne Nutzung und Bereitstellung

Anhang: Interne Benchmark-Klassifizierung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare