2 Punkte von GN⁺ 2025-10-30 | 1 Kommentare | Auf WhatsApp teilen
  • Composer, vorgestellt von Cursor, ist ein schnelles intelligentes Agentenmodell für Software Engineering und erreicht im Vergleich zu ähnlichen Modellen eine 4-fach höhere Geschwindigkeit bei der Codegenerierung
  • Es wird darauf trainiert, reale Probleme in großen Codebasen zu lösen, und nutzt Such- und Bearbeitungswerkzeuge, um Aufgaben unterschiedlicher Schwierigkeit zu bewältigen
  • Durch die Kombination aus Mixture-of-Experts(MoE)-Architektur und Reinforcement Learning(RL) unterstützt es Verstehen und Generierung in langen Kontexten wie Codebearbeitung, Planung und Antworten
  • Über die Bewertung mit Cursor Bench misst man nicht nur die Genauigkeit des Modells, sondern auch Konsistenz innerhalb der Codebasis und die Einhaltung von Engineering-Praktiken
  • Mithilfe einer asynchronen RL-Infrastruktur auf Basis von PyTorch und Ray sowie MXFP8-Training mit niedriger Präzision werden effizientes Training auf Tausenden GPUs und eine höhere Inferenzgeschwindigkeit ermöglicht

Überblick über Composer

  • Composer ist ein neues Agentenmodell, das mit dem Ziel entwickelt wurde, Intelligenz und Geschwindigkeit für Software Engineering zu vereinen
    • In Benchmarks erreichte es eine 4-fach höhere Geschwindigkeit bei der Codegenerierung im Vergleich zu ähnlichen Modellen
    • Innerhalb von Cursor ist es als Agent zur Lösung von Problemen in großen Codebasen optimiert
  • Das Modell wird darauf trainiert, in realen Umgebungen mithilfe von Such- und Bearbeitungswerkzeugen Probleme mit unterschiedlichem Schwierigkeitsgrad zu lösen
    • Dadurch entsteht eine schnelle interaktive Entwicklungserfahrung

Hintergrund der Entwicklung

  • Composer geht aus den Erfahrungen von Cursor bei der Entwicklung des benutzerdefinierten Modells zur Code-Autovervollständigung (Cursor Tab) hervor
    • Dabei wurde festgestellt, dass Entwickler intelligente und zugleich schnell reagierende Modelle bevorzugen
  • Auf Basis des frühen experimentellen Modells Cheetah wurde Composer als schnellere und klügere Version konzipiert
    • Ziel war der Aufbau eines Modells, das sofort reagiert und dabei den Entwicklungsfluss aufrechterhält

Modellarchitektur und Trainingsansatz

  • Composer ist ein Mixture-of-Experts(MoE)-Sprachmodell und unterstützt Verstehen und Generierung in langen Kontexten
  • Durch Reinforcement Learning(RL) wird es für verschiedene Entwicklungsumgebungen spezialisiert
    • In jedem Trainingsschritt erhält es eine Problembeschreibung und erzeugt optimale Codeänderungen, Pläne und Antworten
    • Das Modell nutzt Werkzeuge wie Dateien lesen und bearbeiten, Ausführen von Terminal-Befehlen und semantische Suche über die gesamte Codebasis
  • Im RL-Prozess lernt das Modell selbstständig nützliche Verhaltensweisen wie komplexe Suchen ausführen, Linter-Fehler beheben sowie Unit-Tests schreiben und ausführen

Evaluierung und Benchmarking

  • Cursor Bench ist ein internes Evaluierungsset mit realen Engineering-Anfragen und optimalen Antworten
    • Gemessen werden Genauigkeit, Einhaltung der Abstraktionen der Codebasis und Übereinstimmung mit Software-Engineering-Praktiken
  • Composer wird als Modell der Kategorie „Fast Frontier“ eingeordnet und mit auf effiziente Inferenz ausgerichteten Modellen wie Haiku 4.5 und Gemini Flash 2.5 verglichen
    • Es ist langsamer als Top-Frontier-Modelle wie GPT-5 und Sonnet 4.5, bietet jedoch eine hohe Effizienz im Verhältnis zur Geschwindigkeit

Infrastruktur und Systemdesign

  • Für das Training großer MoE-Modelle wurde eine asynchrone RL-Infrastruktur auf Basis von PyTorch und Ray aufgebaut
    • Dabei werden MXFP8-MoE-Kernel, Experten-Parallelisierung und hybrides Sharding für Datenparallelisierung kombiniert
    • So lässt sich das Training auf Tausende NVIDIA-GPUs skalieren, während die Kommunikationskosten minimiert werden
  • Durch MXFP8-Training mit niedriger Präzision werden die Inferenzgeschwindigkeit erhöht und nachträgliche Quantisierung überflüssig
  • Während des RL kann das Modell alle Werkzeuge des Cursor Agent aufrufen
    • Unterstützt werden Codebearbeitung, semantische Suche, String-Grep, das Ausführen von Terminal-Befehlen und mehr
    • Dafür laufen Hunderttausende Cloud-Sandbox-Umgebungen parallel
    • Durch die Erweiterung der bestehenden Background Agents-Infrastruktur werden burstartige Trainingslasten verarbeitet

Interne Nutzung und Bereitstellung

  • Das Cursor-Team nutzt Composer aktiv für die eigene Entwicklungsarbeit
    • Viele Engineers verwenden Composer im täglichen Software-Development
  • Mit dieser Veröffentlichung hofft man, dass auch andere Entwickler das Modell sinnvoll einsetzen können

Anhang: Interne Benchmark-Klassifizierung

  • Fast Frontier: Modelle für effiziente Inferenz (Haiku 4.5, Gemini Flash 2.5 usw.)
  • Best Open: Modelle mit offenen Gewichten (Qwen Coder, GLM 4.6 usw.)
  • Frontier 7/2025: Beste Modelle mit Stand Juli 2025
  • Best Frontier: Modelle mit höherer Leistung als Composer, etwa GPT-5 und Sonnet 4.5
  • Die Berechnung von Tokens per Second ist auf Basis des aktuellen Anthropic-Tokenizers standardisiert

1 Kommentare

 
GN⁺ 2025-10-30
Hacker-News-Kommentare
  • Ich finde, es mangelt viel zu sehr an Transparenz
    Die Modellleistung wird nur anhand eigener Benchmarks veröffentlicht, und selbst diese Daten sind nicht öffentlich, daher ist es schwer, dem zu vertrauen
    Es wird zwar über RL-Training gesprochen, aber zentrale Informationen wie Pre-Training oder ob Fine-Tuning stattgefunden hat, fehlen komplett
    Bis Details offengelegt werden oder externe Stellen unabhängige Benchmarks durchführen können, bleibe ich bei allen Behauptungen skeptisch

    • Ich verstehe, warum sie ihre internen Benchmarks nicht veröffentlichen
      Wenn sie öffentlich wären, könnten diese Daten in die Trainingssätze anderer LLMs einfließen und damit ihre wissenschaftliche Validität verlieren
      Andererseits besteht bei Nichtveröffentlichung auch die Möglichkeit, dass nur für sie vorteilhafte Daten ausgewählt wurden
      Am Ende ist das ein schwer aufzulösendes Dilemma
    • Eigentlich sind Daten aus realer Nutzung entscheidend
      Cursor sammelt in Echtzeit Tausende von Accept/Reject-Datenpunkten, und das ist der beste Feedback-Loop überhaupt
      Reaktionen echter Nutzer sind weit nützlicher als Benchmarks und ermöglichen schnelle Modellverbesserungen
      Kürzlich kam außerdem die Funktion Multi-Agent + Git-Tree-Integration hinzu, wodurch Nutzerverhalten als Lernsignal genutzt wird
      Ich denke, diese Art von Wettbewerb hebt die Qualität des gesamten Markts und senkt zugleich die Nutzungskosten in einem positiven Kreislauf
  • Für mich ist das Tab-Modell von Cursor immer noch das Beste
    Das wird im offiziellen Blogbeitrag gut erklärt
    Es wäre wirklich spannend, wenn sich dieser Ansatz auch auf agentische Coding-Modelle anwenden ließe

    • Unser Team nutzt Tab ebenfalls häufig
      Die Motivation für dieses Projekt entstand überhaupt erst aus der Idee, einen Agenten wie Tab zu bauen
    • Mich würde interessieren, ob du Windsurfs schon ausprobiert hast
    • Das Tab-Modell ist gut, aber es wirkt auch ein bisschen wie ein Wettbewerb darum, die bessere Pferdepeitsche zu bauen
      Ich lasse Claude Code fast ständig laufen, und Tab greift nur ein, wenn das Modell vollständig feststeckt
      Beeindruckend ist, dass solche Fehlersituationen immer seltener werden
    • Das Tab-Modell ist großartig, aber schade ist, dass es den Kontext der aktuellen AI-Chat-Session nicht versteht
    • Die Funktion ist gut, aber die Tastenkombination ist unglücklich
      Ich hätte sie lieber auf etwas wie shift+tab geändert
      Immer wenn ich selbst Code schreibe, fühlt es sich unangenehm an, als würde ich mit der AI um die Einrückung konkurrieren
  • Ich bin ML-Forscher bei Cursor und war an diesem Projekt beteiligt
    Feedback zum Modell oder zum Blogpost ist willkommen

    • Die Systembeschreibung war beeindruckend
      Wenn Composer aber ein per RL feinabgestimmtes offenes Modell ist, frage ich mich, warum die Gewichte nicht öffentlich sind
      Ein kleiner Leistungsvorsprung verschwindet schnell, daher wäre eine Open-Strategie vermutlich besser geeignet, um Vertrauen bei Entwicklern aufzubauen
      Persönlich interessieren mich geschlossene Modelle kaum
    • Das war wirklich überraschend
      Früher hatte ich Cursor ausprobiert und wieder aufgegeben, aber dieses Composer1 war deutlich schneller und präziser als GPT5 Codex
      Sowohl Geschwindigkeit als auch Qualität waren gut genug, dass ich es erneut nutzen will
    • Die erste Grafik im Blog war zu vage
      Eine Version mit einzelnen Namen statt ohne Modellgruppierung wäre fairer gewesen
    • Ich habe heute Composer, Sonnet 4.5 und Gemini 2.5 Pro zusammen verwendet, und die Kombination aus Geschwindigkeit und Qualität von Composer hat mich am meisten überzeugt
      Für die Planungsphase nutze ich Claude, aber in der Ausführungsphase ist Composer deutlich effizienter
    • Die Log-Grafik legt nahe, dass etwa 50 % mehr Rechenleistung nötig wären, um ein Frontier-Modell zu erreichen; ich frage mich, warum das Training genau dort gestoppt wurde
  • Sonnet 4.5 ist ungefähr die untere Qualitätsgrenze, die ich noch akzeptieren kann
    Wichtiger als Geschwindigkeit ist für mich, nicht mit dem Modell ringen zu müssen, um die gewünschte Ausgabe zu bekommen
    Vielleicht habe ich es falsch verstanden, aber ich frage mich, ob alle in diesem Beitrag verglichenen Modelle interne Cursor-Modelle sind

    • Interessant, dass Sonnet 4.5 erst seit einem Monat draußen ist und du es schon als „Untergrenze“ betrachtest
    • Ich denke, es gibt zwei Arten von Nutzern
      Die einen wollen, dass das Modell lange Aufgaben autonom erledigt,
      die anderen wollen interaktiv mit dem Modell zusammenarbeiten
      Für Letztere ist Geschwindigkeit viel wichtiger, für Erstere eher Intelligenz
      Für mich ist mangelndes Kontextverständnis das größere Problem, daher hängt es von der Situation ab
    • Sonnet 4.5 ist großartig, aber ich frage mich, ob du Composer auch ausprobiert hast
    • Bei mir ist es ähnlich
      Wenn ich andere Modelle als Claude nutze, steigen die Token-Kosten und die Effizienz sinkt
      Claude 4.5 Sonnet erledigt dieselbe Aufgabe zum halben Preis
    • Der Vergleich wurde angesprochen, um zu zeigen, wie ernst Cursor eine geschwindigkeitszentrierte User Experience nimmt
      Ich bevorzuge schnelles Feedback gegenüber maximaler Genauigkeit
  • Schön, dass ein neues Modell da ist, aber ohne Zahlen oder Modellnamen in der Grafik ist es schwer, dem zu vertrauen

    • In der Fußnote gibt es immerhin Erklärungen zu den Modellen
      Trainingsdetails lassen sich schwer offenlegen, aber man sagt, man habe das Ergebnis erhalten, dass RL gut skaliert
  • Viele sind kritisch gegenüber Cursor, aber ich habe Copilot, Claude Code, Codex, Gemini CLI, Cline und andere ausprobiert, und am Ende war Cursor am ausgereiftesten
    Vor allem Geschwindigkeit und Stabilität sind hervorragend, und es fühlt sich wie ein echtes Produkt an

    • Ich habe Cursor auch genutzt, dann aber wegen Zuverlässigkeitsproblemen aufgegeben
      Oft hingen Anfragen länger als 30 Sekunden fest, während Claude Code viel schneller und stabiler war
      Heute habe ich das neue Modell erneut ausprobiert; Composer1 ist schnell, hatte aber weiterhin Verbindungsfehler
    • Ich habe ebenfalls viele Tools ausprobiert, bin am Ende aber zu Cursor zurückgekehrt
      Wenn ich schnell umsetzen will, was ich im Kopf habe, ist Cursor am besten
    • Cursor hängt sich zwar gelegentlich auf, aber weil man in der UI leicht zurückrollen kann, ist das nicht besonders störend
      Auch die Autovervollständigung ist beim Refactoring ziemlich nützlich
    • Du sagst, du hast viele Alternativen ausprobiert, aber hast du Zed vielleicht nicht getestet?
    • Interessant, dass du Claude ausprobiert hast und trotzdem Cursor bevorzugst
  • Unter den Wettbewerbern ist Cursor der Einzige, der die Zeit bis zur vollständigen Antwort wirklich ernst nimmt
    In diesem Punkt liegt Cursor klar vorn

    • Auch wir mögen verschiedene Modelle, aber wir halten es für wichtig, den richtigen Ausgleich zwischen schnell und intelligent zu finden (Cursor-Forscher)
  • Ich habe das neue System ausprobiert, und für mich fühlte es sich eher nach einem Leistungsrückgang an
    Nicht einmal einfache Apps funktionierten richtig, und auch CSS oder Terminal-Kontext wurden nicht korrekt verarbeitet
    Es wurde außerdem immer langsamer, und am Ende bin ich wieder zu Sonnet zurückgekehrt
    Hoffentlich ist das nicht die stabile Version

  • Ich mag Cursor wirklich sehr
    Ich habe Copilot, Claude und andere Tools verwendet, bin am Ende aber immer wieder zu Cursor zurückgekehrt
    Besonders die Tab-Autovervollständigung ist bei Refactoring-Arbeiten sehr präzise

    • Vor einem Monat bin ich kurz zu VS Code + Copilot zurückgegangen, habe aber nach vier Tagen wieder aufgegeben
      Es war langsam und die Qualität der Vorschläge war niedrig
      Cursor ist viel schneller und die Vorschläge sind nützlicher
      Allerdings ist es manchmal so schnell, dass ständig unnötige Vorschläge auftauchen
      Das lässt sich aber mit der Snooze-Funktion lösen
  • Es gibt ein Bild eines Pelikans auf einem Fahrrad für Composer 1
    Bildlink

    • Es ist deutlich besser geworden als erwartet