18 Punkte von GN⁺ 2026-01-16 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Cursor hat experimentiert, ob es autonome Coding-Agenten über mehrere Wochen parallel ausführen und damit große Projekte fertigstellen kann
  • Anfangs wurde eine dynamische Kollaborationsstruktur verwendet, doch Lock-Konflikte und doppelte Arbeit führten zu Engpässen
  • Anschließend wurden die Rollen in Planner und Worker aufgeteilt, was Parallelität und Effizienz deutlich verbesserte
  • Mit dieser Struktur wurde ein Webbrowser von Grund auf implementiert, wobei Hunderte von Agenten über 1 Million Zeilen Code schrieben
  • Die Experimente zeigen, dass eine einfache Struktur und geeignetes Prompt-Design der Schlüssel zur Skalierung langfristigen autonomen Codings sind

Grenzen eines einzelnen Agenten

  • Der heutige einzelne Coding-Agent ist bei einfachen Aufgaben effizient, wird bei komplexen Projekten jedoch langsam
    • Mehrere Agenten parallel laufen zu lassen ist die naheliegende Skalierungsrichtung, aber die Koordination der Arbeit ist schwierig
  • Anfangs wurde ohne Vorabplanung eine dynamische Kollaborationsmethode ausprobiert
    • Eine Struktur, in der jeder Agent den Status anderer Agenten sieht und selbst entscheidet, welche Aufgabe als Nächstes bearbeitet wird

Lernprozess der Zusammenarbeit

  • Es wurde eine Struktur eingeführt, in der alle Agenten die gleichen Rechte haben und ihre Arbeit über gemeinsame Dateien koordinieren
    • Jeder Agent prüft den Status der anderen Agenten, bekommt Aufgaben zugewiesen und aktualisiert seinen Status
    • Zur Vermeidung von Duplikaten wurde ein Lock-Mechanismus verwendet
  • Probleme
    1. Agenten hielten Locks zu lange oder gaben sie nicht frei, wodurch die Gesamtgeschwindigkeit von 20 Agenten effektiv auf das Niveau von 2 bis 3 sank
    2. Es kam zu Systeminstabilität, etwa wenn ein Agent mit gehaltenem Lock scheiterte oder Dateien ohne Lock änderte
  • Umstellung auf optimistic concurrency control
    • Lesen war frei möglich, Schreiben wurde so konfiguriert, dass es bei Zustandsänderungen fehlschlägt
    • Das war einfach und stabil, doch in einer hierarchielosen Struktur zeigten die Agenten risikoaverses Verhalten
    • Sie mieden schwierige Probleme, wiederholten nur kleine Änderungen und gerieten in Arbeitszyklen ohne Fortschritt

Struktur aus Plannern und Workern

  • Wechsel zu einer hierarchischen Pipeline mit getrennten Rollen
    • Planner: Erkunden die Codebasis, erzeugen Aufgaben und erstellen bei Bedarf untergeordnete Planner
    • Worker: Führen nur die zugewiesenen Aufgaben aus und pushen danach ihre Änderungen
  • In jedem Zyklus entscheidet ein Judge-Agent, ob zum nächsten Schritt übergegangen wird
    • Mit dieser Struktur wurden die meisten Kollaborationsprobleme gelöst und die Skalierbarkeit großer Projekte gesichert

Langlaufende Experimente

  • Ziel des Experiments: einen Webbrowser von Grund auf implementieren
    • Laufzeit von etwa einer Woche, in 1.000 Dateien wurden über 1 Million Zeilen Code geschrieben
    • Hunderte Worker pushten gleichzeitig auf denselben Branch, Konflikte blieben jedoch minimal
    • Der resultierende Code wurde auf GitHub veröffentlicht
  • Weitere Experimente
    • Solid → React-Migration: Über 3 Wochen +266K/-193K Änderungen, Machbarkeit des Mergings bestätigt
    • Verbesserung des Video-Renderings: Mit einer Rust-Version 25-fache Beschleunigung sowie Funktionen für Zoom, Pan und Motion Blur hinzugefügt
    • Dieser Code soll bald in die Produktion übernommen werden

Zentrale Erkenntnisse

  • Nach dem Einsatz von Milliarden Tokens zeigte sich: nicht vollständig effizient, aber leistungsfähiger als erwartet
  • Die Modellauswahl ist entscheidend für langfristige autonome Arbeit
    • GPT-5.2 war stark bei Fokus, Befolgung von Anweisungen und präziser Implementierung
    • Opus 4.5 neigte dazu, Aufgaben früh zu beenden
    • GPT-5.2 eignet sich besser für die Planner-Rolle als GPT-5.1-codex
    • Je nach Rolle wurden die jeweils optimalen Modelle ausgewählt
  • Das Entfernen von Komplexität trug zur Leistungssteigerung bei
    • Die Rolle eines Qualitäts-Integrators erzeugte im Gegenteil einen Engpass
    • Worker konnten Konflikte selbstständig lösen
  • Eine einfache Struktur war am wirksamsten
    • Theorien zu verteilten Systemen oder Modelle des Organisationsdesigns waren nur teilweise nützlich
    • Zu wenig Struktur erzeugt Konflikte und Duplikate, zu viel erhöht die Anfälligkeit
  • Prompt-Design beeinflusst das Systemverhalten entscheidend
    • Es spielt eine Schlüsselrolle für langfristigen Fokus, die Vermeidung pathologischen Verhaltens und die Förderung von Zusammenarbeit

Kommende Aufgaben

  • Koordination mehrerer Agenten bleibt weiterhin ein schwieriges Problem
    • Planner sollten nach Abschluss einer Aufgabe automatisch die nächsten Schritte planen können
    • Einige Agenten liefen übermäßig lange und benötigen daher periodische Neustarts
  • Bei der Kernfrage, ob sich autonomes Coding durch mehr Agenten skalieren lässt, wurde jedoch gezeigt, dass
    • Hunderte von Agenten über mehrere Wochen zusammenarbeiten und reale Fortschritte erzielen können
  • Diese Technik soll künftig in Cursors Agentenfunktionen einfließen

Noch keine Kommentare.

Noch keine Kommentare.