5 Punkte von GN⁺ 2026-01-17 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Cursor gab bekannt, ein Experiment mit „autonomen Coding-Agenten“, die wochenlang laufen, durchgeführt zu haben, um zu untersuchen, ob sich Projekte automatisieren lassen, für die menschliche Teams mehrere Monate benötigen
  • Um dieses System zu validieren, setzte das Unternehmen das Ziel, „einen Webbrowser von Grund auf zu bauen“, und behauptete, die Agenten hätten in etwa einer Woche mehr als 1 Million Zeilen Code geschrieben
  • Das veröffentlichte GitHub-Repository (fastrender) zeigt jedoch zahlreiche Kompilierungsfehler und fehlgeschlagene CI-Läufe; damit ist bestätigt, dass es sich nicht um einen lauffähigen Browser handelt
  • Cursor legte weder einen Nachweis der Funktionsfähigkeit noch eine reproduzierbare Demo oder einen buildbaren Commit vor; konkrete Belege für den Erfolg des Experiments fehlen ebenfalls
  • Dennoch formulierte Cursor, „die Agenten hätten bei einem großen Projekt bedeutende Fortschritte erzielt“, und hinterließ so den Eindruck eines Erfolgs, ohne die tatsächliche Leistung zu belegen

Überblick über Cursors Blog-Experiment

  • Am 14. Januar 2026 veröffentlichte Cursor den Blogbeitrag Scaling long-running autonomous coding
    • Ziel war es, zu erforschen, „wie weit sich Projekte, für die menschliche Teams Monate brauchen, mit autonomen Coding-Agenten skalieren lassen“
  • Nach mehreren Versuchen mit unterschiedlichen Ansätzen erklärte das Unternehmen, ein System erreicht zu haben, „das Koordinationsprobleme löst und ohne einen einzelnen Agenten auf große Projekte skaliert werden kann“
  • Zur Validierung wurde ein Experiment durchgeführt, bei dem „ein Webbrowser von Grund auf gebaut“ werden sollte; laut Cursor schrieben die Agenten in etwa einer Woche über 1 Million Zeilen Code in 1.000 Dateien

Unklarheit über die Versuchsergebnisse

  • Cursor behauptet, „neue Agenten hätten die Codebasis verstanden und bedeutende Fortschritte erzielt“ und „Hunderte Worker hätten gleichzeitig in denselben Branch gepusht“
    • Ob der Browser tatsächlich funktioniert, wird jedoch nicht ausdrücklich gesagt
  • Der Beitrag enthält ein Screenshot-Video, aber keine lauffähige Demo und keine konkrete Beschreibung der Ergebnisse
  • Abgesehen von der Formulierung, „einen Browser von Grund auf zu bauen ist sehr schwierig“, wird kein Beleg für Funktionsfähigkeit geliefert

Ergebnis der Überprüfung der Codebasis

  • Beim direkten Build des Repositories schlägt die Kompilierung der „fastrender“-Bibliothek fehl (34 Fehler, 94 Warnungen)
  • Auch in den jüngsten GitHub-Actions-Läufen wurden Workflow-Fehler und zahlreiche fehlgeschlagene Kompilierungen festgestellt
    • Unter den letzten 100 Commits gibt es keinen einzigen, der erfolgreich gebaut hat
  • Die Inhalte des Codes werden als Output auf dem Niveau von „AI slop“ ohne erkennbare Absicht oder Struktur bewertet
    • Es wirkt so, als seien nicht einmal die Befehle cargo build oder cargo check ausgeführt worden
    • Das zugehörige Issue #98 ist derzeit ebenfalls offen

Probleme bei Reproduzierbarkeit und Glaubwürdigkeit

  • Cursors Blog liefert überhaupt keine Erklärung dazu, wie man den Code ausführt, welches Ergebnis zu erwarten ist oder wie er funktioniert
  • Es werden weder eine reproduzierbare Demo noch Build-Anweisungen oder ein verifizierter Commit (Tag/Release/Commit) bereitgestellt
  • Dennoch lassen Aufbau und Formulierungen des Beitrags ihn wie einen „funktionierenden Prototyp“ erscheinen
  • Cursor sagt zwar nicht ausdrücklich, dass es „funktioniert“, macht also keine falsche Tatsachenbehauptung, hinterlässt aber den Eindruck eines Erfolgs

Fazit und Bewertung

  • Cursor behauptete nicht, es handle sich um einen „Browser auf Produktionsniveau“, ließ das Experiment aber mit Formulierungen wie „bedeutende Fortschritte“ und „einen Browser bauen“ wie einen Erfolg wirken
  • Tatsächlich fehlen jedoch jegliche Belege für Funktionsfähigkeit, buildbaren Code oder reproduzierbare Ergebnisse
  • Die Behauptung, „Hunderte Agenten hätten zusammengearbeitet und bei einem Großprojekt Fortschritte erzielt“, ist eine Behauptung ohne jeden Beleg
    • Nicht einmal der Mindestmaßstab eines „kompilierbaren Zustands, der eine einfache HTML-Datei rendern kann“ wird erreicht
  • Letztlich zeigt Cursors Experiment weniger das Potenzial skalierter autonomer Coding-Systeme als vielmehr die Grenzen großangelegter Codegenerierung

Noch keine Kommentare.

Noch keine Kommentare.