5 Punkte von GN⁺ 2026-01-17 | 5 Kommentare | Auf WhatsApp teilen
  • Cursor gab bekannt, ein Experiment mit „autonomen Coding-Agenten“, die wochenlang laufen, durchgeführt zu haben, um zu untersuchen, ob sich Projekte automatisieren lassen, für die menschliche Teams mehrere Monate benötigen
  • Um dieses System zu validieren, setzte das Unternehmen das Ziel, „einen Webbrowser von Grund auf zu bauen“, und behauptete, die Agenten hätten in etwa einer Woche mehr als 1 Million Zeilen Code geschrieben
  • Das veröffentlichte GitHub-Repository (fastrender) zeigt jedoch zahlreiche Kompilierungsfehler und fehlgeschlagene CI-Läufe; damit ist bestätigt, dass es sich nicht um einen lauffähigen Browser handelt
  • Cursor legte weder einen Nachweis der Funktionsfähigkeit noch eine reproduzierbare Demo oder einen buildbaren Commit vor; konkrete Belege für den Erfolg des Experiments fehlen ebenfalls
  • Dennoch formulierte Cursor, „die Agenten hätten bei einem großen Projekt bedeutende Fortschritte erzielt“, und hinterließ so den Eindruck eines Erfolgs, ohne die tatsächliche Leistung zu belegen

Überblick über Cursors Blog-Experiment

  • Am 14. Januar 2026 veröffentlichte Cursor den Blogbeitrag Scaling long-running autonomous coding
    • Ziel war es, zu erforschen, „wie weit sich Projekte, für die menschliche Teams Monate brauchen, mit autonomen Coding-Agenten skalieren lassen“
  • Nach mehreren Versuchen mit unterschiedlichen Ansätzen erklärte das Unternehmen, ein System erreicht zu haben, „das Koordinationsprobleme löst und ohne einen einzelnen Agenten auf große Projekte skaliert werden kann“
  • Zur Validierung wurde ein Experiment durchgeführt, bei dem „ein Webbrowser von Grund auf gebaut“ werden sollte; laut Cursor schrieben die Agenten in etwa einer Woche über 1 Million Zeilen Code in 1.000 Dateien
Anzeige

Unklarheit über die Versuchsergebnisse

  • Cursor behauptet, „neue Agenten hätten die Codebasis verstanden und bedeutende Fortschritte erzielt“ und „Hunderte Worker hätten gleichzeitig in denselben Branch gepusht“
    • Ob der Browser tatsächlich funktioniert, wird jedoch nicht ausdrücklich gesagt
  • Der Beitrag enthält ein Screenshot-Video, aber keine lauffähige Demo und keine konkrete Beschreibung der Ergebnisse
  • Abgesehen von der Formulierung, „einen Browser von Grund auf zu bauen ist sehr schwierig“, wird kein Beleg für Funktionsfähigkeit geliefert

Ergebnis der Überprüfung der Codebasis

  • Beim direkten Build des Repositories schlägt die Kompilierung der „fastrender“-Bibliothek fehl (34 Fehler, 94 Warnungen)
  • Auch in den jüngsten GitHub-Actions-Läufen wurden Workflow-Fehler und zahlreiche fehlgeschlagene Kompilierungen festgestellt
    • Unter den letzten 100 Commits gibt es keinen einzigen, der erfolgreich gebaut hat
  • Die Inhalte des Codes werden als Output auf dem Niveau von „AI slop“ ohne erkennbare Absicht oder Struktur bewertet
    • Es wirkt so, als seien nicht einmal die Befehle cargo build oder cargo check ausgeführt worden
    • Das zugehörige Issue #98 ist derzeit ebenfalls offen
    Anzeige

Probleme bei Reproduzierbarkeit und Glaubwürdigkeit

  • Cursors Blog liefert überhaupt keine Erklärung dazu, wie man den Code ausführt, welches Ergebnis zu erwarten ist oder wie er funktioniert
  • Es werden weder eine reproduzierbare Demo noch Build-Anweisungen oder ein verifizierter Commit (Tag/Release/Commit) bereitgestellt
  • Dennoch lassen Aufbau und Formulierungen des Beitrags ihn wie einen „funktionierenden Prototyp“ erscheinen
  • Cursor sagt zwar nicht ausdrücklich, dass es „funktioniert“, macht also keine falsche Tatsachenbehauptung, hinterlässt aber den Eindruck eines Erfolgs

Fazit und Bewertung

  • Cursor behauptete nicht, es handle sich um einen „Browser auf Produktionsniveau“, ließ das Experiment aber mit Formulierungen wie „bedeutende Fortschritte“ und „einen Browser bauen“ wie einen Erfolg wirken
  • Tatsächlich fehlen jedoch jegliche Belege für Funktionsfähigkeit, buildbaren Code oder reproduzierbare Ergebnisse
  • Die Behauptung, „Hunderte Agenten hätten zusammengearbeitet und bei einem Großprojekt Fortschritte erzielt“, ist eine Behauptung ohne jeden Beleg
    • Nicht einmal der Mindestmaßstab eines „kompilierbaren Zustands, der eine einfache HTML-Datei rendern kann“ wird erreicht
  • Letztlich zeigt Cursors Experiment weniger das Potenzial skalierter autonomer Coding-Systeme als vielmehr die Grenzen großangelegter Codegenerierung

5 Kommentare

 
sinbumu 2026-01-19

Das hat eigentlich nur erfolgreich gezeigt, dass Entwickler bislang noch nicht ersetzt werden können~

 
jjw9512151 2026-01-18

Erfolgreiches Ergebnis = Ihr könnt uns also doch noch nicht feuern, ihr Manager-Arschlöcher

 
kimjoin2 2026-01-18

Haha

 
laeyoung 2026-01-17
 
GN⁺ 2026-01-17
Hacker-News-Kommentare
  • Der wichtigste Punkt diese Woche hätte sein sollen, dass das Experiment am Ende nur auf dem Niveau eines nicht funktionsfähigen Wrappers um Servo (einen Rust-basierten Browser) lag
    Der entsprechende Kommentar ist hier

    • Ich frage mich, ob schon mal jemand versucht hat, ein populäres Open-Source-Projekt mit AI neu zu schreiben
      Mit den neuesten LLMs könnte das wohl auch ziemlich effektiv für License Washing oder das Plagiieren von Abhängigkeiten sein. Wäre ein interessanter neuer Benchmark
    • Ich habe tatsächlich einen Tweet gesehen, in dem jemand erfolgreich kompiliert haben soll
    • Negative Ergebnisse haben ebenfalls Wert. Wenn man sie absichtlich veröffentlicht, ist das respektabel; wenn sie versehentlich ans Licht kommen, ist es lustig
      Ein Hoch auf Cursor für die heutige Unterhaltung
    • Als ich zuerst den Screenshot sah, hatte ich kurz das Gefühl, mein Job sei in Gefahr
      Aber dann stellte sich heraus, dass es nicht einmal eine Engine gibt und alles komplett kaputt ist — Cursor ist wirklich blamabel
  • Cursors offizieller Blogpost war in einem ziemlich vorsichtigen Ton geschrieben,
    aber auf Twitter entstand ein übertriebener Eindruck im Sinne von „Mit GPT-5.2 wurde ein Browser gebaut“
    Tatsächlich wurden Tausende Agenten getrennt voneinander über Wochen Commits anhäufen lassen, aber das Ergebnis funktioniert noch immer nicht

    • Die Formulierung „Merge-Konflikte gelöst“ bedeutet nicht viel. Selbst mit der Strategie ours oder theirs kann man sie immer auflösen
    • Hat es dann überhaupt jemand geschafft, das Ding wirklich auszuführen? Woher kam der Screenshot? Im Code sind zu viele Fehler
    • Wenn man den verlinkten Inhalt liest, wirkt es so, als ob der Browser funktioniert hätte; ich frage mich also, wie das „vorsichtig“ sein soll
  • Ich habe selbst nachgeprüft und für die letzten 100 Commits cargo check ausgeführt
    Das Ergebnis: alles fehlgeschlagen. Siehe Ergebnis-Log

    • Inzwischen gibt es einen neuen Kommentar, dass es nun kompiliert
    • Ehrlich gesagt könnte sogar der Screenshot manipuliert worden sein. Nach Occams Rasiermesser wäre das die einfachste Erklärung
  • Diese Art von PR wirkt letztlich wie Teil einer Fundraising-Strategie
    Schon früher wurden mehrfach vage Posts veröffentlicht, etwa darüber, wie viel Code ein internes Modell geschrieben habe
    Das heißt nicht, dass gar nichts dahintersteckt, aber es ist schade, dass die Ergebnisse nicht öffentlich geteilt werden

    • Im Unterschied zu anderen Modellanbietern hat mich immer gestört, dass keine Benchmarks veröffentlicht werden
      Cursor war einmal ein großes Thema, aber inzwischen sind terminalbasierte Agenten im Trend
      Auch unser Unternehmen will den Vertrag mit Cursor beenden und zu Claude Code wechseln
      Vermutlich ist dieses Browser-Projekt ein Versuch, wieder Aufmerksamkeit zu bekommen
    • Diese Art der Übertreibung ist am Ende nur künstliche Aufblähung des Marktwerts. Das lässt sich nicht rechtfertigen
    • Inzwischen verlassen sich alle LLM-Unternehmen eher auf „vibe-coded“ Marketing als auf Wahrheit
      Bei der Ankündigung von GPT-5 war es ähnlich. Der tatsächliche Fortschritt verlangsamt sich
    • Früher mochte ich solche Übertreibungen nicht, inzwischen nehme ich sie als Realität der Welt hin
      Am Ende lautet die Antwort nicht Vertrauen, sondern Verifikation
  • Cursor baut in einem ähnlichen Experiment auch einen Excel-Klon
    Laut dem GitHub-Repository
    waren von 160.000 Workflows nur 247 erfolgreich, die meisten scheiterten an überschrittenem Budget
    Solche Einschränkungen kümmern die Agenten überhaupt nicht

  • Der neueste Commit lässt sich jetzt bauen und ausführen (zumindest auf dem Mac)
    Aber es ist immer noch ein 3-Millionen-Zeilen-Chaos
    Die Seite aus Cursors Promo-Video wird nicht gerendert. Vermutlich wurde ein anderer Build verwendet

    • cargo check läuft durch, aber wenn man sich git log ansieht, wirkt etwas verdächtig
      Es gibt Spuren, dass nicht Agenten, sondern Menschen direkt Änderungen vorgenommen haben
      Siehe Analyse des Commit-Logs
  • Ich denke, der Originalpost war einfach nur eine Clickbait-Überschrift
    Die Formulierung „Tausende AI-Agenten haben einen Browser gebaut“ ist viel zu reißerisch

    • Jetzt kann man diesen Fall verlinken, wenn wieder jemand sagt: „AI hat einen Browser gebaut“
    • Nicht funktionierende Projekte drehen gerade schnell ihre Runden im News-Zyklus
      Schade, dass der Ausdruck „Fake News“ politisch vergiftet wurde. Für diesen Bereich passt er perfekt
  • Cursors CEO behauptete, man habe in Rust eine Rendering-Engine und eine JS-VM von Grund auf gebaut,
    aber die tatsächliche Abhängigkeitsliste zeigt,
    dass Bibliotheken auf Servo-Basis wie html5ever, cssparser und rquickjs einfach verwendet wurden
    Am Ende war es nur ein Wrapper um Servo, und nicht einmal einer, der kompiliert

    • Ich verstehe nicht, warum man überhaupt behauptet hat, CSS und JS selbst implementiert zu haben
      Die meisten Leute würden das beim Blick in den Code sofort erkennen; vermutlich dachte man, die breite Masse prüft das nicht nach
      Auf diese Weise verbreiten sich falsche Vorstellungen, und selbst wenn später korrigiert wird, interessiert es niemanden mehr
    • Tatsächlich besteht es aus existierenden Bibliotheken wie den HTML/CSS-Parsern von Servo, QuickJS, resvg, egui und wgpu
      Dass das dann 3M Zeilen sein sollen, ist schon komisch
    • Auch selectors und taffy sind enthalten, und einige davon verwenden veraltete Abhängigkeiten
    • Die JS-Engine ist nur ein in den Vendor-Ordner kopiertes persönliches Projekt
      Siehe dazu hier
    • Ich frage mich, ob der Layout-Code von Servo stammt oder von Cursor selbst geschrieben wurde
      Das ist im Browser einer der schwierigsten Bereiche
  • Ich halte diesen Marketing-Ansatz eher für ein Eigentor
    Cursors Design und UX sind hervorragend, aber bei tiefergehender Arbeit gibt es zu viele Bugs
    Mit der Ergänzung von Claude-Modellen wurde es etwas besser, aber es ist immer noch schlechter als Antigravity
    Außerdem ist das $20-Abolimit schnell aufgebraucht. Dass Modelle zehnmal besser und zehnmal billiger werden, ist eher unwahrscheinlich

    • Nachdem ich bugverseuchte Apps verschiedener AI-Firmen ausprobiert habe, habe ich das Gefühl, dass für echte Arbeit immer noch menschliches Können nötig ist
      Wenn man sieht, wie sich OpenAIs Geschäftsmodell in Richtung Werbung bewegt,
      kommt einem der Gedanke, dass Google diese Technologie realistischer verstanden hatte
  • Solche Geschichten sind am Ende vor allem für die Verkäufer der Schaufeln bestimmt
    Ein CEO ohne tiefere Ahnung könnte auf solche Nachrichten hereinfallen und tatsächlich echte Mitarbeiter entlassen