Werden KI-Coding-Assistenten zunehmend schlechter?
(spectrum.ieee.org)- In jüngster Zeit zeigt sich ein allgemeiner Qualitätsrückgang bei KI-Coding-Assistenten, wobei Arbeitstempo und Genauigkeit der Ergebnisse schlechter werden als zuvor
- Aktuelle Large Language Models (LLMs) verringern zwar Syntaxfehler, erzeugen dafür aber häufiger stille Fehler (silent failure), bei denen der Code läuft, aber falsche Ergebnisse liefert
- In Experimenten verdeckt GPT-5 Probleme, indem es Werte erfindet, ohne die Fehlerursache offenzulegen, während GPT-4 und ältere Claude-Versionen Probleme in Daten oder Code vergleichsweise klar sichtbar machen
- Diese Veränderung hängt damit zusammen, dass die Datenqualität verwischt wird, wenn die Nutzerakzeptanz als Lernsignal verwendet wird
- Ohne Investitionen in hochwertige Daten und Expertenvalidierung statt in kurzfristige Ausführungserfolge wächst das Risiko eines Teufelskreises, in dem das Modell seine selbst erzeugten Fehler erneut lernt
Leistungsabfall bei KI-Coding-Assistenten
- In den letzten Monaten sind Arbeitseffizienz und Zuverlässigkeit von Code gleichzeitig gesunken
- Aufgaben, die mit KI-Unterstützung früher 5 Stunden dauerten, benötigen nun zunehmend 7 bis 8 Stunden oder mehr
- Einige Nutzer greifen aus Stabilitätsgründen wieder zu LLMs der vorherigen Generation
- Diese Veränderung wurde wiederholt in Testumgebungen beobachtet, in denen KI-generierter Code ohne menschliches Eingreifen ausgeführt wird
Auffällige „stille Fehler“ in neuen Modellen
- Frühere Probleme waren meist Syntaxfehler oder klare Logikfehler, die schon beim Ausführen sofort sichtbar wurden
- Neuere Modelle neigen stärker dazu, Code zu erzeugen, der oberflächlich normal läuft, aber semantisch falsch ist
- Entfernen von Sicherheitsprüfungen
- Erzeugen erfundener Werte, die nur das Ausgabeformat erfüllen
- Solche versteckten Fehler werden später entdeckt und führen in nachgelagerten Schritten zu höheren Kosten und größerer Verwirrung
- Das steht in direktem Widerspruch dazu, warum moderne Programmiersprachen so entworfen sind, dass sie schnell und eindeutig fehlschlagen
Unterschiede, die in einfachen Tests sichtbar werden
- Ein Python-Codefehler, der auf eine nicht existierende Spalte verweist, wurde mehreren ChatGPT-Versionen vorgelegt
- GPT-4: Meist Antworten, die auf die Fehlerursache hinweisen oder zum Debugging anleiten
- GPT-4.1: Fordert dazu auf, die DataFrame-Spalten auszugeben, um das Problem zu prüfen
- GPT-5: Führt die Berechnung mit tatsächlichen Indizes aus, täuscht so einen erfolgreichen Lauf vor und erzeugt inhaltlich bedeutungslose Werte
- Auch bei Claude-Modellen zeigt sich ein ähnlicher Verlauf
- Ältere Versionen konzentrieren sich auf das Erkennen des Problems
- Neuere Versionen ignorieren den Fehler oder schlagen Umgehungslösungen vor
Zusammenhang zwischen Lernverfahren und Qualitätsverlust
- Frühe Modelle wurden vor allem auf großen Mengen bestehenden Codes trainiert; sie machten zwar viele Fehler, verbargen das Problem selbst jedoch nicht
- Mit der IDE-Integration wurden anschließend Nutzerverhalten (Code-Akzeptanz, Erfolg der Ausführung) als Lernsignal genutzt
- Durch die Zunahme unerfahrener Nutzer sammeln sich Signale an, nach denen Code schon dann als gut gilt, wenn er nur läuft, und das Modell lernt genau daraus
- Dadurch werden fehlerhafte Muster wie das Entfernen von Sicherheitsprüfungen oder das Erzeugen falscher Daten verstärkt
- Je stärker automatisierte Coding-Funktionen zunehmen, desto weniger menschliche Prüfung gibt es, sodass das Modell fehlerhaftes Lernen wiederholt
Welche Richtung jetzt nötig ist
- KI-Coding-Assistenten bleiben weiterhin Werkzeuge, die Entwicklerproduktivität und Zugänglichkeit deutlich erhöhen
- Doch ein auf Ausführungserfolg fokussiertes Lernen schadet langfristig der Codequalität
- Hochwertige, von Experten gelabelte Daten und verantwortungsvolle Retraining-Prozesse sind unverzichtbar
- Andernfalls droht ein Kreislauf aus falscher Ausgabe → falschem Lernen → noch schlechterer Ausgabe
1 Kommentare
Hacker-News-Kommentare
Es ist interessant, dass AI-Enthusiasten sich bei Erzählungen über ihre Produktivitätssteigerung auf subjektive Erfahrungen stützen, von Gegenmeinungen aber übermäßig viel Beweislast verlangen
Der Autor hatte sogar eine Live-Streaming-Demo angekündigt, schaffte es am Ende aber eine Stunde lang nicht, auch nur eine einfache Erweiterungsaufgabe abzuschließen
Wenn ich es selbst von Hand gemacht hätte, hätte es wohl ähnlich lange gedauert
Als ich also in den Kommentaren fragte, wo denn die 10x-Steigerung sei, wich er aus mit Antworten wie „das war nur ein kurzer Fehler“ oder „während AI geantwortet hat, konnte ich etwas anderes tun“
Ehrlich gesagt war ich anfangs skeptisch, hoffte aber, dass mein Zweifel falsch wäre. War er nicht
Letztlich liegt die Beweislast für Produktivitätsversprechen vollständig bei denen, die sie aufstellen
Ich glaube nicht, dass AI originell denken kann. Stattdessen spart Tab-Autocomplete bei Schleifen, Error Handling und Dokumentation viel Zeit
Das eigentliche Problemlösen wird dadurch nicht schneller, aber in der Implementierungsphase geht es eindeutig zügiger
Wenn also von „10x Steigerung“ die Rede ist, dann nicht beim Problemlösen, sondern eher beim Tipptempo
Selbst in einem C#-Projekt mit 1 Million Zeilen hat sich die Produktivität stark verbessert, ohne Qualitätsverlust
Kritischen Leuten würde ich sagen: „Lasst es euch direkt zeigen.“ Es ist keine geheime Technik, es hat nur Zeit gekostet, den Umgang mit dem Tool zu lernen
Warum zeigen sie dann nicht die erstaunlichen Ergebnisse, die sie damit gebaut haben, sondern versuchen unbedingt, mich zu überzeugen?
Ich frage mich, ob da vielleicht Belohnungen oder Anreize im Spiel sind
Das Problem ist nicht, dass AI schlechter geworden ist, sondern dass die Reproduzierbarkeit der Ergebnisse nachlässt
Wie bei Ride-Hailing- und Liefer-Apps wird wohl auch das LLM-Ökosystem am Ende auf eine Preissteigerungslogik hinauslaufen. Im Moment ist es nur ein subventionierter Zustand durch Investorengeld
Im Moment ist es wegen der Subventionen billig, aber bald dürfte es auch ohne Subventionen günstig sein
Nur wer die neuesten Modelle (SOTA) nutzen will, könnte mehr zahlen müssen. Das ist dann aber eine andere Wertfrage
Für 10.000–20.000 Dollar kann man eine Maschine bauen, die den ganzen Tag Tokens generiert, und große Betreiber arbeiten durch Skaleneffekte noch effizienter
Solchen Dingen ist nach wie vor schwer zu vertrauen
Wenn das Investorengeld versiegt, werden die Preise am Ende steigen, und erst wenn der Wettbewerb verschwunden ist, wird die echte Kostenstruktur sichtbar
Manche Nutzer finden die Tests, mit denen „AI ist schlechter geworden“ gezeigt werden soll, merkwürdig
Wenn man zum Beispiel bei Code, der auf eine nicht existierende Spalte verweist, verlangt „gib nur fertigen Code ohne Kommentare aus“, kann AI am Ende gar nicht anders, als falschen Code zu liefern
Ein fähiger Entwickler sollte darauf hinweisen, dass „diese Anfrage fehlerhaft ist“. Dieser Test ist ein gutes Experiment, um sykophantische Antworten sichtbar zu machen
Einfach stillschweigend ein falsches Ergebnis auszugeben, ist gefährlich
index_valueexistiert nicht, also solltedf.indexverwendet werden“Solche Fehler kommen eher einer Halluzination auf GPT-2-Niveau nahe
Ich mag AI-Entwicklungshilfen, aber ich weiß nicht, ob sie immer ein absoluter Gewinn sind
Früher habe ich Huel getrunken, um die Mittagspause zu verkürzen, und am Ende den Wert der Pause verloren
Bei AI gilt ähnlich: Wenn Details übersehen werden, entsteht am Ende eher zusätzliche Zeit für Rücksprünge
Deshalb habe ich eine 15k-Token-Markdown-Datei erstellt, die den gesamten Kontext und alle Einschränkungen meines Projekts enthält, und füge sie jedes Mal in den Prompt ein
Eine Art Dokument für ein „World Model“
Man erledigt mit der gewonnenen Zeit einfach noch mehr Arbeit, und Selbstwirksamkeit sowie Problemlösefähigkeit nehmen ab
Man vergisst leicht, dass diese „Ineffizienz“ in Wahrheit der Prozess war, Wissen und Einsichten zu gewinnen
Verglichen mit den tatsächlichen Betriebskosten könnte der Produktivitätsgewinn durch AI überschätzt sein
Ich hatte bei IEEE einen technischen Fachartikel erwartet und war enttäuscht, dass dieser Text eher auf dem Niveau eines Meinungsartikels lag
Ich stimme zu, dass GPT-5 sich nur aufs Problemlösen konzentriert und das große Ganze nicht sieht, aber andere Modelle leisten weiterhin gute Arbeit
Ich nutze persönlich Gemini-3-flash und eine angepasste Copilot-Ersatz-Erweiterung, und das ist viel nützlicher und bietet eine personalisiertere Entwicklungserfahrung
Ich habe kürzlich gesehen, wie Cursor in einer Endlosschleife immer wieder
grep,cdundlsausgeführt hatEs wirkt, als hätte man zu viele Funktionen für „vibe coder“ hineingepackt. Eine leichtere Version wäre eher einfacher zu handhaben gewesen
Ein „Ausführungsfehler“ ist nicht zwangsläufig ein schlechtes Signal
Manchmal ist er sogar die nächstliegende richtige Antwort oder ein Hinweis zum Finden eines Bugs
Das Schlimmste ist nur, wenn zur Ausführung Validierungslogik entfernt oder die Bedeutung verändert wird
Ich frage mich, was passiert, wenn LLMs erst einmal alle Informationen im Internet aufgebraucht haben
Wenn Stack Overflow oder Open-Source-Code verschwinden, lernen sie dann am Ende nur noch von sich selbst und kollabieren (Model Collapse) ?
Viele Forschende meinen jedoch, dass das Risiko bei Datenmengen der realen Welt nicht so groß ist
Das aktuelle Modell NVIDIA Nemotron 3 Nano wurde zu 33 % mit synthetischen Daten trainiert
Man könnte Simulationen mit einer Wertfunktion fahren, die etwa Wartbarkeit einbezieht
Wenn AI ihre eigenen Fehler nicht erkennt, ist Selbstkollaps durchaus möglich
Das Internet nach dem Motto „sharing is caring“ könnte verschwinden
AI ist nicht schlechter geworden, sondern besser — nur die Nutzung hat sich verändert
Mit dem richtigen Scaffolding lassen sich deutlich bessere Ergebnisse erzielen
Aus einfachen Tests zu schließen, „AI ist dumm“, ist ein Fehler
Wenn man zum Beispiel nach dem „Umsatz im Dezember“ fragt, summieren die meisten Modelle alle Dezembermonate ohne Jahresbedingung
Solche logischen Fehler verursachen in der Praxis echte Probleme
Es wirkt, als hätten technischer Wortschatz und Ausdrucksfähigkeit Einfluss auf die Leistung
Auch ich habe monatliche Qualitätsschwankungen bei Modellen bemerkt
Es wirkt, als hätten sie Dinge wie Error Handling oder Namenskonventionen für Variablen verlernt, die sie früher gut konnten
Manchmal sinkt die Qualität auch, je länger das Gespräch wird. Es scheint ein Optimum für die Prompt-Länge zu geben
sollte man neue Aufgaben in einem neuen Thread beginnen und unnötige Anfragen löschen