1 Punkte von GN⁺ 2024-01-29 | 1 Kommentare | Auf WhatsApp teilen

Studienergebnisse zu GitHub Copilot: „Abwärtsdruck“ auf die Codequalität festgestellt

  • Eine neue Studie zu den Auswirkungen des KI-basierten GitHub Copilot auf die Softwareentwicklung zeigt negative Ergebnisse.
  • Das Whitepaper „Coding on Copilot“ von GitClear untersucht die Qualität und Wartbarkeit von KI-unterstütztem Code im Vergleich zu von Menschen geschriebenem Code.
  • Die Studie fand besorgniserregende Trends für die Wartbarkeit von Code und prognostiziert, dass sich das Volumen der Codeänderungen im Jahr 2024 gegenüber 2021, also vor der Einführung von KI, verdoppeln wird.

Kontrast zur GitHub-Studie

  • Andere Studien, insbesondere eine GitHub-Studie aus dem Jahr 2022, kamen zu dem Ergebnis, dass Entwickler mit GitHub Copilot ihre Aufgaben deutlich schneller abschlossen.
  • Die GitHub-Studie maß positive Effekte wie Produktivitätssteigerungen, höhere Entwicklerzufriedenheit und die Einsparung mentaler Energie.
  • Die Studie von GitClear untersucht Veränderungen in der Codezusammensetzung bei der Nutzung von KI und zeigt auf, worauf technische Führungskräfte im Jahr 2024 achten sollten.

Meinung von GN⁺

  • Diese Studie ist wichtig, um die Auswirkungen von KI auf die Softwareentwicklung zu verstehen. Sie hebt insbesondere potenzielle Probleme hervor, die der Einsatz von KI in Bezug auf Codequalität und Wartbarkeit mit sich bringen kann.
  • Tools wie GitHub Copilot können zwar die Produktivität von Entwicklern steigern, doch es wird angedeutet, dass auch die langfristigen Auswirkungen auf die Codequalität berücksichtigt werden müssen.
  • Technische Führungskräfte können diese Studienergebnisse als Referenz nutzen, um Probleme beim Einsatz von KI-gestützten Tools zu vermeiden und Strategien zur Aufrechterhaltung der Codequalität zu entwickeln.

1 Kommentare

 
GN⁺ 2024-01-29
Hacker-News-Kommentare
  • Ein Nutzer erwähnte, dass er sein Abonnement gekündigt habe, weil er zu viel geistige Energie für das Beheben von Codefehlern aufwenden musste. Besonders bei der Lösung komplexer SQL-bezogener Probleme sei es nutzlos gewesen. Es sei einfacher gewesen, selbst direkt zu schreiben, was er wolle, und er sorge sich, dass Junior-Entwickler von solchen ineffizienten Tools überwältigt werden könnten.
  • Ein anderer Nutzer sagte, dass GPT-4 seine Effizienz bei der Entwicklung von PHP-CRUD-Anwendungen stark verbessert habe. Der anhand einfacher Anweisungen erzeugte Code sei leicht verständlich gewesen und habe größtenteils sofort funktioniert. Es habe geholfen, auf die Anforderungen des Nutzers zu hören und Probleme zu lösen. GPT-4 habe zu geringen Kosten wertvolle Hilfe geleistet, wobei betont wurde, dass es ohne Grundlagenwissen nicht effektiv sei.
  • Ein Diskussionsteilnehmer stellte die Methodik infrage, mit der die Commit-Aktivität von 2023 mit den Vorjahren verglichen wurde. Er kritisierte, dass die Regressionsanalyse auf nur vier Datenpunkten basiere und ohne Berücksichtigung des Einflusses von Copilot wenig überzeugend sei.
  • Ein weiterer Nutzer wies darauf hin, dass Technologie zwar für das Wachstum von Markt und Staat eingesetzt werde, Probleme dabei aber oft nur dadurch gelöst würden, dass etwas über unvollständige Abstraktionen gestülpt werde. Es brauche qualitative Veränderungen, und er äußerte die Sorge, dass LLMs (Large Language Models) den menschlichen Irrtum befördern, Ziele ohne echte Anstrengung erreichen zu wollen.
  • Ein Entwickler beschrieb seinen Workflow und sagte, dass man mit Copilot, wenn es in der Prototyping-Phase funktionierenden Code liefert, einen Großteil des Prozesses überspringen könne, der nötig ist, um das Problem ausreichend zu verstehen und korrekt zu strukturieren. In der finalen Entwicklungsphase könne Copilot sehr nützlich sein, man solle aber nicht mehr erwarten als das, was man hineingibt.
  • Ein Junior-Entwickler empfindet Assistenten wie Codeium oft als ablenkend und befürchtet, dadurch nicht zu lernen, wie er selbst Code schreibt. Tools wie Phind helfen zwar beim Verständnis von Problemen, aber Codeium funktioniere häufig nicht und sei deshalb frustrierend.
  • Der Autor der Studie äußerte Begeisterung über das langfristige Interesse an Codequalität. Die 2023 gestiegene Codeduplizierung und die geringere Verschiebung von Code seien unerwartete Ergebnisse gewesen. Er hoffe, dass Entwicklungsteams und Hersteller von AI-Assistenten Messgrößen und Anreize einführen, die wiederverwendbaren Code stärker gewichten als neu hinzugefügten Code.
  • Ein Nutzer sagte, er habe mit ChatGPT einen Yourls-Klon auf Django/Python-Basis erstellt, dabei aber die Traffic-Tracking-Funktion nicht angemessen berücksichtigt. AI-Tools verhielten sich wie Anfängerentwickler, erzeugten ihre Fehler jedoch viel schneller.
  • Es wurde darauf hingewiesen, dass es bereits Gegenreaktionen auf das DRY-(Don't Repeat Yourself)-Prinzip gebe und einige jüngere Entwickler eine sehr andere Haltung zu Code hätten. Sie nähmen eine verächtliche Haltung gegenüber Design Patterns sowie den Prinzipien DRY und SOLID ein.
  • Abschließend sagte ein Nutzer, er habe das Gefühl, dass Copilot zu sehr versuche, schlau zu sein, und dadurch oft falsche Ergebnisse liefere. Er wünsche sich, dass Copilot eine smarte Intellisense sei, tatsächlich verhalte es sich aber eher wie ein dümmerer Pair-Programmer. Viele Leute nutzten es für Business-Logik, und er glaube, dass sich das Produkt in diese Richtung entwickle.