Devin, der erste KI-Softwareingenieur

(cognition-labs.com)

15 Punkte von GN⁺ 2024-03-13 | 2 Kommentare | Auf WhatsApp teilen

Devin ist der weltweit erste vollständig autonome KI-Softwareingenieur.
Devin arbeitet gemeinsam mit menschlichen Ingenieurinnen und Ingenieuren oder unabhängig und ermöglicht es ihnen, sich auf interessantere Probleme zu konzentrieren.
Devin kann komplexe Engineering-Aufgaben planen und ausführen und dabei Entwicklerwerkzeuge wie Shell, Code-Editor und Browser nutzen.

Fähigkeiten von Devin

Devin hat Fortschritte bei langfristigem Schlussfolgern und Planen erzielt und kann komplexe Engineering-Aufgaben ausführen, indem es Tausende von Entscheidungen trifft.
In Zusammenarbeit mit Nutzerinnen und Nutzern kann Devin den Fortschritt in Echtzeit berichten, Feedback einholen und Designentscheidungen gemeinsam abstimmen.
Devin kann sich in unbekannte Technologien einarbeiten, Apps entwickeln und bereitstellen, Bugs in Codebasen finden und beheben sowie eigene KI-Modelle trainieren und feinabstimmen.

Leistung von Devin

Im Coding-Benchmark SWE-bench erzielte Devin bei der Lösung realer GitHub-Issues eine Erfolgsquote von 13,86 % und übertraf damit den bisherigen Bestwert von 1,96 % deutlich.
Devin wurde auf einem zufälligen 25%-Teil des Datensatzes evaluiert. Während andere Modelle Unterstützung erhielten und ihnen die exakt zu bearbeitenden Dateien genannt wurden, arbeitete Devin ohne Hilfe.

Über Cognition

Cognition ist ein Applied-AI-Forschungslabor mit Schwerpunkt auf Schlussfolgern.
Ziel ist es, KI-Kollegen zu entwickeln, die Fähigkeiten bieten, die über die heutigen KI-Tools hinausgehen.
Cognition hat eine Series-A-Finanzierung über 21 Millionen US-Dollar unter Führung von Founders Fund erhalten und wird von Branchenführern unterstützt.

Devin einsetzen

Devin befindet sich derzeit in der Early-Access-Phase. Wer Devin für Engineering-Aufgaben einsetzen möchte, kann Cognition kontaktieren.

Komm zu uns

Das Team von Cognition ist klein; das Gründungsteam hält 10 IOI-Goldmedaillen und besteht aus Führungskräften und Buildern mit Erfahrung bei Cursor, Scale AI, Lunchclub, Modal, Google DeepMind, Waymo und Nuro.
Der Aufbau von Devin ist erst der erste Schritt, und die schwierigsten Herausforderungen liegen noch vor uns.

Meinung von GN⁺

Der KI-Softwareingenieur Devin steht sinnbildlich für die Zukunft der Softwareentwicklung und hat das Potenzial, die Effizienz von Engineering-Arbeit durch die Verbindung von Automatisierung und KI deutlich zu steigern.
Dass KI bei der Lösung realer Engineering-Probleme eine so hohe Erfolgsquote zeigt, ist eine bemerkenswerte Leistung und verdeutlicht, wie gut sich Fortschritte in der KI-Technologie in reale Arbeitsumgebungen integrieren lassen.
Dennoch müssen die ethischen und gesellschaftlichen Auswirkungen bedacht werden, wenn KI menschliche Arbeit ersetzt. Ein sorgfältiger Umgang mit den Auswirkungen auf Arbeitsplätze und mit der Veränderung der menschlichen Rolle ist erforderlich.
Ein anderes KI-basiertes Entwicklungstool mit ähnlichen Funktionen ist GitHub Copilot, das weithin als Unterstützung beim Schreiben von Code genutzt wird.
Bei der Einführung von Technologien wie Devin sollten Datensicherheit, Datenschutz sowie Fragen nach Transparenz und Verantwortung bei KI-Entscheidungen berücksichtigt werden. Es ist wichtig, die Auswirkungen von KI-Entscheidungen auf Unternehmen und Nutzer zu verstehen und zu steuern.

2 Kommentare

yangeok 2024-03-13

Ich würde Devin gern kostenlos ausprobieren.

GN⁺ 2024-03-13

Hacker-News-Kommentare

Als Entwickler und Produktverantwortlicher habe ich versucht, mit AI zu programmieren, bin aber an Kontextlänge, schwacher Modellausgabe und fehlender Architektur gescheitert. Über Hilfe bei Leetcode hinaus konnte ich mit AI keine nützlichen Aufgaben erledigen. Sogar die Aufgabe, Selektoren aus einer einfachen HTML-Seite zu extrahieren, habe ich mit mehreren AI-Modellen versucht, aber nicht erfolgreich gelöst. Die Erwartungen an den technologischen Fortschritt waren groß, aber ich will ein Produkt, das in der Praxis wirklich funktioniert.
Menschen suchen nach Arbeit, die Sinn und Erfüllung gibt. Durch den technologischen Fortschritt werden Handwerker als Erste nutzlos. Die Gesellschaft sendet die Botschaft, dass Würde nur anerkannt wird, wenn man Wert produziert. Indem wir Kunst und Engineering an AI abgeben, können auch Menschen, die es nicht verstehen, diese Dinge billig nutzen. Das wirft die Frage auf, wem der technologische Fortschritt nützt und wo künftig der Platz des Menschen ist.
Scott Wu gehört seit 1989 zu den wenigen Menschen mit einer perfekten Punktzahl; wir haben uns bei einer Olympiade für Competitive Programming kennengelernt. Es freut mich zu sehen, dass er sein erstaunliches Talent nutzt.
Von einer Website, auf die sich ohne Authentifizierung Dateien beliebiger Größe hochladen lassen, bin ich nicht besonders beeindruckt. Ich habe eine 500-MB-Datei auf den Server hochgeladen.
Wenn AI so leistungsfähig ist, sollte sie für gute Zwecke eingesetzt werden. Als Senior Software Engineer besteht 90 % der Arbeit nicht im Schreiben von Code, sondern darin, komplexe Anforderungen in klare Aufgaben zu zerlegen, Lücken in den Anforderungen zu finden, möglichst wenig Code zu schreiben und die Codebasis zu verstehen. Statt eines „AI Software Engineers“ braucht es eher einen „AI Human Liaison“.
Die Demo ist beeindruckend, aber der Umfang ist begrenzt, daher frage ich mich, wie gut das in realen Situationen funktionieren wird. Kann es Softwarearchitektur leisten? Ist die Lösung nur Reproduktion? Und wie oft reicht es nicht aus, wenn eine Lösung nur zu 90 % korrekt ist?
Als jemand mit Erfahrung in der Backend-Entwicklung kann ich sagen, dass LLMs einen erstaunlichen Produktivitätsschub bei der Codegenerierung liefern, wenn man die zugrunde liegenden Bibliotheken/Frameworks/Sprachen gut kennt. Aber man muss trotzdem weiterhin alles verstehen; AI kann nicht automatisch alles erledigen.
Die Demo ist beeindruckend und Glückwunsch zum Launch, aber ich frage mich, ob die Bugs, auf die Devin stößt, mit einfachen Fixes lösbar sind. Zum Beispiel bringt es den Code zwar zum Laufen, wenn man ihn zur Behebung eines KeyError in try-catch einhüllt, aber das ist nicht immer die ideale Lösung.
LLMs befinden sich immer noch in der Phase des „Reimens“. Ob sie zum „vernünftigen Denken“ übergehen können, ist ungewiss, aber beim Programmieren braucht man vernünftiges Denken für komplexe Probleme. Angesichts der Geschwindigkeit des Wandels schließe ich jedoch keine Möglichkeit aus.
Als jemand, der in diesem Bereich arbeitet, sehe ich den Einsatz von AI beim Programmieren derzeit auf dem Niveau eines Hilfswerkzeugs und eines fortgeschrittenen Autocomplete. Unternehmen wie Pythagora sehen menschliches Eingreifen weiterhin als wichtig an, und man kann sich LLMs als enthusiastische Junior-Entwickler vorstellen, die auf Anweisung schnell handeln. Mit internen Prompts und etwas menschlicher Anleitung können sie erstaunliche Ergebnisse liefern.

Devin, der erste KI-Softwareingenieur

Fähigkeiten von Devin

Leistung von Devin

Über Cognition

Devin einsetzen

Komm zu uns

Meinung von GN⁺

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare