- Ein Staff Engineer berichtet von einem sechswöchigen Experiment mit Claude Code, um einen Entwicklungs-Workflow gemeinsam mit KI zu erproben
- Die Denkweise, KI als einen „nicht lernenden Junior-Entwickler“ zu betrachten, ist der Schlüssel für eine erfolgreiche Integration
- Der erste Versuch ist meist ein 95%iger Fehlschlag, wird aber durch Wiederholungen schrittweise zu brauchbarem Code verfeinert
- Mit projektspezifischen Kontextdateien (Claude.md) und MCP-basierter Tool-Integration wird das Kontextproblem der KI gelöst
- Die Rolle von Entwicklern verlagert sich vom Schreiben von Code hin zu Problemlösung und Architekturdesign – ein neues Produktivitätsmuster im Zeitalter der KI-Nutzung
Hintergrund und Ansatz
- Der Autor schrieb ursprünglich jeden Code selbst, inzwischen werden jedoch 80 % vom AI geschrieben, während er sich auf Architektur, Reviews und das Management mehrerer Entwicklungs-Threads konzentriert
- Der Text schlägt keinen rosigen Ton im Sinne von „KI treibt die Innovation“ an, sondern teilt die Verwirrung und realistische Methodik, die bei der Integration von KI in einen echten Produktions-Workflow entstehen
- Der Schlüssel zur erfolgreichen Nutzung liegt darin, KI als einen „nicht lernenden Junior-Entwickler“ zu behandeln
Der Wandel des Entwicklungsparadigmas
- In den ersten fünf Jahren blieb die Arbeitsweise bei Entwicklung mit Büchern und SDK-Dokumentation
- In den folgenden zwölf Jahren erfolgte der Wechsel zur Nutzung von Suche (Google) und kollektiven Wissensquellen
- In den letzten 18 Monaten wurden KI-gestütztes Coding mit Cursor erprobt
- In den unmittelbar vergangenen sechs Wochen gab es einen starken Wandel hin zu einer umfassenden KI-Delegation mit Claude Code
- Die Eingewöhnung an Claude Code führte schon nach wenigen Stunden zu spürbar höherer Produktivität
Der reale KI-basierte Produktions-Workflow
- Bei Code-Arbeit für die Produktion wird KI hauptsächlich zum „Denken“ genutzt
- Perfekter Code in einem einzigen Durchlauf ist unmöglich. Die Aufgabe eines Engineers ist es, die beste Lösung für ein Problem zu finden
- Erster Versuch (95 % Fehlschlag): Die KI baut Systemkontext auf und der Entwickler definiert das Problem, aber der Code ist fast vollständig falsch
- Zweiter Versuch (50 % Fehlschlag): Das Kontextverständnis verbessert sich und der Ansatz wird konkreter, aber immer noch ist die Hälfte unbrauchbar
- Dritter Versuch (brauchbarer Code): Durch Wiederholung und Review entsteht ein tatsächlich nutzbares Grundgerüst, das anschließend verbessert werden kann
- Dieser Prozess ist kein Scheitern, sondern ein bewusst geplanter Ablauf aus Experimenten und iterativer Optimierung
Das Kontextproblem und die Lösung
- KI kann keine Erinnerung über Sitzungen hinweg behalten, weshalb dieselben Erklärungen immer wieder wiederholt werden müssen
- Als Lösung wird eine Claude.md-Datei verwendet, in der Architekturentscheidungen, Muster und Dokumentationslinks festgehalten werden
- Über MCP-Integration werden Linear, Notion, GitHub, die Codebasis und Datenbanken angebunden, um automatisch Kontext bereitzustellen
- Linear liefert Ticket-Kontext
- Notion oder Canvas ermöglichen Zugriff auf Dokumentation
- Eine Nicht-Produktionsdatenbank dient zur Prüfung von Datenstrukturen
- GitHub liefert Hintergrundinformationen aus früheren PRs
Paralleler Betrieb mehrerer Claude-Instanzen und zentrale Strategien
- Mehrere Claude-Instanzen werden parallel betrieben, mit einem Ansatz, der sich anfühlt wie das Management eines kleinen Entwicklungsteams, das jeden Tag sein Gedächtnis verliert
- Strategien wie keine Parallelisierung innerhalb desselben Problemraums, das Festhalten aller Arbeiten in Projektmanagement-Tools wie Linear und die klare Kennzeichnung von Code, den Menschen direkt bearbeitet haben, werden etabliert
- KI wird nicht nur beim Schreiben von Code, sondern auch aktiv im Code Review eingesetzt: fehlende Tests, offensichtliche Bugs und Verbesserungspunkte werden schnell erkannt, was repetitive Arbeit reduziert
- Laut Unternehmensrichtlinie bei Sanity liegt die Verantwortung für die Endqualität auch bei KI-generiertem Code weiterhin beim Engineer
- In einer Umgebung, in der von KI und Menschen erzeugter Code nicht klar unterscheidbar ist, sinkt die emotionale Bindung, wodurch kritischere und objektivere Code Reviews möglich werden
Der dreistufige Code-Review-Prozess
- Code zu schreiben ist nur ein Teil der Arbeit, aber Code-Review ebenso
- Review-Stufe 1: erste Prüfung durch Claude
- Erkennung von Lücken in der Testabdeckung und offensichtlichen Bugs
- Verbesserungsvorschläge sparen Zeit in der Kolleg:innenprüfung
- Review-Stufe 2: mein eigenes Review
- Prüfung von Wartbarkeit, Architektur, Business-Logik und Integrationsfähigkeit
- Auch bei KI-generiertem Code trägt der Engineer die endgültige Verantwortung
- Review-Stufe 3: reguläres Team-Review
- Das Team weiß nicht, welche Teile KI-generiert sind. Es gelten dieselben Qualitätsstandards
- Objektive Prüfung ohne emotionale Bindung ist möglich
- Da die emotionale Bindung an von KI geschriebenen Code geringer ist, werden objektivere Reviews möglich
Slack-getriggerter Agent und Experimente zur Arbeitsautomatisierung
- Mit Cursor wurde ein Slack-integrierter Agent pilotiert: einfache Änderungen an der Business-Logik gelangen, bei komplexen CSS-Layouts scheiterte er jedoch
- Derzeit bestehen weiterhin Einschränkungen wie keine Unterstützung für private NPM-Pakete, unsignierte Commits und das Umgehen offizieller Nachverfolgung
- Dennoch weckt das die Erwartung eines künftigen Szenarios, in dem Agenten nachts einfache, repetitive Tickets abarbeiten
Kosten und ROI
- Die Nutzung von Claude Code verursacht für das Unternehmen erhebliche Kosten pro Engineer
- Diese Investition führt jedoch zu Produktivitätsgewinnen
- 2- bis 3-fach schnellere Feature-Releases
- Mehrere Entwicklungs-Threads lassen sich gleichzeitig steuern
- Wiederholten oder Boilerplate-Code muss man nicht mehr selbst schreiben
- In der Anfangsphase der KI-Einführung ist für Senior Engineers ein Budget von 1000 bis 1500 US-Dollar pro Monat nötig; mit wachsender Routine wird eine bessere Kosteneffizienz erwartet
Fortbestehende Probleme und Grenzen KI-gestützter Entwicklung
- Lernproblem: KI lernt nicht aus Fehlern und wiederholt dieselben Missverständnisse; die Lösung sind umfangreiche Dokumentation und explizitere Anweisungen
- Vertrauensproblem: KI liefert falschen Code oft mit großer Überzeugung, daher ist Verifikation zwingend erforderlich – besonders bei komplexem State-Management, Performance und sicherheitskritischen Bereichen
- Kontextgrenzen: Große Codebasen überschreiten das Kontextfenster der KI, daher müssen Probleme in kleine Einheiten zerlegt und mit klarem Kontext versehen werden
Der emotionale Wandel: vom Code zum Problem
- Die Fixierung auf Code wird aufgegeben und durch ein problemlösungszentriertes Denken ersetzt
- Fehlerhafter Code wird schneller gelöscht, Reviews werden objektiver und die Hürde für Refactoring sinkt => eine positive Veränderung
- Wenn bessere KI-Tools erscheinen, besteht die Bereitschaft, sofort zu wechseln
- Entscheidend ist nicht „der Code selbst“, sondern der Wert des zu lösenden Problems
Ratschläge zur KI-Einführung aus Engineersicht
- 1. Experimente mit mehreren KI-Lösungen zulassen: Teams sollten verschiedene Tools selbst ausprobieren, um praktische Kompetenz aufzubauen
- 2. KI zuerst auf repetitive und einfache Aufgaben anwenden: Dadurch sind schnelle Effekte zu erwarten
- 3. Budget für Trial-and-Error sichern: Im ersten Monat muss mit Verwirrung gerechnet werden
- 4. Review-Prozesse neu gestalten: Prüfungen müssen auf die Eigenschaften von KI-Code angepasst werden
- 5. Gründlich dokumentieren: Guter Kontext vervielfacht die Produktivität
- Engineers, die sich an neue KI-Workflows anpassen, werden feststellen, dass sich nun ein neues scharfes Messer in ihrem Werkzeugkasten befindet
- Engineers, die KI-Workflows annehmen, entwickeln sich zu einer neuen Rolle weiter, in der sie mehrere KI-Agenten orchestrieren und sich auf Architektur, Reviews und komplexe Problemlösung konzentrieren
Ihr nächster Schritt
- Wählen Sie ein kleines, klar definiertes Feature,
- geben Sie der KI drei Chancen, dieses Feature zu implementieren,
- und prüfen Sie das Ergebnis so, als würden Sie einen Junior-Entwickler coachen
- Mehr braucht es nicht. Keine große Transformation, keine Prozessreform
- Es braucht nur ein einziges Feature, drei Versuche und ein ehrliches Review
- Die Zukunft besteht nicht darin, dass KI Entwickler ersetzt
- sondern darin, dass Entwickler schneller arbeiten, bessere Lösungen entwickeln und die besten Tools nutzen
5 Kommentare
„Bei einem derart ausgefeilten Verfahren ist es wohl besser, den Code einfach selbst zu schreiben.“
Die Haltung eines Teamleiters, der die Arbeit nicht an die Teammitglieder delegiert, sondern sie selbst erledigt, lol
Scheint so, ist aber überhaupt nicht der Fall.
In den letzten 6 Monaten habe ich wiederholt im kleinen wie im großen Maßstab experimentiert.
Hacker-News-Kommentare
Ich habe das Gefühl, dass es wichtig ist, Anweisungen unter Berücksichtigung der kognitiven Grenzen des Agenten zu geben. Zum Beispiel sollte man keine großen Änderungen auf einmal verlangen, sondern erst einen Plan erstellen, dann die Umsetzung in kleinen Schritten anweisen und jeden Schritt beim Fortschritt testen. Bei komplexen Schritten ist es hilfreich, Code schreiben zu lassen, der Probleme und Lösungswege visualisiert. Wenn ein Schritt fehlschlägt, sollte man Logging zum Code hinzufügen, die Logs speichern, testen und die Logs prüfen, um die Ursache zu ermitteln — diesen Prozess muss man wiederholt durchlaufen, damit er effektiv ist. Wenn man das Modell anhand des bestehenden Code-Designs erkennen lässt, welche Teile geändert werden müssen, verhindert man, dass die AI alles in eine einzige Datei stopft. Ich habe Blogs gesehen, in denen viele Leute solche Tipps teilen; es ist immer noch nicht perfekt, aber bei mir kommen nicht mehr bis zu 95 % unbrauchbare Ergebnisse heraus.
Ich habe das Gefühl, dass solche Artikel inzwischen konkrete Beispiele für tatsächliche Aufgaben enthalten sollten, die nicht bloß simples Refactoring oder React-Boilerplate sind, sondern bei denen „Agenten tatsächlich verteilt arbeiten“. Es heißt, bei Sanity gebe es seit Langem angefragte Features, und der Agent erledige einen erheblichen Teil davon parallelisiert. Aber Aussagen in der Art, dass „80 % des Codes von einem Junior-Entwickler geschrieben wurden, der nichts gelernt hat“, finde ich schwer zu glauben.
Der Autor sagte zwar, es gebe Produktivitätsgewinne, erwähnte aber gleichzeitig die üblichen Grenzen ganz offen, sodass inhaltlich eigentlich nicht viel dabei herauskam. Ich bin mir sicher, dass niemand die Entwicklung von Kernfunktionen an Claude Code delegieren würde.
Boilerplate zu vermeiden ist Teil der Arbeit von Entwicklerinnen und Entwicklern und zugleich eine Abstraktion, die dem zukünftigen Ich das Leben leichter macht. Wenn man Boilerplate mit AI generiert, wird es später eher lästig, wenn man alle Instanzen einzeln ändern muss; und wenn über den Code verstreute Boilerplate-Stellen inkonsistent werden, wird das Problem noch größer.
Interessant ist, dass diese Person versucht, mit AI die Grundimplementierung zu erstellen, während ich genau andersherum vorgehe: Ich baue das Fundament unbedingt zuerst selbst, damit ich die Struktur und Funktionsweise genau verstehe. Danach kann ich der AI die repetitiven Boilerplate-Aufgaben überlassen. AI ist gut darin, Vorlagen nachzuschreiben, aber bei Architekturdesign ist sie extrem schwach.
Schon das Grundgehalt ist teuer, und dann soll man zusätzlich noch 1.000 bis 1.500 Dollar pro Monat ausgeben, um in kleinere Probleme zu investieren, bei denen Produktivitätsgewinne vielleicht eintreten und vielleicht auch nicht? Das halte ich für fragwürdig. Mein Chef wäre davon jedenfalls wohl nicht begeistert.
Ich verstehe nicht ganz, wie die im Artikel erwähnte Nutzung von MCP (Multi-Channel Processor) sinnvoll sein soll. Claude Code kann über die Shell mit
curl,ghusw. ohnehin fast alle Drittanbieterdienste aufrufen, und mit MCP kann es sogar Probleme geben (zum Beispiel schneidet der Linear-MCP-Server Issues ab, wenn sie zu lang werden, während es bei direkten API-Aufrufen diese Beschränkung nicht gibt). Vielleicht übersehe ich etwas.Anthropic hat ein Interview mit Boris Cherny (dem Erfinder von Claude Code) veröffentlicht, in dem auch Ideen zur Zukunft des Agent Coding und zu Einsatzmöglichkeiten von Claude Code geteilt werden: https://youtu.be/iF9iV4xponk
Als ich die Erwähnung eines „Budgets von 1000–1500 $/Monat“ sah, dachte ich, vielleicht wird hier nur mit API-Keys gearbeitet und man kennt Monatspläne wie claude MAX gar nicht. Ich denke, für 100 bis 200 Dollar im Monat reicht das völlig aus, solange man nicht einfach nur blind immer wieder Queries abfeuert.
Wenn man Claude oder andere Agenten nutzen will, kann ich Logging nur dringend empfehlen. Wenn man die komplette Logdatei in die AI gibt, steigt die Wahrscheinlichkeit deutlich, dass sie das Problem sauber zusammenfasst, eine Antwort liefert oder zum nächsten Schritt übergehen kann. Logging ist wirklich alles.