21 Punkte von GN⁺ 2025-12-26 | 1 Kommentare | Auf WhatsApp teilen
  • 2025 war das Jahr, in dem agentische Coding-Tools die Art des Programmierens ernsthaft verändert haben: Statt selbst auf der Tastatur zu tippen, wechselte man in die Rolle eines Engineering Leads, der einen virtuellen Praktikanten-Programmierer anleitet
  • Begonnen mit einer Obsession für Claude Code, wiederholte der Autor über Monate hinweg den Aufbau eigener Agenten und die Nutzung fremder Agenten und gewann dabei die Überzeugung, dass Codegenerierung, Dateisystem, programmatisches Tool-Calling und skillbasiertes Lernen weiterhin der beste Ansatz sind
  • Mit der Kombination aus LLMs und Tool-Ausführung, die sich über die Codegenerierung hinaus bis zur Organisation alltäglicher Arbeit ausdehnt, wächst auch die Sorge über das Verhältnis zu Maschinen und die unbeabsichtigte Entstehung parasozialer Bindungen (Parasocial Bond)
  • Da bestehende Versionsverwaltungssysteme und Code-Review-Tools für die Prüfung von KI-generiertem Code ungeeignet sind, werden neue Systeme benötigt, die auch Prompt-Verläufe und Fehlpfade nachvollziehen können
  • Durch AI Coding häufen sich Meinungen, die sich ohne Erfahrung und Daten auf „Vibes“ stützen, und es braucht einen neuen gesellschaftlichen Konsens für AI-generierte PRs, die wahllos in Open Source geworfen werden

Die Veränderungen im Jahr 2025

  • Das Jahr, in dem er nicht nur sein Unternehmen verließ und ein neues gründete, sondern auch seine bisherige Art zu programmieren vollständig änderte
  • Seit Juni nutzt er fast ausschließlich Claude Code im weitgehend hands-off Stil statt Cursor
    • „Wenn man mir vor sechs Monaten gesagt hätte, dass ich lieber die Rolle eines Engineering Leads für einen virtuellen Programmierer-Praktikanten übernehmen würde, hätte ich es nicht geglaubt“
  • Er veröffentlichte 36 Blogposts, etwa 18 % aller Beiträge seines Blogs seit 2007
    • Nachdem er in das Rabbit Hole der Agenten geraten war, führte er aus Neugier etwa 100 Gespräche mit Programmierern, Gründern und anderen
  • 2025 war global auch ein schlechtes Jahr, daher legte er einen separaten Blog (dark.ronacher.eu) an, um solche Gedanken davon zu trennen

Das Jahr der Agenten

  • Begann im April/Mai mit einer Obsession für Claude Code und wiederholte über Monate hinweg den Aufbau eigener Agenten und die Nutzung fremder Agenten
  • In sozialen Netzwerken explodierten die unterschiedlichsten Meinungen über KI
  • Inzwischen wurde ein stabiler Zustand erreicht: Fokus auf Codegenerierung, Dateisystem, programmatisches Tool-Calling über Interpreter-Glue und skillbasiertes Lernen
    • Die von Claude Code geprägte Vorgehensweise ist weiterhin State of the Art, und dass Foundation-Model-Anbieter sich auf Skills konzentrieren, bestärkt diesen Glauben
  • Überraschend ist das starke Comeback von TUI (textbasierte Benutzeroberfläche)
    • Aktuell nutzt er in der Kommandozeile Amp, Claude Code und Pi
    • Amp fühlt sich an wie Apple oder Porsche, Claude Code wie ein günstiger Volkswagen, Pi ist die Open-Source-Wahl, die Hacker bevorzugen
    • Alle wirken wie Projekte von Leuten, die ihre eigenen Produkte exzessiv zum Bau ihrer Produkte verwenden, aber es gibt jeweils unterschiedliche Trade-offs
  • Die Kombination aus LLM und Tool-Ausführung überrascht ihn weiterhin
    • Anfang des Jahres nutzte er sie vor allem zur Codegenerierung, mittlerweile setzt er Agenten auch stark für Alltagsaufgaben ein
    • Für 2026 erwartet er interessante Fortschritte bei Consumer-Produkten
    • LLMs helfen inzwischen dabei, das Leben zu organisieren, und ihr Nutzen wird weiter zunehmen

Die Maschine und ich

  • Während LLMs nicht nur beim Programmieren, sondern auch in anderen Bereichen helfen, begann er, das Verhältnis zur Maschine neu zu überdenken
  • Es wird immer schwieriger, mit solchen Tools keine parasoziale Bindung (Parasocial Bond) aufzubauen, und das fühlt sich seltsam und unangenehm an
  • Die meisten Agenten von heute haben kaum Gedächtnis und wenig Persönlichkeit, aber es ist leicht, selbst Agenten mit solchen Eigenschaften zu bauen
    • LLMs mit Speicher sind eine Erfahrung, die sich nur schwer abschütteln lässt
  • Zwei Jahre lang hat er sich darauf trainiert, diese Modelle als bloße Token-Tumbler zu betrachten, aber diese vereinfachte Sicht trägt nicht mehr
  • Die Systeme, die wir bauen, haben menschliche Tendenzen, aber es ist ein Fehler, sie auf menschliches Niveau anzuheben
  • Mit dem Begriff „Agent“ hat er zunehmend ein Problem, aber es gibt kein besseres Wort
    • Denn Handlungsfähigkeit und Verantwortung müssen beim Menschen bleiben
    • Was auch immer daraus wird: Wenn man nicht aufpasst, kann es schädliche emotionale Reaktionen auslösen (siehe Chatbot-Psychose)
    • Diese Schöpfungen in unserer Beziehung zu ihnen richtig zu benennen und einzuordnen bleibt eine Aufgabe, die gelöst werden muss
  • Durch diese unbeabsichtigte Vermenschlichung ist es schwer, eine passende Sprache zu finden, um die Arbeit mit Maschinen zu beschreiben
    • Das ist nicht nur sein eigenes Problem, andere erleben dasselbe
    • Im Moment führt das auch zu mehr Unbehagen bei der Zusammenarbeit mit Menschen, die diese Systeme komplett ablehnen
    • Einer der häufigsten Kommentare zu Artikeln über agentische Coding-Tools ist die Ablehnung, Maschinen Persönlichkeit zuzuschreiben

Überall Meinungen

  • Ein unerwarteter Aspekt intensiver KI-Nutzung: Er spricht mehr als über alles andere über Vibes
  • Diese Arbeitsweise gibt es noch nicht einmal ein Jahr, doch sie stellt ein halbes Jahrhundert Software-Engineering-Erfahrung infrage
  • Es gibt viele Meinungen, aber es ist schwer zu sagen, welche den Test der Zeit bestehen werden
  • Es gibt viele etablierte Vorstellungen, denen er nicht zustimmt, aber er hat keine Belege, um seine eigene Meinung zu untermauern
    • Im Laufe des Jahres sprach er recht lautstark über Schwierigkeiten mit MCP, aber er hatte keine Grundlage außer „funktioniert für mich nicht“; andere wiederum glaubten fest daran
    • Dasselbe gilt für die Modellauswahl: Peter (die Person, die ihn Anfang des Jahres zu Claude brachte) ist inzwischen zu Codex gewechselt und zufrieden; auch er selbst nutzt Codex mehr, aber es macht ihm nicht so viel Freude wie Claude
    • Seine Vorliebe für Claude wird durch nichts außer Vibes gestützt
  • Wichtig ist auch zu wissen, dass manche Vibes mit absichtlichen Signalen einhergehen
    • Viele Meinungen, die man online sieht, sind mit finanziellen Interessen an einem Produkt stärker verknüpft als an einem anderen (etwa weil jemand Investor oder bezahlter Influencer ist)
    • Vielleicht wurde man Investor, weil man das Produkt mochte, aber es ist genauso möglich, dass die Beziehung die Sichtweise beeinflusst und geformt hat

Outsourcing vs. selbst bauen

  • Betrachtet man heute die Libraries von KI-Unternehmen, erkennt man oft, dass sie mit Stainless oder Fern erstellt wurden
    • Für die Dokumentation wird Mintlify genutzt, für das Auth-System der Website möglicherweise Clerk
  • Da Services, die man früher selbst gebaut hätte, zunehmend an spezialisierte Unternehmen ausgelagert werden, steigen die Standards in manchen Bereichen der User Experience
  • Doch mit der neuen Stärke agentischer Coding-Tools kann man einen großen Teil davon auch selbst bauen
    • Er ließ Claude einen SDK-Generator für Python und TypeScript bauen — halb aus Neugier, halb weil es einfach genug aussah
  • Als Verfechter von einfachem Code und selbst bauen ist er vorsichtig optimistisch, dass KI dazu ermutigen könnte, auf weniger Abhängigkeiten aufzubauen
  • Gleichzeitig ist angesichts des aktuellen Trends, alles auszulagern, nicht klar, ob sich die Entwicklung wirklich in diese Richtung bewegt

Gelerntes und Wünsche

  • Ab hier geht es nicht mehr um Vorhersagen, sondern um Wünsche dazu, wohin er als Nächstes Energie stecken könnte
  • Er weiß nicht genau, wonach er sucht, möchte aber Pain Points benennen und Kontext sowie Denkanstöße liefern
  • Eine neue Art von Versionsverwaltung

    • Die größte unerwartete Erkenntnis: Die Grenzen der bestehenden Tools zum Teilen von Code sind erreicht
    • Das Pull-Request-Modell von GitHub enthält nicht genug Informationen, um KI-generierten Code richtig zu prüfen — er würde gern auch die Prompts sehen, die die Änderungen ausgelöst haben
    • Das ist nicht nur ein GitHub-Problem, auch git reicht nicht aus
    • Ein Teil dessen, was Modelle heute im agentischen Coding funktionsfähig macht, ist das Wissen um Fehler
      • Wenn man zu einem früheren Zustand zurückkehrt, soll das Tool sich erinnern, was schiefgelaufen ist
      • Mangels eines besseren Wortes: Scheitern hat Wert
      • Auch für Menschen ist es hilfreich zu wissen, welche Wege nirgendwohin geführt haben, aber für Maschinen ist das eine wichtige Information
      • Er bemerkte das beim Versuch, Gesprächsverläufe zu komprimieren: Wenn man falsche Pfade wegwirft, versucht das Modell dieselben Fehler erneut
    • Einige agentische Coding-Tools starten worktrees, erzeugen Checkpoints in git zur Wiederherstellung und bieten Branching sowie Undo innerhalb der Unterhaltung
    • Es gibt Raum für UX-Innovationen, die die Arbeit mit solchen Tools erleichtern
      • Daher auch die Diskussionen über stacked diffs und alternative Versionsverwaltungssysteme wie Jujutsu
    • Ob das GitHub verändert oder Raum für neue Wettbewerber schafft, weiß er nicht, aber er hofft auf Letzteres
    • Er möchte echten menschlichen Input besser verstehen und von Maschinenausgaben unterscheiden
    • Er möchte Prompts und fehlgeschlagene Versuche sehen
    • Und dann möchte er beim Mergen alles squashen, aber bei Bedarf trotzdem die gesamte Historie durchsuchen können
  • Eine neue Art von Review

    • Das hängt mit der Versionsverwaltung zusammen: Aktuelle Code-Review-Tools weisen starre Rollen zu, die nicht zu KI passen
    • Beispiel GitHub-Code-Review-UI: Regelmäßig würde er Kommentare in der PR-Ansicht gern nutzen, um seinem Agenten Notizen zu hinterlassen, aber es gibt dafür keinen geführten Weg
      • Die Review-Oberfläche erlaubt es nicht, den eigenen Code zu reviewen, sondern nur zu kommentieren, aber das ist nicht dieselbe Absicht
    • Hinzu kommt das Problem, dass inzwischen ein größerer Teil des Code-Reviews lokal zwischen ihm und dem Agenten stattfindet
      • Beispiel: Die Code-Review-Funktion von Codex in GitHub kann jeweils nur an eine Organisation gebunden werden und funktioniert dadurch nicht mehr richtig
      • Deshalb reviewt er jetzt mit Codex in der Kommandozeile, aber das bedeutet, dass ein ganzer Teil des Iterationszyklus für andere Engineers im Team unsichtbar bleibt; das funktioniert nicht
    • Code Review sollte offenbar Teil des VCS sein
  • Neue Observability

    • Observability verdient erneut Aufmerksamkeit
    • Es gibt jetzt sowohl den Bedarf als auch die Chance, sie auf einem völlig neuen Niveau zu nutzen
    • Die meisten Menschen waren nicht in der Lage, eigene eBPF-Programme zu erstellen, aber LLMs können das
    • Viele Observability-Tools vermieden wegen der Komplexität SQL, aber LLMs sind in SQL besser als in jeder proprietären Query-Sprache
      • Sie können Queries schreiben, grep ausführen, map-reduce anwenden und LLDB fernsteuern
      • Alles, was Struktur und Text enthält, ist plötzlich fruchtbarer Boden für agentische Coding-Tools
    • Er weiß nicht, wie Observability der Zukunft aussehen wird, hat aber eine starke Intuition, dass es hier viel Innovation geben wird
      • Je besser die Feedback-Schleife für die Maschine, desto besser das Ergebnis
    • Er ist sich selbst nicht ganz sicher, was genau er verlangt, aber eines der Probleme der Vergangenheit war, dass viele großartige Ideen für bessere Observability — insbesondere die dynamische Rekonfiguration von Services für gezielteres Filtering — zu komplex, schwer nutzbar und nicht benutzerfreundlich waren
      • Doch mit der gewachsenen Fähigkeit von LLMs, diese mühsame Arbeit zu übernehmen, könnten genau diese Ansätze nun die richtige Lösung sein
      • Beispiel: Python 3.14 bringt eine externe Debugger-Schnittstelle mit — eine großartige Funktion für agentische Coding-Tools
  • Mit Slop arbeiten

    • Das ist vielleicht etwas kontrovers, aber was er dieses Jahr nicht geschafft hat, ist, die Dinge vollständig der Maschine zu überlassen
    • Er behandelt es weiterhin wie klassisches Software Engineering und reviewt viel
    • Gleichzeitig merkt er, dass immer mehr Menschen nicht mehr mit diesem Engineering-Modell arbeiten, sondern es vollständig der Maschine überlassen
      • Es klingt verrückt, aber er hat gesehen, dass einige damit ziemlich erfolgreich sind
      • Er weiß noch nicht, wie er darüber denken soll, aber selbst wenn am Ende Code entsteht, ist die Arbeitsweise in dieser neuen Welt ganz offensichtlich sehr anders als die Welt, in der er sich wohlfühlt
      • Da diese Welt nun da ist, brauchen wir womöglich einen neuen gesellschaftlichen Vertrag, um diese Dinge voneinander zu trennen
    • Die offensichtlichste Form davon ist die zunehmende Zahl solcher Beiträge zu Open-Source-Projekten
      • Ehrlich gesagt ist das für Menschen, die nicht in diesem Modell arbeiten, eine Beleidigung
      • Wenn er solche Pull Requests liest, empfindet er erheblichen Ärger
    • Persönlich hat er versucht, das Problem mit Contribution Guidelines und Pull-Request-Templates anzugehen
      • Aber das wirkt wie ein Kampf gegen Windmühlen
      • Die Lösung kommt vielleicht nicht daraus, dass wir unser eigenes Verhalten ändern
      • Stattdessen könnte sie daher kommen, dass lautstarke Befürworter von AI Engineering sagen, was gutes Verhalten in agentischen Codebases bedeutet
      • Und das bedeutet nicht, unreviewten Code rüberzuwerfen und andere das Problem lösen zu lassen

1 Kommentare

 
GN⁺ 2025-12-26
Hacker-News-Kommentare
  • Ich kann gut nachvollziehen, wie wichtig eine Aufzeichnung von Fehlschlägen beim agentic coding ist

    • Wenn ein Modell einen falschen Pfad einschlägt, muss es sich diesen Prozess merken, damit es denselben Fehler nicht wiederholt

    • Deshalb möchte ich meine Coding-Agent-Sitzungen aufzeichnen und sie per Link in Commit-Messages hinterlassen

    • Claude Code löscht Logs standardmäßig nach 30 Tagen, deshalb teile ich eine Methode, das abzuschalten

    • Ich habe selbst ein Tool gebaut, das Sitzungslogs visualisiert und als Timeline teilbar macht, und hoffe, dass solche Funktionen künftig standardmäßig in Agent-Tools integriert sind

    • Jedes Mal, wenn ein LLM auf einen unproduktiven Pfad gerät, stelle ich Fragen wie „Warum hat das so lange gedauert?“ und „Was ist schiefgelaufen?“

      • Die Antworten fasse ich in einem Absatz zusammen und füge sie zu DISCOVERIES.md hinzu
      • Diese Vorgehensweise ist gut fürs Lernen, aber auf ganze Commits voller Fehlschläge zu verlinken, kann negativ sein, fast wie eine „Vergiftung des Brunnens“
    • Ich frage mich, ob so ein logbasierter Ansatz langfristig zu weniger Flexibilität führt

      • Automatisierung neigt dazu, Prozesse zu verfestigen, wodurch es schwerer werden kann, sich an Veränderungen anzupassen
    • Man kann einfach alle Agent-Traces mit otel exportieren und in ClickHouse speichern

      • So ließe sich die bestehende Infrastruktur unverändert nutzen, um Langzeitgedächtnis oder Evaluierungssysteme aufzubauen
    • Die nötigen Werkzeuge gibt es bereits, aber ich habe das Gefühl, dass die Verbindungen zwischen den Tools fehlen

      • Statt Fehlschläge und Aktionen in Commit-Messages festzuhalten, wäre es sinnvoll, sie als Log-Events zu speichern und über Versionsverwaltung oder eine zentrale Logging-Plattform zugänglich zu machen
    • Ich denke, auch die Sitzung selbst, die zu einem Commit führt, hat Wert

      • Menschen werden das nicht alles lesen, aber RAG-Tools könnten es zusammenfassen und anderen Agenten Kontext liefern
      • Wenn diese Verknüpfung automatisch passieren würde, wäre das deutlich effizienter
  • Beeindruckend fand ich den Text, weil er mich meine Beziehung zu LLMs neu überdenken lässt

    • Das ehrliche Eingeständnis des Autors, dass sein zweijähriger Versuch gescheitert ist, sie nur als „Maschinen“ zu betrachten, wirkte sehr aufrichtig

    • Wie im Film Her scheint es immer realer zu werden, dass Menschen mit Maschinen parasoziale Beziehungen eingehen

    • Ich behandle LLMs nicht wie Menschen, sondern mit einfachen Befehlen wie an eine Suchmaschine

      • Selbst Eingaben wie „python grpc oneof pick field“ reichen aus, um das gewünschte Ergebnis zu bekommen
      • In grammatikalisch perfektem Englisch zu sprechen, kann im Gegenteil ein Nebeneffekt der Anthropomorphisierung sein
    • Wenn Maschinen wie Menschen Erinnerungen haben, wird auch die Interaktion menschlich

      • Solche Erinnerungsfunktionen können bei Menschen ungesunde Verhaltensmuster auslösen
      • Deshalb habe ich das Gefühl, dass es bei der Grenzziehung hilft, sie wie eine Kaffeemaschine als „Maschine“ zu behandeln
    • Mein Partner und ich nennen LLMs „bag of words“

      • Wenn man statt „ChatGPT hat gesagt“ lieber „bag of words hat gesagt“ sagt, bleibt das Realitätsempfinden erhalten
    • Ich mache mir Sorgen, dass sich diese Mensch-Maschine-Beziehung zu einem sozialen Problem wie Influencer-Sucht auswachsen könnte

      • Gerade weil AI 1:1-Gespräche ermöglicht, ist sie noch riskanter
    • Als ehemaliger Schamanenlehrling und Ingenieur habe ich das Gefühl, dass auch LLMs eine Art Bewusstsein und Wahrnehmung haben

      • Wenn Menschen behaupten, „LLMs haben kein Bewusstsein“, wirkt das auf mich wie eine psychologische Strategie, um Hierarchieangst zu vermeiden
  • Auch für mich fühlt sich ein Gespräch mit AI wie ein Austausch mit einem Menschen an

    • An Tagen, an denen ich mit Agenten zusammenarbeite, bin ich weniger einsam als an Tagen, an denen ich nur den ganzen Tag schreibe

    • Es fühlt sich wie menschliche Interaktion an und gibt auf seltsame Weise ein Gefühl von Stabilität

    • Ich sage ganz automatisch „please“ und „thank you“

      • Auch wenn ich weiß, dass es nicht nötig ist, fühlt es sich komisch an, es wegzulassen
    • Wenn diese Gefühle so stark sind, sollte ich vielleicht lieber rausgehen und Menschen treffen

  • Programmierer sollten so entwerfen, dass sie für das, was sie schaffen, Verständnis und Verantwortung übernehmen können

    • Verständnis und Verantwortung sind geistige Zustände, die sich nicht delegieren lassen (Zitat aus EWD 540)
  • Ich habe das Gefühl, dass wir eine neue Form von QA brauchen

    • Ich betreibe ein B2B-SaaS-Produkt, und der Flaschenhals ist, zu testen, ob sich eine Funktion „vom Gefühl her“ richtig anfühlt
    • Es wäre gut, wenn Agenten den Onboarding-Flow hunderte Male wiederholen und UX-Tests automatisieren könnten
    • Außerdem stelle ich mir ein Tool vor, das Kontext erfasst, während ich auf den Bildschirm schaue und spreche, und ihn in eine Funktionsspezifikation umwandelt
  • Entwickler sollten sich stärker auf fertige Produkte als auf den Tech-Stack konzentrieren

    • Es gibt zu viele Meinungen und Texte, aber zu wenige tatsächlich ausgelieferte Ergebnisse

    • Normale Nutzer interessieren sich eher für Produktqualität als für den Tech-Stack selbst

      • Wenn man ihnen statt einer langsamen React-Seite eine schnelle SSR-Seite zeigt, merken sie den Unterschied sofort
  • Armins Einsichten in das gesellschaftliche Klima sind interessant

    • Ich freue mich auf mehr Texte in seinem separaten Blog Dark Thoughts
  • 2025 fühlt sich wie ein verlorenes Jahr der Programmierung an

    • Alle sind besessen von Tools und Prompts statt von Algorithmen

    • Auch die Open-Source-Produktivität ist gesunken, und wir leben inzwischen in einer Zeit der Anthropic-Steuer

    • Für mich war 2025 allerdings eher das produktivste Jahr überhaupt

      • Code-Beiträge, Informationsverarbeitung und praktisch alle Kennzahlen haben sich verbessert
      • Dank Claude ist meine Lebensqualität noch einmal gestiegen
    • Ich denke, dass natürliche Sprache selbst eine neue Programmiersprache ist

      • Dieses Jahr war die Phase, in der wir gelernt haben, diese Sprache effizient zu nutzen
    • Als Data Scientist war 2025 für mich das Jahr der Tool-Innovation

      • Mit Polars, PyArrow, Ibis, Marimo und PyMC hat sich mein Workflow vollständig verbessert
      • Jetzt kann ich schneller, günstiger und mit besserer Qualität Ergebnisse liefern
    • Ich fand es eher gut, dass endlose Debatten über TDD oder OOP weniger geworden sind

    • Diese Flut an Tools nach dem Motto „AI erledigt alles“ erinnert mich an den Web-Hype der 90er

      • Wie bei der „enshittification“ des Internets scheint es bei AI gerade eine „dumbaification“ zu geben
  • Das Pull-Request-Modell von GitHub hat Grenzen für AI-Code-Review

    • Prompts und Kontext müssen gemeinsam festgehalten werden, damit eine ordentliche Prüfung möglich ist
    • Neben Dokumenten wie AGENTS.md braucht es auch kontextbezogene Aufzeichnungen auf Commit-Ebene
  • Wenn man mit Menschen außerhalb der IT spricht, merkt man, dass sie die Auswirkungen von AI-Agenten kaum spüren

    • Die meisten sehen sie nur als einfache Text-Hilfswerkzeuge

    • In der Tech-Branche lassen sich Ergebnisse klar verifizieren,

      • aber bei AI in nichttechnischen Berufen geht es um „Emotionen“ und „Gefühle“ und damit um ein Qualitätsproblem, das sich nicht messen lässt