8 Punkte von jeikei 2026-04-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Hallo.
Ich entwickle Tenet, ein Harness für AI Coding Agents, das lange autonome Ausführungen ermöglicht, und möchte es hier vorstellen.

Wenn man AI-Coding-Agents nutzt, funktionieren kurze Aufgaben oft ziemlich gut. Geht es aber um Implementierungen, die mehrere Stunden oder länger dauern, wird es schnell unsicher.
Die Spezifikation wird unklar, Tests laufen zwar durch, aber man weiß nicht, ob sie ausreichen, ein Richtungswechsel unterwegs ist schwierig, und wenn die Sitzung abbricht, geht der Kontext gleich mit verloren.

Tenet ist ein Harness, das diese Probleme verringern soll.
Es ist weniger einfach nur ein „Agent, der lange läuft“, sondern eher eine Struktur, die dafür sorgt, dass Richtung und Qualität auch bei langer Laufzeit erhalten bleiben.

Grob läuft es so ab.

  1. Interview

    • Zuerst werden die Anforderungen in einem Interview konkretisiert.
    • Falls nötig, wird gleichzeitig auch technische Recherche durchgeführt.
  2. Visuals / Architecture

    • Es werden Architekturdiagramme oder UI-Mockups erstellt.
    • Bei UI-Arbeiten werden mehrere Varianten erzeugt, sodass man zuerst die gewünschte Richtung auswählen kann.
  3. Spec / Harness / Scenarios

    • Implementierungs-Spec, Test-/Validierungs-Harness und Szenarien werden als Dokumente festgehalten.
    • Es wird also nicht nur festgelegt, was gebaut werden soll, sondern auch, woran ein erfolgreiches Ergebnis gemessen wird.
  4. DAG decomposition

    • Die Arbeit wird in einen Dependency Graph zerlegt.
    • Unabhängige Jobs können parallel ausgeführt werden.
  5. Autonomous execution loop

    • Jeder Job wird ausgeführt und anschließend evaluiert.
    • Diese Schleife ist so ausgelegt, dass sie lange laufen kann.

Evaluierungsmethode

Ein Job geht nach seinem Abschluss nicht sofort zum nächsten Schritt über, sondern muss zuerst drei Critics bestehen.

  • code critic: ob die Implementierung der Intention der Spec entspricht
  • test critic: ob die vorhandenen Tests wirklich ausreichen, um diesen Job zu validieren
  • Playwright e2e eval: ob es aus Sicht realer Nutzer tatsächlich funktioniert

Wichtig war mir dabei vor allem, dass diese Critics den Job möglichst in einem fresh context sehen, der vom Kontext des Verfassers getrennt ist.
Ich wollte verringern, dass der Agent, der den Code geschrieben hat, sein eigenes Ergebnis zu leicht durchwinkt.

Das steht auch im README, aber gerade beim Thema Tests halte ich nicht die Frage „Gibt es Tests?“ für entscheidend, sondern ob die Tests tatsächlich korrekt validieren.

Steering unterwegs

Bei langen Läufen kommt es vor, dass Menschen zwischendurch die Richtung etwas ändern möchten.

In Tenet muss man dafür die Ausführung nicht noch einmal von Anfang an erklären.
Stattdessen kann man einfach eine steer message übergeben; sie wird gespeichert und später in den relevanten Jobs berücksichtigt.

Das heißt:

  • man muss die laufende Schleife nicht sofort komplett unterbrechen
  • stattdessen wird sie in den relevanten Schritten wieder aufgegriffen

Dokumentation und Verlauf waren mir wichtig

Beim Entwickeln war mir besonders wichtig,
nicht nur das Ergebnis zu hinterlassen, sondern auch Entscheidungen und Arbeitsspuren mitzuspeichern.

Unter .tenet/ bleiben unter anderem diese Dinge erhalten.

  • interview
  • spec
  • harness
  • visuals
  • knowledge
  • journal
  • steer
  • status
  • SQLite state

Damit zielt Tenet weniger auf einen sitzungsbasierten Agenten ab, der einmal läuft und dann endet,
sondern auf eine Struktur, die fortlaufend Entwicklungsaufzeichnungen aufbaut, auf die man auch bei späteren Aufgaben wieder zurückgreifen kann.

Vom Gefühl her ist es eher der Versuch,
die Dokumentations-, Validierungs- und Handoff-Struktur, die man braucht, wenn man Arbeit an Freelancer oder externe Dienstleister übergibt,
auf die Seite von AI Agents zu übertragen.

Aktueller Stand

Das Projekt ist noch in einer frühen Phase.
Trotzdem ist der grundlegende Ablauf bereits implementiert, und derzeit sind unter anderem folgende Dinge enthalten.

  • Adapter für Claude Code / OpenCode / Codex
  • MCP-Server + CLI
  • DAG-basierte Job-Orchestrierung
  • persistenter State auf Basis von SQLite + WAL
  • orphan job recovery
  • 3-Critic-Evaluierungspipeline
  • Verarbeitung von steer messages
  • .tenet/-Dokumentenstruktur

Ich habe das tatsächlich bereits für recht lange Läufe eingesetzt
und bestätigt, dass nach über 6 Stunden Ausführung ohne menschlichen Eingriff sofort nutzbare Ergebnisse herauskommen.
Eines der Artefakte, die ich aktuell täglich nutze, ist ebenfalls mit Tenet entstanden.

Da es sich noch um ein frühes Projekt handelt, gibt es viele raue Kanten.
Ich würde mich über jedes Feedback freuen.

Noch keine Kommentare.

Noch keine Kommentare.