oh-my-agent — ein Multi-AI-IDE-Agent-Harness für den Praxiseinsatz

(github.com/first-fluke)

32 Punkte von gracefullight 2026-03-16 | 4 Kommentare | Auf WhatsApp teilen

Wenn man einem Agenten sagt: „Erstell mir eine TODO-App“, baut er zwar irgendetwas. Das Problem ist, dass er oft etwas Falsches baut, den Umfang überschreitet und dieselben Fehler wiederholt.

Um diese Probleme zu lösen, gab es anfangs viele strukturierte Ansätze wie AGENTS.md, in jüngerer Zeit dann auch Skills. Betrachtet man jedoch die tatsächlich geteilten Skills, tauchen einige gemeinsame Probleme auf.

Die wichtigste Bibliotheks-Versionsinformation fehlt
Rollenbeschreibungen enden bei einer Deklaration wie "You are a Senior engineer"
Inhalte, für die ein paar Keywords reichen würden, werden unnötig lang ausgeschrieben und verschwenden Tokens

Am Ende können Modelle solchen Skills weder gut folgen, noch tun sie langfristig etwas anderes, als Kontext zu verschwenden und als Dead Code zu enden, den niemand mehr öffnen will.

[Ansatz]

Mit oh-my-agent wollte ich dieses Problem nicht über Prompts, sondern über Prozesse lösen. Wenn ein Agent seine Arbeit falsch macht, sagt man nicht einfach nur „Mach es noch einmal“, sondern hält fest, warum es schiefgelaufen ist, und spiegelt das in den nächsten Lauf zurück.

Ein zentraler Mechanismus dabei ist das Clarification-Debt-(CD)-Scoring. Wenn der Agent Anforderungen falsch versteht oder den Scope verlässt, sammelt er Punkte.

clarify: +10 — einfache Rückfrage
correct: +25 — Kurskorrektur wegen Missverständnis der Absicht
redo: +40 — Rollback und Neustart wegen Scope-Abweichung
Arbeitsbeginn ohne Prüfung der Charter: +15
Änderung von Dateien außerhalb des erlaubten Bereichs: +20
Wiederholung desselben Fehlers: x1.5 multiplier

Ab 50 Punkten ist eine Root Cause Analysis (RCA) verpflichtend, ab 80 Punkten wird die Session abgebrochen. Die daraus gewonnenen Erkenntnisse werden in lessons-learned.md gesammelt und ab der nächsten Session direkt berücksichtigt. Die Prompts können also knapp bleiben, weil der Prozess selbst nachkorrigiert.

Darüber hinaus gibt es einige gemeinsame Protokolle, damit der Agent nicht eigenmächtig handelt.

Clarification Protocol
Die Unklarheit der Anforderungen wird in LOW / MEDIUM / HIGH eingeteilt. Bei LOW wird fortgefahren, bei MEDIUM werden Optionen vorgeschlagen, bei HIGH wird die Arbeit gestoppt und zunächst geklärt.
Difficulty Guide
Aufgaben werden in Simple / Medium / Complex eingeteilt, und die nötige Protokolltiefe wird entsprechend angepasst.
Context Budget
Für jedes Modell wird ein Token-Budget festgelegt, um unnötige Kontextverschwendung zu reduzieren.

Dieser Ansatz berührt auch das von OpenAI beschriebene Harness Engineering. Die Frage, wie man Agenten gut einsetzt, ist aus dieser Sicht nicht das Problem eines einzelnen Prompt-Satzes, sondern die Frage, mit welcher Struktur man Agenten kontrolliert.

[Projektstruktur]

oh-my-agent verwaltet das innerhalb der Projektstruktur.

.agents/ = SSOT
Skills, Workflows und Konfigurationen werden unter .agents/ gesammelt und als Single Source of Truth verwendet. Das ist nicht an eine bestimmte IDE gebunden.
Rollenbasiertes Agenten-Team
Zusätzlich zu Basisrollen wie PM, QA, Frontend, Backend, Mobile und Debug wurden diesmal ein DB Agent und ein TF Infra Agent ergänzt.
- DB Agent: SQL- / NoSQL- / Vector-DB-Modellierung, inklusive ISO-27001-Sicherheitsempfehlungen
- TF Infra Agent: Multi-Cloud-Terraform, OPA- / Sentinel-Richtlinien, inklusive Leitfäden zu Kontrollen der ISO-42000-Serie
Workflow-zentrierte Orchestrierung
Planung, Review, Debugging und parallele Ausführung bilden den Standardfluss. Der neu hinzugefügte Workflow /brainstorm erkundet zunächst das Design, ohne Code zu schreiben.
Der Ablauf ist Codebase-Analyse → Klärungsfragen → Vorschlag des Ansatzes → Freigabe durch den Nutzer → Speichern des Designdokuments und geht anschließend mit /plan → Implementierung weiter.

[Zwei Orchestrierungsmodi]

/coordinate wird schnell durchlaufen, und Probleme werden anschließend korrigiert. Der PM zerlegt die Aufgabe, führt die Agenten aus, und QA prüft einmal nach. Tauchen CRITICAL/HIGH-Probleme auf, wird die betreffende Arbeit erneut ausgeführt. Insgesamt ist das eine leichte und schnelle 7-Schritte-Schleife.

/ultrawork hingegen setzt stark auf Qualitätssicherung. Es ist in fünf Phasen gegliedert — PLAN → IMPL → VERIFY → REFINE → SHIP — und jede Phase hat ein Gate; wer es nicht besteht, kommt nicht in die nächste Phase. 11 der 17 Schritte sind Reviews, und in der REFINE-Phase werden sogar Dateiaufteilung, Dublettenentfernung, Analyse von Seiteneffekten und das Aufräumen von Dead Code durchgeführt.

Das mag etwas übertrieben wirken, aber je höher die Abstraktionsebene des Programmierens von Maschinensprache über Programmiersprachen bis hin zu natürlicher Sprache wird, desto klarer scheint am Ende zu sein, dass Verifikation am wichtigsten ist.

[Hintergrund der Projekterweiterung]

Vor einem Monat wurde es als Antigravity-spezifischer Orchestrator namens oh-my-ag vorgestellt. In der Zwischenzeit haben jedoch mehrere AI IDEs begonnen, .agents/skills/ als Pfad für Projekt-Skills zu verwenden, und es gab keinen Grund mehr, es an eine bestimmte IDE zu binden. Deshalb wurde es zu einem generischen Harness erweitert und heißt nun oh-my-agent.

[Erste Schritte]

curl -fsSL https://raw.githubusercontent.com/first-fluke/oh-my-agent/… | bash

Unterstützt werden alle wichtigen AI IDEs wie Antigravity, Claude Code, Codex CLI und Cursor.

Wenn Sie bereits eine AI IDE nutzen, lohnt es sich vielleicht, es einmal auszuprobieren. Am Ende ist das Ziel von Entwicklern, QCD (Quality, Cost, Delivery) gleichzeitig zu optimieren. Mit diesem Gedanken wurde es auch für die Agentenentwicklung gebaut.

🔗 GitHub: first-fluke/oh-my-agent

4 Kommentare

findme 2026-03-16

Ich bin schon seit Längerem Nutzer und freue mich über diese gute Nachricht. coordinate habe ich sehr zufriedenstellend verwendet.
Ich dachte ohnehin, es wäre gut, wenn man es noch gründlicher prüfen könnte, und wenn der Ultra-Modus noch sorgfältiger ist, werde ich ihn morgen direkt ausprobieren.

gracefullight 2026-03-16

Vielen Dank! Falls es nicht richtig hört, sagen Sie mir bitte Bescheid.

moon5g 2026-03-17

Als ich in package.json ein Skript hinzugefügt habe, wurden bis auf den Workspace-Ordner alle Dateien gelöscht. Ich bin gerade dabei, sie wiederherzustellen, aber das ist schon ziemlich absurd.

gracefullight 2026-03-17

Haben Sie das innerhalb von Claude oder eines Agenten ausgeführt? Es gibt nämlich keinen Code, der package.json oder alle Dateien löscht. Ich wäre Ihnen dankbar, wenn Sie den gesamten Ablauf mitteilen könnten!

tarball.ts:33,35,43 — löscht nur temporäre Verzeichnisse unter /tmp/oh-my-agent-*
cleanup.ts:108,231 — wird nur für PID-Dateien und beim expliziten Befehl oma cleanup ausgeführt
agent.ts:665,1027 — PID-/Log-Dateien (beim Beenden des Prozesses)
skills.ts:234 — ein Symlink in .cursor/skills
migrate.ts:45-80 — Legacy-Symlink-Verzeichnis für .cursor/skills

oh-my-agent — ein Multi-AI-IDE-Agent-Harness für den Praxiseinsatz

Verwandte Beiträge

4 Kommentare