oh-my-agent — ein Multi-AI-IDE-Agent-Harness für den Praxiseinsatz
(github.com/first-fluke)Wenn man einem Agenten sagt: „Erstell mir eine TODO-App“, baut er zwar irgendetwas. Das Problem ist, dass er oft etwas Falsches baut, den Umfang überschreitet und dieselben Fehler wiederholt.
Um diese Probleme zu lösen, gab es anfangs viele strukturierte Ansätze wie AGENTS.md, in jüngerer Zeit dann auch Skills. Betrachtet man jedoch die tatsächlich geteilten Skills, tauchen einige gemeinsame Probleme auf.
- Die wichtigste Bibliotheks-Versionsinformation fehlt
- Rollenbeschreibungen enden bei einer Deklaration wie
"You are a Senior engineer" - Inhalte, für die ein paar Keywords reichen würden, werden unnötig lang ausgeschrieben und verschwenden Tokens
Am Ende können Modelle solchen Skills weder gut folgen, noch tun sie langfristig etwas anderes, als Kontext zu verschwenden und als Dead Code zu enden, den niemand mehr öffnen will.
[Ansatz]
Mit oh-my-agent wollte ich dieses Problem nicht über Prompts, sondern über Prozesse lösen. Wenn ein Agent seine Arbeit falsch macht, sagt man nicht einfach nur „Mach es noch einmal“, sondern hält fest, warum es schiefgelaufen ist, und spiegelt das in den nächsten Lauf zurück.
Ein zentraler Mechanismus dabei ist das Clarification-Debt-(CD)-Scoring. Wenn der Agent Anforderungen falsch versteht oder den Scope verlässt, sammelt er Punkte.
- clarify: +10 — einfache Rückfrage
- correct: +25 — Kurskorrektur wegen Missverständnis der Absicht
- redo: +40 — Rollback und Neustart wegen Scope-Abweichung
- Arbeitsbeginn ohne Prüfung der Charter: +15
- Änderung von Dateien außerhalb des erlaubten Bereichs: +20
- Wiederholung desselben Fehlers: x1.5 multiplier
Ab 50 Punkten ist eine Root Cause Analysis (RCA) verpflichtend, ab 80 Punkten wird die Session abgebrochen. Die daraus gewonnenen Erkenntnisse werden in lessons-learned.md gesammelt und ab der nächsten Session direkt berücksichtigt. Die Prompts können also knapp bleiben, weil der Prozess selbst nachkorrigiert.
Darüber hinaus gibt es einige gemeinsame Protokolle, damit der Agent nicht eigenmächtig handelt.
- Clarification Protocol
Die Unklarheit der Anforderungen wird in LOW / MEDIUM / HIGH eingeteilt. Bei LOW wird fortgefahren, bei MEDIUM werden Optionen vorgeschlagen, bei HIGH wird die Arbeit gestoppt und zunächst geklärt. - Difficulty Guide
Aufgaben werden in Simple / Medium / Complex eingeteilt, und die nötige Protokolltiefe wird entsprechend angepasst. - Context Budget
Für jedes Modell wird ein Token-Budget festgelegt, um unnötige Kontextverschwendung zu reduzieren.
Dieser Ansatz berührt auch das von OpenAI beschriebene Harness Engineering. Die Frage, wie man Agenten gut einsetzt, ist aus dieser Sicht nicht das Problem eines einzelnen Prompt-Satzes, sondern die Frage, mit welcher Struktur man Agenten kontrolliert.
[Projektstruktur]
oh-my-agent verwaltet das innerhalb der Projektstruktur.
.agents/= SSOT
Skills, Workflows und Konfigurationen werden unter.agents/gesammelt und als Single Source of Truth verwendet. Das ist nicht an eine bestimmte IDE gebunden.- Rollenbasiertes Agenten-Team
Zusätzlich zu Basisrollen wie PM, QA, Frontend, Backend, Mobile und Debug wurden diesmal ein DB Agent und ein TF Infra Agent ergänzt.- DB Agent: SQL- / NoSQL- / Vector-DB-Modellierung, inklusive ISO-27001-Sicherheitsempfehlungen
- TF Infra Agent: Multi-Cloud-Terraform, OPA- / Sentinel-Richtlinien, inklusive Leitfäden zu Kontrollen der ISO-42000-Serie
- Workflow-zentrierte Orchestrierung
Planung, Review, Debugging und parallele Ausführung bilden den Standardfluss. Der neu hinzugefügte Workflow/brainstormerkundet zunächst das Design, ohne Code zu schreiben.
Der Ablauf ist Codebase-Analyse → Klärungsfragen → Vorschlag des Ansatzes → Freigabe durch den Nutzer → Speichern des Designdokuments und geht anschließend mit/plan → Implementierungweiter.
[Zwei Orchestrierungsmodi]
/coordinate wird schnell durchlaufen, und Probleme werden anschließend korrigiert. Der PM zerlegt die Aufgabe, führt die Agenten aus, und QA prüft einmal nach. Tauchen CRITICAL/HIGH-Probleme auf, wird die betreffende Arbeit erneut ausgeführt. Insgesamt ist das eine leichte und schnelle 7-Schritte-Schleife.
/ultrawork hingegen setzt stark auf Qualitätssicherung. Es ist in fünf Phasen gegliedert — PLAN → IMPL → VERIFY → REFINE → SHIP — und jede Phase hat ein Gate; wer es nicht besteht, kommt nicht in die nächste Phase. 11 der 17 Schritte sind Reviews, und in der REFINE-Phase werden sogar Dateiaufteilung, Dublettenentfernung, Analyse von Seiteneffekten und das Aufräumen von Dead Code durchgeführt.
Das mag etwas übertrieben wirken, aber je höher die Abstraktionsebene des Programmierens von Maschinensprache über Programmiersprachen bis hin zu natürlicher Sprache wird, desto klarer scheint am Ende zu sein, dass Verifikation am wichtigsten ist.
[Hintergrund der Projekterweiterung]
Vor einem Monat wurde es als Antigravity-spezifischer Orchestrator namens oh-my-ag vorgestellt. In der Zwischenzeit haben jedoch mehrere AI IDEs begonnen, .agents/skills/ als Pfad für Projekt-Skills zu verwenden, und es gab keinen Grund mehr, es an eine bestimmte IDE zu binden. Deshalb wurde es zu einem generischen Harness erweitert und heißt nun oh-my-agent.
[Erste Schritte]
curl -fsSL https://raw.githubusercontent.com/first-fluke/oh-my-agent/… | bash
Unterstützt werden alle wichtigen AI IDEs wie Antigravity, Claude Code, Codex CLI und Cursor.
Wenn Sie bereits eine AI IDE nutzen, lohnt es sich vielleicht, es einmal auszuprobieren. Am Ende ist das Ziel von Entwicklern, QCD (Quality, Cost, Delivery) gleichzeitig zu optimieren. Mit diesem Gedanken wurde es auch für die Agentenentwicklung gebaut.
🔗 GitHub: first-fluke/oh-my-agent
4 Kommentare
Ich bin schon seit Längerem Nutzer und freue mich über diese gute Nachricht.
coordinatehabe ich sehr zufriedenstellend verwendet.Ich dachte ohnehin, es wäre gut, wenn man es noch gründlicher prüfen könnte, und wenn der Ultra-Modus noch sorgfältiger ist, werde ich ihn morgen direkt ausprobieren.
Vielen Dank! Falls es nicht richtig hört, sagen Sie mir bitte Bescheid.
Als ich in
package.jsonein Skript hinzugefügt habe, wurden bis auf den Workspace-Ordner alle Dateien gelöscht. Ich bin gerade dabei, sie wiederherzustellen, aber das ist schon ziemlich absurd.Haben Sie das innerhalb von Claude oder eines Agenten ausgeführt? Es gibt nämlich keinen Code, der
package.jsonoder alle Dateien löscht. Ich wäre Ihnen dankbar, wenn Sie den gesamten Ablauf mitteilen könnten!/tmp/oh-my-agent-*oma cleanupausgeführt.cursor/skills.cursor/skills