Agent-Blackbox – Ein Tool, das Claude Code/OpenCode-Ausführungen mit Session-Map und Analyse von Token-Verschwendung sichtbar macht
(github.com/TaewoooPark)Ich habe Agent-Blackbox entwickelt, ein Tool, das Claude Code / OpenCode-Ausführungen lokal aufzeichnet und sie mit einer Session-Map sowie einem Kontext-Effizienz-Score visualisiert.
Es gab eine Studie, in der eine KI auf die Frage „Wie viele Token wirst du für diese Aufgabe wohl verbrauchen?“ nur eine Korrelation von 0,39 mit den tatsächlichen Kosten zeigte.
https://arxiv.org/abs/2604.22750
Wenn man Claude Code oder OpenCode lange laufen lässt, fühlt sich das ziemlich realistisch an. Die letzte Zusammenfassung klingt plausibel, aber tatsächlich ist es schwer nachzuvollziehen, welche Dateien gelesen wurden, welche Befehle fehlgeschlagen sind und wo viele Token verbraucht wurden.
Agent-Blackbox parst nicht die letzte Zusammenfassung des Agenten, sondern zeichnet die tatsächlichen Ereignisse auf.
- Lesen / Bearbeiten von Dateien
- bash-Ausführung und Exit-Code
- Suche
- todo-Updates
- Berechtigungsanfragen
- Delegation an Sub-Agenten, Nutzung von Skills
- Modell- / Token-Nutzungsfluss
- Ablauf von Korrektur / Wiederholung nach Fehlschlägen usw.
Es kann ohne Installation direkt mit npx ausgeführt werden.
Claude-Code-Aufzeichnung:
npx @taewooopark/agent-blackbox up --host claude-code
OpenCode-Aufzeichnung:
npx @taewooopark/agent-blackbox up --host opencode
Beides aufzeichnen:
npx @taewooopark/agent-blackbox up --host all
Claude Code tailt ohne separate Installation das Transcript unter ~/.claude/projects. OpenCode empfängt Ereignisse als globales Plugin. Die grundlegende Aufzeichnung und das Dashboard laufen lokal und benötigen keinen API key.
Ich habe auch eine Analyse der Kontext-Effizienz eingebaut. Sie erkennt zum Beispiel Folgendes.
- dieselbe Datei wird wiederholt erneut gelesen
- im Verhältnis zur Menge der Änderungen werden zu viele Dateien gelesen
- große Command-/Tool-Outputs belegen viel Kontext
- fehlgeschlagene Befehle werden ohne Ursachenbehebung wiederholt
- es wurden viele Token verbraucht, aber nur wenig tatsächlich geändert
- geringe Nutzung des Prompt-Cache
Da problematische Dateinamen oder Befehle einzeln angezeigt werden, lässt sich relativ konkret erkennen, was man beim nächsten Lauf reduzieren sollte. Optional kann die entdeckte Verschwendung als Verwaltungsblock in AGENTS.md oder CLAUDE.md festgehalten werden, damit der nächste Lauf dieselben Fehler seltener wiederholt.
In einem Fall, in dem ich dieselbe Aufgabe mit demselben Modell erneut ausgeführt habe, sank der Token-Verbrauch von 939k auf 521k und der Effizienz-Score stieg von 80 auf 99. Das ist kein wiederholt validierter Benchmark, sondern eher ein Beispiel dafür, dass „beobachtete Verschwendung aus realen Ausführungen in die nächste Schleife zurückgespielt werden kann“.
Besonders gut funktionierte es mit Multi-Agent-Harnesses wie oh-my-openagent oder oh-my-claudecode. Denn je länger eine Ausführung dauert, desto schwieriger wird es visuell nachzuverfolgen, wer welche Datei angefasst hat und wo Wiederholungen entstanden sind.
GitHub:
https://github.com/TaewoooPark/Agent-Blackbox
npm:
https://www.npmjs.com/package/@taewooopark/agent-blackbox
Probiert es gern aus. Wenn es Events gibt, die ihr in der Session-Map zusätzlich sehen möchtet, Effizienzmetriken, die fehlen, oder einen unbequemen Installationsablauf, freue ich mich über Feedback. Vielen Dank!
3 Kommentare
Oh, das ist wirklich faszinierend! Ich glaube, das ist eine tolle Idee.
Vielen Dank! Ich habe auch die UI richtig schick ausgearbeitet, daher wird es Ihnen wahrscheinlich noch interessanter erscheinen, wenn Sie es ausprobieren. Vielen Dank für die netten Worte!!
Ich habe das gebaut, weil ich besonders bei langen Claude Code/OpenCode-Läufen oder bei der Arbeit mit mehreren Agenten auf einen Blick sehen wollte, welche Dateien wiederholt gelesen wurden, welche Befehle fehlgeschlagen sind und wo besonders viele Tokens verloren gehen. Da ich es bisher allein entwickelt habe, gibt es noch viele Schwächen. Wenn ihr es ausprobiert, wäre ich für Feedback wie „Dieses Event sollte auch angezeigt werden“, „Diese Effizienzmetrik ist nicht ganz treffend“ oder „Der Installations-/Ausführungsablauf ist umständlich“ wirklich sehr dankbar!!