Verlustfreier lokaler Router-Skill token-router, der mit dem Gemma4-2B-Modell 99 % der Token-Kosten

Hallo,

für alle, die beim Einsatz von AI-Agenten wie Claude Code oder Codex zur Analyse großer Logs oder zur Überarbeitung von Legacy-Code unter schnell steigenden Token-Kosten und Latenzen leiden, möchte ich einen von mir entwickelten Skill vorstellen.

Es handelt sich um token-router, einen hybriden Context-Router, der große Dateien nach dem Prinzip „Exploration lokal kostenlos, Inferenz in der Cloud mit hoher Leistung“ verarbeitet.

🛑 Welches Problem löst es?

Wenn man Infrastruktur-Deployment-Logs mit mehr als 2.000 Zeilen oder riesige Quellcode-Dateien komplett in ein Cloud-LLM lädt, werden enorm viele Eingabe-Token verschwendet, und die Wartezeit steigt deutlich.

Um das zu vermeiden, werden Codes manchmal vorab mit kleinen Modellen zusammengefasst, aber dieser Ansatz ist riskant. Sobald auch nur eine Fehlerzeile oder eine Variablendefinition fehlt, verliert die Cloud-AI den Kontext und liefert falsche Antworten.

In der neuesten Version wurde das Routing außerdem auf statische Agent-Anweisungsdateien erweitert, die in jeder Runde wiederholt angehängt werden, etwa lange CLAUDE.md, AGENTS.md oder .cursorrules. Da sich die Token-Kosten bereits automatisch injizierter langer Root-Dateien nachträglich nicht mehr reduzieren lassen, empfiehlt sich, Root-Anweisungsdateien kurz zu halten und lange aufgabenspezifische Regeln in separate Referenzdateien auszulagern, die nur bei Bedarf geroutet werden.

🧠 Wie wird das gelöst? (Funktionsweise aus Nutzersicht)

Dieses Tool fasst Texte nicht zusammen, sondern schneidet konsequent nur die tatsächlich benötigten Teile aus dem Original heraus.

Lokale Exploration (Local Triage): Auf dem eigenen Computer läuft über Ollama ein leichtgewichtiges Gemma-4-2B-Modell. Dieses lokale Modell findet schnell nur die exakten Zeilennummern (Koordinaten), die zur Frage des Nutzers passen.
Originalextraktion (Raw Slicing): Ein Python-Skript schneidet anhand dieser Zeilennummern saubere Textausschnitte direkt von der Festplatte aus dem Original heraus.
Cloud-Inferenz (Reasoning): Das Hauptmodell in der Cloud erhält nur die hochdichten Originalausschnitte ohne unnötiges Rauschen sowie eine Dateistruktur-Karte und kann sich vollständig auf Debugging und das Schreiben von Code konzentrieren.

Da das unverarbeitete Original übergeben wird, lässt sich die Inferenzleistung des Cloud-Modells zu 100 % nutzen und gleichzeitig der Kostenaufwand drastisch senken.

Aktuell werden drei Modi unterstützt: error_log, heavy_code und agent_context. agent_context ist ein Modus, der aus Agent-Anweisungs-Referenzdokumenten wie langen CLAUDE.md, AGENTS.md, GEMINI.md, .cursorrules oder agent-context/*.md nur die für die aktuelle Aufgabe relevanten Originalzeilen findet.

📊 Ergebnisse aus Tests auf meinem eigenen PC

Großes Infrastruktur-Log (2.000 Zeilen): Eingabekontext von 41.711 Token auf 131 Token reduziert (99,69 % Einsparung, Verarbeitungszeit 5,37 Sekunden).
Legacy-Bug-Quellcode (2.155 Zeilen): Ursprünglich 7.520 Token wurden auf nur 70 Token komprimiert und übertragen (99,06 % Einsparung, Verarbeitungszeit 4,46 Sekunden).

🛠️ Was im praktischen Einsatz angenehm war

Ruckeln des PCs verhindern: Wer befürchtet, dass ein lokales AI-Modell den Rechner verlangsamt, kann beruhigt sein. Dieses Tool entlädt das lokale Modell genau in dem Moment, in dem die Routing-Koordinaten extrahiert wurden, sofort aus dem VRAM.
Intelligente rückwärtsgerichtete Kontexterweiterung: Falls der ausgeschnittene Code zu eng ist und sich Abhängigkeiten davor oder danach schwer erkennen lassen, antwortet die Cloud-AI nicht einfach mit einer groben Vermutung, sondern es ist eine Prompt-Sicherheitsvorkehrung eingebaut, die das Skript auffordert, „einen größeren Bereich erneut auszuschneiden“.
Streaming für große Dateien: Selbst wenn eine Datei so groß ist, dass sie die Speicherkapazität des lokalen Modells überschreitet, greift im Backend automatisch eine Streaming-Logik, die zuerst Schlüsselwörter und das Dateiende scannt.
Claude-Code-Unterstützung: Die neueste Version enthält auch einen kompakten CLAUDE.md-Bootstrap für Claude Code. Lange Claude-spezifische Anweisungen können in separaten Referenzdateien abgelegt und über agent_context geroutet werden.

Es wird unter der MIT-Lizenz vollständig kostenlos veröffentlicht und kann direkt als eigenständiges Skript oder in Form eines Skills für OpenAI Codex registriert und verwendet werden. Auch in Claude Code kann über den CLAUDE.md-Bootstrap dasselbe Router-Skript aufgerufen werden. Ich hoffe, es hilft allen, die häufig große Logs debuggen oder mit schwergewichtigem Code arbeiten, ihre Entwicklungsproduktivität zu steigern.

Ich freue mich über vielfältiges Feedback und Meinungen zur Architektur oder zur Prompt-Optimierung!

Verlustfreier lokaler Router-Skill token-router, der mit dem Gemma4-2B-Modell 99 % der Token-Kosten bei Codex und Claude Code spart

🛑 Welches Problem löst es?

🧠 Wie wird das gelöst? (Funktionsweise aus Nutzersicht)

📊 Ergebnisse aus Tests auf meinem eigenen PC

🛠️ Was im praktischen Einsatz angenehm war

2 Kommentare

Verlustfreier lokaler Router-Skill token-router, der mit dem Gemma4-2B-Modell 99 % der Token-Kosten bei Codex und Claude Code spart

🛑 Welches Problem löst es?

🧠 Wie wird das gelöst? (Funktionsweise aus Nutzersicht)

📊 Ergebnisse aus Tests auf meinem eigenen PC

🛠️ Was im praktischen Einsatz angenehm war

Verwandte Beiträge

2 Kommentare