Context Mode – Ein MCP-Server, der das Kontextfenster von AI-Coding-Agenten um 98 % einspart

xguru · 2026-05-03T09:31:02+09:00

Spart die Rohdaten, die MCP-Tool-Aufrufe in das Kontextfenster schütten, und verlängert die Sitzungsdauer von ~30 Minuten auf ~3 Stunden Kontexteinsparung: Isoliert Rohdaten in einer Sandbox und reduziert sie so von 315 KB auf 5,4 KB – eine Reduktion um 98 % Sitzungskontinuität: Speichert und indiziert alle Ereignisse wie Dateibearbeitungen, git-Arbeiten, Tasks, Fehler und Nutzerentscheidungen in SQLite+FTS5 und durchsucht sie anschließend mit BM25, um Sitzungsereignisse nachzuverfolgen und Kompaktierungs-Wiederherstellung zu ermöglichen In Code denken: Statt dass das LLM Daten direkt liest, schreibt es Skripte und gibt nur die Ergebnisse zurück (z. B. beim Zählen von Funktionen: relevanten Code schreiben, ohne Kontext zu speichern, und nur das tatsächliche Ergebnis erhalten) Ausgabekomprimierung: ~65–75 % weniger Output-Tokens bei gleichbleibender technischer Genauigkeit Unterstützung für 14 Plattformen: Claude Code (Plugin Marketplace), Codex CLI, Gemini CLI, Cursor, OpenCode, OpenClaw, Antigravity usw. Je nach Hook-Ebene der jeweiligen Plattform wie PreToolUse, PostToolUse, SessionStart und PreCompact wird die Sitzungskontinuität in unterschiedlichen Stufen unterstützt Bereitstellung von 11 MCP-Tools: ctx_execute (11 Sprach-Runtimes), ctx_batch_execute (Batch-Ausführung mehrerer Befehle + Suchen), ctx_execute_file (Dateiverarbeitung in der Sandbox), ctx_index/ctx_search (Indexierung und Suche in der Wissensbasis auf Basis von FTS5+BM25), ctx_fetch_and_index (URL-Abruf, Indexierung und 24-Stunden-TTL-Cache), ctx_stats/ctx_doctor/ctx_upgrade/ctx_purge/ctx_insight Sicherheit: Die permissions-Einstellungen von Claude Code (deny/allow-Muster) werden identisch auch auf die MCP-Sandbox angewendet; auch verkettete Befehle werden einzeln getrennt geprüft Vollständig lokale Ausführung: Keine Telemetrie, keine Cloud-Synchronisierung, kein Usage-Tracking; die SQLite-Datenbank wird im Home-Verzeichnis gespeichert Bereits im Einsatz bei Teams großer Unternehmen wie Microsoft, Google, Meta, Amazon, NVIDIA, Stripe und Datadog Elastic License 2.0 (quelloffen, Bereitstellung als Hosting-Service verboten)

Spart die Rohdaten, die MCP-Tool-Aufrufe in das Kontextfenster schütten, und verlängert die Sitzungsdauer von ~30 Minuten auf ~3 Stunden
Kontexteinsparung: Isoliert Rohdaten in einer Sandbox und reduziert sie so von 315 KB auf 5,4 KB – eine Reduktion um 98 %
Sitzungskontinuität: Speichert und indiziert alle Ereignisse wie Dateibearbeitungen, git-Arbeiten, Tasks, Fehler und Nutzerentscheidungen in SQLite+FTS5 und durchsucht sie anschließend mit BM25, um Sitzungsereignisse nachzuverfolgen und Kompaktierungs-Wiederherstellung zu ermöglichen
In Code denken: Statt dass das LLM Daten direkt liest, schreibt es Skripte und gibt nur die Ergebnisse zurück (z. B. beim Zählen von Funktionen: relevanten Code schreiben, ohne Kontext zu speichern, und nur das tatsächliche Ergebnis erhalten)
Ausgabekomprimierung: ~65–75 % weniger Output-Tokens bei gleichbleibender technischer Genauigkeit
Unterstützung für 14 Plattformen: Claude Code (Plugin Marketplace), Codex CLI, Gemini CLI, Cursor, OpenCode, OpenClaw, Antigravity usw.
- Je nach Hook-Ebene der jeweiligen Plattform wie PreToolUse, PostToolUse, SessionStart und PreCompact wird die Sitzungskontinuität in unterschiedlichen Stufen unterstützt
Bereitstellung von 11 MCP-Tools: ctx_execute (11 Sprach-Runtimes), ctx_batch_execute (Batch-Ausführung mehrerer Befehle + Suchen), ctx_execute_file (Dateiverarbeitung in der Sandbox), ctx_index/ctx_search (Indexierung und Suche in der Wissensbasis auf Basis von FTS5+BM25), ctx_fetch_and_index (URL-Abruf, Indexierung und 24-Stunden-TTL-Cache), ctx_stats/ctx_doctor/ctx_upgrade/ctx_purge/ctx_insight
Sicherheit: Die permissions-Einstellungen von Claude Code (deny/allow-Muster) werden identisch auch auf die MCP-Sandbox angewendet; auch verkettete Befehle werden einzeln getrennt geprüft
Vollständig lokale Ausführung: Keine Telemetrie, keine Cloud-Synchronisierung, kein Usage-Tracking; die SQLite-Datenbank wird im Home-Verzeichnis gespeichert
Bereits im Einsatz bei Teams großer Unternehmen wie Microsoft, Google, Meta, Amazon, NVIDIA, Stripe und Datadog
Elastic License 2.0 (quelloffen, Bereitstellung als Hosting-Service verboten)

8 Kommentare

kirkyoon 2026-05-06

Ich habe das Gefühl, dass es tatsächlich spürbar ist. Ich nutze nur MCP und schließe Hooks derzeit aus.

kaydash 2026-05-04

Funktioniert das gut..

duse0001 2026-05-03

Fühlt sich wie eine Mischung aus Claude mem und caveman an.

recast7838 2026-05-03

Anscheinend sind Produkte und Prompts nach dem Motto „heutzutage Tokens sparen“ gerade im Trend. Ob das in der Praxis wirklich effektiv ist, weiß ich allerdings nicht.

kurthong 2026-05-04

Ich denke, Token-Einsparung und das Einsparen von Kontextfenster zwar zusammenhängen, aber nicht dasselbe sind.

Token-Einsparung ist eine Kostenfrage, während das Einsparen von Kontextfenster eine Frage der Qualität des Arbeitsgedächtnisses des Modells ist. Wenn man große Logmengen oder DOM-Snapshots unverändert hineingibt, steigen zwar auch die Kosten, aber das größere Problem ist, dass das Modell wichtige Hinweise im Rauschen eher übersieht oder falsch referenziert.

Es scheint passender zu sein, context-mode als ein Werkzeug zu verstehen, das weniger auf „weniger verwenden“ abzielt, sondern eher darauf, „zu steuern, was in den Kontext aufgenommen wird“.

ehlegeth 2026-05-04

Man sollte zwischen Token-Ersparnis und der Einsparung des Kontextfensters unterscheiden.
Da beides oft gemeinsam behandelt wird, kann man es leicht verwechseln.

shakespeares 2026-05-03

Stimmt, ich bin mir nicht sicher, wie praktikabel das wirklich ist … Wenn man es ein- oder zweimal mehr benutzt, verbraucht es am Ende nicht eher noch mehr Tokens …?

kyg5474 2026-05-03

Wirklich?

Context Mode – Ein MCP-Server, der das Kontextfenster von AI-Coding-Agenten um 98 % einspart

Verwandte Beiträge

8 Kommentare