Coding-Agenten: Warum ist dieselbe Modellanfrage manchmal 46-mal teurer?

(dev.to/johnonlee)

2 Punkte von johnonlee 2026-05-22 | Noch keine Kommentare. | Auf WhatsApp teilen

Bei der Nutzung von OpenCode Go ist mir im Dashboard etwas Merkwürdiges aufgefallen. Dasselbe Modell, ähnliche Eingabe-Token (300K vs. 257K), aber die Kosten lagen bei $0.0096 vs. $0.4455 — ein 46-facher Unterschied. Die Ursache ist Prompt-Caching.

LLMs verwenden frühere Berechnungen erneut, wenn sich derselbe Prefix wiederholt. Die meisten Coding-Agenten senden jedoch in jedem Turn den gesamten Gesprächsverlauf (transcript) unverändert mit. Dadurch ist es kurzfristig dank Cache günstig, aber sobald das Context Window voll ist und eine Komprimierung stattfindet, wird der Prefix aufgebrochen und der Cache ungültig.

In diesem Beitrag werden die versteckten Kosten des Transcript-Ansatzes und ein alternativer Ansatz, bei dem nur strukturierter Zustand gesendet wird, anhand echter Daten aus einer 44-Turn-Debugging-Session analysiert (80.4 % weniger Token). Der Unterschied liegt nicht einfach darin, ob es Cache gibt oder nicht, sondern in der Struktur: „wann der Cache möglicherweise bricht“ versus „eine Struktur, die nicht vom Cache abhängt“.

Coding-Agenten: Warum ist dieselbe Modellanfrage manchmal 46-mal teurer?

Verwandte Beiträge

Noch keine Kommentare.