- Prompt Caching optimiert die API-Nutzung und ermöglicht es, Aufgaben ab einem bestimmten Präfix des Prompts wieder aufzunehmen
- Große Prompts können über mehrere API-Aufrufe hinweg wiederverwendet werden, ohne sie erneut zu verarbeiten, wodurch sich bei wiederkehrenden Aufgaben Verarbeitungszeit und Kosten deutlich reduzieren
- Funktionsweise
- Caching von Prompt-Präfixen: Das System prüft, ob das Prompt-Präfix in einer aktuellen Anfrage zwischengespeichert wurde. Falls ja, wird die zwischengespeicherte Version verwendet, um Verarbeitungszeit und Kosten zu senken. Andernfalls wird der gesamte Prompt verarbeitet und das Präfix zwischengespeichert.
- Anwendungsfälle: Nützlich für Prompts mit vielen Beispielen, großen Mengen an Kontext oder Hintergrundinformationen, wiederkehrende Aufgaben mit konsistenten Anweisungen sowie lange Gespräche über mehrere Turns
- Cache-Lebensdauer: Der Cache ist 5 Minuten gültig und wird jedes Mal aktualisiert, wenn der zwischengespeicherte Inhalt verwendet wird
- Inhalt des zwischengespeicherten Prompts
- Es wird der gesamte Prompt berücksichtigt, einschließlich Tools, System und Messages (in dieser Reihenfolge). Enthalten sind auch Blöcke bis zu dem mit
cache_control angegebenen Punkt
- Preise
- Claude 3.5 Sonnet: Standard-Eingabetoken $3 / MTok, Cache-Erstellung $3.75 / MTok, Cache-Abruf $0.30 / MTok, Ausgabetoken $15 / MTok
- Claude 3 Haiku: Standard-Eingabetoken $0.25 / MTok, Cache-Erstellung $0.30 / MTok, Cache-Abruf $0.03 / MTok, Ausgabetoken $1.25 / MTok
- Claude 3 Opus (erscheint demnächst): Standard-Eingabetoken $15 / MTok, Cache-Erstellung $18.75 / MTok, Cache-Abruf $1.50 / MTok, Ausgabetoken $75 / MTok
- Kernpunkte
- Token für die Cache-Erstellung sind 25 % teurer als Standard-Eingabetoken
- Token für den Cache-Abruf sind 90 % günstiger als Standard-Eingabetoken
- Cache-Beschränkungen
- Mindestlänge für cachebare Prompts:
- Claude 3.5 Sonnet und Claude 3 Opus: 1024 Token
- Claude 3 Haiku: 2048 Token
- Es gibt eine Cache-TTL von 5 Minuten, und derzeit ist "ephemeral" der einzige unterstützte Cache-Typ für diese 5-minütige Lebensdauer
- Verschiedene Use Cases
- Konversationsagenten: Können in Gesprächen mit langen Anweisungen oder hochgeladenen Dokumenten Kosten und Latenz verringern
- Coding-Assistenten: Verbessern Autovervollständigung und Q&A über Codebasen, indem relevante Abschnitte oder zusammengefasste Versionen der Codebasis im Prompt erhalten bleiben
- Verarbeitung großer Dokumente: Auch lange Materialien mit Bildern können in den Prompt aufgenommen und ohne zusätzliche Antwortverzögerung verarbeitet werden
- Detaillierte Anweisungssätze: Die Antworten von Claude lassen sich feiner abstimmen, indem mehr als 20 unterschiedliche hochwertige Antwortbeispiele einbezogen werden
- Tool-Nutzung durch Agenten: Kann die Leistung in Szenarien mit mehreren Tool-Aufrufen und wiederholten Codeänderungen verbessern
- Gespräche über Bücher, wissenschaftliche Arbeiten, Dokumente, Podcast-Transkripte und andere lange Inhalte: Nutzer können Fragen stellen, während der gesamte Text bzw. die gesamten Texte im Prompt enthalten sind
Noch keine Kommentare.