Anthropic fügt Claude die Funktion Prompt Caching (Beta) hinzu

xguru · 2024-08-21T09:31:01+09:00

Prompt Caching optimiert die API-Nutzung und ermöglicht es, Aufgaben ab einem bestimmten Präfix des Prompts wieder aufzunehmen Große Prompts können über mehrere API-Aufrufe hinweg wiederverwendet werden, ohne sie erneut zu verarbeiten, wodurch sich bei wiederkehrenden Aufgaben Verarbeitungszeit und Kosten deutlich reduzieren Funktionsweise Caching von Prompt-Präfixen: Das System prüft, ob das Prompt-Präfix in einer aktuellen Anfrage zwischengespeichert wurde. Falls ja, wird die zwischengespeicherte Version verwendet, um Verarbeitungszeit und Kosten zu senken. Andernfalls wird der gesamte Prompt verarbeitet und das Präfix zwischengespeichert. Anwendungsfälle: Nützlich für Prompts mit vielen Beispielen, großen Mengen an Kontext oder Hintergrundinformationen, wiederkehrende Aufgaben mit konsistenten Anweisungen sowie lange Gespräche über mehrere Turns Cache-Lebensdauer: Der Cache ist 5 Minuten gültig und wird jedes Mal aktualisiert, wenn der zwischengespeicherte Inhalt verwendet wird Inhalt des zwischengespeicherten Prompts Es wird der gesamte Prompt berücksichtigt, einschließlich Tools, System und Messages (in dieser Reihenfolge). Enthalten sind auch Blöcke bis zu dem mit cache_control angegebenen Punkt Preise Claude 3.5 Sonnet: Standard-Eingabetoken $3 / MTok, Cache-Erstellung $3.75 / MTok, Cache-Abruf $0.30 / MTok, Ausgabetoken $15 / MTok Claude 3 Haiku: Standard-Eingabetoken $0.25 / MTok, Cache-Erstellung $0.30 / MTok, Cache-Abruf $0.03 / MTok, Ausgabetoken $1.25 / MTok Claude 3 Opus (erscheint demnächst): Standard-Eingabetoken $15 / MTok, Cache-Erstellung $18.75 / MTok, Cache-Abruf $1.50 / MTok, Ausgabetoken $75 / MTok Kernpunkte Token für die Cache-Erstellung sind 25 % teurer als Standard-Eingabetoken Token für den Cache-Abruf sind 90 % günstiger als Standard-Eingabetoken Cache-Beschränkungen Mindestlänge für cachebare Prompts: Claude 3.5 Sonnet und Claude 3 Opus: 1024 Token Claude 3 Haiku: 2048 Token Es gibt eine Cache-TTL von 5 Minuten, und derzeit ist "ephemeral" der einzige unterstützte Cache-Typ für diese 5-minütige Lebensdauer Verschiedene Use Cases Konversationsagenten: Können in Gesprächen mit langen Anweisungen oder hochgeladenen Dokumenten Kosten und Latenz verringern Coding-Assistenten: Verbessern Autovervollständigung und Q&A über Codebasen, indem relevante Abschnitte oder zusammengefasste Versionen der Codebasis im Prompt erhalten bleiben Verarbeitung großer Dokumente: Auch lange Materialien mit Bildern können in den Prompt aufgenommen und ohne zusätzliche Antwortverzögerung verarbeitet werden Detaillierte Anweisungssätze: Die Antworten von Claude lassen sich feiner abstimmen, indem mehr als 20 unterschiedliche hochwertige Antwortbeispiele einbezogen werden Tool-Nutzung durch Agenten: Kann die Leistung in Szenarien mit mehreren Tool-Aufrufen und wiederholten Codeänderungen verbessern Gespräche über Bücher, wissenschaftliche Arbeiten, Dokumente, Podcast-Transkripte und andere lange Inhalte: Nutzer können Fragen stellen, während der gesamte Text bzw. die gesamten Texte im Prompt enthalten sind

(docs.anthropic.com)

3 Punkte von xguru 2024-08-21 | Noch keine Kommentare. | Auf WhatsApp teilen

Prompt Caching optimiert die API-Nutzung und ermöglicht es, Aufgaben ab einem bestimmten Präfix des Prompts wieder aufzunehmen
- Große Prompts können über mehrere API-Aufrufe hinweg wiederverwendet werden, ohne sie erneut zu verarbeiten, wodurch sich bei wiederkehrenden Aufgaben Verarbeitungszeit und Kosten deutlich reduzieren
Funktionsweise
- Caching von Prompt-Präfixen: Das System prüft, ob das Prompt-Präfix in einer aktuellen Anfrage zwischengespeichert wurde. Falls ja, wird die zwischengespeicherte Version verwendet, um Verarbeitungszeit und Kosten zu senken. Andernfalls wird der gesamte Prompt verarbeitet und das Präfix zwischengespeichert.
- Anwendungsfälle: Nützlich für Prompts mit vielen Beispielen, großen Mengen an Kontext oder Hintergrundinformationen, wiederkehrende Aufgaben mit konsistenten Anweisungen sowie lange Gespräche über mehrere Turns
- Cache-Lebensdauer: Der Cache ist 5 Minuten gültig und wird jedes Mal aktualisiert, wenn der zwischengespeicherte Inhalt verwendet wird
Inhalt des zwischengespeicherten Prompts
- Es wird der gesamte Prompt berücksichtigt, einschließlich Tools, System und Messages (in dieser Reihenfolge). Enthalten sind auch Blöcke bis zu dem mit cache_control angegebenen Punkt
Preise
- Claude 3.5 Sonnet: Standard-Eingabetoken $3 / MTok, Cache-Erstellung $3.75 / MTok, Cache-Abruf $0.30 / MTok, Ausgabetoken $15 / MTok
- Claude 3 Haiku: Standard-Eingabetoken $0.25 / MTok, Cache-Erstellung $0.30 / MTok, Cache-Abruf $0.03 / MTok, Ausgabetoken $1.25 / MTok
- Claude 3 Opus (erscheint demnächst): Standard-Eingabetoken $15 / MTok, Cache-Erstellung $18.75 / MTok, Cache-Abruf $1.50 / MTok, Ausgabetoken $75 / MTok
Kernpunkte
- Token für die Cache-Erstellung sind 25 % teurer als Standard-Eingabetoken
- Token für den Cache-Abruf sind 90 % günstiger als Standard-Eingabetoken
Cache-Beschränkungen
- Mindestlänge für cachebare Prompts:
  - Claude 3.5 Sonnet und Claude 3 Opus: 1024 Token
  - Claude 3 Haiku: 2048 Token
- Es gibt eine Cache-TTL von 5 Minuten, und derzeit ist "ephemeral" der einzige unterstützte Cache-Typ für diese 5-minütige Lebensdauer
Verschiedene Use Cases
- Konversationsagenten: Können in Gesprächen mit langen Anweisungen oder hochgeladenen Dokumenten Kosten und Latenz verringern
- Coding-Assistenten: Verbessern Autovervollständigung und Q&A über Codebasen, indem relevante Abschnitte oder zusammengefasste Versionen der Codebasis im Prompt erhalten bleiben
- Verarbeitung großer Dokumente: Auch lange Materialien mit Bildern können in den Prompt aufgenommen und ohne zusätzliche Antwortverzögerung verarbeitet werden
- Detaillierte Anweisungssätze: Die Antworten von Claude lassen sich feiner abstimmen, indem mehr als 20 unterschiedliche hochwertige Antwortbeispiele einbezogen werden
- Tool-Nutzung durch Agenten: Kann die Leistung in Szenarien mit mehreren Tool-Aufrufen und wiederholten Codeänderungen verbessern
- Gespräche über Bücher, wissenschaftliche Arbeiten, Dokumente, Podcast-Transkripte und andere lange Inhalte: Nutzer können Fragen stellen, während der gesamte Text bzw. die gesamten Texte im Prompt enthalten sind

Anthropic fügt Claude die Funktion Prompt Caching (Beta) hinzu

Verwandte Beiträge

Noch keine Kommentare.