3 Punkte von xguru 2024-08-21 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Prompt Caching optimiert die API-Nutzung und ermöglicht es, Aufgaben ab einem bestimmten Präfix des Prompts wieder aufzunehmen
    • Große Prompts können über mehrere API-Aufrufe hinweg wiederverwendet werden, ohne sie erneut zu verarbeiten, wodurch sich bei wiederkehrenden Aufgaben Verarbeitungszeit und Kosten deutlich reduzieren
  • Funktionsweise
    • Caching von Prompt-Präfixen: Das System prüft, ob das Prompt-Präfix in einer aktuellen Anfrage zwischengespeichert wurde. Falls ja, wird die zwischengespeicherte Version verwendet, um Verarbeitungszeit und Kosten zu senken. Andernfalls wird der gesamte Prompt verarbeitet und das Präfix zwischengespeichert.
    • Anwendungsfälle: Nützlich für Prompts mit vielen Beispielen, großen Mengen an Kontext oder Hintergrundinformationen, wiederkehrende Aufgaben mit konsistenten Anweisungen sowie lange Gespräche über mehrere Turns
    • Cache-Lebensdauer: Der Cache ist 5 Minuten gültig und wird jedes Mal aktualisiert, wenn der zwischengespeicherte Inhalt verwendet wird
  • Inhalt des zwischengespeicherten Prompts
    • Es wird der gesamte Prompt berücksichtigt, einschließlich Tools, System und Messages (in dieser Reihenfolge). Enthalten sind auch Blöcke bis zu dem mit cache_control angegebenen Punkt
  • Preise
    • Claude 3.5 Sonnet: Standard-Eingabetoken $3 / MTok, Cache-Erstellung $3.75 / MTok, Cache-Abruf $0.30 / MTok, Ausgabetoken $15 / MTok
    • Claude 3 Haiku: Standard-Eingabetoken $0.25 / MTok, Cache-Erstellung $0.30 / MTok, Cache-Abruf $0.03 / MTok, Ausgabetoken $1.25 / MTok
    • Claude 3 Opus (erscheint demnächst): Standard-Eingabetoken $15 / MTok, Cache-Erstellung $18.75 / MTok, Cache-Abruf $1.50 / MTok, Ausgabetoken $75 / MTok
  • Kernpunkte
    • Token für die Cache-Erstellung sind 25 % teurer als Standard-Eingabetoken
    • Token für den Cache-Abruf sind 90 % günstiger als Standard-Eingabetoken
  • Cache-Beschränkungen
    • Mindestlänge für cachebare Prompts:
      • Claude 3.5 Sonnet und Claude 3 Opus: 1024 Token
      • Claude 3 Haiku: 2048 Token
    • Es gibt eine Cache-TTL von 5 Minuten, und derzeit ist "ephemeral" der einzige unterstützte Cache-Typ für diese 5-minütige Lebensdauer
  • Verschiedene Use Cases
    • Konversationsagenten: Können in Gesprächen mit langen Anweisungen oder hochgeladenen Dokumenten Kosten und Latenz verringern
    • Coding-Assistenten: Verbessern Autovervollständigung und Q&A über Codebasen, indem relevante Abschnitte oder zusammengefasste Versionen der Codebasis im Prompt erhalten bleiben
    • Verarbeitung großer Dokumente: Auch lange Materialien mit Bildern können in den Prompt aufgenommen und ohne zusätzliche Antwortverzögerung verarbeitet werden
    • Detaillierte Anweisungssätze: Die Antworten von Claude lassen sich feiner abstimmen, indem mehr als 20 unterschiedliche hochwertige Antwortbeispiele einbezogen werden
    • Tool-Nutzung durch Agenten: Kann die Leistung in Szenarien mit mehreren Tool-Aufrufen und wiederholten Codeänderungen verbessern
    • Gespräche über Bücher, wissenschaftliche Arbeiten, Dokumente, Podcast-Transkripte und andere lange Inhalte: Nutzer können Fragen stellen, während der gesamte Text bzw. die gesamten Texte im Prompt enthalten sind

Noch keine Kommentare.

Noch keine Kommentare.