1 Punkte von calmlake79 2026-02-12 | Noch keine Kommentare. | Auf WhatsApp teilen

Benchmark der Latenzverbesserung durch Vertex AIs Context Caching und das neu eingeführte Priority PayGo auf Basis eines System-Prompts (Eingabe) von ca. 7.500 Tokens und einer Antwort (Ausgabe) von ca. 100 Tokens, wie sie in AI-Chatbot-Diensten verwendet werden

  • 4 Szenarien (Standard/Priority × mit Caching/ohne Caching), jeweils 100 Durchläufe, insgesamt 400 Requests
  • Modell: gemini-3-flash-preview
  • Request-Methode: staggered start im Abstand von 1 Sekunde

Wichtigste Ergebnisse:

  • Context Caching: nahezu identische durchschnittliche Antwortzeit unabhängig davon, ob gecacht wurde oder nicht (~3 Sekunden)
  • Priority PayGo: in Zeiten geringer Auslastung sogar 3–7 % langsamer
  • Bestätigung, dass Vertex AI auch im Szenario ohne Caching intern Implicit Caching durchführt
  • Der Latenzunterschied je nach Thinking Level ist deutlich größer: DEFAULT 7,4 Sekunden → LOW 3 Sekunden → MINIMAL 2,6 Sekunden

Fazit: Für die Latenzoptimierung ist es wirksamer, die Struktur der Requests selbst zu ändern, als Caching oder Prioritätseinstellungen anzupassen

Noch keine Kommentare.

Noch keine Kommentare.