Vertex AI Context Caching + Priority-PayGo-Latenz-Benchmark (400 Durchläufe, Gemini 3 Flash)

(cloudturing.com)

1 Punkte von calmlake79 2026-02-12 | Noch keine Kommentare. | Auf WhatsApp teilen

Benchmark der Latenzverbesserung durch Vertex AIs Context Caching und das neu eingeführte Priority PayGo auf Basis eines System-Prompts (Eingabe) von ca. 7.500 Tokens und einer Antwort (Ausgabe) von ca. 100 Tokens, wie sie in AI-Chatbot-Diensten verwendet werden

4 Szenarien (Standard/Priority × mit Caching/ohne Caching), jeweils 100 Durchläufe, insgesamt 400 Requests
Modell: gemini-3-flash-preview
Request-Methode: staggered start im Abstand von 1 Sekunde

Wichtigste Ergebnisse:

Context Caching: nahezu identische durchschnittliche Antwortzeit unabhängig davon, ob gecacht wurde oder nicht (~3 Sekunden)
Priority PayGo: in Zeiten geringer Auslastung sogar 3–7 % langsamer
Bestätigung, dass Vertex AI auch im Szenario ohne Caching intern Implicit Caching durchführt
Der Latenzunterschied je nach Thinking Level ist deutlich größer: DEFAULT 7,4 Sekunden → LOW 3 Sekunden → MINIMAL 2,6 Sekunden

Fazit: Für die Latenzoptimierung ist es wirksamer, die Struktur der Requests selbst zu ändern, als Caching oder Prioritätseinstellungen anzupassen

Vertex AI Context Caching + Priority-PayGo-Latenz-Benchmark (400 Durchläufe, Gemini 3 Flash)

Verwandte Beiträge

Noch keine Kommentare.