Vertex AI Context Caching + Priority-PayGo-Latenz-Benchmark (400 Durchläufe, Gemini 3 Flash)
(cloudturing.com)Benchmark der Latenzverbesserung durch Vertex AIs Context Caching und das neu eingeführte Priority PayGo auf Basis eines System-Prompts (Eingabe) von ca. 7.500 Tokens und einer Antwort (Ausgabe) von ca. 100 Tokens, wie sie in AI-Chatbot-Diensten verwendet werden
- 4 Szenarien (Standard/Priority × mit Caching/ohne Caching), jeweils 100 Durchläufe, insgesamt 400 Requests
- Modell: gemini-3-flash-preview
- Request-Methode: staggered start im Abstand von 1 Sekunde
Wichtigste Ergebnisse:
- Context Caching: nahezu identische durchschnittliche Antwortzeit unabhängig davon, ob gecacht wurde oder nicht (~3 Sekunden)
- Priority PayGo: in Zeiten geringer Auslastung sogar 3–7 % langsamer
- Bestätigung, dass Vertex AI auch im Szenario ohne Caching intern Implicit Caching durchführt
- Der Latenzunterschied je nach Thinking Level ist deutlich größer: DEFAULT 7,4 Sekunden → LOW 3 Sekunden → MINIMAL 2,6 Sekunden
Fazit: Für die Latenzoptimierung ist es wirksamer, die Struktur der Requests selbst zu ändern, als Caching oder Prioritätseinstellungen anzupassen
Noch keine Kommentare.