42 Punkte von kuroneko 2023-05-18 | 2 Kommentare | Auf WhatsApp teilen
  • Eine Zusammenstellung wichtiger Zahlen für die Arbeit mit LLMs.
  • Wenn man „kurz und knapp“ in den Prompt schreibt, lassen sich 40–90 % der Kosten sparen.
  • Im Vergleich zu GPT-4 ist GPT-3.5 Turbo 50-mal günstiger.
  • Für die Vektorsuche ist die Nutzung von OpenAI-Embeddings 20-mal günstiger als GPT-3.5 Turbo.
  • Das Training eines LLM in der Größenordnung von LLaMa kostet eine Million US-Dollar.
  • GPU-Speichergrößen nach Modell - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • Üblicherweise wird die doppelte Speichermenge der Modellgröße benötigt - 7B = 14GB
  • Embedding-Modelle verwenden in der Regel weniger als 1GB Speicher
  • Wenn LLM-Anfragen gebündelt verarbeitet werden, kann das mehr als 10-mal schneller sein.
  • Ein 13B-Modell benötigt etwa 1MB pro Token; bei gebündelter Verarbeitung steigen die Speicheranforderungen daher stark an.

2 Kommentare

 
xguru 2023-05-18

Ich habe schon oft versucht, es kurz zu halten, aber ich sollte wohl auch einmal das im Artikel erwähnte "be consise" einbauen.

 
wedding 2023-05-20

Man sollte wohl auch versuchen, es mit let's think step by step zu kombinieren.