- Eine Zusammenstellung wichtiger Zahlen für die Arbeit mit LLMs.
- Wenn man „kurz und knapp“ in den Prompt schreibt, lassen sich 40–90 % der Kosten sparen.
- Im Vergleich zu GPT-4 ist GPT-3.5 Turbo 50-mal günstiger.
- Für die Vektorsuche ist die Nutzung von OpenAI-Embeddings 20-mal günstiger als GPT-3.5 Turbo.
- Das Training eines LLM in der Größenordnung von LLaMa kostet eine Million US-Dollar.
- GPU-Speichergrößen nach Modell - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- Üblicherweise wird die doppelte Speichermenge der Modellgröße benötigt - 7B = 14GB
- Embedding-Modelle verwenden in der Regel weniger als 1GB Speicher
- Wenn LLM-Anfragen gebündelt verarbeitet werden, kann das mehr als 10-mal schneller sein.
- Ein 13B-Modell benötigt etwa 1MB pro Token; bei gebündelter Verarbeitung steigen die Speicheranforderungen daher stark an.
2 Kommentare
Ich habe schon oft versucht, es kurz zu halten, aber ich sollte wohl auch einmal das im Artikel erwähnte "be consise" einbauen.
Man sollte wohl auch versuchen, es mit
let's think step by stepzu kombinieren.