Kosten für Self-Hosting des Modells Llama-3 8B-Instruct
(blog.lytix.co)- Wie hoch sind die Kosten, ein Large Language Model (LLM) selbst zu hosten?
- Wenn das Modell Llama-3 8B-Instruct auf EKS gehostet wird, liegen die Kosten bei etwa 17 $ pro 1 Million Tokens.
- Für dieselbe Aufgabe kostet die Nutzung von ChatGPT 1 $ pro 1 Million Tokens.
- Beim Self-Hosting auf eigener Hardware sinken die Kosten auf unter 0,01 $ pro 1 Million Tokens, und der Break-even wird nach etwa 5,5 Jahren erreicht.
- Berechnet auf Basis von 4x NVidia Tesla T4 GPU und weiterer Hardwarekosten (3.800 $) plus monatlicher Kosten (Strom usw.) von 100 $
Der Weg zur Bestimmung der optimalen Hardware
-
Testumgebung: Alle Tests wurden in einem EKS-Cluster ausgeführt.
-
Erster Versuch: AWS-Instanz
g4dn.2xlargemit Nvidia Tesla T4 GPU.- Spezifikation: 1 NVidia Tesla T4, 32 GB Arbeitsspeicher, 8 vCPUs.
- Ergebnis: Die Varianten von Llama 3 mit 8B oder 70B Parametern ließen sich nicht ausführen.
- Problem: OOM (Out of Memory) und eine Antwortzeit von etwa 10 Minuten.
-
Zweiter Versuch: AWS-Instanz
g4dn.16xlargemit 4 Nvidia Tesla T4 GPUs.- Spezifikation: 4 NVidia Tesla T4, 192 GB Arbeitsspeicher, 48 vCPUs.
- Ergebnis: Die Antwortzeit sank auf unter 10 Sekunden.
Erste Implementierung
- Umsetzung: Der Llama-3-Code von Hugging Face wurde kopiert und verwendet.
- Kostenberechnung:
- Kosten für die Nutzung einer Instanz
g5dn.12xlarge: 3,912 $ pro Stunde. - Hochgerechnet auf die monatlichen Kosten ergeben sich etwa 167,17 $ pro 1 Million Tokens.
- Kosten von ChatGPT 3.5 Turbo: 1 $ pro 1 Million Tokens.
- Kosten für die Nutzung einer Instanz
Problemlösung
- Erkenntnis: Es wurde klar, dass der bisherige Ansatz falsch war, daher wurde
vLLMverwendet. - Ergebnis der Verbesserung:
- Für das Hosting des API-Servers wurden
rayundvllminstalliert. - Mit der Option
—tensor-parallel-size 4wurden alle 4 GPUs genutzt. - Ergebnis: Die Antwortzeit verbesserte sich deutlich auf 2044 ms.
- In der Kostenberechnung ergaben sich damit etwa 17 $ pro 1 Million Tokens.
- Für das Hosting des API-Servers wurden
Alternativer Ansatz
- Hosting auf eigener Hardware:
- Benötigte Hardware: 4x NVidia Tesla T4 GPU, bei eBay für etwa 700 $.
- Einschließlich weiterer Kosten liegen die gesamten Einrichtungskosten bei etwa 3.800 $.
- Monatliche Energiekosten von etwa 50 $.
- Die gesamten monatlichen Kosten werden mit etwa 100 $ angesetzt.
- Der Break-even wird nach etwa 66 Monaten (5,5 Jahren) erreicht.
Fazit
- Vorteil: Hosting auf eigener Hardware kann Kosten sparen.
- Nachteil: Hardware muss verwaltet und skaliert werden.
- Die Annahme einer Auslastung von 100 % ist unrealistisch, daher ist eine Bewertung anhand realer Bedingungen nötig.
4 Kommentare
Es geht ja nicht darum, ein Modell aufzubauen,
sondern nur um Inferenz mit Llama 8B, da ist die Hardware etwas überdimensioniert.
Eine 24-GB-GPU (3090 oder 4090) reicht völlig aus (2–3 Mio. Won), und auch mit etwa 30.000 Won Stromkosten im Monat sollte das ausreichen.
Jetzt, wo ich es geschrieben habe, sehe ich, dass das unten schon steht, haha.
5,5 Jahre sind lang ..
Ist 8B auf mehr als nur Toy-Niveau realistisch möglich?
Hacker-News-Kommentare