15 Punkte von xguru 2024-06-17 | 4 Kommentare | Auf WhatsApp teilen
  • Wie hoch sind die Kosten, ein Large Language Model (LLM) selbst zu hosten?
  • Wenn das Modell Llama-3 8B-Instruct auf EKS gehostet wird, liegen die Kosten bei etwa 17 $ pro 1 Million Tokens.
  • Für dieselbe Aufgabe kostet die Nutzung von ChatGPT 1 $ pro 1 Million Tokens.
  • Beim Self-Hosting auf eigener Hardware sinken die Kosten auf unter 0,01 $ pro 1 Million Tokens, und der Break-even wird nach etwa 5,5 Jahren erreicht.
    • Berechnet auf Basis von 4x NVidia Tesla T4 GPU und weiterer Hardwarekosten (3.800 $) plus monatlicher Kosten (Strom usw.) von 100 $

Der Weg zur Bestimmung der optimalen Hardware

  • Testumgebung: Alle Tests wurden in einem EKS-Cluster ausgeführt.

  • Erster Versuch: AWS-Instanz g4dn.2xlarge mit Nvidia Tesla T4 GPU.

    • Spezifikation: 1 NVidia Tesla T4, 32 GB Arbeitsspeicher, 8 vCPUs.
    • Ergebnis: Die Varianten von Llama 3 mit 8B oder 70B Parametern ließen sich nicht ausführen.
    • Problem: OOM (Out of Memory) und eine Antwortzeit von etwa 10 Minuten.
  • Zweiter Versuch: AWS-Instanz g4dn.16xlarge mit 4 Nvidia Tesla T4 GPUs.

    • Spezifikation: 4 NVidia Tesla T4, 192 GB Arbeitsspeicher, 48 vCPUs.
    • Ergebnis: Die Antwortzeit sank auf unter 10 Sekunden.

Erste Implementierung

  • Umsetzung: Der Llama-3-Code von Hugging Face wurde kopiert und verwendet.
  • Kostenberechnung:
    • Kosten für die Nutzung einer Instanz g5dn.12xlarge: 3,912 $ pro Stunde.
    • Hochgerechnet auf die monatlichen Kosten ergeben sich etwa 167,17 $ pro 1 Million Tokens.
    • Kosten von ChatGPT 3.5 Turbo: 1 $ pro 1 Million Tokens.

Problemlösung

  • Erkenntnis: Es wurde klar, dass der bisherige Ansatz falsch war, daher wurde vLLM verwendet.
  • Ergebnis der Verbesserung:
    • Für das Hosting des API-Servers wurden ray und vllm installiert.
    • Mit der Option —tensor-parallel-size 4 wurden alle 4 GPUs genutzt.
    • Ergebnis: Die Antwortzeit verbesserte sich deutlich auf 2044 ms.
    • In der Kostenberechnung ergaben sich damit etwa 17 $ pro 1 Million Tokens.

Alternativer Ansatz

  • Hosting auf eigener Hardware:
    • Benötigte Hardware: 4x NVidia Tesla T4 GPU, bei eBay für etwa 700 $.
    • Einschließlich weiterer Kosten liegen die gesamten Einrichtungskosten bei etwa 3.800 $.
    • Monatliche Energiekosten von etwa 50 $.
    • Die gesamten monatlichen Kosten werden mit etwa 100 $ angesetzt.
    • Der Break-even wird nach etwa 66 Monaten (5,5 Jahren) erreicht.

Fazit

  • Vorteil: Hosting auf eigener Hardware kann Kosten sparen.
  • Nachteil: Hardware muss verwaltet und skaliert werden.
    • Die Annahme einer Auslastung von 100 % ist unrealistisch, daher ist eine Bewertung anhand realer Bedingungen nötig.

4 Kommentare

 
iolothebard 2024-06-17

Es geht ja nicht darum, ein Modell aufzubauen,
sondern nur um Inferenz mit Llama 8B, da ist die Hardware etwas überdimensioniert.
Eine 24-GB-GPU (3090 oder 4090) reicht völlig aus (2–3 Mio. Won), und auch mit etwa 30.000 Won Stromkosten im Monat sollte das ausreichen.
Jetzt, wo ich es geschrieben habe, sehe ich, dass das unten schon steht, haha.

 
wedding 2024-06-17

5,5 Jahre sind lang ..

 
ragingwind 2024-06-17

Ist 8B auf mehr als nur Toy-Niveau realistisch möglich?

 
xguru 2024-06-17

Hacker-News-Kommentare

  • Durch Self-Hosting der Hardware statt AWS lassen sich die Kosten deutlich senken.
    • Der Einsatz von vier NVidia Tesla T4 kostet etwa 3.800 $.
    • Für das Modell Llama 3 8B reicht eine einzelne 3090- oder 4090-GPU aus.
    • Durch den Kauf von GPUs bei eBay lassen sich Kosten sparen.
  • Das Llama-8B-Modell kostet bei AWS Bedrock 0,40 $ pro 1 Mio. Eingabe-Token und 0,60 $ pro Ausgabe-Token und ist damit günstiger als OpenAI-Modelle.
    • Dabei müssen auch Zeit und Kosten für Aufbau und Wartung des Servers berücksichtigt werden.
  • Preise für Jetstream + Maxtext
    • Der Preis bei einer 3-Jahres-Bindung mit TPU v5e liegt bei 0,25 $ pro 1 Mio. Token.
    • Der On-Demand-Preis liegt bei etwa 0,45 $ pro 1 Mio. Token.
    • Weitere Details gibt es in der Google-Next-2024-Session.
  • Erwarteter Rückgang von NVIDIAs Marktwert
    • Da sich die LLM-Leistung abschwächt und LLMs kommerzialisiert werden, könnte NVIDIAs Marktwert sinken.
    • Auch die Rechennachfrage für Training wird voraussichtlich schneller als erwartet zurückgehen.
  • Probleme der Kostenanalyse
    • Der Betrieb mit Batch-Größe 1 führt zu einem großen Fehler in der Kostenanalyse.
    • Das ist 100- bis 1000-mal teurer als die von API-Anbietern berechneten Kosten.
  • Kosten für den Betrieb eines 8B-Modells
    • Eine 3090 und ein Basissystem reichen völlig aus, um ein 8B-Modell zu betreiben.
    • Der Kostenunterschied zwischen OpenAI und AWS ist groß (1 $ vs. 17 $).
    • AWS könnte in der Praxis tatsächlich günstiger sein.
  • Probleme beim Verständnis von Kosten
    • Es ist ungeeignet, Kosten anhand einzelner synchroner Anfragen zu verstehen.
    • ChatGPT verarbeitet viele Anfragen parallel.
    • Größere Anfragen, gleichzeitige Anfragen und Request-Queueing können die Kosten deutlich senken.
  • Kosten für den Zugriff auf LLMs
    • Der Zugriff auf LLMs ist sehr günstig.
    • Angesichts des technologischen Fortschritts sollten sich Techniker über die niedrigen Kosten freuen.
  • Die T4 ist eine sechs Jahre alte Karte; ein Vergleich mit 3090, 4090, A10, A100 usw. ist angemessener.