Cloud-GPU-Leitfaden – Welche GPU sollte man für AI wo einsetzen?

xguru · 2023-08-23T11:04:02+09:00

Wenn man AI-Tools mit Stable Diffusion, Whisper, Open-Source-LLMs usw. baut, müssen diese irgendwo dauerhaft laufen Welche GPU sollte man verwenden? Wenn man Cloud-GPUs nutzt: Falcon-40B, Falcon-40B-Uncensored oder Falcon-40B-Instruct Wenn man unabhängig von den Kosten die beste Leistung will: 2x H100 Wenn man ein Gleichgewicht zwischen Kosten und Leistung sucht: 2x RTX 6000 Ada (nicht A6000 oder RTX6000) Wenn es günstig sein soll: 2x A6000 MPT-30B Beste Leistung oder bestes Preis-Leistungs-Verhältnis: 1x H100 Günstig: 1x A100 80GB Stable Diffusion Beste Leistung: 1x H100 Preis-Leistung: 1x 4090 Günstig: 1x 3090 Whisper Gleich wie bei Stable Diffusion Whisper-Large kann mit weniger VRAM laufen, aber die meisten Clouds haben solche Karten nicht 4090/3090 funktionieren ebenfalls gut, und auch auf der CPU ist es möglich Wenn man große LLMs feinabstimmen will H100-Cluster oder A100-Cluster Wenn man große LLMs trainieren will Großer H100-Cluster Wenn man lokale GPUs nutzt: Fast identisch mit oben, aber Training und Fine-Tuning von LLMs sind nicht möglich Die meisten LLMs haben Versionen, die auch mit wenig VRAM laufen können (Falcon auf 40GB) Sollte man Modelle lokal ausführen oder mit Cloud-GPUs? Beides ist eine vernünftige Wahl Wenn man Modelle in der Cloud ausführen will, sind die Vorlagen von Runpod die einfachste Wahl Die einfachste Option ist die Nutzung gehosteter Instanzen: DreamStudio, RunDiffusion, Playground AI für Stable Diffusion usw. Was ist der Unterschied zwischen RTX 6000, A6000 und 6000 Ada? Alle drei sind völlig unterschiedlich RTX 6000 (Quadro RTX 6000, 24 GB VRAM, veröffentlicht am 2018/08/13) RTX A6000 (48 GB VRAM, veröffentlicht am 2020/10/05) RTX 6000 Ada (48 GB VRAM, veröffentlicht am 2022/12/03) DGX GH200, GH200, H100? 1 DGX GH200 enthält 256 GH200 1 GH200 enthält 1 H100 und 1 Grace-CPU Ist H100 ein großes Upgrade gegenüber A100? Absolut. Der Geschwindigkeitszuwachs ist sehr groß. H100 lässt sich auf mehr GPUs skalieren als A100 Das heißt: Für LLM-Training sind mehrere H100 am besten Und AMD, Intel, Cerebras? Derzeit ist Nvidia am einfachsten Welche GPU-Cloud sollte man verwenden? Wenn man viele A100/H100 braucht: Oracle, FluidStack, Lambda Labs usw. kontaktieren Wenn man ein paar A100 braucht: FluidStack oder Runpod Wenn man 1 H100 braucht: FluidStack oder Lambda Labs Günstige 3090s, 4090s, A6000s: Tensordock Wenn man nur Stable-Diffusion-Inferenz braucht: Salad Wenn man viele verschiedene GPU-Typen braucht: Runpod oder FluidStack Wenn man Vorlagen nutzen oder es als Hobby betreiben will: Runpod Große Clouds sind teuer und komplex Mit welcher GPU-Cloud kommt man am leichtesten los? Vorlagen auf RunPod verwenden Beachten, dass RunPod-Pods keine voll ausgestatteten VMs sind, sondern Docker-Container auf dem Host-System Wie viel VRAM, System-RAM und wie viele vCPUs braucht man? VRAM (Video RAM / GPU RAM) Falcon-40B: 85–100GB MPT-30B: 80GB Stable Diffusion: bevorzugt 16GB+ oder mehr Whisper: 12GB+. (Wenn man die OpenAI-Version nutzt, ungefähr in diesem Bereich; mit Community-Versionen ist auch CPU-Betrieb möglich) System-RAM 1- bis 2-mal so viel wie der VRAM vCPUs 8–16 vCPU reichen aus, solange es sich nicht um große GPU-Workloads handelt Festplattenspeicher Hängt vom Use Case ab. Wenn man unsicher ist, mit 100GB anfangen und prüfen, ob das zum eigenen Use Case passt

(gpus.llm-utils.org)

37 Punkte von xguru 2023-08-23 | 6 Kommentare | Auf WhatsApp teilen

Wenn man AI-Tools mit Stable Diffusion, Whisper, Open-Source-LLMs usw. baut, müssen diese irgendwo dauerhaft laufen

Welche GPU sollte man verwenden?

Wenn man Cloud-GPUs nutzt:

Falcon-40B, Falcon-40B-Uncensored oder Falcon-40B-Instruct
- Wenn man unabhängig von den Kosten die beste Leistung will: 2x H100
- Wenn man ein Gleichgewicht zwischen Kosten und Leistung sucht: 2x RTX 6000 Ada (nicht A6000 oder RTX6000)
- Wenn es günstig sein soll: 2x A6000
MPT-30B
- Beste Leistung oder bestes Preis-Leistungs-Verhältnis: 1x H100
- Günstig: 1x A100 80GB
Stable Diffusion
- Beste Leistung: 1x H100
- Preis-Leistung: 1x 4090
- Günstig: 1x 3090
Whisper
- Gleich wie bei Stable Diffusion
- Whisper-Large kann mit weniger VRAM laufen, aber die meisten Clouds haben solche Karten nicht
- 4090/3090 funktionieren ebenfalls gut, und auch auf der CPU ist es möglich
Wenn man große LLMs feinabstimmen will
- H100-Cluster oder A100-Cluster
Wenn man große LLMs trainieren will
- Großer H100-Cluster
  Wenn man lokale GPUs nutzt:
Fast identisch mit oben, aber Training und Fine-Tuning von LLMs sind nicht möglich
Die meisten LLMs haben Versionen, die auch mit wenig VRAM laufen können (Falcon auf 40GB)

Sollte man Modelle lokal ausführen oder mit Cloud-GPUs?

Beides ist eine vernünftige Wahl
Wenn man Modelle in der Cloud ausführen will, sind die Vorlagen von Runpod die einfachste Wahl
Die einfachste Option ist die Nutzung gehosteter Instanzen: DreamStudio, RunDiffusion, Playground AI für Stable Diffusion usw.

Was ist der Unterschied zwischen RTX 6000, A6000 und 6000 Ada?

Alle drei sind völlig unterschiedlich

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, veröffentlicht am 2018/08/13)
RTX A6000 (48 GB VRAM, veröffentlicht am 2020/10/05)
RTX 6000 Ada (48 GB VRAM, veröffentlicht am 2022/12/03)

DGX GH200, GH200, H100?

1 DGX GH200 enthält 256 GH200
1 GH200 enthält 1 H100 und 1 Grace-CPU

Ist H100 ein großes Upgrade gegenüber A100?

Absolut. Der Geschwindigkeitszuwachs ist sehr groß. H100 lässt sich auf mehr GPUs skalieren als A100
Das heißt: Für LLM-Training sind mehrere H100 am besten

Und AMD, Intel, Cerebras?

Derzeit ist Nvidia am einfachsten

Welche GPU-Cloud sollte man verwenden?

Wenn man viele A100/H100 braucht: Oracle, FluidStack, Lambda Labs usw. kontaktieren
Wenn man ein paar A100 braucht: FluidStack oder Runpod
Wenn man 1 H100 braucht: FluidStack oder Lambda Labs
Günstige 3090s, 4090s, A6000s: Tensordock
Wenn man nur Stable-Diffusion-Inferenz braucht: Salad
Wenn man viele verschiedene GPU-Typen braucht: Runpod oder FluidStack
Wenn man Vorlagen nutzen oder es als Hobby betreiben will: Runpod
Große Clouds sind teuer und komplex

Mit welcher GPU-Cloud kommt man am leichtesten los?

Vorlagen auf RunPod verwenden
Beachten, dass RunPod-Pods keine voll ausgestatteten VMs sind, sondern Docker-Container auf dem Host-System

Wie viel VRAM, System-RAM und wie viele vCPUs braucht man?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85–100GB
- MPT-30B: 80GB
- Stable Diffusion: bevorzugt 16GB+ oder mehr
- Whisper: 12GB+. (Wenn man die OpenAI-Version nutzt, ungefähr in diesem Bereich; mit Community-Versionen ist auch CPU-Betrieb möglich)
System-RAM
- 1- bis 2-mal so viel wie der VRAM
vCPUs
- 8–16 vCPU reichen aus, solange es sich nicht um große GPU-Workloads handelt
Festplattenspeicher
Hängt vom Use Case ab. Wenn man unsicher ist, mit 100GB anfangen und prüfen, ob das zum eigenen Use Case passt

6 Kommentare

wlsdk318 2024-01-30

Ich nutze Runpod; es ist günstig, einfach zu bedienen und wirklich großartig! Vielen Dank für die nützlichen Informationen.

geekbini 2023-08-24

Sehr gute Informationen!

ninebow 2023-08-24

Kleinigkeit, aber es sah so aus, als würden unten etwa zwei Abschnitte fehlen, daher habe ich sie ergänzt. :)

Braucht man SXM oder PCIe, NVLink?

Wenn du dir nicht sicher bist, geh zunächst davon aus, dass es nicht wichtig ist
Wenn du mehr darüber erfahren möchtest: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

Wie sieht es mit InfiniBand aus?

Wenn du 1–2 GPUs verwendest, brauchst du es nicht. Wenn du Cluster mit Tausenden von GPUs nutzt, brauchst du es.