Cloud-GPU-Leitfaden – Welche GPU sollte man für AI wo einsetzen?
(gpus.llm-utils.org)- Wenn man AI-Tools mit Stable Diffusion, Whisper, Open-Source-LLMs usw. baut, müssen diese irgendwo dauerhaft laufen
Welche GPU sollte man verwenden?
Wenn man Cloud-GPUs nutzt:
- Falcon-40B, Falcon-40B-Uncensored oder Falcon-40B-Instruct
- Wenn man unabhängig von den Kosten die beste Leistung will: 2x H100
- Wenn man ein Gleichgewicht zwischen Kosten und Leistung sucht: 2x RTX 6000 Ada (nicht A6000 oder RTX6000)
- Wenn es günstig sein soll: 2x A6000
- MPT-30B
- Beste Leistung oder bestes Preis-Leistungs-Verhältnis: 1x H100
- Günstig: 1x A100 80GB
- Stable Diffusion
- Beste Leistung: 1x H100
- Preis-Leistung: 1x 4090
- Günstig: 1x 3090
- Whisper
- Gleich wie bei Stable Diffusion
- Whisper-Large kann mit weniger VRAM laufen, aber die meisten Clouds haben solche Karten nicht
- 4090/3090 funktionieren ebenfalls gut, und auch auf der CPU ist es möglich
- Wenn man große LLMs feinabstimmen will
- H100-Cluster oder A100-Cluster
- Wenn man große LLMs trainieren will
- Großer H100-Cluster
Wenn man lokale GPUs nutzt:
- Großer H100-Cluster
- Fast identisch mit oben, aber Training und Fine-Tuning von LLMs sind nicht möglich
- Die meisten LLMs haben Versionen, die auch mit wenig VRAM laufen können (Falcon auf 40GB)
Sollte man Modelle lokal ausführen oder mit Cloud-GPUs?
- Beides ist eine vernünftige Wahl
- Wenn man Modelle in der Cloud ausführen will, sind die Vorlagen von Runpod die einfachste Wahl
- Die einfachste Option ist die Nutzung gehosteter Instanzen: DreamStudio, RunDiffusion, Playground AI für Stable Diffusion usw.
Was ist der Unterschied zwischen RTX 6000, A6000 und 6000 Ada?
Alle drei sind völlig unterschiedlich
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, veröffentlicht am 2018/08/13)
- RTX A6000 (48 GB VRAM, veröffentlicht am 2020/10/05)
- RTX 6000 Ada (48 GB VRAM, veröffentlicht am 2022/12/03)
DGX GH200, GH200, H100?
- 1 DGX GH200 enthält 256 GH200
- 1 GH200 enthält 1 H100 und 1 Grace-CPU
Ist H100 ein großes Upgrade gegenüber A100?
- Absolut. Der Geschwindigkeitszuwachs ist sehr groß. H100 lässt sich auf mehr GPUs skalieren als A100
- Das heißt: Für LLM-Training sind mehrere H100 am besten
Und AMD, Intel, Cerebras?
- Derzeit ist Nvidia am einfachsten
Welche GPU-Cloud sollte man verwenden?
- Wenn man viele A100/H100 braucht: Oracle, FluidStack, Lambda Labs usw. kontaktieren
- Wenn man ein paar A100 braucht: FluidStack oder Runpod
- Wenn man 1 H100 braucht: FluidStack oder Lambda Labs
- Günstige 3090s, 4090s, A6000s: Tensordock
- Wenn man nur Stable-Diffusion-Inferenz braucht: Salad
- Wenn man viele verschiedene GPU-Typen braucht: Runpod oder FluidStack
- Wenn man Vorlagen nutzen oder es als Hobby betreiben will: Runpod
- Große Clouds sind teuer und komplex
Mit welcher GPU-Cloud kommt man am leichtesten los?
- Vorlagen auf RunPod verwenden
- Beachten, dass RunPod-Pods keine voll ausgestatteten VMs sind, sondern Docker-Container auf dem Host-System
Wie viel VRAM, System-RAM und wie viele vCPUs braucht man?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85–100GB
- MPT-30B: 80GB
- Stable Diffusion: bevorzugt 16GB+ oder mehr
- Whisper: 12GB+. (Wenn man die OpenAI-Version nutzt, ungefähr in diesem Bereich; mit Community-Versionen ist auch CPU-Betrieb möglich)
- System-RAM
- 1- bis 2-mal so viel wie der VRAM
- vCPUs
- 8–16 vCPU reichen aus, solange es sich nicht um große GPU-Workloads handelt
- Festplattenspeicher
- Hängt vom Use Case ab. Wenn man unsicher ist, mit 100GB anfangen und prüfen, ob das zum eigenen Use Case passt
6 Kommentare
Ich nutze Runpod; es ist günstig, einfach zu bedienen und wirklich großartig! Vielen Dank für die nützlichen Informationen.
Sehr gute Informationen!
Kleinigkeit, aber es sah so aus, als würden unten etwa zwei Abschnitte fehlen, daher habe ich sie ergänzt. :)
Braucht man SXM oder PCIe, NVLink?
Wie sieht es mit InfiniBand aus?
Vielen Dank für den tollen Artikel!
Für Betroffene sind das wirklich äußerst wertvolle Informationen.
Oh, das ist wirklich sehr nützliches Material.