- Das größte offen verfügbare Sprachmodell mit 180 Milliarden Parametern
- Unter den offenen Modellen auf Rang 1 des Leaderboards. Übertrifft Llama 2 70B und GPT-3.5 und konkurriert mit PaLM-2
- Mit 3,5T Token auf dem RefinedWeb-Datensatz von TII (größtenteils Englisch) trainiert
- 2,5-mal größer als Llama 2 und mit mehr als der vierfachen Rechenleistung trainiert (unter Verwendung von 4096 GPUs auf Amazon SageMaker)
- Falcon 180B kann kommerziell genutzt werden, jedoch nur unter sehr eingeschränkten Bedingungen, ausgenommen „Hosting-Nutzung“. Lizenz unbedingt prüfen
- Hardware-Anforderungen
- Vollständiges Fine-Tuning: 5120 GB Speicher, 8x 8x A100 80GB
- LoRA mit ZeRO-3: 1280 GB, 2x 8x A100 80GB
- QLoRA: 160 GB, 2x A100 80GB
- Inferenz BF16/FP16: 640 GB, 8x A100 80GB
- Inferenz GPTQ/int4: 320 GB, 8x A100 40GB
1 Kommentare
Die Größe ist enorm. Auch die Hardware-Anforderungen sind entsprechend hoch ...