5 Punkte von xguru 2024-07-29 | 2 Kommentare | Auf WhatsApp teilen
  • Führt mit vLLM und einem selbst entwickelten autoskalierenden GPU-Scheduler fast alle Open-Source-LLMs aus
    • darunter Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 usw.
  • Funktioniert ohne besondere Konfiguration: Einfach einen Link zum Hugging-Face-Repository einfügen; unterstützt alle Full-Weight- und 4-Bit-AWQ-Repos
  • Nutzung von bis zu 8 Nvidia A100 80Gb GPUs möglich
  • Während der Beta kostenlos. Auch nach dem Ende der Beta soll es dank Multi-Tenancy günstiger sein als die GPU-Preise großer Cloud-Anbieter

2 Kommentare

 
wedding 2024-07-30

Ich habe mich gefragt, wie man llama 405b mal ausprobieren kann, aber es ist schnell und die Qualität ist auch gut.