- San Francisco Compute ist eine Gruppe, die Startups und Forschungslabore zusammenbringt, um Rechenressourcen für das Training großer Modelle gemeinsam zu kaufen und zu teilen.
- Anstatt dass jedes Startup seinen eigenen GPU-Cluster kauft, kauft die Gruppe einen Cluster, dessen Gesamtzahl an GPUs proportional zur Zahl der Startups ist.
- Auf Basis der Eigentumsanteile weist ein Job-Scheduler allen Startups die Rechenressourcen fair zu.
- Dadurch können Startups das Modelltraining beschleunigen, indem sie eine Woche lang 512 GPUs nutzen, und vermeiden den Aufwand, einen Monat lang kontinuierlich 128 GPUs auszulasten.
- Falls es ungenutzte Rechenressourcen gibt, kann der Scheduler einem Startup mehr Ressourcen als seine faire Zuteilung zuweisen.
- Dieses Modell ähnelt dem, was große Forschungslabore wie OpenAI und Deepmind nutzen, ist aber für Startups mit kleineren Clustern und langfristigen Verträgen in der Regel leichter zugänglich.
- Das Ziel ist es, Rechenressourcen zu etwa $2.00 pro H100-GPU mit burstartigen Zuteilungen und kurzfristigen Verträgen bereitzustellen.
- Startups können der Gruppe beitreten, indem sie ein Formular ausfüllen oder die Organisatoren kontaktieren.
- Startups können den Cluster nach einer Vorankündigungsfrist verlassen, und neue Startups können gesammelt hinzugefügt werden.
- Die Gruppe kann leicht überprovisionieren, um kleine Experimente oder Anfragen von Bekannten zu guten Preisen zu ermöglichen.
- Die Finanzierung des Cluster-Kaufs kann mit Unterstützung von Banken verteilt werden.
- Die Gruppe plant, innerhalb von 4–6 Wochen 512 H100-GPUs online zu bringen, und kann bei hoher Nachfrage weitere Ressourcen hinzufügen.
- Eine Mailingliste für Infrastruktur-Debugging und eine Slack-Gruppe stehen den Mitgliedern als Raum zur Verfügung, um Hilfe bei Infrastrukturproblemen zu erhalten.
1 Kommentare
Hacker-News-Kommentare