2 Punkte von GN⁺ 2023-07-31 | 1 Kommentare | Auf WhatsApp teilen
  • San Francisco Compute ist eine Gruppe, die Startups und Forschungslabore zusammenbringt, um Rechenressourcen für das Training großer Modelle gemeinsam zu kaufen und zu teilen.
  • Anstatt dass jedes Startup seinen eigenen GPU-Cluster kauft, kauft die Gruppe einen Cluster, dessen Gesamtzahl an GPUs proportional zur Zahl der Startups ist.
  • Auf Basis der Eigentumsanteile weist ein Job-Scheduler allen Startups die Rechenressourcen fair zu.
  • Dadurch können Startups das Modelltraining beschleunigen, indem sie eine Woche lang 512 GPUs nutzen, und vermeiden den Aufwand, einen Monat lang kontinuierlich 128 GPUs auszulasten.
  • Falls es ungenutzte Rechenressourcen gibt, kann der Scheduler einem Startup mehr Ressourcen als seine faire Zuteilung zuweisen.
  • Dieses Modell ähnelt dem, was große Forschungslabore wie OpenAI und Deepmind nutzen, ist aber für Startups mit kleineren Clustern und langfristigen Verträgen in der Regel leichter zugänglich.
  • Das Ziel ist es, Rechenressourcen zu etwa $2.00 pro H100-GPU mit burstartigen Zuteilungen und kurzfristigen Verträgen bereitzustellen.
  • Startups können der Gruppe beitreten, indem sie ein Formular ausfüllen oder die Organisatoren kontaktieren.
  • Startups können den Cluster nach einer Vorankündigungsfrist verlassen, und neue Startups können gesammelt hinzugefügt werden.
  • Die Gruppe kann leicht überprovisionieren, um kleine Experimente oder Anfragen von Bekannten zu guten Preisen zu ermöglichen.
  • Die Finanzierung des Cluster-Kaufs kann mit Unterstützung von Banken verteilt werden.
  • Die Gruppe plant, innerhalb von 4–6 Wochen 512 H100-GPUs online zu bringen, und kann bei hoher Nachfrage weitere Ressourcen hinzufügen.
  • Eine Mailingliste für Infrastruktur-Debugging und eine Slack-Gruppe stehen den Mitgliedern als Raum zur Verfügung, um Hilfe bei Infrastrukturproblemen zu erhalten.

1 Kommentare

 
GN⁺ 2023-07-31
Hacker-News-Kommentare
  • Ein Kommentator erwähnt ein ähnliches Projekt, an dem er zuvor beteiligt war, und hofft auf den Erfolg des Projekts
  • Ein Kommentator blickt auf Veränderungen bei der Verfügbarkeit von TPUs und auf Herausforderungen zurück, mit denen frühere Projekte konfrontiert waren
  • Ein Kommentator äußert sich optimistisch über das aktuelle Projekt und rät dem Team, die Ideen anderer aktiv aufzugreifen
  • Ein Kommentator vergleicht das Geschäftsmodell des Projekts mit Cloud-Anbietern wie AWS und Azure
  • Vorschlag, die Infrastruktur wegen der hohen Kosten außerhalb Kaliforniens zu hosten
  • Frage nach einem Vergleich des Projekts mit Lambda Labs
  • Frage nach dem potenziellen Nutzen des Projekts für Studierende und Graduate-Studierende
  • Empfehlung, für Hobby-Machine-Learning vast.ai zu nutzen
  • Erwähnung der Idee einer GPU-Genossenschaft
  • Frage nach dem Ursprung des Projektnamens und nach Plänen zur Einbindung der Community
  • Frage nach der Finanzierung für den Kauf von H100s
  • Die Kommentare enthalten zwei Fehlermeldungen