San Francisco Compute: 512 H100s für Startups zu einem Stundenpreis von unter 2 US-Dollar

(sfcompute.org)

2 Punkte von GN⁺ 2023-07-31 | 1 Kommentare | Auf WhatsApp teilen

Mehrere Startups und Forschungslabore kaufen gemeinsam einen GPU-Cluster, um sich die für das Training großer Modelle nötigen Rechenressourcen gemeinsam zu sichern
Statt einzeln N GPUs zu kaufen, schließen sich K Startups zusammen und kaufen gemeinsam einen Cluster im Umfang von N×K
Ein Job Scheduler verteilt die Rechenleistung fair im Verhältnis zu den Eigentumsanteilen; wenn ungenutzte Kapazität entsteht, wird sie zusätzlich zugewiesen
Statt 128 A100 einen ganzen Monat lang auszulasten, kann man eine Woche lang auf 512 A100 im Burst gehen und Modelle schneller trainieren
Eine Struktur, die Startups die Burst-Zuteilung bietet, die bisher nur große Forschungslabore wie OpenAI und DeepMind nutzen konnten

Kernidee

Statt dass K Startups jeweils einen Cluster mit N GPUs kaufen, erwerben sie gemeinsam einen GPU-Cluster mit N×K GPUs
Ein Job Scheduler sorgt dafür, dass jedes Startup Rechenleistung fair proportional zu seinem Eigentumsanteil erhält
Wenn ungenutzte Rechenleistung anfällt, weist der Scheduler sie unverändert zu; mit etwas Glück kann man also mehr Rechenleistung nutzen, als dem eigenen Anteil entspricht
Statt 128 A100 einen Monat lang dauerhaft auszulasten, kann man eine Woche lang auf bis zu 512 A100 bursten und so Modelle schneller bereitstellen
Große Forschungslabore wie OpenAI und DeepMind verfügen über große Cluster, die Burst-Zuteilungen für Forschende unterstützen
- Startups konnten sich dagegen bislang über sehr lange langfristige Verträge nur sehr kleine Cluster sichern, mussten monatelang warten und diese ständig ausgelastet halten
Ziel ist ein Niveau von etwa 2,00 US-Dollar pro H100, bei gleichzeitiger Nutzung von Burst-Zuteilung und kurzfristigen Verträgen
Interessierte Startups füllen das Antragsformular aus; Anfragen per E-Mail an evan@roomservice.dev

Beitritt, Austritt und Erweiterung

Wie in einem Hacker House ist beim Verlassen des Clusters (z. B. Aufbau eines eigenen Clusters) eine Vorankündigung von ein bis zwei Monaten nötig, damit der Platz mit jemand anderem besetzt werden kann
Neue Startups werden batchweise zur Gruppe hinzugefügt; alle paar Monate kommen neue H100 zum Cluster hinzu
Dasselbe gilt, wenn ein bereits zur Gruppe gehörendes Unternehmen seine Rechenkapazität erweitern möchte
Es wird ein leichtes Overprovisioning erwogen – z. B. wenn ein Freund für ein kleines Experiment ein paar Nodes möchte, kann man sie sofort zu einem guten Preis bereitstellen
- Bei 10 % Overprovisioning steigt der Stundenpreis pro H100 um 10 %

Finanzen

Es gibt einen vielversprechenden Weg, 512 H100 innerhalb von 4 bis 6 Wochen in Betrieb zu nehmen
Falls die Nachfrage darüber hinausgeht, können innerhalb von etwa 8 Wochen zusätzliche H100 beschafft werden
Dank guter Konditionen einer Bank lassen sich die Kaufkosten des Clusters verteilen, sodass kurzfristige Verträge und Burst-Zuteilungen erhalten bleiben und ein Niveau von 2,00 US-Dollar pro H100 erreichbar ist

Infrastruktur

Eine Mailingliste/Slack für Infrastruktur-Debugging wird geteilt; bei Problemen etwa mit InfiniBand kann man die Gruppe fragen
Wenn jemand dasselbe Problem bereits behandelt hat, hilft man sich gegenseitig

1 Kommentare

GN⁺ 2023-07-31

Hacker-News-Kommentare

Ich hoffe, es hat Erfolg. Die TPU Research Cloud (TRC) hat 2019 so etwas versucht, und das war für mich der Anstoß, überhaupt anfangen zu können.
2023 ist es schwer, auch nur eine TPU für mehr als eine Stunde zu bekommen, aber damals konnte man buchstäblich Hunderte erhalten. Ich glaubte an TRC und dachte, wenn man es skaliert und einen TPU-Kontinent baut, würde sich das Problem lösen; am Ende wurden TPU-Zeiten jedoch bevorzugt internen Forschern zugeteilt und knapper. Die Welt hat sich so sehr verändert, dass man heute ausgelacht würde, wenn man vorschlägt, GPT mit H100s Schach beizubringen.
Dieses Projekt hat einen jugendlichen Optimismus, den ich nicht verloren sehen möchte, und langfristig könnte genau das der Weg zum Sieg sein. Wenn jemand mit einer verrückten Idee vorbeikommt und um ein winziges Stück einer H100 bittet, hoffe ich, dass ihr ihn nehmt. Das war der einzige Grund, warum aus mir überhaupt etwas werden konnte.
- „Das Projekt hat jugendlichen Optimismus“ ist das Beste, was ich bisher gehört habe. So sehr, dass ich es einrahmen und an die Wand hängen möchte.
  Verrückte Anfragen nach einem kleinen Stück einer H100 wollen wir natürlich auch annehmen.
- Tatsächlich läuft das TPU Research Cloud-Programm immer noch gut. Der Compute-Pool wurde stark erweitert und umfasst inzwischen auch Cloud TPU v4 Pod Slices; große Projekte nutzen weiterhin Hunderte Chips auf einmal. Die TRC-Kapazität wurde nicht für interne Zwecke zurückgezogen.
  Eine aktuelle Liste der von TRC unterstützten Paper findet sich unter https://sites.research.google/trc/publications/.
  Da die Nachfrage nach Cloud TPU sehr stark ist, kann es bei Nutzung preemptibler Kapazität häufiger zu Unterbrechungen kommen, aber reservierte Kapazität ist ebenfalls möglich. Es wäre gut, das TRC-Supportteam zu kontaktieren.
- Überraschenderweise habe ich dieses Licht wohl erst jetzt gesehen. In früheren Beiträgen habe ich nur Lob für TRC gelesen, aber als jemand, der später angefangen hat, habe ich mit meiner eigenen Gaming-GPU deutlich mehr erreicht.
  Der Vergleich ist nicht ganz deckungsgleich, aber TRC war sehr schwer zu handhaben, Zugriff auf TPUv3 hatte ich nur einmal, und selbst um die Grundlagen zu lernen, war die Zeit zu knapp. Ich habe es so verstanden, dass es stark davon abhängt, welche E-Mail-Adresse man verwendet und wie bekannt der Twitter-Account ist.
- Meine Erfahrung war anders. Wenn man bedenkt, dass die Bewerbung recht einfach ist, finde ich es immer noch ziemlich großzügig. In den letzten sechs Monaten wurden mir für mehrere Projekte v3-8, v3-32 für 30 Tage und preemptible v3-64 für 28 Tage angeboten.
  Ich frage mich, ob du aus der Wissenschaft kommst. Falls nicht, weiß ich nicht, warum man zu mir großzügiger war; meine Projekte waren bestenfalls nur ein wenig interessant. Allerdings stimmt es, dass sie bei großen Pods deutlich geiziger geworden sind als früher.
- Shawn hat völlig recht. Die Konkurrenz ist im Moment so heiß, dass es keinen solchen Spielraum gibt. Ein einzelner Kunde kann 512 GPUs für 3 Jahre abnehmen.
„Statt dass jedes von K Startups separat N GPU-Cluster kauft, kaufen sie gemeinsam einen NK-GPU-Cluster und verteilen die Rechenleistung über einen Job-Scheduler“ sieht theoretisch fast genauso aus wie das Modell von Cloud-Anbietern wie AWS und Azure.
Die Struktur lautet: „Statt dass alle feste Hardware einzeln kaufen, kaufen wir einen riesigen Hardware-Pool und lassen ihn per Time-Sharing nutzen.“ Abgesehen davon, dass Cloud-Anbieter ihre Preise wegen ihrer Nettomargen anheben müssen, frage ich mich, was hier noch übersehen wird, sodass so ein Projekt nötig wird.
- Hauptsächlich wegen Preis und Verfügbarkeit.
  Erstens erwarten Investoren öffentlicher Clouds eine bestimmte Margenstruktur, sodass es schwer ist, mit den Margen von Lambda oder Fluidstack zu konkurrieren. Zweitens sind die großen Clouds auch beim Networking für das Training großer Sprachmodelle bis zu einem gewissen Grad im Nachteil. Soweit ich weiß, hat nur Azure InfiniBand; Oracle hat 3200 Gbps, aber kein InfiniBand, und bei AWS dürfte es ähnlich sein. Bei GCP bin ich mir nicht sicher, aber ich erinnere mich, dass die Networking-Geschwindigkeit bei A100 nicht 1600 Gbps, sondern 100 Gbps betrug. Lambda, Fluidstack und CoreWeave hingegen haben alle InfiniBand. Drittens teilt Nvidia den großen Clouds nicht so viel Kontingent zu, wie sie gern hätten.
- Die großen Clouds machen das ebenfalls. Alle großen Cloud-Anbieter bereiten Funktionen für kurzfristige Anfragen/Reservierungen vor. Vor generativer KI war das keine besonders nützliche Funktion. Wie oft musste man schon in einer Availability Zone für 48 Stunden 1000 CPU-Nodes anfordern?
  Zweitens gibt es hier das Grundproblem der Ressourcenteilung. Auch bei diesem Projekt von Evan und AI Grant stellt sich die Frage: Wenn ein Team genug Geld hat, um den gesamten Cluster dauerhaft zu belegen, warum sollte man es daran hindern? Die Frage ist, was genau als faire Nutzung gilt. Im Networking gibt es Algorithmen zur Bandbreitenteilung wie TCP Fairness, aber für solche klumpigen Jobs passt das nicht gut.
  In den nächsten Monaten werden AWS und andere wohl versuchen, Queue-Services anzubieten, mit denen man sich vorübergehend Rechenblöcke zuweisen lassen kann, vermutlich mit Vorauszahlung und hohen Kosten. Es könnte sogar teurer sein als On-Demand-Preise.
- AWS und Azure würden sich eher selbst die Kehle durchschneiden, als eine Möglichkeit zu schaffen, mit der Kunden Instanzen bündeln und Kosten sparen können.
  Sie betreiben dieses Pooling selbst und wollen die Kundenbeziehung und den Gewinn nicht an Vermittler oder Kunden abgeben.
Als jemand, der Infrastruktur in mehreren Colocation-Rechenzentren in CA betrieben hat: Wenn möglich, sollte man sie woanders unterbringen. Stromkosten in Kalifornien und andere Infrastrukturkosten sind deutlich höher als in AZ oder NV.
- Mit günstigem Strom und dem Vorteil des CAD-USD-Wechselkurses scheint Montreal gut geeignet zu sein.
- Beim Preis von GPU-Compute scheint Strom nur einen sehr kleinen Anteil auszumachen.
Ich habe den Satz gelesen: „Kein Cloud-Anbieter der Welt gibt einem für nur ein paar Wochen Rechenleistung im Wert von 100.000 Dollar.“ Ich habe zwar noch nie sehr große Compute-Kapazität gekauft, aber ich dachte, genau das sei der Kern der Cloud.
Ich frage mich, worin der Unterschied zu https://lambdalabs.com/ besteht
- Wir betreiben Rechenleistung mittlerer Größe mit null Marge. Es geht nicht darum, an Fortune-500-Unternehmen zu verkaufen, sondern darum, Doktoranden zu ermöglichen, ein Forschungsbudget von 50.000 Dollar einzusetzen.
  Ein paar A100/H100 zu bekommen, ist derzeit ziemlich einfach, und Lambda ist für diesen Zweck ebenfalls großartig. Aber 24 oder mehr zu einem vernünftigen Preis, grob 2 Dollar pro Stunde, zu bekommen, ist sehr schwierig. Selbst wenn man auf H100 nur ein 8-stündiges Training laufen lassen will, wird oft eine Bindung von mehr als 6 Monaten verlangt.
  Dass GPU-Broker langfristige Reservierungen bevorzugen, ist geschäftlich eine nachvollziehbare Entscheidung, und wenn wir in ihrer Position wären, könnten wir das auch so machen. Aber unser Ziel ist ein anderes: die Rebellen zu bewaffnen. Wir wollen, dass auch jemand, der nicht BigCorp ist, Modelle trainieren kann.
- Die Preise sind sehr ähnlich, aber das Modell wirkt ziemlich anders. Der wichtige Unterschied könnte darin liegen, wenn man häufig kurze Trainingsläufe über viele GPUs fährt. Lambdalabs kann einem möglicherweise nicht sofort 256 Instanzen geben.
  Der Ansatz aus dem ursprünglichen Beitrag ist eher so, dass man das Recht kauft, Jobs in die Warteschlange eines 512-GPU-Clusters einzureihen; ein Job, der 256 GPUs benötigt, ist also kein Problem. Allerdings kann es sein, dass man hinter jemandem wartet, der einen 512-GPU-Job laufen lässt.
  Ich weiß nicht, wie viel Kapazität Lambdalabs tatsächlich hat. Ich frage mich, ob jemand weiß, wie einfach es dort ist, mehr als 2–3 Instanzen hochzufahren.
- Normalerweise bekommt man H100 nur in kleinen Stückzahlen auf einmal, wenn man sich nicht auf langfristige Reserved Instances festlegt.
- Es gibt praktisch keine Möglichkeit, ohne Verpflichtung große Blöcke zu bekommen. Soweit ich mich erinnere, lag die Mindestbindung für H100 bei 64 GPUs für 3 Jahre, etwa 3 Millionen Dollar.
- 2 Dollar pro Stunde für eine H100 wirken flexibler, aber ich habe bei so einem Dienst noch nie 10.000 GPU-Stunden beschafft. Vielleicht liegt genau dort der Engpass.
Persönlich interessiere ich mich sehr für AI und bin seit einigen Jahren damit befasst, aber eine solche GPU-Knappheit wie jetzt habe ich noch nie gesehen. Wer als Hobby mit Machine Learning experimentieren möchte, dem empfehle ich nachdrücklich vast.ai.
- Als weitere Clouds gibt es für H100 und A100 Lambda, Fluidstack, RunPod, CoreWeave, Crusoe, Oblivus und Latitude.
  Für GPUs außer A100/H100 kommen vast, TensorDock und ebenfalls RunPod infrage.
- Je nachdem, wie man Hobby definiert, war modal.com ziemlich gut, um zum Kennenlernen von Tools und Konzepten T4 jeweils ein paar Minuten laufen zu lassen.
  Derzeit resellen sie AWS und GCP und haben auch A100, aber momentan reicht T4 aus.
- vast.ai ist eher ein Gig-Economy-Marktplatz für GPUs. Ich habe gerade meine erste Maschine ausprobiert; sie lief gut, hatte 512 GB RAM, 256 AMD-CPU-Kerne und eine A100-GPU, und ich habe für 0,05 Dollar etwa 4 Minuten genutzt. Dieser Betrag wurde mir sogar kostenlos bereitgestellt.
Ich verstehe, dass AWS/GCP/Azure Overhead haben und warum viele Unternehmen im Betrieb Bare Metal wählen. Persönlich glaube ich zwar, dass sich Zeit und Aufwand selten lohnen, aber ich kann nachvollziehen, dass die Einsparungen bei großem Maßstab erheblich sein können.
Wenn die Public Cloud aber auch bei AI-Training für burstartige Nachfrage nicht wettbewerbsfähig ist, dann sind ihre Margen deutlich höher als erwartet. Ich frage mich, womit die im Originalbeitrag genannten 10- bis 20-fachen Kosteneinsparungen verglichen werden. Mit AWS?
- p5.48xlarge von AWS kostet 98,32 Dollar pro Stunde für 8 H100, also 12,29 Dollar pro Stunde pro H100. Das ist ungefähr der 6-fache Preis.
Als jemand, der SF mag, frage ich mich, ob es an dem Namen etwas Interessantes gibt. Ob die Hardware tatsächlich in SF steht, und ob geplant ist, Meetups zu veranstalten oder Kunden zum Austausch zusammenzubringen.
Wir sind noch nicht wie Xerces blue verschwunden, es gibt uns noch.
https://en.wikipedia.org/wiki/Xerces_blue
- Die Hardware wird nicht in SF stehen. Es ist nicht gerade der günstigste Standort für Rechenzentrumsfläche.
  Aber viele der Kunden werden vermutlich hier sein. SF ist wahrscheinlich immer noch der beste Ort, um ein Startup zu gründen. Es gibt unglaublich viele Menschen, die schwierige technische Probleme lösen. In jeder Wohnung, in der ich in SF gewohnt habe, gab es im Stockwerk darüber oder darunter ein anderes Startup.
  Offline-Veranstaltungen zu organisieren, ist auch eine gute Idee.
Mir gefällt die Idee eines Community-Assets. Könnte das der Anfang einer GPU-Genossenschaft werden?
- Für Consumer-Karten gibt es so etwas bereits. Mit vast.AI kann man mit seiner eigenen GPU Geld verdienen.
  https://cloud.vast.ai/host/setup
- Ich kenne die interne Infrastruktur von Twitter überhaupt nicht, aber angesichts sinkender Werbeumsätze, geringerer Nutzeraktivität und des Zustroms zu Threads könnte ich mir vorstellen, dass Twitter einen Teil seiner Infrastruktur zur Unterstützung solcher Startups einsetzen könnte.
  Rackspace, VMs, Container, Konnektivität – was auch immer. Im Grunde würde Twitter zu einem Colocation-Anbieter wie Ende der 90er zurückfallen.
  Für alle, die es nicht bemerkt haben: Das war ein Witz.
Ich frage mich, wie sie das Geld aufgebracht haben, um 512 H100 zu kaufen.
- Wie im ersten Satz des Artikels klar steht, sind das VC-Investoren, die das für die Startups tun, in die sie gerade investiert haben, und sie suchen auch nach weiteren Teilnehmern.

San Francisco Compute: 512 H100s für Startups zu einem Stundenpreis von unter 2 US-Dollar

Kernidee

Beitritt, Austritt und Erweiterung

Finanzen

Infrastruktur

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare