1 Punkte von GN⁺ 13 일 전 | 2 Kommentare | Auf WhatsApp teilen
  • Darkbloom ist ein Netzwerk für dezentrale KI-Inferenz, das ungenutzte Apple Silicon Macs verbindet und KI-Berechnungen auf privaten Geräten statt in einer zentralen Cloud ausführt
  • Durch die Beseitigung der dreifachen Margenstruktur zwischen bestehenden GPU-, Cloud- und API-Anbietern werden bis zu 70 % Kostenersparnis erreicht
  • Alle Anfragen sind Ende-zu-Ende verschlüsselt, sodass Betreiber keine Nutzerdaten einsehen können; Vertrauen wird über eine attestierte Kette auf Basis von Apples Sicherheits-Hardware hergestellt
  • Es wird eine OpenAI-kompatible API bereitgestellt, die dieselben Funktionen wie bestehende SDKs für Chat, Bildgenerierung und Spracherkennung unterstützt
  • Betreiber behalten 95–100 % der Einnahmen und können mit ungenutzten Macs Einnahmen in USD erzielen, ohne zusätzliche Kosten außer Strom

Persönliches KI-Inferenznetzwerk mit ungenutzten Macs

  • Darkbloom ist ein von Eigen Labs entwickeltes dezentrales KI-Inferenznetzwerk, das ungenutzte Apple Silicon Macs verbindet, um KI-Berechnungen auszuführen
  • Der heutige KI-Rechenmarkt durchläuft eine dreistufige Margenstruktur von GPU-Herstellern → Hyperscalern → API-Anbietern → Endnutzern; Darkbloom beseitigt diese Struktur und ermöglicht so bis zu 70 % geringere Kosten
  • Netzwerkbetreiber können keine Nutzerdaten einsehen, und alle Anfragen werden Ende-zu-Ende verschlüsselt verarbeitet
  • Die API ist OpenAI-kompatibel und unterstützt wie bestehende SDKs Chat-, Bildgenerierungs- und Spracherkennungsfunktionen
  • Betreiber behalten 95–100 % der Einnahmen, bei kaum zusätzlichen Kosten außer Strom

Funktionen für Nutzer

  • Da die Grenzkosten ungenutzter Hardware nahe null liegen, werden die eingesparten Kosten direkt an die Nutzerpreise weitergegeben
  • Über eine OpenAI-kompatible API werden Chat-, Bildgenerierungs- und Speech-to-Text-Funktionen angeboten
  • Alle Anfragen werden Ende-zu-Ende verschlüsselt übertragen

Funktionen für Hardware-Besitzer

  • Nutzer mit einem Apple Silicon Mac können in Leerlaufzeiten KI-Inferenz ausführen und dadurch Einnahmen in USD erzielen
  • Betreiber behalten 100 % der Inferenz-Einnahmen, während die Stromkosten bei $0.01–$0.03 pro Stunde liegen
  • Der verbleibende Betrag ist Reingewinn

Strukturelle Probleme des KI-Rechenmarkts

  • Der heutige KI-Rechenmarkt folgt einer dreifachen Margenstruktur von GPU-Herstellern → Cloud-Anbietern → KI-Unternehmen → Endnutzern
  • Dadurch zahlen Endnutzer mehr als das Dreifache der tatsächlichen Siliziumkosten
  • Gleichzeitig bleiben über 100 Millionen Apple-Silicon-Geräte im Durchschnitt mehr als 18 Stunden pro Tag ungenutzt
  • Werden diese ungenutzten Rechenressourcen vernetzt, lässt sich dezentrale Asset-Nutzung ähnlich wie bei Airbnb oder Uber realisieren
  • Darkbloom verwandelt solche ungenutzten Macs in KI-Inferenzknoten und ersetzt damit zentralisierte Infrastruktur

Vertrauensproblem und Lösungsansatz

  • Das zentrale Problem dezentraler Rechennetzwerke ist Vertrauen
  • Nutzer müssen ihre Daten auf Geräten unbekannter Dritter verarbeiten lassen; einfache Sicherheit auf Basis von Nutzungsbedingungen reicht dafür nicht aus
  • Ohne nachweisbare Privatsphäre (Verifiable Privacy) ist dezentrale Inferenz nicht möglich

Der technische Ansatz von Darkbloom

  • Entfernung von Zugriffspfaden

    • Alle Softwarepfade, über die Betreiber auf Daten zugreifen könnten, werden entfernt
    • Das System besteht aus vier unabhängigen Schichten, die jeweils überprüfbar sind
  • Verschlüsselungsschicht

    • Anfragen werden auf dem Gerät des Nutzers vor der Übertragung verschlüsselt
    • Der Coordinator leitet nur Chiffretext weiter; entschlüsseln kann nur der Hardware-Schlüssel des Zielknotens
  • Hardware-Schicht

    • Jeder Knoten besitzt Schlüssel, die in Apples Sicherheits-Hardware erzeugt wurden
    • Die Verifikation erfolgt über eine Attestation Chain, die von der Apple Root CA ausgeht
  • Laufzeitschicht

    • Der Inferenzprozess wird auf Betriebssystemebene gesperrt
    • Debugger-Verbindungen und Speicherinspektion werden blockiert
    • Betreiber können keine Daten aus laufenden Prozessen extrahieren
  • Ausgabeschicht

    • Alle Antworten können über die Signatur der jeweiligen Hardware verifiziert werden
    • Die vollständige Attestation Chain ist öffentlich, sodass jeder sie unabhängig prüfen kann
  • Dadurch führen Betreiber zwar die Inferenz aus, können die Daten aber nicht einsehen

    • Prompts werden vor der Übertragung verschlüsselt
    • Der Coordinator routet sie weiter, ohne den Inhalt lesen zu können
    • Der Provider entschlüsselt und führt sie in einer verifizierten isolierten Umgebung aus
    • Die Attestation Chain ist öffentlich und sorgt für Transparenz

Implementierungsdetails

  • OpenAI-kompatible API

    • Vollständig kompatibel mit bestehenden OpenAI SDKs
    • Nutzbar mit demselben Code, wenn lediglich die Base URL geändert wird
    • Streaming, Function Calling, Image Generation und Speech-to-Text werden vollständig unterstützt
    • Unterstützte Funktionen
    • Streaming: SSE-basiert, im OpenAI-Format
    • Image Generation: FLUX.2 on Metal
    • Speech-to-Text: Cohere Transcribe
    • Large MoE: Unterstützung für Modelle mit bis zu 239B Parametern

Ergebnisse des Kostenvergleichs

  • Da die Grenzkosten ungenutzter Hardware nahezu null sind, ergibt sich ein Preissenkungseffekt
  • Keine Abogebühren und keine Mindestnutzungsmengen
  • Gegenüber OpenRouter liegen die Kosten rund 50 % niedriger
Modell Eingabe Ausgabe OpenRouter Ersparnis
Gemma 4 26B4B $0.03 $0.20 $0.40 50%
Qwen3.5 27B $0.10 $0.78 $1.56 50%
Qwen3.5 122B MoE $0.13 $1.04 $2.08 50%
MiniMax M2.5 239B $0.06 $0.50 $1.00 50%
  • Bildgenerierung: $0.0015/Bild (50 % günstiger als Together.ai)
  • Spracherkennung: $0.001/Minute (50 % günstiger als AssemblyAI)
  • 0 % Plattformgebühr, Betreiber behalten 100 % der Einnahmen

Wirtschaftlichkeit für Betreiber

  • Wer ein Apple-Silicon-Gerät bereitstellt, kann Einnahmen in USD erzielen
  • Keine zusätzlichen Kosten außer Strom, bei 100 % Einbehalt der Einnahmen
  • Unterstützt wird eine CLI-Installation; eine macOS-Menüleisten-App ist in Entwicklung
  • Installationsmethode

    • Download des Provider-Binaries per Terminal-Befehl und Registrierung als launchd-Service
    • Keine Abhängigkeiten**,** automatische Updates**,** Ausführung im Hintergrund

      • Nur für macOS 14 oder neuer und Apple Silicon
  • Erwartete Einnahmen

    • Eine Einnahmenprognose ist auf Basis von 18 Stunden Betrieb pro Tag möglich
    • Die tatsächlichen Einnahmen variieren je nach Netzwerknachfrage und Beliebtheit der Modelle

Forschung und Modellkatalog

  • Das Forschungspapier erläutert Architektur, Bedrohungsmodell, Sicherheitsanalyse und Wirtschaftsmodell im Detail
  • Behandelt wird eine private Inferenzarchitektur auf Basis hardwaregestützter Verifikation
  • PDF-Download-Link
  • Verfügbare Modelle

    • Gemma 4 26B: Googles neuestes multimodales MoE mit 4B aktiven Parametern
    • Qwen3.5 27B: Hochwertiges Inferenzmodell (Claude Opus distillation)
    • Qwen3.5 122B MoE: 10B aktive Parameter, Spitzenqualität pro Token
    • MiniMax M2.5 239B: SOTA-Coding-Modell, 100 tok/s auf Mac Studio
    • Cohere Transcribe: 2B conformer, Spracherkennung auf Spitzenniveau

2 Kommentare

 
shw00 9 일 전

Konzeptionell ist das interessant, aber ob es in der Praxis wirklich gut funktioniert, ist fraglich. Wie auch in einigen HN-Meinungen angemerkt wurde, ist ein zweiseitiger Markt (two-sided market) problematisch, weil man auf beiden Seiten erfolgreich früh erste Kundschaft gewinnen muss.

 
GN⁺ 13 일 전
Hacker-News-Kommentare
  • Ich fand ihre Umsatzrechnung schwer glaubwürdig.
    Wenn sich ein Mac mini in 2–4 Monaten amortisiert und danach jeden Monat 1.000–2.000 Dollar einbringt, fragt man sich, warum sie nicht einfach selbst Mac minis kaufen und betreiben.

    • Die Rechnung selbst basiert auf optimistischen Annahmen. Sie setzt voraus, dass für alle Maschinen jederzeit Nachfrage besteht.
      Im Moment ist das nicht so, aber man hofft, dass es irgendwann so sein wird. Deshalb würde ich nicht empfehlen, neue Geräte dafür zu kaufen. Wenn man vorhandene Geräte nutzt, entstehen fast keine Kosten.
      Stromkosten fallen nur an, wenn Anfragen hereinkommen, und werden dann jeweils kompensiert.
      Wenn du Fragen hast, kannst du @gajesh eine DM schicken.
    • Wenn man anfängt, Mac minis direkt selbst zu kaufen, baut man am Ende wegen Strom-, Kühlungs- und Lagerungsproblemen ein kleines Rechenzentrum.
      Dann greifen Skaleneffekte und man will immer größere Zentren, aber das ist teuer und die Nachbarn mögen es auch nicht.
      Am Ende wirkt es wie ein asymmetrischer Krieg gegen die Hyperscaler.
    • Kein GPU-Anbieter hält eine Auslastung von 100 %. Die Nachfrage schwankt.
      Während der Börsenzeiten ist es zum Beispiel ausgelastet, sonst eher ruhig.
      Wenn man nicht überprovisioniert, springen Kunden ab, und wenn man zu stark überprovisioniert, sinkt der Gewinn.
      Realistisch scheint mir eher eine Auslastung auf 1/8-Niveau. Für meinen M4 Pro mini komme ich beim Gemma-4-Modell auf etwa 24 Dollar pro Monat.
    • Der Kern ist fehlendes Anfangskapital. Die meisten Leute haben bereits ungenutzte Computer, man muss sie nur von der Software-Installation überzeugen.
      Hardware selbst zu kaufen und zu warten ist deutlich teurer. Die Anfangsinvestition ist die größte Eintrittsbarriere.
    • Es gibt viele ungenutzte Macs auf der Welt, daher ist es leicht, eine Nutzerbasis aufzubauen.
      Man kann auch ohne VC-Finanzierung starten, und die Differenzierung ist klar.
      Allerdings könnte jemand dasselbe mit einer höheren Gebühr umsetzen, daher ist eine frühe Marktbesetzung wichtig.
  • Ich habe es selbst installiert, und der Reifegrad war nicht besonders hoch.
    Es gab viele Fehler, etwa beim Herunterladen von Bildmodellen oder beim Laden von Audio-/TTS-Modellen.
    Ich habe 15 Minuten lang Gemma bereitgestellt, aber es gab 0 echte Inferenzanfragen, nur mehrere Health Checks.
    Derzeit fehlt die Nachfrage, daher passen die Umsatzprognosen nicht.

    • Es ist erst seit einem Tag veröffentlicht, daher ist es normal, dass es noch keine Nachfrage gibt. Das braucht etwas Zeit.
    • Ich frage mich, ob jemand auf der anderen Seite tatsächlich einen Test durchgeführt hat, bei dem Prompts gesendet und Antworten empfangen wurden.
    • Auf der Statistikseite sieht man, dass es viele Anbieter, aber fast keine echte Nachfrage gibt.
      Im Moment scheint man sich auf die Gewinnung von Anbietern zu konzentrieren; zahlende Kunden sind dringend nötig.
    • Ich hätte erwartet, dass sie zumindest anfangs selbst Anfragen erzeugen, um einen Hosting-Anreiz zu schaffen, aber so eine Funktion gibt es nicht.
    • Ich habe denselben Fehler gesehen; im Log gab es die Warnung „STT backend healthcheck failed“. Selbst wenn echte Nachfrage da wäre, könnte das die Ursache sein.
  • Um diesen Dienst zu nutzen, muss man MDM (Geräteverwaltungssoftware) installieren.
    Ab diesem Moment steht der Computer faktisch unter ihrer Kontrolle.
    Für einen Rechner, auf dem man sensible Dinge wie Banking erledigt, würde ich das niemals empfehlen.

    • Das MDM von macOS ist über AccessRights in seinen Rechten eingeschränkt, daher ist ein Zugriff auf dem Niveau eines SSL-Zertifikatsaustauschs nicht möglich.
      Aber ihre Datenschutzrichtlinie ist schwach, daher fällt Vertrauen schwer.
    • MDM ist für mich ein absolutes Ausschlusskriterium. Ich kann mein MacBook nicht zu einem potenziellen Briefbeschwerer machen.
      Und für ein paar Dollar im Monat lohnt sich dieses Risiko ohnehin nicht.
  • Sie sagen, dass sie TEE (Trusted Execution Environment) verwenden, um die Integrität von Modell und Code zu verifizieren.
    Ähnliches hat man auch bei AWS versucht, aber ich frage mich, ob beim Einsatz von GPUs überhaupt Speicherschutz möglich ist.
    Die dazugehörigen Papers gibt es hier.

    • Das ganze Paper riecht nach LLM. Der übermäßige Einsatz von Formeln senkt die Glaubwürdigkeit.
    • Realistisch gesehen lässt sich bei Daten, die an externe Server gesendet werden, ein gewisses Maß an Datenspeicherung nicht vermeiden.
      Sicherer ist es, das eher für nicht geschäftskritische Zwecke wie Klassifikation oder Bildgenerierung zu nutzen statt für sensible Daten.
    • Apple Silicon verwendet für CPU und GPU Unified Memory.
      Das im Paper beschriebene Hypervisor-Seitentabellenverfahren behauptet, den GPU-Speicher vor RDMA zu schützen.
    • Macs haben kein hardwarebasiertes TEE wie SGX, sondern nur die Secure Enclave.
  • Auf heutigen MacBooks ist verifizierbare Privatsphäre physisch unmöglich.
    Es gibt zwar die Secure Enclave, aber keine offenen Enklaven wie SGX/TDX/SEV.
    Letztlich ist das nur Sicherheit auf Ebene einer gehärteten OS-Konfiguration, aber keine echte vertrauliche Ausführungsumgebung.

    • Ich habe selbst ein SGX SDK gebaut. Auch auf Apple-Plattformen kann man ein gewisses ähnliches Sicherheitsniveau erreichen.
      macOS hat eine durchaus vertrauenswürdige Struktur, wenn man die Boot-Sequenz und die TCC-Konfiguration remote verifizieren kann.
      Es ist nicht so perfekt wie echtes SGX, aber bei der Benutzbarkeit besser.
    • Im Vergleich zu zentralisierten Anbietern wie OpenAI wirken zufällig verteilte Nodes auf mich eher vertrauenswürdig.
    • Wenn der Anreiz groß genug ist, wird am Ende jeder Hardware-Schlüssel gebrochen. Ihre Behauptungen wirken eher überzogen.
  • Wenn ich es grob durchrechne, erzeugt mein M5 Pro beim Gemma 4 26B etwa 130 Token pro Sekunde (4 Streams).
    Bei einem Preis von $0.20 pro Mtok bei Darkbloom wären das bei 24/7-Betrieb rund 67 Dollar Umsatz im Monat.
    Zieht man die Stromkosten ab, bleiben etwa 9 Dollar Kosten pro Monat, also eher ungefähr 700 Dollar Taschengeld pro Jahr.

    • Tatsächlich verbraucht es deutlich mehr als 50 W. Strom ist teuer und auch Hardware-Verschleiß nimmt schneller zu.
      Ich persönlich finde die Idee interessanter als die Rentabilität.
    • Ihre Rechnung setzt für Gemma 4 26B eine Leistung von 414 tok/s an.
      Bei der Stromrechnung verwenden sie den Trick, 12 W Leerlaufverbrauch abzuziehen, obwohl die meisten Leute ihren Computer nicht 24 Stunden am Tag eingeschaltet lassen.
    • 130 tok/s klingt hoch. Mich würde interessieren, auf welcher Quantisierung (quantization) das basiert.
    • Hardware-Ausfälle werden nicht berücksichtigt. Ich habe früher mit GPUs gemint, und dabei ist mir nach einem Monat ein Lüfter ausgefallen, was am Ende Verlust bedeutete.
    • Selbst bei OpenAI zahlen nur 5 % der Kunden. Ich bezweifle, dass so ein Modell nachhaltig ist.
      Es gab früher auch Versuche mit dezentralem Storage wie Cubbit, aber die sind gescheitert.
  • An @eigengajesh würde ich gern weitergeben, dass der Mac Mini M4 Pro auch mit 64 GB erhältlich ist.
    Und es gibt mehrere Bugs — fehlgeschlagenes Laden von metallib, 404 beim Modelldownload, widersprüchliche Angaben zur Erlösverteilung in der Doku (100 % vs. 95 %) usw.
    Insgesamt gibt es viel Dokumentation, die wie von einem LLM geschrieben wirkt, und es wäre wohl besser, das vor der Veröffentlichung noch etwas aufzupolieren.

  • Dieses Projekt erinnert mich an DataseamGrid, das früher auf Schulcomputern ausgerollt wurde.
    Das war ein ähnliches Konzept eines verteilten Rechennetzwerks.

  • Ein interessantes Konzept. Zweiseitige Marktplätze (two-sided marketplaces) sind am Anfang schwer in Gang zu bringen, aber Neugier könnte der Motor sein.
    Wenn man nicht nur Anbieter anzieht, sondern die Leute auch dazu bringt, den Dienst selbst auszuprobieren, könnte man das Gleichgewicht zwischen Angebot und Nachfrage herstellen.
    Eine Self-Hosting-Version für Unternehmen wäre gut. Viele Firmen haben Mac-Bestände und könnten sie für ein internes Inferenznetzwerk nutzen.

  • Hardwarebasierte Privatsphäre ist interessant, aber wirtschaftlich gesehen sind die Ladekosten ein großes Risiko.
    Beim Modell MiniMax M2.5 239B müssen zum Beispiel selbst dann 120 GB geladen werden, wenn von 239B nur 11B aktiv sind.
    Das Laden von der SSD dauert dafür mehrere Dutzend Sekunden.
    Wenn eine Anfrage an einen anderen Mac geroutet wird, entsteht jedes Mal Cold-Load-Latenz.
    Hält man das Modell ständig im Speicher, steigen die Stromkosten; tut man das nicht, steigt die Latenz.
    Vor allem Macs mit 16–32 GB können große Modelle gar nicht hosten, sodass die Zahl tatsächlich geeigneter Anbieter sehr begrenzt ist.