- Darkbloom ist ein Netzwerk für dezentrale KI-Inferenz, das ungenutzte Apple Silicon Macs verbindet und KI-Berechnungen auf privaten Geräten statt in einer zentralen Cloud ausführt
- Durch die Beseitigung der dreifachen Margenstruktur zwischen bestehenden GPU-, Cloud- und API-Anbietern werden bis zu 70 % Kostenersparnis erreicht
- Alle Anfragen sind Ende-zu-Ende verschlüsselt, sodass Betreiber keine Nutzerdaten einsehen können; Vertrauen wird über eine attestierte Kette auf Basis von Apples Sicherheits-Hardware hergestellt
- Es wird eine OpenAI-kompatible API bereitgestellt, die dieselben Funktionen wie bestehende SDKs für Chat, Bildgenerierung und Spracherkennung unterstützt
- Betreiber behalten 95–100 % der Einnahmen und können mit ungenutzten Macs Einnahmen in USD erzielen, ohne zusätzliche Kosten außer Strom
Persönliches KI-Inferenznetzwerk mit ungenutzten Macs
- Darkbloom ist ein von Eigen Labs entwickeltes dezentrales KI-Inferenznetzwerk, das ungenutzte Apple Silicon Macs verbindet, um KI-Berechnungen auszuführen
- Der heutige KI-Rechenmarkt durchläuft eine dreistufige Margenstruktur von GPU-Herstellern → Hyperscalern → API-Anbietern → Endnutzern; Darkbloom beseitigt diese Struktur und ermöglicht so bis zu 70 % geringere Kosten
- Netzwerkbetreiber können keine Nutzerdaten einsehen, und alle Anfragen werden Ende-zu-Ende verschlüsselt verarbeitet
- Die API ist OpenAI-kompatibel und unterstützt wie bestehende SDKs Chat-, Bildgenerierungs- und Spracherkennungsfunktionen
- Betreiber behalten 95–100 % der Einnahmen, bei kaum zusätzlichen Kosten außer Strom
Funktionen für Nutzer
- Da die Grenzkosten ungenutzter Hardware nahe null liegen, werden die eingesparten Kosten direkt an die Nutzerpreise weitergegeben
- Über eine OpenAI-kompatible API werden Chat-, Bildgenerierungs- und Speech-to-Text-Funktionen angeboten
- Alle Anfragen werden Ende-zu-Ende verschlüsselt übertragen
Funktionen für Hardware-Besitzer
- Nutzer mit einem Apple Silicon Mac können in Leerlaufzeiten KI-Inferenz ausführen und dadurch Einnahmen in USD erzielen
- Betreiber behalten 100 % der Inferenz-Einnahmen, während die Stromkosten bei $0.01–$0.03 pro Stunde liegen
- Der verbleibende Betrag ist Reingewinn
Strukturelle Probleme des KI-Rechenmarkts
- Der heutige KI-Rechenmarkt folgt einer dreifachen Margenstruktur von GPU-Herstellern → Cloud-Anbietern → KI-Unternehmen → Endnutzern
- Dadurch zahlen Endnutzer mehr als das Dreifache der tatsächlichen Siliziumkosten
- Gleichzeitig bleiben über 100 Millionen Apple-Silicon-Geräte im Durchschnitt mehr als 18 Stunden pro Tag ungenutzt
- Werden diese ungenutzten Rechenressourcen vernetzt, lässt sich dezentrale Asset-Nutzung ähnlich wie bei Airbnb oder Uber realisieren
- Darkbloom verwandelt solche ungenutzten Macs in KI-Inferenzknoten und ersetzt damit zentralisierte Infrastruktur
Vertrauensproblem und Lösungsansatz
- Das zentrale Problem dezentraler Rechennetzwerke ist Vertrauen
- Nutzer müssen ihre Daten auf Geräten unbekannter Dritter verarbeiten lassen; einfache Sicherheit auf Basis von Nutzungsbedingungen reicht dafür nicht aus
- Ohne nachweisbare Privatsphäre (Verifiable Privacy) ist dezentrale Inferenz nicht möglich
Der technische Ansatz von Darkbloom
-
Entfernung von Zugriffspfaden
- Alle Softwarepfade, über die Betreiber auf Daten zugreifen könnten, werden entfernt
- Das System besteht aus vier unabhängigen Schichten, die jeweils überprüfbar sind
-
Verschlüsselungsschicht
- Anfragen werden auf dem Gerät des Nutzers vor der Übertragung verschlüsselt
- Der Coordinator leitet nur Chiffretext weiter; entschlüsseln kann nur der Hardware-Schlüssel des Zielknotens
-
Hardware-Schicht
- Jeder Knoten besitzt Schlüssel, die in Apples Sicherheits-Hardware erzeugt wurden
- Die Verifikation erfolgt über eine Attestation Chain, die von der Apple Root CA ausgeht
-
Laufzeitschicht
- Der Inferenzprozess wird auf Betriebssystemebene gesperrt
- Debugger-Verbindungen und Speicherinspektion werden blockiert
- Betreiber können keine Daten aus laufenden Prozessen extrahieren
-
Ausgabeschicht
- Alle Antworten können über die Signatur der jeweiligen Hardware verifiziert werden
- Die vollständige Attestation Chain ist öffentlich, sodass jeder sie unabhängig prüfen kann
-
Dadurch führen Betreiber zwar die Inferenz aus, können die Daten aber nicht einsehen
- Prompts werden vor der Übertragung verschlüsselt
- Der Coordinator routet sie weiter, ohne den Inhalt lesen zu können
- Der Provider entschlüsselt und führt sie in einer verifizierten isolierten Umgebung aus
- Die Attestation Chain ist öffentlich und sorgt für Transparenz
Implementierungsdetails
-
OpenAI-kompatible API
- Vollständig kompatibel mit bestehenden OpenAI SDKs
- Nutzbar mit demselben Code, wenn lediglich die Base URL geändert wird
- Streaming, Function Calling, Image Generation und Speech-to-Text werden vollständig unterstützt
- Unterstützte Funktionen
- Streaming: SSE-basiert, im OpenAI-Format
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: Unterstützung für Modelle mit bis zu 239B Parametern
Ergebnisse des Kostenvergleichs
- Da die Grenzkosten ungenutzter Hardware nahezu null sind, ergibt sich ein Preissenkungseffekt
- Keine Abogebühren und keine Mindestnutzungsmengen
- Gegenüber OpenRouter liegen die Kosten rund 50 % niedriger
| Modell | Eingabe | Ausgabe | OpenRouter | Ersparnis |
|---|---|---|---|---|
| Gemma 4 26B4B | $0.03 | $0.20 | $0.40 | 50% |
| Qwen3.5 27B | $0.10 | $0.78 | $1.56 | 50% |
| Qwen3.5 122B MoE | $0.13 | $1.04 | $2.08 | 50% |
| MiniMax M2.5 239B | $0.06 | $0.50 | $1.00 | 50% |
- Bildgenerierung: $0.0015/Bild (50 % günstiger als Together.ai)
- Spracherkennung: $0.001/Minute (50 % günstiger als AssemblyAI)
- 0 % Plattformgebühr, Betreiber behalten 100 % der Einnahmen
Wirtschaftlichkeit für Betreiber
- Wer ein Apple-Silicon-Gerät bereitstellt, kann Einnahmen in USD erzielen
- Keine zusätzlichen Kosten außer Strom, bei 100 % Einbehalt der Einnahmen
- Unterstützt wird eine CLI-Installation; eine macOS-Menüleisten-App ist in Entwicklung
-
Installationsmethode
- Download des Provider-Binaries per Terminal-Befehl und Registrierung als launchd-Service
-
Keine Abhängigkeiten**,** automatische Updates**,** Ausführung im Hintergrund
- Nur für macOS 14 oder neuer und Apple Silicon
-
Erwartete Einnahmen
- Eine Einnahmenprognose ist auf Basis von 18 Stunden Betrieb pro Tag möglich
- Die tatsächlichen Einnahmen variieren je nach Netzwerknachfrage und Beliebtheit der Modelle
Forschung und Modellkatalog
- Das Forschungspapier erläutert Architektur, Bedrohungsmodell, Sicherheitsanalyse und Wirtschaftsmodell im Detail
- Behandelt wird eine private Inferenzarchitektur auf Basis hardwaregestützter Verifikation
- PDF-Download-Link
-
Verfügbare Modelle
- Gemma 4 26B: Googles neuestes multimodales MoE mit 4B aktiven Parametern
- Qwen3.5 27B: Hochwertiges Inferenzmodell (Claude Opus distillation)
- Qwen3.5 122B MoE: 10B aktive Parameter, Spitzenqualität pro Token
- MiniMax M2.5 239B: SOTA-Coding-Modell, 100 tok/s auf Mac Studio
- Cohere Transcribe: 2B conformer, Spracherkennung auf Spitzenniveau
2 Kommentare
Konzeptionell ist das interessant, aber ob es in der Praxis wirklich gut funktioniert, ist fraglich. Wie auch in einigen HN-Meinungen angemerkt wurde, ist ein zweiseitiger Markt (two-sided market) problematisch, weil man auf beiden Seiten erfolgreich früh erste Kundschaft gewinnen muss.
Hacker-News-Kommentare
Ich fand ihre Umsatzrechnung schwer glaubwürdig.
Wenn sich ein Mac mini in 2–4 Monaten amortisiert und danach jeden Monat 1.000–2.000 Dollar einbringt, fragt man sich, warum sie nicht einfach selbst Mac minis kaufen und betreiben.
Im Moment ist das nicht so, aber man hofft, dass es irgendwann so sein wird. Deshalb würde ich nicht empfehlen, neue Geräte dafür zu kaufen. Wenn man vorhandene Geräte nutzt, entstehen fast keine Kosten.
Stromkosten fallen nur an, wenn Anfragen hereinkommen, und werden dann jeweils kompensiert.
Wenn du Fragen hast, kannst du @gajesh eine DM schicken.
Dann greifen Skaleneffekte und man will immer größere Zentren, aber das ist teuer und die Nachbarn mögen es auch nicht.
Am Ende wirkt es wie ein asymmetrischer Krieg gegen die Hyperscaler.
Während der Börsenzeiten ist es zum Beispiel ausgelastet, sonst eher ruhig.
Wenn man nicht überprovisioniert, springen Kunden ab, und wenn man zu stark überprovisioniert, sinkt der Gewinn.
Realistisch scheint mir eher eine Auslastung auf 1/8-Niveau. Für meinen M4 Pro mini komme ich beim Gemma-4-Modell auf etwa 24 Dollar pro Monat.
Hardware selbst zu kaufen und zu warten ist deutlich teurer. Die Anfangsinvestition ist die größte Eintrittsbarriere.
Man kann auch ohne VC-Finanzierung starten, und die Differenzierung ist klar.
Allerdings könnte jemand dasselbe mit einer höheren Gebühr umsetzen, daher ist eine frühe Marktbesetzung wichtig.
Ich habe es selbst installiert, und der Reifegrad war nicht besonders hoch.
Es gab viele Fehler, etwa beim Herunterladen von Bildmodellen oder beim Laden von Audio-/TTS-Modellen.
Ich habe 15 Minuten lang Gemma bereitgestellt, aber es gab 0 echte Inferenzanfragen, nur mehrere Health Checks.
Derzeit fehlt die Nachfrage, daher passen die Umsatzprognosen nicht.
Im Moment scheint man sich auf die Gewinnung von Anbietern zu konzentrieren; zahlende Kunden sind dringend nötig.
Um diesen Dienst zu nutzen, muss man MDM (Geräteverwaltungssoftware) installieren.
Ab diesem Moment steht der Computer faktisch unter ihrer Kontrolle.
Für einen Rechner, auf dem man sensible Dinge wie Banking erledigt, würde ich das niemals empfehlen.
Aber ihre Datenschutzrichtlinie ist schwach, daher fällt Vertrauen schwer.
Und für ein paar Dollar im Monat lohnt sich dieses Risiko ohnehin nicht.
Sie sagen, dass sie TEE (Trusted Execution Environment) verwenden, um die Integrität von Modell und Code zu verifizieren.
Ähnliches hat man auch bei AWS versucht, aber ich frage mich, ob beim Einsatz von GPUs überhaupt Speicherschutz möglich ist.
Die dazugehörigen Papers gibt es hier.
Sicherer ist es, das eher für nicht geschäftskritische Zwecke wie Klassifikation oder Bildgenerierung zu nutzen statt für sensible Daten.
Das im Paper beschriebene Hypervisor-Seitentabellenverfahren behauptet, den GPU-Speicher vor RDMA zu schützen.
Auf heutigen MacBooks ist verifizierbare Privatsphäre physisch unmöglich.
Es gibt zwar die Secure Enclave, aber keine offenen Enklaven wie SGX/TDX/SEV.
Letztlich ist das nur Sicherheit auf Ebene einer gehärteten OS-Konfiguration, aber keine echte vertrauliche Ausführungsumgebung.
macOS hat eine durchaus vertrauenswürdige Struktur, wenn man die Boot-Sequenz und die TCC-Konfiguration remote verifizieren kann.
Es ist nicht so perfekt wie echtes SGX, aber bei der Benutzbarkeit besser.
Wenn ich es grob durchrechne, erzeugt mein M5 Pro beim Gemma 4 26B etwa 130 Token pro Sekunde (4 Streams).
Bei einem Preis von $0.20 pro Mtok bei Darkbloom wären das bei 24/7-Betrieb rund 67 Dollar Umsatz im Monat.
Zieht man die Stromkosten ab, bleiben etwa 9 Dollar Kosten pro Monat, also eher ungefähr 700 Dollar Taschengeld pro Jahr.
Ich persönlich finde die Idee interessanter als die Rentabilität.
Bei der Stromrechnung verwenden sie den Trick, 12 W Leerlaufverbrauch abzuziehen, obwohl die meisten Leute ihren Computer nicht 24 Stunden am Tag eingeschaltet lassen.
Es gab früher auch Versuche mit dezentralem Storage wie Cubbit, aber die sind gescheitert.
An @eigengajesh würde ich gern weitergeben, dass der Mac Mini M4 Pro auch mit 64 GB erhältlich ist.
Und es gibt mehrere Bugs — fehlgeschlagenes Laden von metallib, 404 beim Modelldownload, widersprüchliche Angaben zur Erlösverteilung in der Doku (100 % vs. 95 %) usw.
Insgesamt gibt es viel Dokumentation, die wie von einem LLM geschrieben wirkt, und es wäre wohl besser, das vor der Veröffentlichung noch etwas aufzupolieren.
Dieses Projekt erinnert mich an DataseamGrid, das früher auf Schulcomputern ausgerollt wurde.
Das war ein ähnliches Konzept eines verteilten Rechennetzwerks.
Ein interessantes Konzept. Zweiseitige Marktplätze (two-sided marketplaces) sind am Anfang schwer in Gang zu bringen, aber Neugier könnte der Motor sein.
Wenn man nicht nur Anbieter anzieht, sondern die Leute auch dazu bringt, den Dienst selbst auszuprobieren, könnte man das Gleichgewicht zwischen Angebot und Nachfrage herstellen.
Eine Self-Hosting-Version für Unternehmen wäre gut. Viele Firmen haben Mac-Bestände und könnten sie für ein internes Inferenznetzwerk nutzen.
Hardwarebasierte Privatsphäre ist interessant, aber wirtschaftlich gesehen sind die Ladekosten ein großes Risiko.
Beim Modell MiniMax M2.5 239B müssen zum Beispiel selbst dann 120 GB geladen werden, wenn von 239B nur 11B aktiv sind.
Das Laden von der SSD dauert dafür mehrere Dutzend Sekunden.
Wenn eine Anfrage an einen anderen Mac geroutet wird, entsteht jedes Mal Cold-Load-Latenz.
Hält man das Modell ständig im Speicher, steigen die Stromkosten; tut man das nicht, steigt die Latenz.
Vor allem Macs mit 16–32 GB können große Modelle gar nicht hosten, sodass die Zahl tatsächlich geeigneter Anbieter sehr begrenzt ist.