Darkbloom – Persönliches KI-Inferenznetzwerk mit ungenutzten Macs

(darkbloom.dev)

1 Punkte von GN⁺ 13 일 전 | 2 Kommentare | Auf WhatsApp teilen

Darkbloom ist ein Netzwerk für dezentrale KI-Inferenz, das ungenutzte Apple Silicon Macs verbindet und KI-Berechnungen auf privaten Geräten statt in einer zentralen Cloud ausführt
Durch die Beseitigung der dreifachen Margenstruktur zwischen bestehenden GPU-, Cloud- und API-Anbietern werden bis zu 70 % Kostenersparnis erreicht
Alle Anfragen sind Ende-zu-Ende verschlüsselt, sodass Betreiber keine Nutzerdaten einsehen können; Vertrauen wird über eine attestierte Kette auf Basis von Apples Sicherheits-Hardware hergestellt
Es wird eine OpenAI-kompatible API bereitgestellt, die dieselben Funktionen wie bestehende SDKs für Chat, Bildgenerierung und Spracherkennung unterstützt
Betreiber behalten 95–100 % der Einnahmen und können mit ungenutzten Macs Einnahmen in USD erzielen, ohne zusätzliche Kosten außer Strom

Persönliches KI-Inferenznetzwerk mit ungenutzten Macs

Darkbloom ist ein von Eigen Labs entwickeltes dezentrales KI-Inferenznetzwerk, das ungenutzte Apple Silicon Macs verbindet, um KI-Berechnungen auszuführen
Der heutige KI-Rechenmarkt durchläuft eine dreistufige Margenstruktur von GPU-Herstellern → Hyperscalern → API-Anbietern → Endnutzern; Darkbloom beseitigt diese Struktur und ermöglicht so bis zu 70 % geringere Kosten
Netzwerkbetreiber können keine Nutzerdaten einsehen, und alle Anfragen werden Ende-zu-Ende verschlüsselt verarbeitet
Die API ist OpenAI-kompatibel und unterstützt wie bestehende SDKs Chat-, Bildgenerierungs- und Spracherkennungsfunktionen
Betreiber behalten 95–100 % der Einnahmen, bei kaum zusätzlichen Kosten außer Strom

Funktionen für Nutzer

Da die Grenzkosten ungenutzter Hardware nahe null liegen, werden die eingesparten Kosten direkt an die Nutzerpreise weitergegeben
Über eine OpenAI-kompatible API werden Chat-, Bildgenerierungs- und Speech-to-Text-Funktionen angeboten
Alle Anfragen werden Ende-zu-Ende verschlüsselt übertragen

Funktionen für Hardware-Besitzer

Nutzer mit einem Apple Silicon Mac können in Leerlaufzeiten KI-Inferenz ausführen und dadurch Einnahmen in USD erzielen
Betreiber behalten 100 % der Inferenz-Einnahmen, während die Stromkosten bei $0.01–$0.03 pro Stunde liegen
Der verbleibende Betrag ist Reingewinn

Strukturelle Probleme des KI-Rechenmarkts

Der heutige KI-Rechenmarkt folgt einer dreifachen Margenstruktur von GPU-Herstellern → Cloud-Anbietern → KI-Unternehmen → Endnutzern
Dadurch zahlen Endnutzer mehr als das Dreifache der tatsächlichen Siliziumkosten
Gleichzeitig bleiben über 100 Millionen Apple-Silicon-Geräte im Durchschnitt mehr als 18 Stunden pro Tag ungenutzt
Werden diese ungenutzten Rechenressourcen vernetzt, lässt sich dezentrale Asset-Nutzung ähnlich wie bei Airbnb oder Uber realisieren
Darkbloom verwandelt solche ungenutzten Macs in KI-Inferenzknoten und ersetzt damit zentralisierte Infrastruktur

Vertrauensproblem und Lösungsansatz

Das zentrale Problem dezentraler Rechennetzwerke ist Vertrauen
Nutzer müssen ihre Daten auf Geräten unbekannter Dritter verarbeiten lassen; einfache Sicherheit auf Basis von Nutzungsbedingungen reicht dafür nicht aus
Ohne nachweisbare Privatsphäre (Verifiable Privacy) ist dezentrale Inferenz nicht möglich

Der technische Ansatz von Darkbloom

Entfernung von Zugriffspfaden
- Alle Softwarepfade, über die Betreiber auf Daten zugreifen könnten, werden entfernt
- Das System besteht aus vier unabhängigen Schichten, die jeweils überprüfbar sind
Verschlüsselungsschicht
- Anfragen werden auf dem Gerät des Nutzers vor der Übertragung verschlüsselt
- Der Coordinator leitet nur Chiffretext weiter; entschlüsseln kann nur der Hardware-Schlüssel des Zielknotens
Hardware-Schicht
- Jeder Knoten besitzt Schlüssel, die in Apples Sicherheits-Hardware erzeugt wurden
- Die Verifikation erfolgt über eine Attestation Chain, die von der Apple Root CA ausgeht
Laufzeitschicht
- Der Inferenzprozess wird auf Betriebssystemebene gesperrt
- Debugger-Verbindungen und Speicherinspektion werden blockiert
- Betreiber können keine Daten aus laufenden Prozessen extrahieren
Ausgabeschicht
- Alle Antworten können über die Signatur der jeweiligen Hardware verifiziert werden
- Die vollständige Attestation Chain ist öffentlich, sodass jeder sie unabhängig prüfen kann
Dadurch führen Betreiber zwar die Inferenz aus, können die Daten aber nicht einsehen
- Prompts werden vor der Übertragung verschlüsselt
- Der Coordinator routet sie weiter, ohne den Inhalt lesen zu können
- Der Provider entschlüsselt und führt sie in einer verifizierten isolierten Umgebung aus
- Die Attestation Chain ist öffentlich und sorgt für Transparenz

Implementierungsdetails

OpenAI-kompatible API
- Vollständig kompatibel mit bestehenden OpenAI SDKs
- Nutzbar mit demselben Code, wenn lediglich die Base URL geändert wird
- Streaming, Function Calling, Image Generation und Speech-to-Text werden vollständig unterstützt
- Unterstützte Funktionen
- Streaming: SSE-basiert, im OpenAI-Format
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: Unterstützung für Modelle mit bis zu 239B Parametern

Ergebnisse des Kostenvergleichs

Da die Grenzkosten ungenutzter Hardware nahezu null sind, ergibt sich ein Preissenkungseffekt
Keine Abogebühren und keine Mindestnutzungsmengen
Gegenüber OpenRouter liegen die Kosten rund 50 % niedriger

Modell	Eingabe	Ausgabe	OpenRouter	Ersparnis
Gemma 4 26B4B	$0.03	$0.20	$0.40	50%
Qwen3.5 27B	$0.10	$0.78	$1.56	50%
Qwen3.5 122B MoE	$0.13	$1.04	$2.08	50%
MiniMax M2.5 239B	$0.06	$0.50	$1.00	50%

Bildgenerierung: $0.0015/Bild (50 % günstiger als Together.ai)
Spracherkennung: $0.001/Minute (50 % günstiger als AssemblyAI)
0 % Plattformgebühr, Betreiber behalten 100 % der Einnahmen

Wirtschaftlichkeit für Betreiber

Wer ein Apple-Silicon-Gerät bereitstellt, kann Einnahmen in USD erzielen
Keine zusätzlichen Kosten außer Strom, bei 100 % Einbehalt der Einnahmen
Unterstützt wird eine CLI-Installation; eine macOS-Menüleisten-App ist in Entwicklung
Installationsmethode
- Download des Provider-Binaries per Terminal-Befehl und Registrierung als launchd-Service
- Keine Abhängigkeiten**,** automatische Updates**,** Ausführung im Hintergrund
  - Nur für macOS 14 oder neuer und Apple Silicon
Erwartete Einnahmen
- Eine Einnahmenprognose ist auf Basis von 18 Stunden Betrieb pro Tag möglich
- Die tatsächlichen Einnahmen variieren je nach Netzwerknachfrage und Beliebtheit der Modelle

Forschung und Modellkatalog

Das Forschungspapier erläutert Architektur, Bedrohungsmodell, Sicherheitsanalyse und Wirtschaftsmodell im Detail
Behandelt wird eine private Inferenzarchitektur auf Basis hardwaregestützter Verifikation
PDF-Download-Link
Verfügbare Modelle
- Gemma 4 26B: Googles neuestes multimodales MoE mit 4B aktiven Parametern
- Qwen3.5 27B: Hochwertiges Inferenzmodell (Claude Opus distillation)
- Qwen3.5 122B MoE: 10B aktive Parameter, Spitzenqualität pro Token
- MiniMax M2.5 239B: SOTA-Coding-Modell, 100 tok/s auf Mac Studio
- Cohere Transcribe: 2B conformer, Spracherkennung auf Spitzenniveau

2 Kommentare

shw00 9 일 전

Konzeptionell ist das interessant, aber ob es in der Praxis wirklich gut funktioniert, ist fraglich. Wie auch in einigen HN-Meinungen angemerkt wurde, ist ein zweiseitiger Markt (two-sided market) problematisch, weil man auf beiden Seiten erfolgreich früh erste Kundschaft gewinnen muss.

GN⁺ 13 일 전

Hacker-News-Kommentare

Ich fand ihre Umsatzrechnung schwer glaubwürdig.
Wenn sich ein Mac mini in 2–4 Monaten amortisiert und danach jeden Monat 1.000–2.000 Dollar einbringt, fragt man sich, warum sie nicht einfach selbst Mac minis kaufen und betreiben.
- Die Rechnung selbst basiert auf optimistischen Annahmen. Sie setzt voraus, dass für alle Maschinen jederzeit Nachfrage besteht.
  Im Moment ist das nicht so, aber man hofft, dass es irgendwann so sein wird. Deshalb würde ich nicht empfehlen, neue Geräte dafür zu kaufen. Wenn man vorhandene Geräte nutzt, entstehen fast keine Kosten.
  Stromkosten fallen nur an, wenn Anfragen hereinkommen, und werden dann jeweils kompensiert.
  Wenn du Fragen hast, kannst du @gajesh eine DM schicken.
- Wenn man anfängt, Mac minis direkt selbst zu kaufen, baut man am Ende wegen Strom-, Kühlungs- und Lagerungsproblemen ein kleines Rechenzentrum.
  Dann greifen Skaleneffekte und man will immer größere Zentren, aber das ist teuer und die Nachbarn mögen es auch nicht.
  Am Ende wirkt es wie ein asymmetrischer Krieg gegen die Hyperscaler.
- Kein GPU-Anbieter hält eine Auslastung von 100 %. Die Nachfrage schwankt.
  Während der Börsenzeiten ist es zum Beispiel ausgelastet, sonst eher ruhig.
  Wenn man nicht überprovisioniert, springen Kunden ab, und wenn man zu stark überprovisioniert, sinkt der Gewinn.
  Realistisch scheint mir eher eine Auslastung auf 1/8-Niveau. Für meinen M4 Pro mini komme ich beim Gemma-4-Modell auf etwa 24 Dollar pro Monat.
- Der Kern ist fehlendes Anfangskapital. Die meisten Leute haben bereits ungenutzte Computer, man muss sie nur von der Software-Installation überzeugen.
  Hardware selbst zu kaufen und zu warten ist deutlich teurer. Die Anfangsinvestition ist die größte Eintrittsbarriere.
- Es gibt viele ungenutzte Macs auf der Welt, daher ist es leicht, eine Nutzerbasis aufzubauen.
  Man kann auch ohne VC-Finanzierung starten, und die Differenzierung ist klar.
  Allerdings könnte jemand dasselbe mit einer höheren Gebühr umsetzen, daher ist eine frühe Marktbesetzung wichtig.
Ich habe es selbst installiert, und der Reifegrad war nicht besonders hoch.
Es gab viele Fehler, etwa beim Herunterladen von Bildmodellen oder beim Laden von Audio-/TTS-Modellen.
Ich habe 15 Minuten lang Gemma bereitgestellt, aber es gab 0 echte Inferenzanfragen, nur mehrere Health Checks.
Derzeit fehlt die Nachfrage, daher passen die Umsatzprognosen nicht.
- Es ist erst seit einem Tag veröffentlicht, daher ist es normal, dass es noch keine Nachfrage gibt. Das braucht etwas Zeit.
- Ich frage mich, ob jemand auf der anderen Seite tatsächlich einen Test durchgeführt hat, bei dem Prompts gesendet und Antworten empfangen wurden.
- Auf der Statistikseite sieht man, dass es viele Anbieter, aber fast keine echte Nachfrage gibt.
  Im Moment scheint man sich auf die Gewinnung von Anbietern zu konzentrieren; zahlende Kunden sind dringend nötig.
- Ich hätte erwartet, dass sie zumindest anfangs selbst Anfragen erzeugen, um einen Hosting-Anreiz zu schaffen, aber so eine Funktion gibt es nicht.
- Ich habe denselben Fehler gesehen; im Log gab es die Warnung „STT backend healthcheck failed“. Selbst wenn echte Nachfrage da wäre, könnte das die Ursache sein.
Um diesen Dienst zu nutzen, muss man MDM (Geräteverwaltungssoftware) installieren.
Ab diesem Moment steht der Computer faktisch unter ihrer Kontrolle.
Für einen Rechner, auf dem man sensible Dinge wie Banking erledigt, würde ich das niemals empfehlen.
- Das MDM von macOS ist über AccessRights in seinen Rechten eingeschränkt, daher ist ein Zugriff auf dem Niveau eines SSL-Zertifikatsaustauschs nicht möglich.
  Aber ihre Datenschutzrichtlinie ist schwach, daher fällt Vertrauen schwer.
- MDM ist für mich ein absolutes Ausschlusskriterium. Ich kann mein MacBook nicht zu einem potenziellen Briefbeschwerer machen.
  Und für ein paar Dollar im Monat lohnt sich dieses Risiko ohnehin nicht.
Sie sagen, dass sie TEE (Trusted Execution Environment) verwenden, um die Integrität von Modell und Code zu verifizieren.
Ähnliches hat man auch bei AWS versucht, aber ich frage mich, ob beim Einsatz von GPUs überhaupt Speicherschutz möglich ist.
Die dazugehörigen Papers gibt es hier.
- Das ganze Paper riecht nach LLM. Der übermäßige Einsatz von Formeln senkt die Glaubwürdigkeit.
- Realistisch gesehen lässt sich bei Daten, die an externe Server gesendet werden, ein gewisses Maß an Datenspeicherung nicht vermeiden.
  Sicherer ist es, das eher für nicht geschäftskritische Zwecke wie Klassifikation oder Bildgenerierung zu nutzen statt für sensible Daten.
- Apple Silicon verwendet für CPU und GPU Unified Memory.
  Das im Paper beschriebene Hypervisor-Seitentabellenverfahren behauptet, den GPU-Speicher vor RDMA zu schützen.
- Macs haben kein hardwarebasiertes TEE wie SGX, sondern nur die Secure Enclave.
Auf heutigen MacBooks ist verifizierbare Privatsphäre physisch unmöglich.
Es gibt zwar die Secure Enclave, aber keine offenen Enklaven wie SGX/TDX/SEV.
Letztlich ist das nur Sicherheit auf Ebene einer gehärteten OS-Konfiguration, aber keine echte vertrauliche Ausführungsumgebung.
- Ich habe selbst ein SGX SDK gebaut. Auch auf Apple-Plattformen kann man ein gewisses ähnliches Sicherheitsniveau erreichen.
  macOS hat eine durchaus vertrauenswürdige Struktur, wenn man die Boot-Sequenz und die TCC-Konfiguration remote verifizieren kann.
  Es ist nicht so perfekt wie echtes SGX, aber bei der Benutzbarkeit besser.
- Im Vergleich zu zentralisierten Anbietern wie OpenAI wirken zufällig verteilte Nodes auf mich eher vertrauenswürdig.
- Wenn der Anreiz groß genug ist, wird am Ende jeder Hardware-Schlüssel gebrochen. Ihre Behauptungen wirken eher überzogen.
Wenn ich es grob durchrechne, erzeugt mein M5 Pro beim Gemma 4 26B etwa 130 Token pro Sekunde (4 Streams).
Bei einem Preis von $0.20 pro Mtok bei Darkbloom wären das bei 24/7-Betrieb rund 67 Dollar Umsatz im Monat.
Zieht man die Stromkosten ab, bleiben etwa 9 Dollar Kosten pro Monat, also eher ungefähr 700 Dollar Taschengeld pro Jahr.
- Tatsächlich verbraucht es deutlich mehr als 50 W. Strom ist teuer und auch Hardware-Verschleiß nimmt schneller zu.
  Ich persönlich finde die Idee interessanter als die Rentabilität.
- Ihre Rechnung setzt für Gemma 4 26B eine Leistung von 414 tok/s an.
  Bei der Stromrechnung verwenden sie den Trick, 12 W Leerlaufverbrauch abzuziehen, obwohl die meisten Leute ihren Computer nicht 24 Stunden am Tag eingeschaltet lassen.
- 130 tok/s klingt hoch. Mich würde interessieren, auf welcher Quantisierung (quantization) das basiert.
- Hardware-Ausfälle werden nicht berücksichtigt. Ich habe früher mit GPUs gemint, und dabei ist mir nach einem Monat ein Lüfter ausgefallen, was am Ende Verlust bedeutete.
- Selbst bei OpenAI zahlen nur 5 % der Kunden. Ich bezweifle, dass so ein Modell nachhaltig ist.
  Es gab früher auch Versuche mit dezentralem Storage wie Cubbit, aber die sind gescheitert.
An @eigengajesh würde ich gern weitergeben, dass der Mac Mini M4 Pro auch mit 64 GB erhältlich ist.
Und es gibt mehrere Bugs — fehlgeschlagenes Laden von metallib, 404 beim Modelldownload, widersprüchliche Angaben zur Erlösverteilung in der Doku (100 % vs. 95 %) usw.
Insgesamt gibt es viel Dokumentation, die wie von einem LLM geschrieben wirkt, und es wäre wohl besser, das vor der Veröffentlichung noch etwas aufzupolieren.
Dieses Projekt erinnert mich an DataseamGrid, das früher auf Schulcomputern ausgerollt wurde.
Das war ein ähnliches Konzept eines verteilten Rechennetzwerks.
Ein interessantes Konzept. Zweiseitige Marktplätze (two-sided marketplaces) sind am Anfang schwer in Gang zu bringen, aber Neugier könnte der Motor sein.
Wenn man nicht nur Anbieter anzieht, sondern die Leute auch dazu bringt, den Dienst selbst auszuprobieren, könnte man das Gleichgewicht zwischen Angebot und Nachfrage herstellen.
Eine Self-Hosting-Version für Unternehmen wäre gut. Viele Firmen haben Mac-Bestände und könnten sie für ein internes Inferenznetzwerk nutzen.
Hardwarebasierte Privatsphäre ist interessant, aber wirtschaftlich gesehen sind die Ladekosten ein großes Risiko.
Beim Modell MiniMax M2.5 239B müssen zum Beispiel selbst dann 120 GB geladen werden, wenn von 239B nur 11B aktiv sind.
Das Laden von der SSD dauert dafür mehrere Dutzend Sekunden.
Wenn eine Anfrage an einen anderen Mac geroutet wird, entsteht jedes Mal Cold-Load-Latenz.
Hält man das Modell ständig im Speicher, steigen die Stromkosten; tut man das nicht, steigt die Latenz.
Vor allem Macs mit 16–32 GB können große Modelle gar nicht hosten, sodass die Zahl tatsächlich geeigneter Anbieter sehr begrenzt ist.

Darkbloom – Persönliches KI-Inferenznetzwerk mit ungenutzten Macs

Persönliches KI-Inferenznetzwerk mit ungenutzten Macs

Funktionen für Nutzer

Funktionen für Hardware-Besitzer

Strukturelle Probleme des KI-Rechenmarkts

Vertrauensproblem und Lösungsansatz

Der technische Ansatz von Darkbloom

Entfernung von Zugriffspfaden

Verschlüsselungsschicht

Hardware-Schicht

Laufzeitschicht

Ausgabeschicht

Dadurch führen Betreiber zwar die Inferenz aus, können die Daten aber nicht einsehen

Implementierungsdetails

OpenAI-kompatible API

Ergebnisse des Kostenvergleichs

Wirtschaftlichkeit für Betreiber

Installationsmethode

Keine Abhängigkeiten**,** automatische Updates**,** Ausführung im Hintergrund

Erwartete Einnahmen

Forschung und Modellkatalog

Verfügbare Modelle

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare

Keine Abhängigkeiten, automatische Updates, Ausführung im Hintergrund