- Diese Website misst, wie zentralisiert Nutzerdaten im Fediverse (Mastodon, Pixelfed usw.) und in der Atmosphere (Bluesky, WhiteWind usw.) sind
- Mithilfe des Herfindahl–Hirschman-Index (HHI) und des Shannon-Index wird die Verteilung der Nutzer über Server hinweg analysiert
- Der HHI ist ein Indikator aus der Volkswirtschaft zur Messung von Wettbewerb; je niedriger der Wert, desto stärker die Verteilung, je höher, desto mehr monopolistische Konzentration
- Der Shannon-Index ist ein entropiebasierter Diversitätsindikator; je höher der Wert, desto gleichmäßiger ist die Bevölkerung auf die Server verteilt
- Dieses Projekt berücksichtigt neben der Datenkonzentration auch verschiedene weitere Faktoren zur Messung von Dezentralisierung, darunter Netzwerkstruktur, rechtliche Zuständigkeit und Konzentration sozialer Macht, und veröffentlicht Daten und Code auf GitHub
Einführung und zentrale Konzepte
- Es wird mithilfe des Herfindahl–Hirschman-Index (HHI) gemessen, wie stark Nutzerdaten auf Plattformen im Fediverse und in der Atmosphere konzentriert sind
- Der HHI ist ein gängiger Indikator zur Bewertung des Wettbewerbsgrads und wird berechnet, indem die quadrierten Nutzeranteile aller Server (bzw. PDS) aufsummiert werden
- Je näher der HHI an 0 liegt, desto gleichmäßiger sind die Nutzer auf viele Server verteilt; je näher er an 10.000 liegt, desto stärker deutet er auf einen Monopolzustand hin, in dem die meisten Nutzer auf einen Server konzentriert sind
- Üblicherweise gilt ein HHI unter 100 als „sehr wettbewerbsintensiv“, unter 1.500 als „unkonzentriert“ und ab 2.500 als „hoch konzentriert“
Messmethode und Definition der Daten
- Gemessen werden Server (Instanzen) im Fediverse und PDS (Personal Data Server) in der Atmosphere
- Bei Plattformen wie Mastodon, auf denen Nutzer über mehrere Instanzen verteilt sind, werden Instanzen desselben Betreibers zusammengefasst
- Beispiel:
mastodon.social und mastodon.online werden zusammen statistisch erfasst, da sie vom selben Unternehmen betrieben werden
- Alle von Bluesky Social PBC verwalteten PDS werden ebenfalls als eine Einheit gezählt
- So wird die von einer einzelnen Organisation kontrollierte Nutzerzahl präzise abgebildet
Verschiedene Perspektiven auf Zentralisierung
- Ob ein System dezentralisiert ist, lässt sich neben der physischen Verteilung von Nutzerdaten auch aus mehreren anderen Blickwinkeln analysieren
- Netzwerktopologie und -struktur (z. B. P2P, Relays usw.)
- Methoden der Identitätsverwaltung
- Eigentum und Standort der tatsächlichen Infrastruktur (Region, Gerichtsbarkeit usw.)
- Soziale und organisatorische Machtkonzentration (z. B. Konzentration von Einfluss innerhalb einer Plattform)
- Entscheidend ist also nicht nur die Datenverteilung innerhalb einer Plattform, sondern auch, ob Rechte und Einfluss verteilt sind
Projektbeteiligung und Open Source
- Der vollständige Code und die Datensätze, die für die Messung verwendet wurden, sind im GitHub-Repository veröffentlicht
- Beiträge, Kommentare, Vorschläge für neue Messgrößen sowie die Ergänzung von Resilienzmetriken sind willkommen
2 Kommentare
„Sind wir schon dezentralisiert?“ ist zwar nicht unbedingt falsch, wirkt aber unnatürlich und etwas holprig.
„Schon“ wird meist zusammen mit einer Verneinung verwendet, daher ...
Ich denke, eine Übersetzung wie „Ist Dezentralisierung noch nicht so weit?“ wäre als Titel natürlicher.
Hacker-News-Meinungen
Heute habe ich zum ersten Mal vom Herfindahl–Hirschman-Index erfahren und wollte ihn deshalb an einem einprägsamen Sonderfall testen.
Ende der 1980er Jahre gab es einmal eine Phase, in der Microsoft im Macintosh-Tabellenkalkulationsmarkt einen Marktanteil von über 100 % hatte.
Möglich war das, weil der Marktanteil berechnet wird, indem man die Verkäufe jedes Teilnehmers in einem bestimmten Zeitraum durch die Gesamtverkäufe des Marktes in diesem Zeitraum teilt, und damals war Lotus’ Tabellenkalkulation Lotus Jazz ein so großer Flop, dass die Rücksendungen die Verkäufe überstiegen.
Dadurch hatte Lotus einen negativen Marktanteil, und weil Microsoft Excel mehr Verkäufe hatte als der Gesamtmarkt, ergab sich ein Marktanteil von über 100 %.
An die genauen Zahlen erinnere ich mich nicht, aber ungefähr waren es Microsoft 102 % und Lotus -2 %.
In so einem Fall wäre der Herfindahl–Hirschman-Index 1022 + (-2)2 = 10404 + 4 = 10408.
In solch extremen Fällen kann der HHI also auch über 10.000 liegen.
(Zur Erklärung wurde die Bedingung „innerhalb eines bestimmten Zeitraums“ ergänzt.)
Ich habe online sehr intensiv nach einem entsprechenden Artikel gesucht, aber nichts gefunden (vielleicht liegt irgendwo noch etwas auf Mikrofiche ...).
Stattdessen habe ich eine interessante Anekdote gefunden.
Ein Lotus-Manager soll gewitzelt haben: „Im ersten Monat haben wir 62.000 Stück ausgeliefert, im nächsten Monat kamen 64.000 zurück. Sogar Raubkopien wurden zurückgegeben.“
Passender Forbes-Artikel
Der HHI ist wirklich ein nützlicher Indikator.
Das Konzept der Summe der Quadrate normalisierter Anteile lässt sich nicht nur bei Marktanteilen, sondern auch in vielen anderen Situationen gut anwenden.
Es gibt auch ein hervorragendes Beispiel für seinen Einsatz bei Abstimmungen.
Dass das Ergebnis interessant ist, überrascht mich nicht.
BlueSky ist aus Sicht normaler Nutzer ein Dienst, der Twitter fast vollständig ersetzen kann.
Mastodon hat insgesamt weniger Nutzer, aber es ist erfreulich zu sehen, dass das Mastodon-Ökosystem Zentralisierung ähnlich wie das AT-Proto-Ökosystem vermeidet.
Ich persönlich vermute allerdings, dass die Betriebs- und Hosting-Kosten für AT-Proto-Server/Relays für kleine Betreiber ziemlich belastend sein dürften, wobei das nur eine Vermutung ist, ohne die internen Strukturen beider Ökosysteme im Detail zu kennen.
Einen PDS-Server für sich selbst und ein paar Freunde zu betreiben, ist nicht besonders teuer.
Allerdings bringt das in dieser Form auch keinen großen Vorteil; der Zweck eines PDS ist es, die eigenen Daten sauber von den Daten des restlichen Netzwerks zu trennen.
Teuer sind bei ATProto eher Relay (das alle Daten einsammelt/weiterverteilt) und AppView (das alle Posts, Likes usw. in einer Datenbank speichert und auf Benutzeranfragen antwortet).
Für kleine Netzwerke, etwa für längere Texte wie bei WhiteWind, ist das natürlich machbar, weil dort wenig Ereignisse anfallen.
Die Architektur ist so ausgelegt, dass die meisten Dinge nicht selbst gehostet werden müssen.
Einen eigenen algorithmischen Feed oder ein eigenes Frontend kann man auf Basis der Daten aus einem von Bluesky betriebenen Relay oder AppView umsetzen.
Einer der Gründe, warum BlueSky erfolgreich ist, liegt meiner Meinung nach darin, dass es den Nutzern nicht wie Mastodon „Dezentralisierung“ in den Vordergrund stellt.
Die meisten Nutzer wissen nicht, was Dezentralisierung ist, und wollen es auch gar nicht wissen.
Ich glaube, dass mehr Aufwand in gute Betriebs- und Verwaltungsfunktionen investiert werden sollte als in Dezentralisierung.
ATProto wird von Unternehmen und Investoren mit sehr unterschiedlichen Hintergründen unterstützt.
Irgendwann werden auch sie Gewinn sehen wollen, und es ist schwer vorherzusagen, auf welche Weise sich das zeigen wird.
Zur Diskussion über Betriebskosten: ATProto ist strukturell ganz anders aufgebaut.
Mastodon besteht aus vielen einzelnen Twitter-ähnlichen Servern, die wie E-Mail Informationen austauschen; dadurch ist ein kleiner Server für Bekannte günstig.
Diese Struktur ist aber schlechter mit einem globalen Netzwerk verbunden, und mein Server ist zugleich meine Identität.
Wenn ich Nutzern auf anderen Servern folge, fragt mein Server deren Server nach Informationen, aber grundsätzlich bleibt die Sicht auf das gesamte Netzwerk fragmentiert.
ATProto ist von Anfang an anders „gesplittet“, damit es mit zentralisierten Diensten konkurrieren kann; die Herkunft der Daten und die anwendungsseitige Aggregation sind getrennt.
Das ist ein wenig so, als würde jeder Nutzer JSON auf seiner eigenen Website (URL) veröffentlichen und Apps würden diese Daten aggregieren.
Dadurch erhalten am Ende alle dieselbe Sicht, in der alle Kommentare, Likes und Antworten enthalten sind.
Während bei Mastodon eine „Instanz“ eine eigenständige Twitter-Web-App ist, gibt es bei ATProto mehrere dezentrale Primitive.
Ein AppView, das wie bei Mastodon nur einen Teil des Netzwerks sieht, ist deutlich günstiger, aber wenig attraktiv und wird daher kaum genutzt.
Kurz gesagt: PDS und Relay zu betreiben ist günstig, teuer wird es erst, wenn man ein vollständiges AppView betreibt, und ein vergleichbares Konzept gibt es bei Mastodon gar nicht.
Die fragmentierte Erfahrung von Mastodon mit der konsistenten Erfahrung von ATProto einfach preislich zu vergleichen, ist deshalb schwierig.
Ein partielles AppView wie bei Mastodon zu betreiben ist zwar günstig, hat aber praktisch wenig Reiz.
Außerdem versucht Mastodon das teilweise mit on-demand fetching zu entschärfen, aber ein Pull-basiertes verteiltes System hat Grenzen.
Verwandte Frage
Am Ende zeigt sich auch in verteilten Systemen auf natürliche Weise wieder Zentralisierung.
Git war ebenfalls ein Versuch in Richtung Dezentralisierung, konzentrierte sich in der Praxis aber auf Plattformen wie GitHub oder GitLab.
BitTorrent ist zwar verteilt, doch Tracker-Seiten fungieren ganz natürlich als Zentren.
Auch bei Bitcoin übernehmen einige Dienste wie Coinbase eine zentrale Rolle.
Selbst bei E-Mail (SMTP) gibt es de facto Zentralisierung wegen des Spam-Problems.
Im Fall von E-Mail (SMTP) stimmt es allerdings nicht, dass „nur große Anbieter Spam filtern können“.
Es gibt seit Langem verteilte Spam-Filterlisten, und große Anbieter haben beim Spam-Filtering auch keinen besonderen Vorteil.
Eher neigen große Anbieter dazu, kleine Mailserver als Spam zu behandeln, möglicherweise teils auch mit der Absicht, Konkurrenten niederzuhalten.
Aber selbst wenn man auf seinem Mailserver Reverse DNS und DKIM korrekt einrichtet, wird nicht automatisch alles als Spam markiert, und auch große Dienste können sich gegenseitig als Spam einstufen; absolut ist das also nicht.
Tracker-Seiten gibt es in großer Zahl, und wenn eine verschwindet, taucht schnell eine andere auf.
Deshalb gibt es keinen einzelnen Akteur, der das Ökosystem kontrolliert, und man kann es weiterhin als dezentralisiert ansehen.
Dienste wie Coinbase kann grundsätzlich jeder bauen.
Tatsächlich gibt es viele ähnliche Seiten, und inzwischen kann man auch PayPal nutzen.
Man muss nicht von nur einem Dienst abhängig sein; man kann zum Beispiel Bitcoin bei PayPal kaufen und bei Coinbase verkaufen.
Es erscheint mir seltsam, diese Situation als Zentralisierung zu definieren.
Git selbst war auch nicht als Werkzeug mit dem Ziel der Dezentralisierung gedacht, das kommt noch hinzu.
Alle genannten Beispiele enthalten am Ende doch zentrale Elemente.
Im Fediverse ist es zwar dezentraler, dafür aber weniger konsistent.
Das ist der Punkt, über den sich neue Nutzer dort am häufigsten beschweren.
Ich persönlich halte das für einen großen Fortschritt und finde es in Ordnung, aber es ist wichtiger, realistische Erwartungen zu setzen.
Ich frage mich, wie man ältere föderierte Systeme wie IRC oder NNTP mit etwas wie dem HHI messen könnte.
Es wäre interessant zu sehen, zu welchen Ergebnissen solche Kennzahlen bei älteren Systemen führen würden.
Als freenode den Besitzer wechselte, gab es einen Fall, in dem fast alle innerhalb von nur einer Woche umzogen.
Interessant ist, wie einfach und praktikabel diese Migration war.
Gerade in kleinen, halbprivaten Umgebungen ist IRC mit Scrollback über ein Web-Frontend immer noch hervorragend.
Wenn es aber zu groß wird, beginnt es wegen Politik und kultureller Unterschiede auseinanderzufallen.
Wenn sich ähnlich gesinnte Menschen versammeln, funktioniert es sehr gut, aber bei voller Öffentlichkeit entstehen Meinungsverschiedenheiten, Trolle, AI-Bots und ähnliche Probleme.
Wenn man das Web-Interface halbprivat hält und einfache Authentifizierung, Referrer-Blockierung usw. nutzt, kann man Sicherheitsrisiken, Streit und Bots von Dritten verhindern.
NNTP ist ebenfalls gut, aber komplette Binary-Gruppen einzeln zu spiegeln ist nicht einfach, und weil ISPs es kaum noch unterstützen, verwenden die meisten kommerzielle Newsfeeds oder kostenlose Usenet-Anbieter.
Um das Zensurrisiko zu verringern, ist es sinnvoll, mit einigen kostenlosen Anbietern zu peeren.
Sowohl bei IRC als auch bei NNTP können Einzelpersonen ihre eigenen privaten oder halbprivaten verlinkten Server aufbauen.
Weitere Informationen
Mathematisch ist das leicht zu berechnen, und entsprechende Netzwerkstatistiken findet man unter netsplit.de.
Es wäre interessant, Nostr zu dieser HHI-Verteilung hinzuzufügen.
Bei Nostr gilt die Konzentration der Nutzerbasis im fedi-Modell als eine der größten Schwächen, aber bei Nostr ist die Nutzeridentität nicht an ein einzelnes Relay gebunden, weshalb die Anwendung hier etwas merkwürdig ausfallen würde.
Ich denke, dieses Problem von Zentralisierung/Dezentralisierung ist vielleicht immer eine Frage von Marketing und UX.
Es wäre interessant zu sehen, wie sich die Dinge verändern, wenn Threads zum Fediverse hinzukommt.
Wichtig ist, ein gutes Gleichgewicht zu halten.
Wenn etwas zu stark dezentralisiert ist, findet es niemand mehr; wenn es zu stark zentralisiert ist, geht durch Zensur die Freiheit verloren.
Ich frage mich persönlich, ob Discoverability in einer dezentralen Umgebung wirklich unmöglich ist.
Wenn man genug Ressourcen (Geld, Personal usw.) in Indexierung steckt, könnte ein Mittelweg vielleicht zwar instabil sein wie ein umgekehrt stehendes Pendel, aber dennoch aufrechterhalten werden.
In der goldenen Ära der Blogs gab es einmal ein Zusammenspiel aus Suchmaschinen (zentral) und Blogs/Foren (einzeln), doch mit der Zeit wurde das durch Spam und die Integration in große Plattformen geschwächt.
Ich möchte darauf hinweisen, dass hier von der Annahme ausgegangen wird, dass die Funktion „Entdecken/Finden“ zwingend ein zentrales Element benötigt.
Wirtschaftlich gilt ein HHI unter 100 als „starker Wettbewerb“, unter 1500 als „unkonzentriert“ und ab 2500 als „hoch konzentriert“.
Das Fediverse liegt fast ganz links und kommt trotzdem schon auf 690.
Vollständige Zentralisierung (ganz oben) liegt bei 5000.
Tatsächlich wird also eine nichtlineare Skala linear dargestellt.
Ich wünsche mir künstliche Wahlfreiheit.
Es wäre gut, wenn Nutzer selbst zwischen Optionen wie Zentralisierung, Dezentralisierung oder Hybrid wählen könnten.
Wenn es die Kritik gibt, dass etwas „zu dezentralisiert“ ist, könnte eine Non-Profit-Organisation einen Index aufbauen, in den öffentliche Hosts sich freiwillig eintragen, damit alle verteilten Inhalte auffindbar werden.
So ließe sich das Suchproblem ebenfalls lösen.
Am Ende versucht Facebook vielleicht ohnehin, solche Daten über Threads einzusammeln.
Die HHI-Kennzahl selbst ist neu und leicht verständlich.
Wenn man sie auf 0–100 herunterskaliert (durch 100 teilt), würden die Zahlen vielleicht intuitiver wirken.
Außerdem könnte man erwägen, die Richtung umzudrehen, sodass 0 für Zentralisierung und 100 für vollständige Dezentralisierung steht.
Der Titel auf der Startseite erweckt den Eindruck, als würde der „Fortschritt“ in Richtung Dezentralisierung gemessen, und so wäre es vielleicht intuitiver.
Bei einem Wert von 2500 fragt man sich eher, was das bedeutet; wenn dort aber 25/100 stünde, würde es sich weniger nach „hoher Konzentration“ anfühlen.