Ein Web des Vertrauens aufbauen, um LLM-Spam zu bekämpfen
(blog.tangled.org)- Tangled unterstützt standardmäßig die Funktion vouching, mit der Nutzer andere Nutzer, mit denen sie interagiert haben, befürworten oder missbilligen können, und nutzt dies als Vertrauenssignal, um auf die Zunahme von LLM-basierten Einreichungen zu reagieren
- Bei befürworteten Nutzern wird neben dem Profilbild ein grünes Schildsymbol angezeigt, bei missbilligten Nutzern ein rotes Schildsymbol – ein Hinweis, um zu entscheiden, ob man mit ihnen interagieren möchte
- Da LLM-basierte Tools die Hürde senken, Code in Projekte einzureichen, könnten äußerlich korrekt wirkende, aber subtil fehlerhafte „Uncanny-Valley“-artige Einreichungen zunehmen; Maintainer können Mitwirkende, die solche Tools missbrauchen und dadurch zusätzlichen Aufwand verursachen, befürworten oder missbilligen
- Befürwortungen und Missbilligungen enthalten ein textbasiertes Begründungsfeld und unterliegen einer Abschwächung, sodass Nutzer nur die Bewertungen sehen, die sie selbst oder ihr eigener Kreis abgegeben haben
- Wenn man in Tangled jemanden befürwortet oder missbilligt, wird im PDS des Nutzers ein öffentlicher Eintrag erstellt; die Appview aggregiert dies und zeigt über Profilen in Issues, Kommentaren und Pull Requests einen Befürwortungs-„Hut“ an
Vertrauenssignale in Tangled
- Tangled unterstützt standardmäßig die Funktion vouching, mit der Nutzer andere Nutzer, mit denen sie interagiert haben, befürworten oder missbilligen können
- Bei befürworteten Nutzern wird neben dem Profilbild ein grünes Schildsymbol angezeigt, bei missbilligten Nutzern ein rotes Schildsymbol
- Nutzer können auch die Befürwortungen und Missbilligungen sehen, die ihr eigener Kreis abgegeben hat, und diese als Signal für die Entscheidung über Interaktionen nutzen
- Da LLM-basierte Tools die Hürde senken, Code in Projekte einzureichen, könnten äußerlich korrekt wirkende, aber subtil fehlerhafte „Uncanny-Valley“-artige Einreichungen zunehmen
- Maintainer im Tangled-Netzwerk können Mitwirkende, die solche Tools missbrauchen und dadurch Wartungsaufwand verursachen, befürworten oder missbilligen
Funktionsweise und Designbeschränkungen
-
Sorgfältiges Design
- Befürwortungen und Missbilligungen enthalten ein textbasiertes Begründungsfeld
- Es wird eine Abschwächung (attenuation) angewendet, sodass Nutzer nur die Bewertungen sehen, die sie selbst oder ihr eigener Kreis abgegeben haben
- Derzeit werden missbilligte Nutzer nicht aus Projekten ausgeschlossen; in Teilen der UI wird lediglich ein rotes Warnlabel angezeigt
-
Geplante zusätzliche Funktionen
- Da Maintainer und Mitwirkende Projekte im Laufe der Zeit verlassen können, sollen Befürwortungen mit der Zeit schwächer werden und gelegentlich erneuert werden müssen
- Wenn ein Nutzer direkt nach dem Mergen eines PRs befürwortet wird, könnte eine Funktion zur Nachverfolgung von Belegen ergänzt werden, bei der der entsprechende PR als Nachweis zum Befürwortungseintrag hinzugefügt wird
-
Öffentliche Einträge und Anzeigeorte
- Wenn man in Tangled jemanden befürwortet oder missbilligt, wird im PDS des Nutzers ein öffentlicher Eintrag erstellt
- Dieser Eintrag enthält, ob es sich um eine Befürwortung oder Missbilligung handelt, sowie eine optionale Begründung
- Die Tangled-Appview aggregiert Befürwortungsdaten aus dem gesamten Netzwerk und zeigt an den Interaktionspunkten über Profilen einen Befürwortungs-„Hut“ an
- Anzeigeorte sind Issues, Issue-Kommentare, Pull Requests und Pull-Request-Kommentare
-
Sichtbarkeit auf Basis von Kreisen
- Ein Hut wird über einem Nutzer nur dann angezeigt, wenn der Nutzer ihn direkt befürwortet oder missbilligt hat oder wenn eine von ihm befürwortete Person diesen Nutzer wiederum befürwortet oder missbilligt hat
- Durch Klick auf den Hut lässt sich sehen, wer innerhalb des eigenen Kreises den betreffenden Nutzer befürwortet oder missbilligt hat
- Derzeit ist die einzige Folge einer Missbilligung die Anzeige des Huts; das kann sich künftig ändern, im Moment dient es nur als Signal zur Unterstützung der eigenen Einschätzung
1 Kommentare
Lobste.rs-Kommentare
Der bessere und einfachere Weg ist, eine strikte Anti-LLM-Politik festzulegen und sie konsequent durchzusetzen. Man sollte sich auch von Plattformen fernhalten, die wie GitHub den Einsatz von LLMs fördern oder generell AI-freundlich sind
Das ist nicht zu 100 % wirksam, aber wenn jemand den Einsatz von LLMs zu verbergen versucht, kommt das meist trotzdem ans Licht, und dann kann man sofort sperren. Wenn ein Unternehmen LLM-Spam forciert, sollte man das ganze Unternehmen blockieren; bei selbst gehosteten Forge-Instanzen kann man das Netzwerk der Firma an der Firewall sperren
Halbgares wie Proof-of-Work benachteiligt Erstbeitragende und Gelegenheitsbeitragende, und Vertrauensbürgschaften sind letztlich auch nur eine Form von Proof-of-Work. Es ist wirksamer, nicht die Schwächeren zu schikanieren, sondern schlechte Akteure schnell hart zu treffen
Schon im Zitat geht es darum, Beitragende zu verbürgen oder zu tadeln, die dieses Tool missbrauchen und dadurch Wartungsaufwand erzeugen
Wegen ein paar Leuten, die eine LLM-Hexenjagd betreiben, Plattformverbote in Kauf zu nehmen, wäre eher kontraproduktiv. Schon hier oder auf HN sieht man gelegentlich falsche Verdächtigungen, ein Text sei mit einem LLM geschrieben; wenn man sich damit auch noch bei PRs herumschlagen müsste, wäre das wirklich ermüdend
Das System soll Beitragende vermeiden helfen, die Tools missbrauchen und dadurch Wartungsaufwand erzeugen, und es ließe sich ebenso gegen Beitragende einsetzen, die auf herkömmliche Weise Wartungsaufwand verursachen. Es wirkt wie ein weiterentwickeltes Modell von Commit-Rechten
Mit einer Anti-LLM-Politik könnte man das damit durchsetzen, und mit einer Anti-Belästigungs-Politik ebenfalls
Wenn das nicht direkt mit dem Einreichen von PRs verknüpft ist, wirkt das bestenfalls nutzlos und schlimmstenfalls wie ein schädliches Moderationssystem. Irgendjemand wird Nutzer massenhaft tadeln, nur weil sie irgendwann einmal LLMs benutzt haben, und danach könnten gruppenweise Angriffe aus anderen Gründen beginnen
Das Web of Trust an sich ist cool, aber dieses Projekt behandelt nur die technische Seite und nicht die soziale. Wenn man ein Moderationssystem baut, ohne einen großen Abschnitt dazu zu haben, wie es ohne Missbrauch skaliert werden soll, dann wird es böse Überraschungen geben
Als Experiment, das zuerst soziale Anreize ansetzt, um soziale Probleme zu lösen, ist es ziemlich interessant, und das Design wirkt clever
Wenn es heißt: „Getadelte Nutzer erfahren keinerlei Konsequenzen. Sie bekommen nur einen Hut“, was soll das dann überhaupt bringen? Die PR-Bearbeitung muss am Ende trotzdem genauso gemacht werden
Zum Beispiel könnte man blockieren oder niedriger priorisieren
Gibt es irgendeinen Mechanismus, der verhindert, dass ich mehrere Domains anlege, auf jeder eine Million Nutzer erzeuge und sie sich gegenseitig verbürgen lasse? Dann könnten andere von mir gebündelte Reputation kaufen, die sich kaum auseinanderhalten lässt
Ehrlich gesagt scheint mir das Einladungsbaum-Modell von lobste.rs besser. Wenn jemand Missbrauch beginnt, kann man den ganzen Unterbaum leicht abschneiden, und es wächst langsamer, was eher ein Vorteil ist
In human.json würde vermutlich niemand Knoten in so einem Netzwerk verbürgen, oder es gäbe zu wenige eingehende Verbindungen, sodass die Distanz groß ausfiele. Das heißt nicht, dass man solche Seiten nicht ins Netzwerk bringen könnte, aber Bürgschaften und Misstrauen könnten sie schnell wieder hinausdrängen. Wie das in der Praxis funktioniert, muss man erst noch sehen
Ein petnames-ähnliches UI-Layer, in dem man inline oder per Mouseover sehen kann: „X, Y, Z bürgen dafür“, wäre schön
Ich frage mich, wie gut so etwas „Reputation Farming“ verhindern könnte
Da alle Daten letztlich öffentlich sind, könnte natürlich jemand tangled2.org bauen und einen globalen Graphen erzeugen, aber im UI ist bewusst vorgesehen, dass Bürgschaften außerhalb des eigenen Zirkels schwächer werden
Die Idee ist gut, aber vielleicht sollte man einfach natürlich kommunizieren. Selbst banale Kommunikation ist inzwischen zu ordentlich und zu konsistent
Wenn man Tippfehler im Geschriebenen stehen lässt, entsteht ein echter menschlicher Fingerabdruck
Ich mag die Idee. Sie erinnert an den tree of trust, den lobste.rs selbst verwendet
Es fühlt sich an, als würden wir die trust metric research, die fast zeitgleich mit der Entstehung von Open Source lief, gerade im Schnellverfahren nachstellen. Ich frage mich, wie @raph das sehen würde
Es war nicht perfekt, aber eindeutig viel besser als gar nichts
Es scheint davon schon ein halbes Dutzend zu geben; warum also noch eins bauen, statt bei einem bestehenden mitzumachen?