Bots, viel zu viele Bots

(wakatime.com)

1 Punkte von GN⁺ 2024-10-02 | 1 Kommentare | Auf WhatsApp teilen

ProductHunt ist eine Plattform für Produkt-Launches mit über 1 Million registrierten Nutzern, doch in einer Analyse öffentlich zugänglicher Daten wurden mehr als 60 % der Konten als automatisierte Bot-Accounts eingestuft
Nachdem in eine Produktbeschreibung eine LLM Prompt Injection eingebaut und das Produkt selbst gelauncht wurde, stellte sich heraus, dass fast alle Kommentare automatisiert waren; auch viele aktuelle Kommentare wirkten, als seien sie von ChatGPT erstellt
Ob es sich um Bots handelt, lässt sich allein anhand öffentlicher Daten schwer eindeutig bestimmen; daher erfolgte die Einstufung über einen Risikoscore, der Aktivitätsdauer, Upvote-Muster, Überschneidungen mit anderen Bots und Kommentarinhalt kombiniert
Seit 2018 übersteigen Bot-Registrierungen die Registrierungen echter Nutzer; 2022 übertrafen Bot-Upvotes echte Upvotes, wodurch die Wahrscheinlichkeit stieg, dass Voting-Ringe das Ranking beeinflussen
Ein ProductHunt-Launch kann weiterhin Sichtbarkeit bringen, doch statt auf Kommentar-Interaktion und SEO-Effekte zu hoffen, ist es realistischer, ihn kurz vorzubereiten und nicht übermäßig viel Zeit zu investieren

Auf ProductHunt sichtbare Bot-Aktivität

ProductHunt war seit Anfang 2014 nützlich, um Launches neuer Tech-Produkte zu verfolgen, über Kommentare ähnliche Tools zu finden oder Feedback zum eigenen Produkt zu sammeln
In letzter Zeit wirkten die meisten Produktkommentare wie von ChatGPT generierte Kommentare, daher wurde testweise ein einfacher LLM-Prompt-Injection-Text in die Produktbeschreibung eingebaut und das Produkt selbst gelauncht
Nachdem sich nach dem Launch zeigte, dass fast alle Kommentare automatisiert waren, wuchs der Zweifel daran, ob es für ProductHunt-Starter nicht Zeitverschwendung ist, auf Kommentare zu antworten
Es kommen weiterhin E-Mails, die gegen Bezahlung Upvotes anbieten, und auf Reddit gibt es auch einen Fallbericht von jemandem, der zweimal ProductHunt-Upvotes gekauft hat

Für die Analyse verwendete öffentliche Daten

Analysiert wurden öffentlich zugängliche Listen von ProductHunt-Nutzern, Launches, Upvotes und Kommentaren
Der Datenumfang war wie folgt
- Nutzerregistrierungen: über 1 Million
- Launches: über 300.000
- Kommentare: 2,5 Millionen
- Upvotes: 20 Millionen
Jedes Produkt hat ein Tagesranking, also den Score 24 Stunden nach Mitternacht PDT am Launch-Tag
- Platz 1 entspricht daily rank 1
- Bei einigen Produkten ist der rank null, möglicherweise weil sie gelöscht, gemeldet oder nicht gelauncht wurden

Methode zur Erkennung von Bot-Accounts

Da Bot-Erkennung allein anhand öffentlicher Daten schwierig ist, reichte ein einzelnes Kriterium nicht aus
Zunächst wurde versucht, anhand der Zeitpunkte von Nutzerkommentaren Muster zu finden
- Ein Nutzer hatte 677 Tage Mitgliedschaft, 2.009 Kommentare und 4.649 Upvotes; er wirkte wie ein Power-User mit Automatisierung, wurde aber nicht als Bot eingestuft
- Ein anderer Nutzer hatte 140 Tage Mitgliedschaft, 173 Kommentare und 246 Upvotes; die Abstände zwischen Kommentaren waren regelmäßig, und der Chart wirkte nicht glatt, sondern blockartig
Am Ende wurde jedem Nutzer durch Kombination mehrerer Signale ein Risikoscore zugewiesen
- Dauer der Account-Aktivität
- Upvote-Muster im Zeitverlauf
- Anzahl der Upvotes, die mit anderen Bots geteilt wurden
- Kommentarinhalt
In von ChatGPT generierten Kommentaren tauchen Wörter wie game-changer häufiger auf
In Bot-Kommentaren fanden sich häufig Zeichen, die man normalerweise schwer eingibt, etwa ein em dash, oder Produktnamen, die sehr lang waren oder ™ enthielten und unverändert übernommen wurden
Einige Bot-Accounts verwendeten unverändert die Namen und Biografien echter Personen von LinkedIn, doch diese Personen antworteten, dass sie nie ein ProductHunt-Konto erstellt hatten
Clustering zeigte teilweise Wirkung, aber viele Bot-Accounts wurden nach Gebrauch aufgegeben, sodass sich bei vielen zufälligen Votes jeweils nur einer mit anderen Bots überschnitt
- Da in cupy und cudf die auf der GPU benötigten Methoden nicht implementiert waren, wurde Clustering nur auf kleinen Datensätzen ausgeführt
- Mit mehr Erfahrung auf diesem Gebiet ließe sich die Bot-Erkennung vermutlich verbessern
Die Analyse ergab, dass mehr als 60 % der Nutzerregistrierungen als automatisierte Bot-Accounts erkannt wurden
- Das ist eine konservative Zahl, da nicht alle Bots erfasst wurden
- Mit internen ProductHunt-Daten wäre Bot-Aktivität leichter genauer zu finden

Veränderung der Bot-Aktivität im Zeitverlauf

Nutzerregistrierungen
- Seit 2018 wurden mehr Bot-Nutzer als echte Nutzer erstellt
Kommentare
- Seit Ende 2022 haben Bot-Kommentare stark zugenommen
- Dieser Zeitpunkt liegt ungefähr dort, wo ChatGPT breit verfügbar wurde
- Der starke Anstieg 2024 könnte daran liegen, dass Bot-Accounts im Laufe der Zeit gelöscht werden
- Neuere Accounts sind wahrscheinlich noch nicht gelöscht, wodurch der Zugriff auf Kommentare einfacher ist
Upvotes
- 2022 überstiegen Bot-Upvotes die Upvotes echter Nutzer
- Bots bildeten Voting-Ringe, um die Chance zu erhöhen, in den ProductHunt-Newsletter aufgenommen zu werden
Rankings
- Die meisten Launches erhalten nur wenige echte Upvotes
- Da Bots zufällig abstimmen, um unauffälliger zu wirken, ist die Trendlinie der Bot-Upvotes glatter als die der Upvotes echter Nutzer

Zusammenhang zwischen Tagesranking und Bot-Upvotes

ProductHunt-Launches auf Platz 1 werden im täglichen und wöchentlichen Newsletter vorgestellt
Um Platz 1 zu erreichen, wirkten 15 % Bot-Votes wie ein sicherer Bereich
Launches mit mehr als 60 % Bot-Votes schienen aus irgendeinem Grund nicht auf Platz 1 zu kommen
Betrachtet man nur Launches seit 2020, machen Bots bei neueren Top-Beiträgen einen größeren Anteil der Upvotes aus
Da Launches, die Upvotes kaufen, möglicherweise keine hochwertigen Produkte sind, bleiben sie nach Einschätzung des Autors oft eher in den Top 5, statt Platz 1 zu erreichen

Wirksamkeit eines ProductHunt-Launches

Auch wenn die meisten Kommentare und Upvotes von Bots stammen, kann es auf ProductHunt weiterhin einige echte Nutzer geben
Wenn man Bots bezahlt und dadurch im Newsletter vorgestellt wird, besteht die Chance, dass mehr echte Menschen das Produkt sehen
Ein ProductHunt-Launch hat keinen Backlink-SEO-Effekt
- Damit Google einen Backlink zählt, darf das a-Linkelement zum Produkt kein nofollow enthalten
- Die Produktlinks auf ProductHunt enthalten nofollow, sodass Suchmaschinen sie nicht als Backlinks zählen
- Wenn man nur einen Link zum Produkt eingibt, ist das kein echter Link, sondern ein button-Element, das die Produktseite per JavaScript öffnet
- Andere Aggregator-Websites können den Launch übernehmen und verlinken, ProductHunt selbst zählt jedoch nicht als Backlink
Unter Investoren gibt es Gruppen, denen ein ProductHunt-#1-Badge wichtig ist; das kann in Gesprächen mit Investoren helfen
Insgesamt kann sich ein ProductHunt-Launch lohnen, aber es ist besser, nicht mehr als ein paar Minuten in die Launch-Vorbereitung zu stecken und keine Zeit mit Antworten auf Kommentare zu verschwenden

Offene Analyse und verwandte Projekte

Es sollte eine Liste von Launches ohne Bot-Votes erstellt werden, um zu prüfen, ob sich dadurch der jeweilige Platz-1-Launch des Tages ändern würde
Da keine Launches mit vielen Bot-Upvotes genannt werden sollten, für die möglicherweise gar nicht bezahlt wurde, und bezahlten Launches keine zusätzliche Werbung verschafft werden sollte, wurde diese Analyse auf einen künftigen Beitrag verschoben
Die zugehörige Diskussion findet sich auf HN
Als Versuche, das ProductHunt-Problem zu verbessern, werden auch wonderful.dev und wonderful.dev/alan vorgestellt

1 Kommentare

GN⁺ 2024-10-02

Hacker-News-Kommentare

Ich frage mich, ob ProductHunt überhaupt irgendeine CAPTCHA-Lösung verwendet
CAPTCHA bekommt zwar meist viel Kritik ab, aber ich denke weiterhin, dass es viel Wert hat, um die meisten solcher Spam-Angriffe zu verhindern. Die Probleme bei Benutzbarkeit, Barrierefreiheit und Datenschutz haben sich in den letzten Jahren durch Verfahren verbessert, die ohne Nutzereingabe funktionieren und die Privatsphäre schützen, und auch wenn fortgeschrittene Bots sie umgehen können, sind traditionelle Methoden immer noch nützlich genug, um Bots mit geringem Aufwand zu stoppen. Gegen Angriffe mit echten Menschen ist CAPTCHA von vornherein nicht geeignet, also braucht eine Website dafür separate Abwehrmaßnahmen, aber ich glaube nicht, dass das heute die Hauptursache des sichtbaren Spams ist
- Ich überlege derzeit, ob man eine Art System mit Einsatz bauen könnte, das eine hohe Wahrscheinlichkeit, ein Mensch zu sein, nachweist
  Wenn man zum Beispiel auf einer „Verifier“-Website einmalig 5 Dollar an eine gewünschte Wohltätigkeitsorganisation spendet, könnte man einen Proof-Token dafür bekommen, dass man Geld ausgegeben hat, und kooperierende Websites wie HN könnten diesen Token verbrennen, um ein Konto als wahrscheinlich menschlich oder zumindest als Bot zu markieren, bei dessen Sperrung der Besitzer einen Verlust erleidet. Das wäre viel datenschutzfreundlicher als mehrere staatliche Ausweissysteme zur Identitätsprüfung, und auch wenn es wie „Sprechrecht kaufen“ wirken mag, könnte es in der Praxis billiger sein als Zeit-, Fahrt- und Papierkosten in kostenlosen Systemen. Die großen Probleme wären wohl betrügerische Käufe von Tokens mit gestohlenen Karten, Verifier-Websites, die einfach mit dem Geld verschwinden, Ziel-Websites, die heimlich Proof-Tokens sammeln, und eine dezentrale Abwicklung, bei der mehrere Spendenseiten und Kontoseiten jeweils unterschiedliche Tokens vertrauen
- Es gibt bereits eine Branche für CAPTCHA-Lösedienste, und die nutzt meist Menschen in Regionen mit niedrigen Lohnkosten
  Bei einem der populären Dienste kostet reCAPTCHA pro Lösung etwa $0.001~$0.002, und dafür braucht man kein großes technisches Niveau. Selbst wenn für jeden Kommentar ein CAPTCHA nötig wäre, könnte man mit rund 50 Dollar pro Jahr eine Website mit 100 Kommentaren am Tag zuspammen. Der durchschnittliche Script Kiddie würde vielleicht herausgefiltert, aber wenn sich mit Spam Geld verdienen lässt, bleibt das leicht profitabel. Es ist schwer, solche Dienste als „Edge Case“ zu sehen
- Website-Betreiber wollen ihre Daten öffentlich machen, aber gleichzeitig nicht, dass sie kopiert werden
  Das ist ein inhärenter Widerspruch, ähnlich wie DRM, das nicht funktioniert. Auch Webentwickler blähen Websites mit JavaScript im MB-Bereich und übermäßig komplexem Design massiv auf, obwohl eine einfache statische Website mit CDN viel günstiger sein könnte
- Die nahezu perfekte Lösung ist, alle Einreichungen manuell zu prüfen
  Man nutzt ein automatisiertes System als erste Spam-Abwehrlinie und stellt dann Menschen ein, die alle durchgekommenen Einreichungen einzeln kontrollieren. Selbst wenn etwas von einem Menschen stammt, kann man in diesem Prozess ein gewisses Qualitätsniveau sicherstellen. Legitime Einreichungen, die im ersten Spamfilter hängen bleiben, könnten per E-Mail oder ähnlich Einspruch einlegen und in eine Warteschlange zur manuellen Prüfung kommen. Einfach ist das nicht, und bis zur Veröffentlichung kann es dauern, aber Spam und minderwertige Inhalte könnten so faktisch auf nahezu null sinken
- Da ich wegen der VPN-Nutzung ohnehin schon oft in CAPTCHAs laufe, hoffe ich, dass es davon nicht noch mehr gibt
  Man sollte bedenken, wie viel menschliche Zeit damit verschwendet wird
Als ich vor etwa 5 Jahren ein Produkt auf ProductHunt eingestellt habe, bekam ich ebenfalls Dutzende Werbeangebote mit garantierter Platz-1-Position
Buchstäblich innerhalb einer Stunde nach dem Posten wurde ich mit Nachrichten überschüttet, und heute ist es wahrscheinlich noch schlimmer
Es ist problematisch, die Analyse auf einer willkürlichen Klassifikation aufzubauen, bei der es keine Möglichkeit gibt zu prüfen, ob ein Nutzer ein Bot ist oder nicht
Wenn diese Klassifikation falsch ist, ist die ganze Analyse falsch. Besonders auffällig ist die Passage „Gegen Ende 2022, als ChatGPT breit genutzt wurde, stieg die Zahl der Bot-Kommentare stark an“. Eines der Klassifikationskriterien ist nämlich, dass „von ChatGPT erzeugte Kommentare häufiger Wörter wie game-changer enthalten, schwer einzugebende Zeichen wie den em dash oder ™ nutzen und lange Produktnamen unverändert übernehmen“. Anders gesagt: Man klassifiziert etwas als Bot, wenn es sich wie ChatGPT verhält, und präsentiert dann als interessante Entdeckung, dass es nach dem Start von ChatGPT mehr solcher Nutzer gab. Es könnte auch sein, dass es schon vorher viele Bots gab, die nur andere Software verwendeten und sich deshalb anders verhielten und nicht erkannt wurden
- Das stimmt, aber wenn die Klassifikation für Bots mit ChatGPT-Nutzung korrekt ist, dann ist allein der starke Anstieg von mit ChatGPT erzeugten Kommentaren tatsächlich bemerkenswert
  Und wenn diese Klassifikation stimmt, ist auch wichtig, dass bot-generierte Kommentare die Zahl echter menschlicher Kommentare deutlich überstiegen haben könnten, selbst wenn die Gesamtzahl der Bots unterschätzt wird, weil Bots ohne ChatGPT nicht mitgezählt werden. Natürlich gibt es hier, wie du sagst, ziemlich viele „wenn“, und wenn die Prämissen nicht halten, fällt auch die Schlussfolgerung zusammen
- Der Beitrag beginnt mit einem Prompt-Injection-Test, und für seine Annahmen gibt es Belege
  Wenn nicht, sollte man eine alternative Klassifikationsmethode vorschlagen; sonst wirkt die Kritik böswillig und hilft nicht weiter
- Solche statistischen Methoden können ziemlich genau sein, wenn es darum geht zu beurteilen, ob ein Kommentarbereich voller Bots ist, aber sie sind deutlich weniger genau, wenn es darum geht, einen einzelnen Kommentar als Bot oder Nicht-Bot einzuordnen
Die Kernfrage ist, wer überhaupt auf ProductHunt ist
Sind es Kunden? Eher fraglich. Indie Hacker? Möglich schon. Wir sollten prüfen, an wen wir eigentlich verkaufen und ob es überhaupt sinnvoll ist, auf PH zu launchen
- Ein sehr guter Punkt
  Wir haben auf PH gelauncht, wurden an dem Tag Platz 1 und in der Woche ebenfalls Platz 1, aber neue Kunden kamen fast gar nicht dazu, dafür jedoch viele eingehende Anfragen von Investoren. Wenn man Fundraising betreibt, ist es wertvoll, ansonsten sollte man dorthin gehen, wo die Kunden sind. Unsere Kunden waren keine PH-Nutzer
Die Analyse ist großartig, aber noch überraschender ist fast, dass ProductHunt überhaupt eine „echte“ Website ist
Ich habe PH vor langer Zeit mit ublacklist blockiert, weil es wie SEO-Promotion/Müll aussah und zu sehr Websites ähnelte, die aus „VS/Vergleich/5 beste Apps“-Inhalten bestehen und fast keinen echten Inhalt haben. Solche Websites tauchen schneller auf, als man sie per Hand herausfiltern kann. Selbst nachdem ich noch einmal nachgesehen und festgestellt habe, dass es keine rein generierten Inhalte sind, verstehe ich immer noch nicht den Wert des Angebots, wenn ich dort in Suchergebnissen zufällig landen würde
- Ich kenne mehrere Unternehmen, denen ein gutes Ranking auf PH ziemlich wichtig ist, aber die Reaktion war immer dieselbe
  Ist das wirklich ein Ort, der Endnutzer oder Unternehmen tatsächlich interessiert?
Der Trend bei Bots und Menschen ist etwas beunruhigend
Erkannte Menschen scheinen im Lauf der Zeit weniger zu voten und zu kommentieren, während Bots im Gegenteil zunehmen. Ist das ein weiteres Signal dafür, dass die Dead-Internet-Theorie stimmt?
- DIT ist eigentlich schlecht benannt
  Da es noch nicht eingetreten ist, sondern eher etwas, das sich künftig verwirklichen könnte, wäre Dead-Internet-Prophezeiung wohl der bessere Ausdruck
- Dazu passend: Echte Menschen auf HN sind auf 5 Kommentare in 6 Stunden begrenzt, aber ein böswilliger Akteur kann diese Begrenzung umgehen, indem er einfach Hunderte von Konten erstellt
Früher gab es die Web of Trust (WOT), bei der über Websites abgestimmt wurde
Könnte eine Web of Trust für Menschen bei der Abwehr von Bots helfen? Wenn es ein Dutzend oder so Accounts gäbe, die bestätigen können, dass ich ein echter Mensch bin, und andere mir ebenfalls Stimmen geben könnten, ließe sich ein Vertrauensnetz aufbauen. Natürlich braucht es einen Startpunkt, aber mit verifizierten Accounts oder durch Verknüpfungen und Interaktionen in sozialen Medien ließe sich das relativ leicht aufsetzen. X und Meta wissen vermutlich ziemlich genau, welche Accounts Bots sind, scheinen aber kein Interesse daran zu haben, dieses Wissen als Service bereitzustellen
- KI wird immer besser werden
  Es dürfte nicht mehr lange dauern, bis KI auftaucht, deren Ziel es ist, eine Online-Präsenz aufzubauen, die glauben macht, dass ein echter Mensch dahintersteht. Sie kann sogar generierte Videos einer Fake-Person hochladen, die ganz gewöhnlichen Aktivitäten nachgeht. Am Ende wird man eine Web of Trust, Nachweise und Reputationswerte für Agenten brauchen; dazu müssten wohl auch Elemente wie persönliche Interaktionen in der realen Welt, eine gewisse Unterstützung durch den Staat und Kameras gehören, die Aufnahmen und Metadaten verifizieren können. Menschen, die Inhalte konsumieren und deren Echtheit überprüfen wollen, werden an diesem System teilnehmen oder bei den bestehenden Medien bleiben müssen, und manche Länder könnten Gesetze erlassen, die Bürgern dabei helfen, echte Nachrichten zu konsumieren. Ich glaube allerdings nicht, dass es eine Möglichkeit gibt, ein ziemlich starkes Vertrauensnetz aufzubauen, ohne die Identität der anderen Seite tatsächlich zu kennen. Deshalb wird dieses Vertrauensnetz auch von Kriminellen und Regierungen genutzt werden, um Ziele zu finden. Die gesellschaftlichen Kosten, wenn KI vorgibt, menschlich zu sein, sind so hoch, dass eine Gesetzgebung, die das verbietet, sinnvoll sein könnte
- Am Ende muss man sich daran erinnern, dass du nicht der Kunde bist, sondern irgendein Werbekunde
  Die Nutzerzahlen aufzublähen, um mehr Werbung zu verkaufen, ist die Hauptfunktion solcher Dienste
- Ein solches System wird für Zwecke staatlicher Bequemlichkeit zurechtgebogen und verzerrt werden
Auf Reddit gibt es ein paar Beiträge mit nicht vielen Kommentaren, bei denen ungefähr jede Woche ein GPT-basierter Bot auftaucht und eine völlig offensichtliche Frage hinterlässt wie: „Wow! Das gibt wirklich zu denken, ich frage mich, warum das wichtig ist.“
Es wirkt wie der Versuch, mich dazu zu bringen, dem System mehr Daten zu füttern. Es würde mich nicht überraschen, wenn Reddit selbst solche Bots betreibt, um Beteiligung anzukurbeln
- Man muss sich nur die Geschichte von Reddit ansehen
  Bevor Bots möglich waren, wurde mit von Menschen betriebenen Fake-Accounts kuratiert, und jetzt, wo Bots möglich sind, bin ich fest davon überzeugt, dass die meisten Kommentare und Beiträge in populären Subreddits von Bots stammen. Einen erheblichen Teil davon betreibt meiner Ansicht nach Reddit selbst

Bots, viel zu viele Bots

Auf ProductHunt sichtbare Bot-Aktivität

Für die Analyse verwendete öffentliche Daten

Methode zur Erkennung von Bot-Accounts

Veränderung der Bot-Aktivität im Zeitverlauf

Nutzerregistrierungen

Kommentare

Upvotes

Rankings

Zusammenhang zwischen Tagesranking und Bot-Upvotes

Wirksamkeit eines ProductHunt-Launches

Offene Analyse und verwandte Projekte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare