- Eine Analyse der Kommentar-Muster neuer Hacker-News-Konten zeigte zuletzt deutliche Unterschiede zu bestehenden Nutzern
- In 17,47 % der Kommentare neuer Konten wurden Gedankenstriche (—), Pfeile und andere Sonderzeichen verwendet; das ist etwa 10-mal mehr als bei bestehenden Konten mit 1,83 %
- Außerdem erwähnten neue Konten mit einer Wahrscheinlichkeit von 18,67 % Wörter rund um AI und LLMs, höher als die 11,8 % bei bestehenden Konten
- Die Analyse basiert auf Daten von
/newcomments und /noobcomments und vergleicht Stichproben von jeweils etwa 700 Kommentaren
- Diese Statistik deutet auf eine mögliche Zunahme automatisierter Konten (Bots) in der HN-Community hin
Beobachtete Auffälligkeiten in HN-Kommentaren
- In den vergangenen Monaten wurde ein Phänomen beobachtet, das wie ein starker Anstieg von Bots auf HN wirkt
- Einige Konten posten lediglich bedeutungslose Zeichenfolgen oder Zahlen
- Beispiele sind schwer verständliche Texte wie „13 60 well and t6ctctfuvuh7hguhuig8h88gd…“ oder Ein-Zeichen-Kommentare wie „1662476506“ und „Аё“
- Neben solchen Konten gibt es auch viele gewöhnlich wirkende, aber unbeholfene oder thematisch unpassende Kommentare
Methode der Datenerhebung und Analyse
- Die Seiten
/newcomments (aktuelle Kommentare) und /noobcomments (Kommentare neuer Konten) wurden gescrapt und vergleichend analysiert
- Aus jeder Gruppe wurden Stichproben von etwa 700 Kommentaren gesammelt und einfache statistische Kennzahlen berechnet
Zentrale statistische Ergebnisse
- 17,47 % der Kommentare neuer Konten enthalten Gedankenstriche, Pfeile oder andere Sonderzeichen, gegenüber 1,83 % bei bestehenden Konten — ein Unterschied um etwa den Faktor 10
- Statistische Signifikanz p = 7e-20
- 18,67 % der Kommentare neuer Konten enthalten Bezüge zu AI oder LLMs, mehr als die 11,8 % bei bestehenden Konten
- Statistische Signifikanz p = 0.0018
Interpretation und offene Fragen
- Auch menschliche Nutzer können Gedankenstriche verwenden, aber der übermäßige Nutzungsanteil bei neuen Konten ist schwer zu erklären
- Diese Unterschiede deuten auf die Möglichkeit automatisch erzeugter Konten unter den neuen HN-Accounts hin
Referenzen
- Der für die Analyse verwendete Quellcode und die Daten sind im GitHub-Repository (vlofgren/hn-green-clankers) veröffentlicht
- Marginalia.nu veröffentlichte die Untersuchung als Teil der Reihe „Weird AI Crap“
1 Kommentare
Hacker-News-Meinungen
Früher wurden auf HN em dash und en dash oft verwendet.
Ich mochte einfach Typografie und hatte mir angewöhnt, statt Semikolons Gedankenstriche zu benutzen.
Mit AHK hatte ich dafür Tastenkürzel eingerichtet, und jetzt führt genau das dazu, dass meine Texte fälschlich so wirken, als hätte sie ein LLM geschrieben.
Ich wurde schon mehrmals für eine AI gehalten, deshalb ist es schade, dass eine früher erfreuliche Vorliebe für Typografie jetzt negativ gesehen wird.
Dabei bin ich einfach nur jemand, der auf vollständige Sätze, Rechtschreibung, Grammatik und Großschreibung achtet.
Inzwischen scheint absichtlich etwas unordentlich zu schreiben ein Signal für Menschlichkeit zu sein. Ich denke mir dann, dass künftige Chatbots das wohl auch lernen werden.
Die Sätze klingen dadurch etwas holpriger, aber genau das vermittelt mir eine handwerkliche Authentizität.
Auf zwei Leerzeichen am Satzende werde ich allerdings niemals verzichten. Meine Schreibmaschinenlehrerin sagte 1993, dass auch Sätze Raum zum Atmen brauchen.
Ich tippe sie auf dem Mac schon ewig mit option+8, aber inzwischen wirkt selbst das wie ein LLM-Stil.
Ich habe die in neuen HN-Nutzerkommentaren häufig verwendeten Wörter statistisch verglichen.
Wörter wie „ai“, „actually“, „code“, „real“ und „built“ tauchen bei neuen Accounts viel häufiger auf.
In der Datentabelle ist das ausführlich aufbereitet.
Wissenschaftlich ist das problematisch, hier kann man es aber als interessante Einsicht sehen.
Wenn man stattdessen eine Effektgröße wie Cohen’s d berechnet, sieht man die tatsächliche Größenordnung des Unterschieds.
Meist ist es nur ein bedeutungsloses Füllwort, das die Klarheit des Textes mindert.
Ich habe die Hypothese, dass einige Bots AI-bezogene Themen künstlich pushen.
Ich habe em-dashes schon immer gern verwendet, aber jetzt finde ich es schade, dass ich sie aus Angst, für AI gehalten zu werden, nicht mehr benutzen mag.
Auf dem Mac lassen sie sich mit
alt+shift+-leicht eingeben, daher fühlt es sich an, als wäre eine gute typografische Gewohnheit verdorben worden.Wenn das vorhanden ist, wirkt ein Text unabhängig von der verwendeten Interpunktion menschlich.
Im Sinne einer Wiederaneignung der Typografie teile ich diesen Alt-Code-Guide für den Mac.
Letztlich kommt die eigene Ausdrucksweise des Menschen ohnehin zum Vorschein.
Die Daten sind im GitHub-Repository als SQLite-DB öffentlich verfügbar.
Mit Datasette Lite lassen sich SQL-Abfragen direkt im Browser ausführen.
Wenn man sich die Liste der Nutzer ansieht, die viele em-dashes verwenden, scheinen die meisten normale Accounts zu sein.
sourcehinzu, fallen green Accounts mit besonders häufiger em-dash-Nutzung auf.Das fühlt sich nicht nur bei HN so an, sondern wie eine Krise des anonymen Online-Diskurses insgesamt.
Wenn Vertrauen zerbricht, bricht die Plattform selbst zusammen.
Identitätsprüfung scheint die einzige Lösung zu sein, auch wenn selbst sie nicht perfekt ist.
In meinem Blogbeitrag stelle ich diese Idee vor.
Es scheint, als käme eine Zeit, in der man beweisen muss, dass man ein Mensch ist.
Wenn sich der Wert eines Kommentars durch geleistete Hash-Berechnungen belegen lässt, wäre Vertrauen auch ohne Identitätsnachweis möglich.
Wenn Bots kein positives Karma halten können, bekommen sie keine Rechte, daher ist auch ohne vollständige Identitätsprüfung eine gewisse Abwehr möglich.
In letzter Zeit fallen auf HN formelle, aber fade Kommentarmuster auf.
Sie wiederholen ständig Strukturen wie „this is [Zusammenfassung] / not just x, it’s y / punchy ending“.
Am Beispiel des Accounts snowhale ist das deutlich zu sehen.
Das könnte eine Strategie sein, ein Abstimmungsnetzwerk aufzubauen und die Erzählung zu manipulieren.
In den Suchergebnissen wiederholen mehrere Accounts denselben Satz.
Viele Antworten lesen den Gesprächskontext nicht richtig und wirken seltsam abgetrennt.
Wie Menschen gibt sie sich neutral, aber in ihr steckt die Verzerrung der Trainingsdaten.
Vollständige Neutralität ist vielleicht eine Illusion.
Wenn man dem Prompt hinzufügt: „Sprich wie ich, schreibe nicht wie AI, schreibe knapp“, ist das Problem zur Hälfte gelöst.
Durch diese Debatte haben viele überhaupt erst zum ersten Mal vom em-dash erfahren.
Inzwischen gibt es sogar etliche neue menschliche Nutzer, die in fast jeden Satz ein em-dash setzen.
Die meisten Bot-Accounts, die ich entdeckt habe, verwenden fast nie em-dashes.
Zum Beispiel hat aplomb1026 im Abstand von 30 Sekunden zwei lange Kommentare gepostet.
Das wird deutlich, wenn man den ersten Kommentar und den zweiten Kommentar ansieht.
Wenn die Konfiguration hier nicht versehentlich schlecht war, hätten die meisten es wohl gar nicht bemerkt.
Weitere Bots sind etwa dirtytoken7 und fdefitte.
Englisch-Literatur-Absolventen verwenden em-dashes schon lange, halten sich jetzt aber zurück, weil sie sonst wie AI wirken könnten.
Wenn AI irgendwann auch noch die New-Yorker-artige Diaeresis verwendet, drehe ich wirklich durch.
Ich habe sie intern trotzdem weiter benutzt.
Was, wenn man sich statt „nicht wie AI auszusehen“ lieber dafür entscheidet, im Roboteraufstand unterzutauchen?
Ich schlage ⸻ (U+2E3B dash) vor.