2 Punkte von GN⁺ 2026-02-02 | 1 Kommentare | Auf WhatsApp teilen
  • Wiki Education hat im Jahr 2025 systematisch untersucht, wie sich generative KI (ChatGPT usw.) auf die Bearbeitung von Wikipedia auswirkt
  • Mithilfe des KI-Erkennungstools Pangram wurden 3.078 seit 2022 verfasste Artikel analysiert; dabei wurden 178 Artikel als mutmaßlich KI-verfasst eingestuft, von denen sich mehr als zwei Drittel bei der Verifizierung als nicht bestanden erwiesen
  • Daraufhin wurde die Schulung der Programmteilnehmenden verstärkt und es wurden Richtlinien zur KI-Nutzung sowie ein Echtzeit-Erkennungssystem eingeführt, um das direkte Kopieren und Einfügen von KI-generiertem Text zu verhindern
  • Für das Schreiben von Artikelentwürfen ist KI ungeeignet, in der Recherchephase kann sie jedoch für Materialsuche, Finden von Quellen und Erkennen inhaltlicher Lücken sinnvoll genutzt werden
  • Wiki Education betont, dass automatisierte KI-Erkennung und der Ausbau der Schulung von Editoren entscheidend sind, um die Zuverlässigkeit von Wikipedia zu erhalten

Die Beziehung zwischen generativer KI und Wikipedia

  • Wiki Education ist für rund 19 % der neuen aktiven Editoren der englischsprachigen Wikipedia verantwortlich und hat die Auswirkungen und Risiken generativer KI analysiert
    • Mit der Alltäglichkeit von Chatbots wie ChatGPT, Gemini und Claude nehmen auch die Versuche zu, sie bei der Wikipedia-Bearbeitung einzusetzen
    • Die Organisation hat das KI-Nutzungsverhalten der Teilnehmenden bewertet und die Ergebnisse veröffentlicht
  • Als Fazit wird der Grundsatz formuliert, dass KI-Ausgaben nicht unverändert in Wikipedia kopiert und eingefügt werden dürfen

Ergebnisse der KI-Erkennung und Verifizierung

  • Unter den seit der Einführung von ChatGPT im Jahr 2022 verfassten Artikeln wurden 178 von Pangram als KI-verfasst erkannt
    • Vor 2022 gab es keine Spuren von KI-Nutzung, danach nahm sie schrittweise zu
  • Nur 7 % verwendeten erfundene Quellen; die übrigen zitierten reale Quellen, doch mehr als 2/3 scheiterten an der Verifizierung
    • Die genannten Informationen waren in den zitierten Quellen nicht vorhanden, sodass sich ihr Wahrheitsgehalt nicht überprüfen ließ
  • Wiki Education musste erhebliche personelle Ressourcen für die Bereinigung nicht verifizierbarer Artikel einsetzen
    • Einige Artikel wurden als stub behandelt, für einige wurde eine Löschung vorgeschlagen (PROD), andere galten als nicht wiederherstellbar

Programmverbesserungen und KI-Erkennungssystem

  • Mit Unterstützung von Pangram wurde ein System aufgebaut, das Bearbeitungen von Teilnehmenden in Echtzeit analysiert
    • Über die eigene Dashboard-Plattform werden Bearbeitungen nachverfolgt und automatische Warnmeldungen betrieben
  • Das neue Schulungsmodul „Using generative AI tools with Wikipedia“ wurde eingeführt
    • Es trennt klar zwischen erlaubten und verbotenen Bereichen der KI-Nutzung
    • Als Kernbotschaft wird betont: „Keinen KI-Text kopieren und einfügen“
  • Von 1.406 KI-Bearbeitungswarnungen in der zweiten Hälfte des Jahres 2025 traten nur 22 % im eigentlichen Artikelnamensraum auf
    • Die meisten wurden bereits in der Sandbox-Übungsphase erkannt
  • Pangram zeigte bei nicht-satzförmigen Texten wie Formatierungen und Listen einige False Positives, behielt jedoch bei der Analyse von Fließtext eine hohe Genauigkeit

KI-Nutzungsverhalten und Wirkung der Schulung

  • Im Herbstsemester 2025 wurden unter 6.357 Personen nur bei 5 % KI-Spuren in echten Artikeln erkannt; die meisten Fälle wurden manuell oder automatisch zurückgesetzt
    • Teilnehmende, Lehrkräfte und Wikipedia-Experten arbeiteten zusammen, um KI-generierten Text zu entfernen
  • Lehrkräfte bewerteten die Arbeiten der Studierenden mit Schwerpunkt auf „Verifizierbarkeit (verifiability)“
    • Es wurde bestätigt, dass von KI erzeugte Sätze für Wikipedia ungeeignet sind, weil sie sich faktisch nicht verifizieren lassen
  • Durch frühes Eingreifen auf Basis von Pangram wurde die KI-Nutzungsrate von erwarteten 25 % auf 5 % gesenkt

Möglichkeiten für einen positiven Einsatz von KI

  • KI ist in der Recherchephase nützlich, etwa zur Identifizierung von Inhaltslücken, Quellensuche und zum Aufzeigen von Zugangswegen zu Materialien
    • In 7 Lehrveranstaltungen mit 102 gemeldeten Nutzungen antworteten 87 %, dass sie hilfreich war
    • Das am häufigsten genutzte Tool war ChatGPT, gefolgt von Grammarly
  • Studierende nutzten KI für Satzkorrekturen, Kategorievorschläge und die Bewertung von Entwürfen
    • Es gab jedoch keine Fälle, in denen KI den eigentlichen Artikeltext verfasst hat
  • Betont wird, dass KI nur dann hilfreich ist, wenn ihre Ergebnisse kritisch geprüft werden; menschliches Urteilsvermögen ist unerlässlich

Schlussfolgerungen und weitere Pläne von Wiki Education

  • Generative KI auf dem aktuellen Stand erzeugt nicht verifizierbaren Text und ist daher zum Schreiben von Wikipedia-Artikeln ungeeignet
    • Die Verifizierung KI-generierter Sätze kostet mehr Zeit als das direkte Schreiben
  • Für Materialsuche und Ideenfindung kann sie jedoch als Hilfsmittel verwendet werden
  • Das Erkennungssystem von Pangram soll auch 2026 weiter betrieben und verbessert werden
  • Es wurde ein Mangel an KI-Kompetenz bei den Teilnehmenden festgestellt; deshalb sollen zusätzliche Schulungsmodule zu großen Sprachmodellen (LLM) bereitgestellt werden
  • In Zusammenarbeit mit der Princeton University und anderen wird derzeit erforscht, wie sich studentische Bearbeitungen vor und nach der Einführung von KI verändert haben
    • Dabei wurde bestätigt, dass Pangram Bearbeitungen von 2015 bis 2022 mit 100 % Genauigkeit als menschlich verfasst identifizierte

Implikationen für Wikipedia insgesamt

  • 10 % der Erwachsenen weltweit nutzen ChatGPT, und ein erheblicher Teil davon verwendet es zum Schreiben von Texten
    • Es besteht das Risiko, dass unerfahrene Editoren KI-generierte Inhalte ohne Verifizierung hinzufügen
  • Automatische Erkennungstools wie Pangram sind unverzichtbar, um die Qualität von Wikipedia zu sichern
    • Derzeit ist nur eine manuelle Banner-Kennzeichnung möglich, doch ein automatisiertes Erkennungssystem ist erforderlich
  • Vorgeschlagen wird, Warnhinweise zur KI-Nutzung und quellorientierte Schulungen für neue Editoren zu verstärken
    • Auch die Bearbeitungsunterstützungssoftware der Wikimedia Foundation sollte menschzentrierte Zusammenfassungsverfahren priorisieren
  • Damit Wikipedia sich an technologische Veränderungen anpasst und zugleich verlässlich bleibt, ist die Entwicklung von Richtlinien und Werkzeugen für das KI-Zeitalter wichtig

1 Kommentare

 
GN⁺ 2026-02-02
Hacker-News-Kommentare
  • In der Wikipedia gab es schon immer ein weit verbreitetes Problem mit nicht verifizierten Quellen.
    Es ist schwer, Belege dafür zu finden, dass die Häufigkeit in letzter Zeit zugenommen hat.
    Die meisten Autoren scheinen das aufzuschreiben, was sie wissen, und später minimale, halbwegs plausible Zitate anzuhängen.
    Je nach Fachlichkeitsgrad der Seite oder wie nischig das Thema ist, wirkt die Zuverlässigkeit unterschiedlich.

    • In einer aktuellen Changelog-Podcast-Episode gab es so einen Fall in Echtzeit.
      Die Hosts entdeckten, dass sie fälschlich als „von GitHub“ bezeichnet wurden, und ein Gast korrigierte während der Aufnahme ein Wikipedia-Zitat.
    • Ich habe zwei Arten von Problemen erlebt. Das eine sind gefälschte Zitate, das andere echte Zitate aus Quellen von nicht vertrauenswürdigen Personen.
      Wenn man auf solche Probleme hinweist, behaupten manche Editoren, „Wikipedia sei vertrauenswürdig“.
      Solange sich diese Wahrnehmung nicht ändert, wird eine Verbesserung schwierig.
    • LLMs können mit deutlich höherer Häufigkeit als Menschen unbegründete Schlussfolgerungen hinzufügen.
    • Eigentlich könnte gerade diese Zitateverifikation automatisch von KI erkannt und zur Prüfung durch Menschen markiert werden.
    • Viele Artikel haben kaum Quellen oder verzerren Schlussfolgerungen durch fehlerhafte Zitate.
      Zum Beispiel wie in Fällen, in denen das Verhalten von Wassermolekülen falsch interpretiert wurde.
  • Der Artikel betont gleich dreimal: „Die Ausgabe generativer KI nicht copy-pasten.“
    Ich habe Ähnliches erlebt. Anfangs wirkt es erstaunlich plausibel, aber bald merkt man, wie viel Schein und Rauschen darin steckt.
    Für Ideenfindung oder Brainstorming ist es trotzdem ziemlich nützlich.

  • Ich habe diesen Titel gewählt, um den Kern des Artikels hervorzuheben.
    Der Satz „Mehr als zwei Drittel der markierten Artikel scheiterten an der Verifikation“ war besonders eindrücklich.

    • Bei politischen Artikeln war dieses Problem schon immer häufig.
      Wenn man die Zitate selbst prüft, findet man viele völlig untaugliche Quellen.
      KI kann das Problem verschärfen, aber böswillige menschliche Bearbeitungen gibt es weiterhin.
    • Der ursprünglich eingereichte Titel lautete: „Die meisten markierten Artikel scheiterten an der Verifikation.“
      Ich finde, das bringt den Kern gut auf den Punkt.
    • Menschen schreiben ebenfalls unbelegte Inhalte, aber LLMs sind bei Geschwindigkeit und Größenordnung viel schneller.
      Mich würde interessieren, wie hoch die Fehlerquote bei Zitaten vor der KI war.
  • Dieser Artikel behandelt nicht die gesamte Wikipedia, sondern nur Bearbeitungen über das Wiki-Edu-Programm.
    Es geht also um Artikel, die Studierende als Kursaufgabe geschrieben haben.

    • Wenn man Studierende zum Wikipedia-Editieren zwingt, ist es nur natürlich, dass dabei lieblose Ergebnisse niedriger Qualität entstehen.
      Das Problem liegt letztlich näher bei den KI-Nutzungsgewohnheiten an Hochschulen als bei Wikipedia selbst.
    • Das ähnelt auch der Gewohnheit von Studierenden, bei Hausarbeiten nur plausibel wirkende Zitate zu suchen und anzukleben.
      Es ist traurig zu sehen, dass sogar Promovierende manchmal auf diese Weise schreiben.
    • Unter den Artikeln aus Wiki Edu gab es auch welche, die wie Aufgaben aus dem kreativen Schreiben wirkten.
      Wenn man die Quellen las, sah man oft, dass die Bedeutung unbeholfen missverstanden oder falsch zusammengefasst wurde.
      LLMs sind genau das richtige Werkzeug für dieses „Schreiben nur für die Note“.
  • Über das Wikipedia-Problem hinaus ist das größere Problem, dass weltweit Millionen Menschen mit LLMs Texte erzeugen und ein Teil davon als Tatsachen konsumiert wird.
    LLMs haben keine Verpflichtung zur Wahrheit und sind nur grammatischer Kohärenz verpflichtet.

    • Tatsächlich geht es bei LLMs nicht einmal um grammatische Kohärenz, sondern eher darum, sich an einen populär gebräuchlichen Stil anzupassen.
      Manchmal passt das zufällig, aber es bleibt immer instabil.
  • Schon ein Blick auf einige Artikel könnte bedeuten, dass der Anteil bot-erstellter Texte geringer erkannt wurde, als er tatsächlich ist.
    Das heißt, möglicherweise wurden nur die Artikel erkannt, die die Verifikation nicht bestanden haben.

    • Das Klassifikationsmodell Pangram ist ein neuronales Netz zur Textklassifikation, das darauf trainiert wurde, von Menschen geschriebene Texte mit Texten verschiedener LLMs zu vergleichen.
      Details stehen im Paper als PDF.
  • Aus Sicht der LLM-Anbieter ist das eine Tragödie der Verschmutzung gemeinsamer Ressourcen.
    Wikipedia macht einen großen Teil der Trainingsdaten aus, daher fragt man sich, warum man sie selbst verunreinigt.
    Es wäre interessant, wenn Wikipedia eine Richtlinie einführen würde, die den Einsatz von KI verbietet.

    • Der Verursacher des Problems sind nicht die KI-Anbieter, sondern die Nutzer.
      Dasselbe passiert auch auf GitHub.
    • Solche Zitierfehler gab es aber schon vor LLMs.
      Nicht nur in der Wikipedia, sondern auch anderswo sind Zitate, deren Quelle nicht zur Behauptung passt, häufig.
    • Letztlich sind es einzelne Nutzer, die solche Probleme verursachen.
  • Eine wirklich nützliche Funktion wäre wohl ein Chatbot, den man nach Editier-Richtlinien fragen kann.
    Derzeit legen selbst erfahrene Editoren auf Diskussionsseiten die Regeln nach Belieben aus.
    Die Kultur des „erst zurücksetzen und später einen Grund nachschieben“ ist für Anfänger eine große Hürde.
    Hier könnte ein Bot sofort widersprechen.

  • Ein weiteres Problem sind KI-basierte Wikis wie Grokipedia.
    Oberflächlich wirken sie eleganter und mobiltauglicher als Wikipedia, enthalten aber absichtlich verzerrte Informationen.
    Möglicherweise wollen einige Großunternehmen oder politische Kräfte demokratische Informationsquellen schwächen.
    Man sollte darauf achten, dass Wikipedia nicht zum Ziel solcher Angriffe wird.

  • KI-Spam senkt zwar die Qualität, aber im Kern ist das ein Qualitätssicherungsproblem der Wikipedia.
    Der Prüfprozess ist langsam, und es gibt keine Garantie, dass neue Informationen korrekt sind.
    Selbst wenn KI-Spam verschwände, hätte das wenig Bedeutung, solange sich die Qualitätssicherung nicht verbessert.
    Wikipedia sollte sein Qualitätssicherungssystem neu aufbauen, mit dem Ziel, Inhalte klar auf dem Niveau eines durchschnittlichen Lesers zu erklären.