- Die Website Low-background Steel dient dazu, Materialien zu sammeln, die nicht durch KI-generierte Inhalte kontaminiert sind
- Das Projekt konzentriert sich auf Text-, Bild- und Videomaterial, das vor der großflächigen Verbreitung von KI-Inhalten im Jahr 2022 erstellt wurde
- Es verweist auf repräsentative Quellen wie Wikipedia, Arctic Code Vault und Project Gutenberg
- Besucher der Website können neue, nicht kontaminierte Materialien ebenfalls einreichen
- Die Idee ist vom Konzept sauberer Metalle aus der Zeit vor Atomtests inspiriert und legt den Schwerpunkt auf Zuverlässigkeit und den Erhalt von Originalität
Einführung
- Low-background Steel ist eine Website, die Online-Ressourcen sammelt, die nicht durch von KI erzeugte Inhalte kontaminiert sind
- Der Name der Website ist von Low-background Steel (und Lead) inspiriert, also Metall, das vor Atomtests hergestellt wurde und daher nicht radioaktiv kontaminiert ist
- Metall, das aus vor dem Atomtest (Trinity Test) gesunkenen Schiffen geborgen wird, gilt als wertvoll, weil es nahezu frei von radioaktiver Kontamination ist
- In Anlehnung daran soll reiner digitaler Content bewahrt und zugänglich gemacht werden, der vor dem starken Anstieg KI-generierter Inhalte produziert wurde
Ziel und Hintergrund
- Der Fokus liegt auf der Sicherung verschiedenster originaler Materialien wie Texte, Bilder und Videos aus der Zeit vor dem Auftreten groß angelegter KI-basierter generierter Inhalte im Jahr 2022
- Zu diesen Materialien gehören vertrauenswürdige repräsentative Open-Source-Datenbanken wie der vollständige Dump von Wikipedia, der Arctic Code Vault und Project Gutenberg
- Nutzer der Website können neue nicht kontaminierte Materialien direkt über ein Einreichungsformular hinzufügen
Bedeutung der Website
- In einer Zeit, in der KI-generierte Inhalte stark zunehmen, wird die Bewahrung von Originalität und die Sicherung vertrauenswürdiger Informationen immer wichtiger
- Low-background Steel hat das Ziel, eine saubere Datenreferenz bereitzustellen, die ohne Sorge vor Informationskontamination genutzt werden kann
Wie man beitragen kann
- Jede Person kann neue Quellen für nicht kontaminierte Inhalte über die Submit-Funktion der Website zur Aufnahme vorschlagen
Referenz
- Verlinkt ist eine Wikipedia-Erklärung zu Low-background Steel, die die Intention der Website gut widerspiegelt
- Das Projekt wurde im März 2023 gestartet und fungiert derzeit praktisch als experimenteller Hub zur Bewahrung von Online-Inhalten
1 Kommentare
Hacker-News-Kommentare
Ich finde die Idee interessant, Unicode um eine neue „Plane“ zu erweitern, alle nützlichen Zeichen spiegelbildlich zu duplizieren und sie mit zusätzlichen Status-Bits zu unterscheiden
Zum Beispiel stelle ich mir vor, dass im Bereich „direkt von Menschen geschrieben“ die Verwendung von KI-generiertem Text sofort sanktioniert wird, dass im Bereich „nur für Menschen sichtbar“ sogar das Training oder der Zugriff durch KI verboten ist und dass im Bereich „als KI-generiert gekennzeichnet“ alle KI-Ausgaben zwingend in diesem Zeichenbereich codiert werden müssen
Natürlich wären diese Zeichen visuell kaum zu unterscheiden und nur über Software erkennbar, sodass sie als subtiler Kanal fungieren würden
Selbst beim Kopieren und Einfügen von Text würden die Informationen des Originals durch kleine Unterschiede in der Zeichenkodierung mitwandern
Es ist fast ein Scherz, aber ich finde so ein System spannend
Ähnlich wie bei Bio-Lebensmitteln glaube ich, dass 100 % von Menschen geschriebene „organische“ Inhalte einen Premiumwert bekommen würden
Ich finde den Maßstab „KI-generierter Text“ unklar und nenne konkrete Beispiele
In Unicode gibt es ursprünglich Tag-Zeichen zur Kennzeichnung von Sprachbereichen, aber sie wurden von höherstufigem Markup (HTML usw.) verdrängt und sind heute obsolet
Falls dieses Gesetz eingeführt würde, gäbe es in Indien nach 12 Millisekunden „Schreibfabriken“, in denen Menschen KI-Ergebnisse abschreiben, um Datenwäsche zu betreiben
Wenn man zum Beispiel einen Text in einer Fremdsprache schreibt und ChatGPT um eine englische Übersetzung bittet, ist das dann ein KI-Erzeugnis?
Ich behaupte, dass KI-Ausgaben ihrem Wesen nach zur Regression zum Mittelwert neigen
Aus dieser Perspektive sind das alles Informationen, die ein Mensch auch direkt erfragen und erhalten könnte
Es reicht, alle KI-generierten Inhalte einfach mit einem
<AI generated content>-Tag zu versehen; alles andere ist eher Umweltverschmutzung als GemeinwohlNach dieser Logik bräuchte man überhaupt nichts mehr zu schreiben
Für diese intuitive Überzeugung gab es irgendwann sogar ein wenig experimentelle Evidenz
Schon der Verifizierungs- und Kurationsprozess unter dem Namen eines menschlichen Experten hat großen Wert
Ich frage mich, ob ein von KI redigierter oder stilistisch veränderter Text am Ende immer noch als von Menschen geschrieben gelten kann
Ich halte das für Unsinn
Ich glaube, die in diesem Text verwendeten Begriffe sind raffiniert so gewählt, dass sie die Sorge kleiner erscheinen lassen
Seit dem Ende der Atomtests liegen die Strahlungswerte wieder fast auf natürlichem Niveau, die Notwendigkeit für neuen low-background steel ist geringer geworden, und auch neuer Stahl hat inzwischen ein ausreichend schwaches radioaktives Signal für die meisten Anwendungen
Erstens glaube ich nicht, dass man unbedingt „unkontaminierte“ Daten braucht
Es stimmt allerdings, dass gerade das Ende der Atomtests zu einem Rückgang der Hintergrundstrahlung geführt hat
Ich glaube nicht, dass dieses Thema so gravierend ist, wie die Öffentlichkeit erwartet
Langfristig würden KIs aus realen Erfahrungen lernen, wodurch unendliche nicht urheberrechtlich geschützte Trainingsdaten möglich würden und das Problem der KI-Kontamination vermieden werden könnte
In der Realität werden KI-Halluzinationen bzw. Tatsachenverzerrungen zitiert und verfestigen sich dann als Wahrheit
Daten aus realer Erfahrung, etwa zur Autoreparatur, sind teuer und riskant in der Erzeugung
Auf YouTube gibt es zwar massenhaft reale Erfahrungsdaten zu Autoreparaturen, aber es gibt Urheberrechtsprobleme
Ich frage mich, ob langfristig überhaupt AGI nötig ist
Ich vermute, dass es vor dem Auftauchen humanoider Roboter mit allgemeiner Intelligenz keine funktionierenden KI-Systeme zur Autoreparatur geben wird
Derzeit gibt es keinen Beleg dafür, dass „KI-Kontamination“ dem KI-Training tatsächlich schadet
KI, die mit öffentlichen Daten vor 2022 trainiert wurde, zeigt keinen deutlich sichtbaren Leistungsvorteil gegenüber KI, die mit Daten nach 2022 trainiert wurde
Teilweise schneiden neuere Daten sogar leicht besser ab
Die Denkweise hinter der Metapher „low-background steel“ ist ja die, dass ein KI-Modell bei wiederholtem Training auf synthetischen Daten in einen vollständigen „model collapse“ kippt und bedeutungslos wird
Diese Behauptung ist aus mehreren Gründen nicht vernünftig
Die eigentliche Flut an KI-„Rückständen“ hat noch gar nicht richtig begonnen, und ich erwarte, dass sie künftig stark zunimmt
Manche haben keine große Abneigung gegen KI-Inhalte und halten die low-background-steel-Metapher für einen sehr gelungenen Einfall
Auch ich habe keine starke Abneigung gegen KI-Inhalte und habe sogar eine entsprechende Website gebaut
Für mich geht es weniger um eine KI-Phobie als darum zu verhindern, dass KI ihre eigenen Ergebnisse erneut lernt
Ich finde es bemerkenswert, dass mein heutiger Gedanke sich als geradezu prophetisch erwiesen zu haben scheint
Mein früherer Kommentar
Ich habe dieses Beispiel schon vor mindestens einem Jahr oder noch früher auf Hacker News gesehen
Seit der Veröffentlichung von ChatGPT war das eine häufig verwendete Metapher
Auch die Rahmung als Inhalt ohne KI-„Kontamination“ kannte ich bereits, aber die Verwendung von „low background steel“ als Vergleich dafür fand ich ziemlich originell
Ich sehe das anders
Ich teile das Interesse an der low-background-Analogie
Ich bezweifle, dass diese Metapher wirklich überzeugend ist
low-background steel ist tatsächlich fast unmöglich neu herzustellen, während KI-freie Inhalte einfach dadurch entstehen, dass man keine KI benutzt, also viel weniger schwer zu erzeugen sind
Praktisch ist es jedoch fast unmöglich, objektiv zu beweisen, dass ein Ergebnis KI-frei ist, sodass außer der betreffenden Person niemand sicher sein kann
Wer würde aus welchem Grund und mit welchem Geld KI-freie Inhalte produzieren?
Ich halte das nur für einen clickbaitartigen Titel
Angesichts des Umstands, dass der Name dieser Website von Y combinator kommt, nenne ich das Finden eines Fixpunkts einer Funktion als Anforderung an ein Inference-Modell
Selbst wenn immer mehr KI-gefärbte Daten erzeugt werden, erwarte ich, dass wesentliche Merkmale weiterhin extrahierbar bleiben, selbst wenn beim Training Originalinhalte von Menschen, abgeleitete Inhalte und daraus wiederum abgeleitete Inhalte über mehrere Stufen hinweg vermischt werden