Low-background Steel für Inhalte, die nicht durch KI verunreinigt sind

(blog.jgc.org)

1 Punkte von GN⁺ 2025-06-11 | 1 Kommentare | Auf WhatsApp teilen

lowbackgroundsteel.ai wurde im März 2023 erstellt, um Materialien zu finden, die aus der Zeit stammen, bevor massenhaft KI-generierte Inhalte ins Web gelangten
Der Name ist eine Metapher, angelehnt an Low-background Steel und Blei mit niedriger Hintergrundstrahlung, die nicht durch radioaktive Isotope aus Atomtests verunreinigt wurden
Tatsächlicher Low-background Steel und entsprechendes Blei bezeichnen in der Regel Metalle, die aus Schiffen geborgen wurden, die vor dem Trinity Test von 1945 gesunken sind
Die Website konzentriert sich darauf, Quellen für Texte, Bilder und Videos zu sammeln, die entstanden sind, bevor KI-generierte Inhalte 2022 stark zunahmen
Sie verlinkt auf Materialien wie Wikipedia-Dumps aus der Zeit vor der Veröffentlichung von ChatGPT, Arctic Code Vault und Project Gutenberg und nimmt auch weitere unverunreinigte Quellen zur Einreichung an

Hub für Materialien aus der Zeit vor KI

lowbackgroundsteel.ai ist ein Material-Hub, der eingerichtet wurde, um Online-Materialien zu sammeln, die nicht mit KI-generierten Inhalten vermischt sind
Er wurde im März 2023 gestartet und dient dazu, Online-Ressourcen aus der Zeit vor der Verbreitung KI-generierter Inhalte zu kuratieren

Die Metapher hinter dem Namen

Low-background Steel bezeichnet Metall, das nicht durch radioaktive Isotope aus Atomtests verunreinigt ist
Solcher Stahl und solches Blei werden in der Regel aus Schiffen geborgen, die vor dem Trinity Test von 1945 gesunken sind
Die Website überträgt dieses Konzept auf Inhalte und nennt Materialien, die nicht durch KI-generierte Inhalte verunreinigt sind, Low-background Steel

Sammelgebiet und Beispiele

Gesammelt werden Quellen für Texte, Bilder und Videos, die entstanden sind, bevor KI-generierte Inhalte im Jahr 2022 stark zunahmen
Aktuell verlinkte Beispiele sind:
- Wikipedia-Dumps aus der Zeit vor der Veröffentlichung von ChatGPT
- Arctic Code Vault
- Project Gutenberg
  - Weitere zusätzliche Materialquellen

Materialien einreichen

Wer weitere Quellen kennt, die nicht durch KI-generierte Inhalte verunreinigt sind, kann sie über die Einreichungsseite senden

1 Kommentare

GN⁺ 2025-06-11

Hacker-News-Kommentare

Man sollte Unicode eine neue Plane hinzufügen, alle für Kommunikation nötigen Zeichen duplizieren und zusätzlich ein Statusbit einbauen
Mit Bereichen wie eindeutig von Menschen geschrieben, nur für menschliche Augen, KI-generiert anerkannt – und wer dagegen verstößt, kommt ins Gefängnis
Natürlich wären alle Bereiche visuell nicht unterscheidbare Homoglyphen, also ein softwarevermittelter, halb verdeckter Kanal für faire Offenlegung
Selbst beim Kopieren und Einfügen aus mehreren Quellen würden durch subtile Unterschiede in der Zeichenkodierung Herkunftsinformationen mitwandern; der Scherzanteil liegt nur bei fast 1
- Wie bei Lebensmitteln wird auch vollständig organischer Content einen Marktwert bekommen
  Gemeint sind Inhalte, die von Menschen geschrieben, gezeichnet, komponiert, bearbeitet und kuratiert wurden
  Allerdings ist es wie bei Lebensmitteln ein Albtraum, die zulässigen Grenzen zu definieren; schwer zu beweisen, dass etwas organisch ist; Zertifizierung hängt von einem Vertrauensnetz ab; in der Praxis wird es von dem kontaminiert, was man vermeiden wollte; und selbst wenn es nachweislich schlechter ist, kann es teurer verkauft werden
- Unicode hat bereits einen Bereich namens Tag Characters, der ursprünglich dafür gedacht war, zu markieren, dass Teile eines Textes aus einer anderen Sprache stammen
  Dieser Zweck wurde durch höherstufige Auszeichnungen wie HTML-Tags ersetzt und verworfen, aber die Zeichen existieren weiterhin
  Ungewöhnlich ist, dass sie unsichtbar sind und eine Folge von Tag-Zeichen bei der Cursorbewegung wie ein einzelnes Zeichen wirkt
  Da sie ASCII abbilden, kann man darin beliebiges JSON oder andere Daten kodieren; wenn es einem nichts ausmacht, Leute mit versteckten Daten oder einer verworfenen Nutzung zu nerven, eignen sie sich also ziemlich gut, um LLM-generierte Abschnitte zu markieren
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- Das Problem ist, wie man KI-generiert definiert
  Nimmt man Hausaufgaben als Beispiel, sind Fälle klar, in denen ein Schüler alles selbst mit Stift und Papier schreibt oder alles von einer KI schreiben lässt; aber unklar wird es, wenn er in einer Online-Enzyklopädie recherchiert, die per KI antwortet, wenn er von der KI nur Struktur, Kernpunkte und Schlussfolgerung bekommt, oder wenn er selbst schreibt und der KI nur Tippfehler, Grammatik und Stilverbesserungen überlässt
  Zusätzlich gibt es den Fall, dass jemand Texte zu mehreren Themen selbst schreibt und dann die KI den besten auswählen lässt
- 12 Millisekunden nach Inkrafttreten eines solchen Gesetzes gäbe es in Indien Tippfabriken, in denen menschliche Arbeiter Texte aus KI-Quellen von Hand erneut abschreiben und damit „Datenwäsche“ betreiben
- Wenn man einen in einer Fremdsprache geschriebenen Text von ChatGPT ins Englische übersetzen lässt, ist das dann KI-generierter Content?
  Was ist, wenn man einen auf Papier geschriebenen Text per LLM-OCR erfasst?
  Was, wenn man eine sehr detaillierte Gliederung vorgibt, sie immer wieder umschreiben lässt und unsichere Fakten gnadenlos entfernt?
  Was, wenn man KI nur nutzt, um Grammatik zu korrigieren und holpriges Englisch in einen sauberen wissenschaftlichen Stil zu überführen?
  In all diesen Fällen ist die Antwort meiner Ansicht nach eindeutig „nein“, selbst wenn das Endergebnis aus dem LLM kopiert und eingefügt wurde
KI-generierter Content ist im Kern Regression zum Mittelwert und schadet sowohl dem Lernen als auch dem Nutzen für Menschen
Es gibt keinen Vorteil, etwas zu veröffentlichen, das KI erzeugen kann; man kann sie einfach direkt fragen
KI-Content kann zwar getaggt veröffentlicht werden, aber abgesehen davon ist er viel häufiger eher Umweltverschmutzung als Gemeinwohl
- Nach dieser Logik: Warum sollte man überhaupt irgendetwas schreiben?
  Auch Shakespeares Sonette sind nur Anordnungen bereits existierender Wörter, und jeder mathematische Beweis, jeder Roman und jeder Journalismus ist nur eine Konfiguration im Raum möglicher Zeichenfolgen
  Die Tatsache, dass etwas erzeugbar war, entwertet nicht seinen Wert, wenn es für einen bestimmten Zweck, Kontext und ein bestimmtes Publikum erzeugt wurde
- Bis vor ein paar Jahren war das eine intuitiv plausible Überzeugung, für die es auch begrenzte experimentelle Hinweise gab
  Seitdem gab es jedoch mehrere Durchbrüche bei Fähigkeiten auf Basis gut kuratierter KI-Erzeugnisse, und ich denke, diese Ansicht ist damit entscheidend widerlegt
- Wie sollte man Content bewerten, der von KI überarbeitet oder korrigiert wurde?
  Heutzutage diktiere ich Blogbeiträge als Sprachnotizen, transkribiere sie und gebe sie dann in CGPT oder Claude, um Ton und Rhythmus zu verfeinern
- Wenn man direkt fragt, fehlt der Schritt, in dem ein menschlicher Experte den Inhalt prüft und mit seinem Namen dafür bürgt
  Diese Kuratierung und Gewährleistung hat einen Wert
  Natürlich kann man sofort denken: „Würden diese Leute das wirklich tun?“, und ich stimme zu – aber auch vor KI ist das im Großen und Ganzen nicht passiert
  Der Großteil der Internetinhalte war bereits vorher minderwertiger Text, hastig von schlecht bezahlten Autoren ohne Expertise produziert, und KI ändert daran nichts
- Unsinn
  Hast du schon einmal ein Deep-Research-Tool benutzt?
  Man darf nicht dem Utopiefehler verfallen
  Auch Menschen veröffentlichen Mülltexte
Ich bin nicht sicher, ob das ein so großes Problem wird, wie manche glauben.
Langfristig dürfte das Ziel sein, KI nicht aus Autoreparatur-Handbüchern lernen zu lassen, sondern aus realer Erfahrung, also indem sie tatsächlich Autos repariert.
Dann bekäme man unbegrenzt Trainingsdaten ohne Urheberrechtsprobleme und könnte das Problem KI-kontaminierter Trainingsdaten auf natürliche Weise umgehen.
- Das Problem ist, dass Halluzinationen zitiert und am Ende mit Quellen versehen wie Fakten wirken.
  Man kann zum Beispiel fragen: „Welches MS-DOS-Produktivitätsprogramm hatte Connect Four eingebaut?“
  Es gibt MS-DOS-Emulatoren und die richtige Antwort ist bekannt, aber weil die Frage wohl etwas obscure ist, geben verschiedene KIs jedes Mal andere Antworten, und die richtige habe ich noch nie gesehen.
  Fragt man noch einmal, ob sie sich sicher sind, ändern sie ihre Meinung.
  Wenn solche Antworten online zitiert werden und KI später diese zirkulären Verweise als Quelle mitlernt, verschwindet an diesem Punkt die Wahrheit.
  Wenn man diese Frage wirklich stellt, ist das ein hervorragendes Beispiel dafür, wie KI völlig erfundene Antworten autoritativ wiederholt.
- Daten direkt aus realer Erfahrung zu erzeugen, kann sehr teuer sein und bedeuten, dass die Datenerfassung reale Betriebsrisiken mit sich bringt.
  Waymo gewinnt Erfahrung, indem es Autos auf echten Straßen fahren lässt, aber die Datenmenge pro Zeiteinheit hängt von der Größe der Flotte ab, und zuerst muss ein Fähigkeitsniveau erreicht werden, das für den Betrieb in der realen Welt sicher genug ist.
  Wenn man Autos reparieren will und ohne anderes Wissen als On-Policy-Rollouts beginnt, wird man eine ganze Zeit lang viele Autos kaputtmachen, während man lernt, und außerdem Menschen dafür bezahlen müssen, dem Roboter mitzuteilen, dass er versagt hat.
  Es gibt Gründe, warum man möchte, dass Mechaniker Handbücher lesen und explizit geschult werden, und diese Kostenlogik gilt gleichermaßen, ob der Mechaniker ein Mensch oder eine KI ist.
  Selbst wenn man Off-Policy Reinforcement Learning verwendet: Wenn diese Daten Demonstrationen früherer Modellgenerationen sind, handelt es sich weiterhin um KI-kontaminierte Trainingsdaten.
- Auf YouTube gibt es enorm viele Trainingsdaten mit echter Autoreparatur-Erfahrung, aber sie sind alle urheberrechtlich geschützt.
  Ob KI-Unternehmen diese Inhalte vor dem Training lizenzieren müssen, ist umstritten.
- Vor allgemein intelligenten humanoiden Robotern wird es meiner Ansicht nach auch kein KI-System geben, das Autos repariert.
  Vor solchen Robotern wird es auch kein KI-Zimmermädchen in einem Fünf-Sterne-Hotel geben.
  Das heißt nicht, dass die ursprüngliche Aussage falsch ist, aber die Lücke zwischen heute und diesem Zeitpunkt ist unvorstellbar groß, sodass „Macht euch keine Sorgen, dass KI-Müll Datenbanken mit Wortfrequenzen in Sprache kontaminiert, irgendwann wird das gelöst“ etwas am Thema vorbeigeht.
- Heißt das langfristig, dass man AGI will?
  Heißt das, dass Spam besser wird, wenn AGI kommt?
  https://xkcd.com/810/
Mir gefällt, wie äußerst geschickt der gewählte Begriff die Sorge so erscheinen lässt, als sei sie irrelevant.
Es ähnelt der Erklärung, dass nach dem Ende atmosphärischer Atomtests die Hintergrundstrahlung wieder nahe an das natürliche Niveau gefallen ist, sodass auch neuer Stahl ein ausreichend niedriges radioaktives Signal hat und spezieller Low-Background Steel für die meisten strahlungsempfindlichen Anwendungen nicht mehr nötig ist.
Aber es scheint weder so, als bräuchte man „unkontaminierte“ Daten, noch als seien solche Daten schwer zu finden, noch als würden LLM-Ausgaben ohnehin alles infizieren.
LLM-Daten sind vielleicht sogar etwas besser als Reddit-Kommentare als natürlicher Hintergrund, und es gibt auch archive.org oder Gutenberg.
- Aktuelle unkontaminierte Daten sind allerdings schwer zu finden.
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Ähm … die Hintergrundstrahlung ist zurückgegangen, weil wir mit Atomtests aufgehört haben.
Derzeit gibt es keinen Grund zu glauben, dass KI-Kontamination bei KI-Trainingsläufen ein reales Problem ist.
KIs, die mit öffentlich gecrawlten Daten von vor 2022 trainiert wurden, sind nicht merklich besser als KIs, die mit nach 2022 gecrawlten Daten trainiert wurden.
In manchen Fällen sind neuere Crawling-Daten pro Token sogar etwas leistungsfähiger, aus unbekannten Gründen.
- Hinter der Idee von „Low-Background Steel“ steht der Gedanke, dass das Training von KI mit synthetischen Daten zu einem Modellkollaps führen kann, bei dem die KI völlig durchdreht und nutzlos wird.
  Entweder ist das nicht passiert, oder alle KI-Unternehmen haben intern funktionierende Filter, die KI-Daten herausfiltern.
  Ich würde auf Ersteres setzen.
  Allerdings halte ich es für möglich, dass bei Menschen etwas Modellkollaps-Ähnliches entsteht, wenn sie zu stark KI-generierten Daten ausgesetzt sind; das ist aber eher anekdotische Beobachtung und Bauchgefühl.
- Diese Schlussfolgerung ist aus mehreren Gründen ziemlich schlecht.
  LLM-Training ist seit 2022 erheblich besser geworden, und nur weil die negativen Effekte von KI-Müll in den Trainingsdaten nicht die Gewinne durch größere Parameterzahlen und bessere Trainingsmethoden überwiegen, heißt das nicht, dass es keine negativen Effekte gibt.
  Auch „die Performance ist besser“ ist eine sehr lockere Formulierung, und es gibt noch keine gute Antwort darauf, wie man das sinnvoll misst.
  Man kann erkennen, dass Gemini 2.5 besser ist als GPT-4o, aber zwischen Gemini 2.5 und Claude 4 zu unterscheiden, ist deutlich schwieriger.
  Die Effektgröße von Müll-Daten auf dem heutigen Stand liegt wahrscheinlich in der Größenordnung kleiner Unterschiede zwischen Modellen derselben Generation.
  Wenn man nach einem Effekt sucht, der so klein ist, dass er mit Daten schwer zu belegen ist, ist es in diesem Fall vernünftig, von ersten Prinzipien auszugehen, und erste Prinzipien sagen klar, dass man besser nicht mit KI-generierten Inhalten trainiert.
- Die Leute haben noch nicht wirklich damit begonnen, Müll-Content in großem Stil zu erzeugen, und ich denke, das wird künftig viel mehr werden.
Ich bin gegenüber KI-Content nicht besonders allergisch, aber die Analogie mit Low-Background Steel ist bewundernswert.
Großartig.
- Ich bin auch nicht allergisch gegenüber KI-Content.
  Der Grund, warum ich diese Website gebaut habe, war, Dinge nachzuverfolgen, von denen ich weiß, dass sie von Menschen gemacht wurden.
- Das scheint weniger eine Phobie zu sein als der Versuch, zu vermeiden, KI mit ihren eigenen Ausgaben zu trainieren.
  Darüber habe ich kürzlich auch mit Kollegen gesprochen.
  Inhalte aus der Zeit vor KI werden künftig zwangsläufig wertvoller, weil man sie nie wieder neu erzeugen kann.
  Idealerweise hätte man alle Daten, die etwa 2015 verfügbar waren, mit kryptografischen Zeitstempeln versehen sollen, aber jetzt muss man mit der heutigen Lage arbeiten.
Heute habe ich irgendwie das Gefühl, zum Propheten geworden zu sein
https://news.ycombinator.com/item?id=44217676
- Dieses Beispiel habe ich auf Hacker News mindestens vor einem Jahr gehört, vermutlich sogar noch früher
  Es gibt auch einen Beitrag von vor zwei Jahren: https://news.ycombinator.com/item?id=34085194
- Diese Analogie war seit der Veröffentlichung von ChatGPT eine gängige Analogie
- Ich halte diese Vorstellung für wirklich falsch
  Der Prozess, Inhalte und synthetische Daten zu annotieren, wird KI-Ausgaben in einen Gradienten verwandeln, der künftige Ausgaben besser macht
  Bei LLM-Ausgaben mag das weniger offensichtlich sein, bei Bild- und Videomodellen sollte es aber sehr klar sein
  Beim Auswählen der besten visuellen Ausgaben des Systems werden die eingeführten kleinen Fehler und die geschmacksbasierte Kuratierung das System zu besserer Leistung und höherer Allgemeingültigkeit führen
  Wenn man das Genom als synthetische Maschine und Physik als probabilistischen Gradienten betrachtet, ist das nicht anders, als wie Leben und Vererbung sich an jede ökologische Nische anpassen
  Wir lassen im Grunde dasselbe nur schnell ablaufen
- Gut gemacht
  Das Framing von Inhalten ohne KI-„Kontamination“ kommt mir bekannt vor, und ich denke, die Idee war bereits im Umlauf
  Aber dass die Low-background-Steel-Analogie passend ist, kannst du ruhig als erfolgreiche Vorhersage verbuchen
Gebrauchte Papierbücher, besonders alte, aber brauchbare Exemplare, die als „reading copies“ oder „ex-library“ bezeichnet werden, werden auf dem Gebrauchtbuchmarkt für Spottpreise verkauft
Ich empfehle, sich einschließlich grundlegender Nachschlagewerke eine eigene physische Bibliothek aufzubauen und lokale öffentliche Bibliotheken sowie Universitätsbibliotheken zu unterstützen
Auch Fachaufsätze aus dem eigenen Spezial- und Interessengebiet sollte man als Papierkopien bereithalten
Gemeint ist: Folgt der Methode unserer Vorfahren
KI hat mir schon einmal unverhohlen bei Fakten etwas Falsches erzählt, und auch wenn ich die KI nicht in jedem Fall überzeugen konnte, war ich froh, eine physische Bibliothek zu haben, mit der ich selbst überprüfen konnte, dass ich recht hatte
Passt diese Analogie wirklich
Neuen Low-background Steel herzustellen ist extrem schwierig, weil radioaktive Partikel überall sind, aber KI-freie Inhalte zu erstellen ist nicht schwer
Man schreibt sie einfach nicht mit KI
- Zu beweisen, dass ein Werk KI-frei ist, ist, wenn nicht unmöglich, dann völlig unrealistisch
  Deshalb kann außer einem selbst niemand sicher sein
- Neuen Low-background Steel herzustellen ist nicht schwierig
  Es ist nur billiger, vorhandenen zu bergen und wiederzuverwenden
- Wer würde aus welchem Grund und mit welchem Geld solche KI-freien Inhalte erstellen
- Es ist einfach nur eine Clickbait-Überschrift
Schon der Name dieser Website stammt vom Y Combinator
Abgesehen von ein wenig philosophischem Herumwedeln ist eine der Fähigkeiten, die man von Inferenzmodellen verlangen sollte, die Fähigkeit, den Fixpunkt einer Funktion zu finden, die Inhalte als Eingabe nimmt, Inhalte ausgibt und diese Inhalte dann wieder konsumiert
Ich bin optimistisch, dass sich selbst beim rekursiven Training auf Daten, in denen ursprüngliche menschliche Inhalte, aus ursprünglichen Inhalten abgeleitete Inhalte und wiederum aus diesen abgeleiteten Inhalte vermischt sind, die hervorstechenden Merkmale und Muster des zugrunde liegenden Systems extrahieren lassen

Low-background Steel für Inhalte, die nicht durch KI verunreinigt sind

Hub für Materialien aus der Zeit vor KI

Die Metapher hinter dem Namen

Sammelgebiet und Beispiele

Arctic Code Vault

Project Gutenberg

Materialien einreichen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare