1 Punkte von GN⁺ 2025-06-11 | 1 Kommentare | Auf WhatsApp teilen
  • Die Website Low-background Steel dient dazu, Materialien zu sammeln, die nicht durch KI-generierte Inhalte kontaminiert sind
  • Das Projekt konzentriert sich auf Text-, Bild- und Videomaterial, das vor der großflächigen Verbreitung von KI-Inhalten im Jahr 2022 erstellt wurde
  • Es verweist auf repräsentative Quellen wie Wikipedia, Arctic Code Vault und Project Gutenberg
  • Besucher der Website können neue, nicht kontaminierte Materialien ebenfalls einreichen
  • Die Idee ist vom Konzept sauberer Metalle aus der Zeit vor Atomtests inspiriert und legt den Schwerpunkt auf Zuverlässigkeit und den Erhalt von Originalität

Einführung

  • Low-background Steel ist eine Website, die Online-Ressourcen sammelt, die nicht durch von KI erzeugte Inhalte kontaminiert sind
  • Der Name der Website ist von Low-background Steel (und Lead) inspiriert, also Metall, das vor Atomtests hergestellt wurde und daher nicht radioaktiv kontaminiert ist
  • Metall, das aus vor dem Atomtest (Trinity Test) gesunkenen Schiffen geborgen wird, gilt als wertvoll, weil es nahezu frei von radioaktiver Kontamination ist
  • In Anlehnung daran soll reiner digitaler Content bewahrt und zugänglich gemacht werden, der vor dem starken Anstieg KI-generierter Inhalte produziert wurde

Ziel und Hintergrund

  • Der Fokus liegt auf der Sicherung verschiedenster originaler Materialien wie Texte, Bilder und Videos aus der Zeit vor dem Auftreten groß angelegter KI-basierter generierter Inhalte im Jahr 2022
  • Zu diesen Materialien gehören vertrauenswürdige repräsentative Open-Source-Datenbanken wie der vollständige Dump von Wikipedia, der Arctic Code Vault und Project Gutenberg
  • Nutzer der Website können neue nicht kontaminierte Materialien direkt über ein Einreichungsformular hinzufügen

Bedeutung der Website

  • In einer Zeit, in der KI-generierte Inhalte stark zunehmen, wird die Bewahrung von Originalität und die Sicherung vertrauenswürdiger Informationen immer wichtiger
  • Low-background Steel hat das Ziel, eine saubere Datenreferenz bereitzustellen, die ohne Sorge vor Informationskontamination genutzt werden kann

Wie man beitragen kann

  • Jede Person kann neue Quellen für nicht kontaminierte Inhalte über die Submit-Funktion der Website zur Aufnahme vorschlagen

Referenz

  • Verlinkt ist eine Wikipedia-Erklärung zu Low-background Steel, die die Intention der Website gut widerspiegelt
  • Das Projekt wurde im März 2023 gestartet und fungiert derzeit praktisch als experimenteller Hub zur Bewahrung von Online-Inhalten

1 Kommentare

 
GN⁺ 2025-06-11
Hacker-News-Kommentare
  • Ich finde die Idee interessant, Unicode um eine neue „Plane“ zu erweitern, alle nützlichen Zeichen spiegelbildlich zu duplizieren und sie mit zusätzlichen Status-Bits zu unterscheiden

    • Zum Beispiel stelle ich mir vor, dass im Bereich „direkt von Menschen geschrieben“ die Verwendung von KI-generiertem Text sofort sanktioniert wird, dass im Bereich „nur für Menschen sichtbar“ sogar das Training oder der Zugriff durch KI verboten ist und dass im Bereich „als KI-generiert gekennzeichnet“ alle KI-Ausgaben zwingend in diesem Zeichenbereich codiert werden müssen

    • Natürlich wären diese Zeichen visuell kaum zu unterscheiden und nur über Software erkennbar, sodass sie als subtiler Kanal fungieren würden

    • Selbst beim Kopieren und Einfügen von Text würden die Informationen des Originals durch kleine Unterschiede in der Zeichenkodierung mitwandern

    • Es ist fast ein Scherz, aber ich finde so ein System spannend

    • Ähnlich wie bei Bio-Lebensmitteln glaube ich, dass 100 % von Menschen geschriebene „organische“ Inhalte einen Premiumwert bekommen würden

      • Aber wie in der Lebensmittelbranche wäre es ein Albtraum zu entscheiden, was tatsächlich erlaubt ist und wie weit „organisch“ reicht
      • Zertifizierung hängt von Vertrauensnetzwerken ab, und am Ende könnten trotzdem KI-Ergebnisse in kontaminierter Form zu höheren Preisen gehandelt werden
    • Ich finde den Maßstab „KI-generierter Text“ unklar und nenne konkrete Beispiele

        1. Ein Student schreibt etwas vollständig von Hand
        1. Er nutzt eine Online-Enzyklopädie als Quelle, und diese Enzyklopädie verwendet intern KI
        1. Er lässt sich von einer KI die Struktur, Kernpunkte und Schlussfolgerung einer Arbeit entwerfen und schreibt sie dann selbst
        1. Er lässt einen selbst geschriebenen Text nur in Rechtschreibung, Formulierungen und Stil von einer KI überarbeiten
        1. Die KI verfasst den gesamten Text als Ghostwriter
        1. Er schreibt mehrere Texte selbst und lässt die KI den besten auswählen
      • Der erste und der letzte Fall sind klar, aber bei den anderen ist schwer zu sagen, bis wohin man von einem KI-Ergebnis sprechen sollte
    • In Unicode gibt es ursprünglich Tag-Zeichen zur Kennzeichnung von Sprachbereichen, aber sie wurden von höherstufigem Markup (HTML usw.) verdrängt und sind heute obsolet

      • Diese Zeichen sind unsichtbar, und beim Bewegen des Cursors werden mehrere davon wie ein einziges Zeichen behandelt
      • Sie entsprechen ASCII, sodass sich beliebiges JSON oder andere Daten einbetten lassen
      • Man könnte sie nutzen, um von LLMs erzeugte Bereiche zu markieren, aber das könnte unangenehm sein, weil es sich um versteckte Daten oder eine nicht empfohlene Nutzung handelt
      • Relevanter Link: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • Falls dieses Gesetz eingeführt würde, gäbe es in Indien nach 12 Millisekunden „Schreibfabriken“, in denen Menschen KI-Ergebnisse abschreiben, um Datenwäsche zu betreiben

    • Wenn man zum Beispiel einen Text in einer Fremdsprache schreibt und ChatGPT um eine englische Übersetzung bittet, ist das dann ein KI-Erzeugnis?

      • Was ist mit Handschrift, die anschließend per LLM per OCR erfasst wird, oder mit einem sehr detaillierten Gliederungsentwurf, den man einer KI gibt und dessen Fakten man streng überprüft hat?
      • Wenn man KI ausschließlich für Grammatikprüfung oder zur Korrektur wissenschaftlicher Ausdrucksweise nutzt, ist das dann ebenfalls KI-generierter Inhalt?
      • Nach meinem Maßstab lautet die Antwort in allen Fällen „nein“
  • Ich behaupte, dass KI-Ausgaben ihrem Wesen nach zur Regression zum Mittelwert neigen

    • Aus dieser Perspektive sind das alles Informationen, die ein Mensch auch direkt erfragen und erhalten könnte

    • Es reicht, alle KI-generierten Inhalte einfach mit einem <AI generated content>-Tag zu versehen; alles andere ist eher Umweltverschmutzung als Gemeinwohl

    • Nach dieser Logik bräuchte man überhaupt nichts mehr zu schreiben

      • Shakespeare, mathematische Beweise, alle Romane und Berichte sind am Ende ebenfalls nur Kombinationen möglicher Wörter
      • Der Wert liegt nicht nur darin, dass etwas „produzierbar“ ist, sondern darin, dass es für einen bestimmten Zweck, eine bestimmte Situation und ein bestimmtes Publikum geschaffen wurde
    • Für diese intuitive Überzeugung gab es irgendwann sogar ein wenig experimentelle Evidenz

      • Doch in jüngster Zeit haben gut kuratierte KI-Ergebnisse innovative Durchbrüche erzielt, was zeigt, dass diese Behauptung nicht mehr zutrifft
    • Schon der Verifizierungs- und Kurationsprozess unter dem Namen eines menschlichen Experten hat großen Wert

      • Tatsächlich war der Großteil der Inhalte im Internet ohnehin schon von Nicht-Experten und von niedriger, billiger Qualität; ich glaube nicht, dass KI das noch einmal grundlegend verschlimmert
    • Ich frage mich, ob ein von KI redigierter oder stilistisch veränderter Text am Ende immer noch als von Menschen geschrieben gelten kann

      • Bei mir ist es zum Beispiel so, dass ich Blogbeiträge in ein Notizsystem einspreche und sie anschließend von CGPT oder Claude in Ton und Rhythmus glätten lasse
    • Ich halte das für Unsinn

      • Wer tatsächlich Erfahrungen mit Deep-Research-Tools hat, versteht, dass auch Menschen sehr viele wertlose Inhalte erzeugen
      • Ich hoffe, du verfällst nicht einer utopischen Fehlvorstellung
  • Ich glaube, die in diesem Text verwendeten Begriffe sind raffiniert so gewählt, dass sie die Sorge kleiner erscheinen lassen

    • Seit dem Ende der Atomtests liegen die Strahlungswerte wieder fast auf natürlichem Niveau, die Notwendigkeit für neuen low-background steel ist geringer geworden, und auch neuer Stahl hat inzwischen ein ausreichend schwaches radioaktives Signal für die meisten Anwendungen

    • Erstens glaube ich nicht, dass man unbedingt „unkontaminierte“ Daten braucht

      • LLM-Daten wirken auf mich deutlich besser als gewöhnliche Reddit-Kommentare
      • Über archive.org, Gutenberg usw. lässt sich „reines“ Datenmaterial immer noch leicht finden
      • Dass sich LLM-Ausgaben am Ende überall hineinmischen werden, scheint ein unvermeidlicher Trend zu sein
    • Es stimmt allerdings, dass gerade das Ende der Atomtests zu einem Rückgang der Hintergrundstrahlung geführt hat

  • Ich glaube nicht, dass dieses Thema so gravierend ist, wie die Öffentlichkeit erwartet

    • Langfristig würden KIs aus realen Erfahrungen lernen, wodurch unendliche nicht urheberrechtlich geschützte Trainingsdaten möglich würden und das Problem der KI-Kontamination vermieden werden könnte

    • In der Realität werden KI-Halluzinationen bzw. Tatsachenverzerrungen zitiert und verfestigen sich dann als Wahrheit

      • Beispiel: Wenn man eine echte KI wiederholt fragt: „Wie hieß das eingebaute Produktivitätsprogramm für Connect Four unter MS-DOS?“, gibt sie jedes Mal eine andere, aber immer falsche Antwort aus
      • Diese Fehlinformation wird dann wieder im Web zitiert, und die KI lernt die falsche Information erneut – ein Kreislauf entsteht
      • In so einer Situation ist es schwer, die Wahrheit zu erkennen
    • Daten aus realer Erfahrung, etwa zur Autoreparatur, sind teuer und riskant in der Erzeugung

      • Wie ein menschlicher Mechaniker müsste auch eine KI bei Handbüchern und expliziten Ausbildungsgängen anfangen
      • Wenn sie nur aus realen Ausführungsdaten lernen würde, würde sie durch Versuch und Irrtum Autos beschädigen, und auch dabei müsste der Mensch eingreifen
      • Selbst bei Off-Policy-Reinforcement-Learning könnten diese Daten von früheren Modellgenerationen stammen, also letztlich von KI erzeugt sein, und wären damit nicht vollständig „frei von KI-Kontamination“
      • Deshalb lösen reale Erfahrungen allein weder die Skalierungsgrenzen und Kosten noch das Problem der KI-Kontamination vollständig
    • Auf YouTube gibt es zwar massenhaft reale Erfahrungsdaten zu Autoreparaturen, aber es gibt Urheberrechtsprobleme

      • Umstritten ist, ob KI-Unternehmen vor der Nutzung solcher Inhalte Urheberrechtslizenzen einholen müssen
    • Ich frage mich, ob langfristig überhaupt AGI nötig ist

      • Ich bezweifle die Erzählung, dass nach dem Erscheinen von AGI selbst Spam-Inhalte besser würden
      • Relevantes xkcd: https://xkcd.com/810/
    • Ich vermute, dass es vor dem Auftauchen humanoider Roboter mit allgemeiner Intelligenz keine funktionierenden KI-Systeme zur Autoreparatur geben wird

      • Dasselbe gilt für KI-Zimmermädchen in Fünf-Sterne-Hotels
      • Deshalb halte ich die Sichtweise, das Problem der Verschmutzung von Sprachdatenbanken werde sich mit der Zeit von selbst lösen, für etwas unrealistisch
  • Derzeit gibt es keinen Beleg dafür, dass „KI-Kontamination“ dem KI-Training tatsächlich schadet

    • KI, die mit öffentlichen Daten vor 2022 trainiert wurde, zeigt keinen deutlich sichtbaren Leistungsvorteil gegenüber KI, die mit Daten nach 2022 trainiert wurde

    • Teilweise schneiden neuere Daten sogar leicht besser ab

    • Die Denkweise hinter der Metapher „low-background steel“ ist ja die, dass ein KI-Modell bei wiederholtem Training auf synthetischen Daten in einen vollständigen „model collapse“ kippt und bedeutungslos wird

      • In Wirklichkeit hat es dieses Phänomen bisher nicht gegeben, und es sieht auch nicht so aus, als würden KI-Unternehmen intern Filter betreiben, die KI-Daten konsequent isolieren und aussortieren
      • Eher glaube ich, dass bei Menschen ein Modellkollaps eintreten könnte, wenn sie KI-Daten übermäßig stark ausgesetzt sind
      • Das ist allerdings nur meine eigene Erfahrung und Intuition
    • Diese Behauptung ist aus mehreren Gründen nicht vernünftig

        1. Seit 2022 haben sich die Trainingsmethoden für LLMs so stark verbessert, dass der negative Einfluss von KI-„Rückständen“ in den Daten womöglich einfach nicht groß genug ist, um sichtbar zu werden
        1. Leistungsbewertungen sind mehrdeutig und zeigen sich oft nur in kleinen Unterschieden zwischen Modellen derselben Generation (Gemini 2.5 vs Claude 4 usw.)
      • Solche kleinen Effekte sind schwer mit Daten nachzuweisen, und gerade deshalb ist ein prinzipiengeleiteter Ansatz wichtig
      • Im Prinzip ist es wünschenswert, das Training auf KI-Erzeugnissen zu vermeiden
    • Die eigentliche Flut an KI-„Rückständen“ hat noch gar nicht richtig begonnen, und ich erwarte, dass sie künftig stark zunimmt

  • Manche haben keine große Abneigung gegen KI-Inhalte und halten die low-background-steel-Metapher für einen sehr gelungenen Einfall

    • Auch ich habe keine starke Abneigung gegen KI-Inhalte und habe sogar eine entsprechende Website gebaut

      • Das Ziel ist, Materialien zu dokumentieren, die sicher von Menschen erstellt wurden
    • Für mich geht es weniger um eine KI-Phobie als darum zu verhindern, dass KI ihre eigenen Ergebnisse erneut lernt

      • Inhalte aus der „Vor-KI-Zeit“ haben eine wachsende Knappheit an sich, weil sie nicht mehr neu erzeugt werden können
      • Es wäre besser gewesen, wenn wir um 2015 herum alle Daten mit kryptographischen Zeitstempeln versehen hätten, aber jetzt ist immerhin der Zeitpunkt gekommen, das Verbliebene zu bewahren
  • Ich finde es bemerkenswert, dass mein heutiger Gedanke sich als geradezu prophetisch erwiesen zu haben scheint

    • Mein früherer Kommentar

    • Ich habe dieses Beispiel schon vor mindestens einem Jahr oder noch früher auf Hacker News gesehen

    • Seit der Veröffentlichung von ChatGPT war das eine häufig verwendete Metapher

    • Auch die Rahmung als Inhalt ohne KI-„Kontamination“ kannte ich bereits, aber die Verwendung von „low background steel“ als Vergleich dafür fand ich ziemlich originell

    • Ich sehe das anders

      • Ich glaube, wir werden Inhalte und synthetische Daten annotieren, und Maschinen werden das nutzen, sodass künftige Ausgaben schrittweise besser werden
      • Selbst wenn der Effekt bei LLMs nicht besonders deutlich ist, ist er bei Bild- und Videomodellen klar erkennbar
      • Wenn man nur die besten visuellen Ergebnisse streng auswählt, verbessern sich die Resultate allmählich, und dabei spielt auch „geschmacksbasierte Kuratierung“ eine große Rolle
      • So wie es in Genetik und Biologie auf verschiedene ökologische Nischen angewendet wird, entwickeln wir mit synthetischen Maschinen die Spielregeln schnell weiter
  • Ich teile das Interesse an der low-background-Analogie

  • Ich bezweifle, dass diese Metapher wirklich überzeugend ist

    • low-background steel ist tatsächlich fast unmöglich neu herzustellen, während KI-freie Inhalte einfach dadurch entstehen, dass man keine KI benutzt, also viel weniger schwer zu erzeugen sind

    • Praktisch ist es jedoch fast unmöglich, objektiv zu beweisen, dass ein Ergebnis KI-frei ist, sodass außer der betreffenden Person niemand sicher sein kann

    • Wer würde aus welchem Grund und mit welchem Geld KI-freie Inhalte produzieren?

    • Ich halte das nur für einen clickbaitartigen Titel

  • Angesichts des Umstands, dass der Name dieser Website von Y combinator kommt, nenne ich das Finden eines Fixpunkts einer Funktion als Anforderung an ein Inference-Modell

    • Die optimistische Haltung dahinter ist, dass ein Inhalt sich selbst transformiert, das Ergebnis wieder als Eingabe nimmt und dabei fortlaufend sein wesentliches Muster extrahiert
  • Selbst wenn immer mehr KI-gefärbte Daten erzeugt werden, erwarte ich, dass wesentliche Merkmale weiterhin extrahierbar bleiben, selbst wenn beim Training Originalinhalte von Menschen, abgeleitete Inhalte und daraus wiederum abgeleitete Inhalte über mehrere Stufen hinweg vermischt werden