Wie verhindert man heute LLM-Training mit Bildern von Kunstwerken?

(lobste.rs)

1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Ein Nutzer erklärt, dass seine Frau zögert, ihre Bilder von Kunstwerken online zu veröffentlichen, weil sie nicht möchte, dass sie für das Training von LLMs verwendet werden
Kern der Frage ist, ob Bibliotheken oder Methoden, die Bilder vorab verarbeiten und so das LLM-Training stören, derzeit praktisch nutzbar sind
Der Nutzer fragt sich, ob es Werkzeuge gibt, mit denen er selbst eine maßgeschneiderte Website für seine Frau bauen kann
Er hat selbst nicht viel Frontend-Erfahrung, kann aber mit einem Static Site Generator einfache Websites erstellen
Er hat in der Vergangenheit Eleventy für die Website einer Band verwendet und zieht einen ähnlichen statischen Website-Ansatz in Betracht

Kontext der Frage

Seine Frau möchte ihre Bilder von Kunstwerken nicht online stellen
- Der Grund ist, dass sie nicht möchte, dass diese Bilder für das Training von LLMs verwendet werden
Der Nutzer sucht nach einer Möglichkeit, die Bilder der Kunstwerke vorab so zu verarbeiten, dass das Training von LLMs erschwert wird

Gewünschter Lösungsansatz

Er zieht in Betracht, selbst eine maßgeschneiderte Website für seine Frau zu bauen
Die notwendige Bedingung ist, ob es tatsächlich Bibliotheken oder Methoden gibt, mit denen sich Bilder so verarbeiten lassen, dass sie das LLM-Training stören können
Seine technischen Voraussetzungen sind wie folgt
- Er hat nicht viel Frontend-Erfahrung
- Mit einem Static Site Generator kann er einfache Websites erstellen
- Er hat zuvor mit Eleventy eine Band-Website gebaut

1 Kommentare

GN⁺ 4 시간 전

Lobste.rs-Meinungen

Update: Es lohnt sich, einen Blick auf cara zu werfen
Ein Künstlerfreund von mir lädt dort seine Arbeiten hoch und scheint zufrieden damit zu sein
Dort steht man offen für einen Artist-first-Ansatz und öffentlich gegen AI, und es scheint auch eine Glaze-Integration zu geben, die verhindern soll, dass Bilder für AI-Training verwendet werden
Und vermutlich geht es hier eher nicht um LLMs, sondern um Diffusionsmodelle. Da LLMs mit Text arbeiten, kann das bei der Recherche hilfreich sein
Ich erinnere mich an Nightshade, aber nach einer kurzen Prüfung scheint es aus 2023/24 zu stammen, und ich konnte keine Spuren eines Repos oder laufender Wartung finden
Das Problem bei Ansätzen, Kunstwerke zu vergiften oder vor dem Zugriff durch LLMs zu verstecken, ist, dass man nicht weiß und auch nicht wissen kann, wie wirksam sie sind. Letztlich landet alles in einer Blackbox
Wenn man nicht möchte, dass die eigenen Werke von LLMs eingesammelt werden, gibt es ein paar Optionen, jede mit Vor- und Nachteilen
1. Nicht online stellen. Sehr einfach, funktioniert aber nur, wenn nicht jemand anderes es ebenfalls online stellt. Bei Büchern könnten AI-Firmen etwa über Scans auch auf anderem Weg daran kommen
2. Nur hinter Registrierung und Login online zugänglich machen. Interessierte Menschen kommen heran, gewöhnliche LLMs aber nicht. Natürlich setzt das voraus, dass es nicht jemand ohne Login-Schranke erneut hochlädt
3. Hinter eine starke Crawler-Abwehr stellen. Es ist mir etwas unangenehm, mein eigenes Tool zu nennen, aber wenn man etwas wie iocaine vor die Website schaltet, kann man viele Crawler blockieren. Nicht alle, aber genug, um die Wahrscheinlichkeit für die Aufnahme ins Training deutlich zu senken, ohne regulären Besuchern große Hürden aufzuerlegen
  Wichtig ist außerdem: Wenn man aus Trainingsdaten herausgehalten werden will, muss man vermutlich auch aus Suchmaschinen herausbleiben. Kommerzielle Suchmaschinen trainieren auf den von ihnen indexierten Materialien; wenn etwas in der Google-Suche auffindbar ist, ist es sehr wahrscheinlich, dass dasselbe Material auch in Gemini gelandet ist
  Letztlich ist es schwierig, eine Portfolio-Website komplett ohne LLM-Training zu betreiben. Wenn man Werke nur online zeigen möchte, senken Login-Hürden oder starke Crawler-Abwehr die Wahrscheinlichkeit des Trainings jedoch erheblich. Leider wird sie nie auf 0 sinken, und es gibt kein magisches Tool, das Werke sicher versteckt oder vergiftet
Ich glaube, der Instinkt deiner Frau ist richtig. Zumindest öffentlich ist es nicht online zu stellen wohl am ehesten die Antwort
- Ich mag das nicht, aber für menschlichen kreativen Ausdruck allgemein scheint die Lage inzwischen weitgehend so zu sein
  Wenn man nicht zum Treibstoff für Maschinen für minderwertige Generierung werden will, kann man es nicht öffentlich teilen
Ich hätte nie gedacht, dass ich das einmal sagen würde, aber offenbar braucht es stärkeres DRM. Es müsste so weit gehen, dass sich die Herkunft sogar innerhalb des Modells nachverfolgen lässt, wobei unklar ist, ob so etwas überhaupt existieren kann
Abgesehen davon hat deine Frau wohl recht, und LLM-Verschleierung dürfte keine langfristig tragfähige Gegenmaßnahme sein
- Wenn Leute in einem Hacker-Forum, das ich mag, anfangen, für DRM zu argumentieren, dann ist die Lage wirklich ernst
- Zum Glück funktioniert DRM nicht und kann auch nicht funktionieren
  Und selbst wenn es funktionieren würde, sollte man nicht erwarten, dass es eingesetzt wird, um die Rechte von irgendwem außer den ohnehin Mächtigen zu schützen
- Auf keinen Fall. Stärkeres DRM ist nicht nötig
  Der einzige Weg, das zu erreichen, wäre letztlich, auch wenn es am Ende trotzdem gebrochen würde, kryptografische Enklaven in verifizierbarer Hardware zu nutzen, und das geht immer weiter in die Richtung, Nutzern die Kontrolle über ihre eigenen Geräte zu entziehen
- Wenn man sieht, dass sie Urheberrecht, Lizenzen und Ähnliches komplett ignorieren, scheint es unwahrscheinlich, dass DRM viel helfen würde
  Und bei den Geldmengen, die diese Firmen täglich verbrennen, wäre DRM vermutlich auch kein großes Hindernis
  Am Ende würde es vielleicht nur dazu führen, dass nur Modelle mit mehr Kapital hineinkommen
  Je nachdem, wie man DRM definiert, könnte man diese Art von Verschleierung selbst schon als DRM bezeichnen
Ich habe mir Glaze vor anderthalb Jahren angesehen und sogar das Labor kontaktiert, um ein paar Rückfragen zu stellen, aber soweit ich mich erinnere, habe ich keine Antwort bekommen
Bei dieser Untersuchung sind mir zu viele Einschränkungen und Vorbehalte begegnet. Ich weiß nicht, wie der aktuelle Stand heute ist, aber ich bin nicht optimistisch, dass allgemeine Bildvergiftung bei den meisten Modellen funktioniert
Bei einigen Modellen und unter bestimmten Bedingungen hat Glaze funktioniert

Wie verhindert man heute LLM-Training mit Bildern von Kunstwerken?

Kontext der Frage

Gewünschter Lösungsansatz

Verwandte Beiträge

1 Kommentare

Lobste.rs-Meinungen