11 Punkte von davespark 2026-01-16 | Noch keine Kommentare. | Auf WhatsApp teilen

Was ist Model Collapse?

  • Ein Degenerationsphänomen, das entsteht, wenn KI mit von KI erzeugten Daten erneut trainiert wird
  • Ein strukturelles Risiko, das auf Grundlage einer Nature-Veröffentlichung nachgewiesen wurde

Äußerlich erkennbare Merkmale

  • Die durchschnittliche Leistung und Benchmark-Werte bleiben erhalten oder steigen sogar
  • Seltene Fälle (Ausreißer·Edge Cases) verschwinden jedoch nach und nach
  • Die Ausgaben konvergieren zunehmend in eine typische, sichere und durchschnittliche Richtung

Kernmechanismus

  • Anfangs → Lernen aus menschlichen Daten
  • Danach → KI-generierte Inhalte nehmen im Web explosionsartig zu → neue Modelle lernen aus synthetischen Daten
  • Jede Generation verstärkt und verfestigt die blinden Flecken der vorherigen Generation
  • Seltene Ereignisse/Daten werden schrittweise ignoriert → dauerhafter Verlust

Konkrete Symptome je Modalität

  • Text: flüssig, aber leer und repetitiv; sichere Ansichten werden neuen Ideen vorgezogen (z. B. übermäßige Verwendung von em-dashes)
  • Empfehlungssysteme: Neugier und Vielfalt werden entfernt → der Feed verengt sich extrem
  • Bilder/Videos: Konvergenz nur noch auf vertraute Stile, kreative Abwandlungen kaum noch möglich (z. B. immer innerhalb eines ähnlichen ästhetischen Spektrums)
  • Gemeinsamkeit: Optimiert wird nicht für „Fehlfunktionen“, sondern dafür, „immer ähnlicher zu werden“

Prävention und Gegenmaßnahmen

  • Provenance nachverfolgen und verwalten
    → menschlich erzeugte Daten bewahren und bevorzugt zum Training nutzen, KI-generierte Daten klar trennen
  • Gewissheit statt Bequemlichkeit wählen
    → den Zentralitätsbias von KI-Daten vermeiden, die Komplexität der realen Welt erhalten
  • Range wertschätzen
    → Raum im Training für seltene Fälle schaffen (auch wenn dafür ein Teil der Effizienz geopfert werden muss)
  • Seltene Fälle nicht als Rauschen, sondern als Ressource neu definieren

Schlussbotschaft

  • Rekursives Lernen (KI → KI) ist langfristig katastrophal
  • Die Aussage „Trainiere KI nicht mit KI-Daten“ erhält zunehmend stärkere Belege
  • Gleichgültigkeit gegenüber der Herkunft von Trainingsdaten ist der größte Risikofaktor

Da die meisten großen Modelle derzeit bereits erhebliche Mengen synthetischer Daten aufgenommen haben, werden Herkunftsmanagement und der Erhalt seltener Daten künftig zu den zentralen Aufgaben gehören.

Noch keine Kommentare.

Noch keine Kommentare.