ChatGPT ist ein verschwommenes JPEG des Webs

xguru · 2023-02-14T13:46:32+09:00

Ein Text von Ted Chiang, der als einer der besten gegenwärtigen SF-Autoren gilt Die Aussage: Weil ChatGPT Informationen komprimiert speichert, ist es eher so, als würde man ein verschwommenes JPEG statt des Originals betrachten 2013 wurde entdeckt, dass ein Xerox-Kopierer beim Kopieren von Zeichnungen Zahlen in andere Zahlen verwandelte Das Problem entstand, weil beim Digitalisieren für den Kopiervorgang die verlustbehaftete JBIG2-Komprimierung ähnliche Ziffern nur einmal speicherte und dann wiederverwendete Dieser Fall ist zwar nicht offensichtlich direkt mit OpenAIs ChatGPT gleichzusetzen, aber beim Speichern von Informationen aus dem Web kann ein ähnliches Szenario entstehen Wenn man sich vorstellt, den Zugang zum Internet zu verlieren möchte man eine komprimierte Kopie sämtlicher Texte im Web erstellen aber wenn nur 1 % des nötigen Speicherplatzes zur Verfügung steht, müsste man wohl einen verlustbehafteten Algorithmus verwenden dann könnte man zwar alles durchsuchen, aber die Texte wären so stark komprimiert, dass sich keine exakten Zitate mehr finden ließen Man kann sich ChatGPT als ein verschwommenes JPEG aller Texte im Web vorstellen Wie ein JPEG bewahrt es viel von den Informationen des Webs, aber nicht exakt dieselbe Bitfolge Alles, was man bekommt, ist eine Annäherung Dass diese Annäherung in Form des außergewöhnlich gut formulierten Texts erscheint, den ChatGPT erzeugt, macht sie im Allgemeinen akzeptabel Diese verlustbehaftete Komprimierung ist zwar nicht die eigentliche Erklärung dafür, wie ChatGPT funktioniert Sie ist aber auch eine Möglichkeit zu verstehen, warum ChatGPT „Halluzinationen“ oder unsinnige Antworten über die Wahrheit erzeugt Solche Halluzinationen sind so plausibel, dass man sie – wie die falschen Zahlen des Xerox-Kopierers – mit dem Original vergleichen muss, um sie sicher zu erkennen Große Sprachmodelle identifizieren statistische Regelmäßigkeiten in Texten Eine Formulierung wie „das Angebot ist knapp“ erscheint oft in der Nähe eines Satzes wie „der Preis steigt“ Ein Chatbot, der solche Beziehungen oft gesehen hat, antwortet auf Fragen zu den Auswirkungen eines knappen Angebots daher mit steigenden Preisen Aber kann man sagen, dass ein LLM (Large Language Model), das zahllose Korrelationen zwischen wirtschaftlichen Begriffen gesammelt hat, tatsächlich Wirtschaftstheorie versteht? Modelle wie ChatGPT führen keine verlustfreie Komprimierung durch. Sie rekonstruieren den ursprünglichen Text also nicht exakt GPT-3 liefert bei Additionen oder Subtraktionen mit zweistelligen Zahlen fast immer die richtige Antwort, aber bei fünfstelligen Zahlen fällt die Genauigkeit stark bis auf 10 % Denn im Web gibt es nicht viele Seiten mit Texten wie „245 + 821“ Trotz der Zusammenfassung riesiger Informationsmengen hat es also nicht einmal das „Prinzip der Arithmetik“ abgeleitet Man stelle sich vor, ChatGPT wäre ein verlustfreier Algorithmus Dann würde es Fragen beantworten, indem es relevante Web-Seiten teilweise wörtlich zitiert Wahrscheinlich würden wir dann nur denken, die Software sei gegenüber bestehenden Suchmaschinen leicht verbessert, und wären deutlich weniger beeindruckt Dass ChatGPT Material aus dem Web nicht wörtlich zitiert, sondern umformuliert, lässt es so wirken, als drücke ein Student Gelesenes in eigenen Worten aus, statt es nur zu wiederholen Dadurch entsteht die Illusion, ChatGPT verstehe das Material Für LLMs wurden viele Anwendungsfälle vorgeschlagen; wenn man sie als verschwommenes JPEG betrachtet, kann man besser beurteilen, was geeignet ist und was nicht Können große Sprachmodelle die bestehende Suche ersetzen? Um Vertrauen in LLMs zu haben, müsste man wissen, dass sie nicht mit Propaganda oder Verschwörungstheorien gefüttert wurden, also nicht mit seltsamen Daten trainiert wurden Wir müssten wissen, dass das JPEG die richtigen Abschnitte des Webs erfasst Aber selbst wenn ein LLM nur die Informationen enthält, die wir wollen, bleibt das Problem der Unschärfe bestehen Eine akzeptable Art von Unschärfe wäre, Informationen mit anderen Worten neu zu formulieren Es gibt aber auch Unschärfen, die bei der Faktensuche absolut unzulässig sind, etwa offensichtliche Erfindungen Ob es technisch möglich ist, die unzulässige Unschärfe zu entfernen und zugleich die akzeptable beizubehalten, ist unklar, aber wir werden es vermutlich bald erfahren Selbst wenn man LLMs so einschränken könnte, dass sie nichts fälschen: Sollte man sie zur Erstellung von Web-Inhalten verwenden? Das ergibt nur Sinn, wenn das Ziel ohnehin darin besteht, bereits im Web verfügbare Informationen neu zu verpacken Manche Unternehmen existieren genau zu diesem Zweck: das, was wir Content-Farmen nennen Vielleicht ist die Unschärfe von LLMs für sie nützlich, um Urheberrechtsverletzungen zu vermeiden Allgemein würde ich aber sagen: Was gut für Content-Farmen ist, ist nicht gut für Menschen, die nach Informationen suchen Durch die Zunahme solcher Neuverpackungen ist es bereits heute schwieriger geworden, online etwas zu finden Je mehr von LLMs erzeugte Texte im Web veröffentlicht werden, desto verschwommener wird das Web selbst Über GPT-4 ist fast nichts bekannt, aber man kann vermuten, dass die Leute bei OpenAI beim Sammeln der dafür nötigen Texte versucht haben, von ChatGPT oder anderen LLMs erzeugtes Material auszuschließen Falls das stimmt, wäre das ein Hinweis darauf, dass die Analogie zwischen LLMs und verlustbehafteter Komprimierung zutrifft Wenn man ein JPEG wiederholt komprimiert, gehen mehr Informationen verloren und es entstehen mehr Komprimierungsartefakte Es ist wie früher, wenn man von einer Kopie erneut eine Kopie machte: Die Bildqualität wird einfach schlechter Können LLMs Menschen dabei helfen, originäre Werke zu schaffen? Meiner Meinung nach ist es kein guter Weg zu einem Original, mit einer verschwommenen Kopie statt mit dem Original zu beginnen Wenn man Schriftsteller ist, schreibt man viele nicht originelle Texte, bevor man etwas Originelles schreibt Die Zeit und Mühe, die in nicht originelle Arbeiten fließen, sind nicht verschwendet Im Gegenteil: Genau sie ermöglichen es einem letztlich, etwas Originelles zu schaffen Die Zeit, die man darauf verwendet, die richtigen Wörter zu wählen und Sätze so umzustellen, dass sie gut folgen, lehrt einen, wie Prosa Bedeutung vermittelt Studierende Essays schreiben zu lassen, dient nicht nur dazu, ihr Verständnis des Materials zu testen Es gibt ihnen die Erfahrung, ihre Gedanken klar auszudrücken Vielleicht wird es in Zukunft möglich sein, eine AI zu bauen, die allein auf Grundlage ihrer eigenen Erfahrungen über die Welt gute Texte schreiben kann Das wäre ein wichtiger Moment, aber der Tag, an dem wir das erreichen, liegt jenseits unseres Prognosehorizonts Wenn man ohne Zugang zum Internet eine Kopie auf einem Server mit begrenztem Speicherplatz speichern müsste, könnten große Sprachmodelle wie ChatGPT eine gute Lösung sein „Aber wir haben den Zugang zum Internet nicht verloren. Warum sollten wir ein verschwommenes JPEG verwenden, wenn das Original vorhanden ist?“

(newyorker.com)

41 Punkte von xguru 2023-02-14 | 26 Kommentare | Auf WhatsApp teilen

Ein Text von Ted Chiang, der als einer der besten gegenwärtigen SF-Autoren gilt
Die Aussage: Weil ChatGPT Informationen komprimiert speichert, ist es eher so, als würde man ein verschwommenes JPEG statt des Originals betrachten
2013 wurde entdeckt, dass ein Xerox-Kopierer beim Kopieren von Zeichnungen Zahlen in andere Zahlen verwandelte
Das Problem entstand, weil beim Digitalisieren für den Kopiervorgang die verlustbehaftete JBIG2-Komprimierung ähnliche Ziffern nur einmal speicherte und dann wiederverwendete
Dieser Fall ist zwar nicht offensichtlich direkt mit OpenAIs ChatGPT gleichzusetzen, aber beim Speichern von Informationen aus dem Web kann ein ähnliches Szenario entstehen
Wenn man sich vorstellt, den Zugang zum Internet zu verlieren
- möchte man eine komprimierte Kopie sämtlicher Texte im Web erstellen
- aber wenn nur 1 % des nötigen Speicherplatzes zur Verfügung steht, müsste man wohl einen verlustbehafteten Algorithmus verwenden
- dann könnte man zwar alles durchsuchen, aber die Texte wären so stark komprimiert, dass sich keine exakten Zitate mehr finden ließen
Man kann sich ChatGPT als ein verschwommenes JPEG aller Texte im Web vorstellen
Wie ein JPEG bewahrt es viel von den Informationen des Webs, aber nicht exakt dieselbe Bitfolge
Alles, was man bekommt, ist eine Annäherung
Dass diese Annäherung in Form des außergewöhnlich gut formulierten Texts erscheint, den ChatGPT erzeugt, macht sie im Allgemeinen akzeptabel
Diese verlustbehaftete Komprimierung ist zwar nicht die eigentliche Erklärung dafür, wie ChatGPT funktioniert
Sie ist aber auch eine Möglichkeit zu verstehen, warum ChatGPT „Halluzinationen“ oder unsinnige Antworten über die Wahrheit erzeugt
Solche Halluzinationen sind so plausibel, dass man sie – wie die falschen Zahlen des Xerox-Kopierers – mit dem Original vergleichen muss, um sie sicher zu erkennen
Große Sprachmodelle identifizieren statistische Regelmäßigkeiten in Texten
Eine Formulierung wie „das Angebot ist knapp“ erscheint oft in der Nähe eines Satzes wie „der Preis steigt“
Ein Chatbot, der solche Beziehungen oft gesehen hat, antwortet auf Fragen zu den Auswirkungen eines knappen Angebots daher mit steigenden Preisen
Aber kann man sagen, dass ein LLM (Large Language Model), das zahllose Korrelationen zwischen wirtschaftlichen Begriffen gesammelt hat, tatsächlich Wirtschaftstheorie versteht?
Modelle wie ChatGPT führen keine verlustfreie Komprimierung durch. Sie rekonstruieren den ursprünglichen Text also nicht exakt
GPT-3 liefert bei Additionen oder Subtraktionen mit zweistelligen Zahlen fast immer die richtige Antwort, aber bei fünfstelligen Zahlen fällt die Genauigkeit stark bis auf 10 %
Denn im Web gibt es nicht viele Seiten mit Texten wie „245 + 821“
Trotz der Zusammenfassung riesiger Informationsmengen hat es also nicht einmal das „Prinzip der Arithmetik“ abgeleitet
Man stelle sich vor, ChatGPT wäre ein verlustfreier Algorithmus
Dann würde es Fragen beantworten, indem es relevante Web-Seiten teilweise wörtlich zitiert
Wahrscheinlich würden wir dann nur denken, die Software sei gegenüber bestehenden Suchmaschinen leicht verbessert, und wären deutlich weniger beeindruckt
Dass ChatGPT Material aus dem Web nicht wörtlich zitiert, sondern umformuliert, lässt es so wirken, als drücke ein Student Gelesenes in eigenen Worten aus, statt es nur zu wiederholen
Dadurch entsteht die Illusion, ChatGPT verstehe das Material
Für LLMs wurden viele Anwendungsfälle vorgeschlagen; wenn man sie als verschwommenes JPEG betrachtet, kann man besser beurteilen, was geeignet ist und was nicht
Können große Sprachmodelle die bestehende Suche ersetzen?
- Um Vertrauen in LLMs zu haben, müsste man wissen, dass sie nicht mit Propaganda oder Verschwörungstheorien gefüttert wurden, also nicht mit seltsamen Daten trainiert wurden
- Wir müssten wissen, dass das JPEG die richtigen Abschnitte des Webs erfasst
- Aber selbst wenn ein LLM nur die Informationen enthält, die wir wollen, bleibt das Problem der Unschärfe bestehen
- Eine akzeptable Art von Unschärfe wäre, Informationen mit anderen Worten neu zu formulieren
- Es gibt aber auch Unschärfen, die bei der Faktensuche absolut unzulässig sind, etwa offensichtliche Erfindungen
- Ob es technisch möglich ist, die unzulässige Unschärfe zu entfernen und zugleich die akzeptable beizubehalten, ist unklar, aber wir werden es vermutlich bald erfahren
Selbst wenn man LLMs so einschränken könnte, dass sie nichts fälschen: Sollte man sie zur Erstellung von Web-Inhalten verwenden?
- Das ergibt nur Sinn, wenn das Ziel ohnehin darin besteht, bereits im Web verfügbare Informationen neu zu verpacken
- Manche Unternehmen existieren genau zu diesem Zweck: das, was wir Content-Farmen nennen
- Vielleicht ist die Unschärfe von LLMs für sie nützlich, um Urheberrechtsverletzungen zu vermeiden
- Allgemein würde ich aber sagen: Was gut für Content-Farmen ist, ist nicht gut für Menschen, die nach Informationen suchen
- Durch die Zunahme solcher Neuverpackungen ist es bereits heute schwieriger geworden, online etwas zu finden
Je mehr von LLMs erzeugte Texte im Web veröffentlicht werden, desto verschwommener wird das Web selbst
Über GPT-4 ist fast nichts bekannt, aber man kann vermuten, dass die Leute bei OpenAI beim Sammeln der dafür nötigen Texte versucht haben, von ChatGPT oder anderen LLMs erzeugtes Material auszuschließen
Falls das stimmt, wäre das ein Hinweis darauf, dass die Analogie zwischen LLMs und verlustbehafteter Komprimierung zutrifft
Wenn man ein JPEG wiederholt komprimiert, gehen mehr Informationen verloren und es entstehen mehr Komprimierungsartefakte
Es ist wie früher, wenn man von einer Kopie erneut eine Kopie machte: Die Bildqualität wird einfach schlechter
Können LLMs Menschen dabei helfen, originäre Werke zu schaffen?
- Meiner Meinung nach ist es kein guter Weg zu einem Original, mit einer verschwommenen Kopie statt mit dem Original zu beginnen
- Wenn man Schriftsteller ist, schreibt man viele nicht originelle Texte, bevor man etwas Originelles schreibt
- Die Zeit und Mühe, die in nicht originelle Arbeiten fließen, sind nicht verschwendet
- Im Gegenteil: Genau sie ermöglichen es einem letztlich, etwas Originelles zu schaffen
- Die Zeit, die man darauf verwendet, die richtigen Wörter zu wählen und Sätze so umzustellen, dass sie gut folgen, lehrt einen, wie Prosa Bedeutung vermittelt
- Studierende Essays schreiben zu lassen, dient nicht nur dazu, ihr Verständnis des Materials zu testen
- Es gibt ihnen die Erfahrung, ihre Gedanken klar auszudrücken
Vielleicht wird es in Zukunft möglich sein, eine AI zu bauen, die allein auf Grundlage ihrer eigenen Erfahrungen über die Welt gute Texte schreiben kann
Das wäre ein wichtiger Moment, aber der Tag, an dem wir das erreichen, liegt jenseits unseres Prognosehorizonts
Wenn man ohne Zugang zum Internet eine Kopie auf einem Server mit begrenztem Speicherplatz speichern müsste, könnten große Sprachmodelle wie ChatGPT eine gute Lösung sein
„Aber wir haben den Zugang zum Internet nicht verloren. Warum sollten wir ein verschwommenes JPEG verwenden, wenn das Original vorhanden ist?“

26 Kommentare

bleu28 2023-02-26

Ich habe versucht, wiederholt Additions- und Subtraktionsaufgaben mit mehr als fünf Stellen zu stellen, und es gibt immer wieder korrekte Antworten.
Wodurch verschlechtert sich die Genauigkeit denn eigentlich?

flaps3 2023-02-20

Der Punkt, den Ted Chiang übersieht, ist, dass die Google-Suche, die bislang die wichtigste Methode zur Navigation im Internet war, in den letzten Jahren durch die Massenproduktion minderwertiger Webinhalte deutlich an Qualität verloren hat.
Auch wenn ChatGPT ein verschwommenes JPEG sein mag: Wenn die Alternative nur eine von Rauschen überflutete Google-Suche ist, kann es vernünftig sein, ChatGPT derzeit als bestes Mittel zu nutzen, um an Informationen zu gelangen.
Es wurde gesagt, wir hätten den Zugang zum Internet nicht verloren, aber genau diese Annahme ist falsch. Wenn man an die enorme Größe des Webs denkt, bedeutet der Verlust der Fähigkeit zur Navigation praktisch dasselbe wie der Verlust des Zugangs. Was bedeutet es schon, Zugang zu haben, wenn ich die Informationen, die ich suche, nicht finden kann?
Mit anderen Worten: Wir nähern uns einer Situation an, die fast so ist, als gäbe es kein „Original“ mehr, und ich denke, genau das ist der Grund, warum Menschen heute ganz konkret das Gefühl haben, ein „verschwommenes JPEG“ verwenden zu müssen.

laeyoung 2023-02-16

Ich denke, dass der unten von lightgreenmaesil hinterlassene Kommentar den Unterschied zwischen Ted Chiangs Perspektive und der derjenigen auf der anderen Seite gut zeigt.

„Zunächst einmal ist das Datenvolumen größer, und es dauert auch länger, es anzusehen. Bei einem Foto ist das zeitliche Empfinden vielleicht nicht so deutlich, aber wenn man es mit einem ganzen Buch und einer einseitigen Zusammenfassung der Kernaussagen dieses Buches vergleicht, wird es greifbarer.“

Wenn man sich die Beliebtheit und Aufrufzahlen von Dingen wie 15-Minuten-Filmzusammenfassungen oder Buchzusammenfassungen auf YouTube ansieht, ist es tatsächlich so, dass Menschen so etwas mögen. Bei Shorts ist es genauso. Wenn man aber darüber nachdenkt, ob diese Zusammenfassungen das Original vollständig wiedergeben können, scheint die richtige Antwort nein zu sein. Wer vom Original berührt war, wird stark spüren, was in der Zusammenfassung fehlt.

Aus der Sicht des Schriftstellers Ted Chiang dürfte sich das, was ChatGPT oder LLMs tun, so anfühlen, als würde er Texte sehen, die seine Romane auf ein oder zwei Seiten zusammenfassen. Und wenn er dann Menschen sieht, die sagen oder glauben, in diesem kurzen Text stecke der ganze Roman, wird er sich wohl fragen, ob das wirklich richtig ist.

Genauso: Werden Filmregisseure oder Schauspieler Menschen mögen, die statt des Originals nur eine 15-minütige Filmzusammenfassung sehen? Werden sie solche Leute als Menschen betrachten, die ihr Werk tatsächlich gesehen haben? Und was würde passieren, wenn fast alle Menschen die 15-minütige Zusammenfassung stärker als „Film“ wahrnehmen würden als den eigentlichen Film? Wenn man deshalb irgendwann keine Filme mehr machen könnte, welche Filme sollten diese 15-Minuten-Zusammenfassungen dann überhaupt noch zusammenfassen?

Wir leben in einer Zeit, in der man Videos und Texte gern zusammenfasst, schneller konsumiert und komprimiert, aber interessant ist, dass allein die Musik unverändert geblieben ist. Es gibt kaum Menschen, die Musik in zusammengefasster Form hören, in doppelter Geschwindigkeit hören oder beim Hören langweilige Stellen in 10-Sekunden-Schritten überspringen.

Wenn das so ist: Kann ich dann ein Fan von NewJeans werden, wenn ich Ditto von NewJeans ganz im Geist unserer Zeit mit doppelter Geschwindigkeit und als einminütige Vorhörfassung gehört habe? Kann ich dann sagen, dass ich dieses Lied gehört habe, obwohl ich es komprimiert und zusammengefasst gehört habe? Oder nicht? Oder ist das letztlich egal?

fudiso 2023-02-15

Wie schon Ted Chiang selbst zur Erklärung von Sprachmodellen die Metapher eines JPEG als verlustbehaftete Komprimierung herangezogen hat, braucht man die komprimierte Information auch dann, wenn das Original vorhanden ist.
Und selbst wenn ein Sprachmodell erneut auf den von ihm selbst erzeugten Ergebnissen trainiert wird, gibt es dabei fast keinen Informationsverlust. (An den internen Modellparametern werden kaum Updates vorgenommen. Es sind Informationen, die es bereits kennt, daher gibt es keinen Lerneffekt.)

stdcarrot 2023-02-15

Es scheint, als gebe es bei der Übersetzung der letzten Frage einen Unterschied zum Originaltext und in der Nuance, weshalb es offenbar viele Kommentare gibt, die allein auf Basis der Übersetzung die ursprüngliche Absicht missverstehen.

So just how much use is a blurry jpeg, when you still have the original?
Wie nützlich ist also ein verschwommenes JPEG, wenn man das Original noch hat?

Für mich wirkt das wie die Frage nach dem Nutzen eines JPEG, wenn man die RAW-Datei besitzt.
Wenn man es als „Warum sollte man das verwenden?“ interpretiert, wirkt es so, als hieße es: „Es gibt doch RAW, warum sollte man dann so etwas wie JPEG benutzen?“

Natürlich gibt es in der Realität Gründe dafür, warum JPEG verbreiteter ist als RAW, daher denke ich, dass die Frage auch diese Perspektive mit einschließt.

pseudojo 2023-02-15

Manchmal vertraut man nicht einmal der offiziellen Dokumentation von Open Source oder AWS und muss Dinge selbst ausführen und prüfen oder sogar den Quellcode nachsehen — wie viel weniger dann erst bei ChatGPT ... Je mehr Informationen es gibt, desto mehr unnötige Cross-Checks scheint der Mensch selbst machen zu müssen.

daumkakao 2023-02-15

Kann man JPEG und das Original nicht voneinander unterscheiden?

laeyoung 2023-02-16

Das hängt von den Eigenschaften des Bildes und der Kompressionsrate ab. Wer fotografiert, bevorzugt es in der Regel, zusätzlich zu JPEG auch das Original zu behalten. Wenn man später bearbeitet und nachkorrigiert, ist der Spielraum bei einer JPEG-Datei und beim Original sehr unterschiedlich.

https://www.keptlight.com/does-size-matter/

botplaysdice 2023-02-15

Ist nicht genau das, was die meisten Menschen selbst in diesem Moment tun müssen, um ihren Lebensunterhalt zu verdienen: dieses verschwommene JPEG zu erzeugen?

namjun 2023-02-15

ChatGPT ist wirklich beeindruckend, wirkt aber so menschlich, dass es für Suche und Informationsvermittlung sogar ungeeignet erscheint.

ahwjdekf 2023-02-15

Ich kann sehr gut nachvollziehen, dass es sich ähnlich anfühlt, als würde man ein unscharfes JPEG statt des Originals ansehen. Wenn ich zum Beispiel ein übersetztes Buch lese und die freie Interpretation des Übersetzers stark eingeflossen ist, dann denke ich selbst dann, wenn mir unterwegs etwas an der Übersetzung seltsam vorkommt, oft einfach weiter: Solange die Wörter weiterhin flüssig verbunden wirken und der grobe Kontext zu stimmen scheint, blättert man meist einfach weiter um (ob man es nach dem Lesen wirklich verstanden hat, ist allerdings noch einmal eine andere Frage). Aber diese Übersetzung, die einem seltsam vorkommt, könnte auch völlig abwegig sein, und deshalb ist das kein Problem, das man einfach übergehen sollte. Für manche ist so eine Übersetzung vielleicht völlig inakzeptabel, für andere wiederum noch in einem tolerierbaren Rahmen.

norimsu 2023-02-15

Hm. Die Bildqualität ist miserabel.

tequila 2023-02-15

Vielleicht ist das auch als Warnung zu verstehen. Ich nutze es selbst im Job, wenn ich Rat brauche oder Formulierungen glätten will, also ziemlich vielseitig, aber es gibt eindeutig auch Fälle, in denen sehr plausibel klingende und doch falsche Antworten kommen. Und tatsächlich braucht der Nutzer Wissen über das jeweilige Fachgebiet oder zusätzliche Recherche, um zu erkennen, dass diese Antwort falsch ist. Manchmal sind die Fehler überraschend subtil und lassen sich erst bei sehr genauem Hinsehen bemerken. (Zum Beispiel, wenn beim Generieren von Code Funktionen verwendet werden, die in Wirklichkeit gar nicht existieren.)
Bis ich solche Fehler entdeckt habe, habe ich ehrlich gesagt nie darüber nachgedacht, dass diese KI mir auf diese Weise antworten könnte. Ich hatte eher nur damit gerechnet, dass eine Antwort entweder gar nicht möglich ist oder völlig abwegig ausfällt.

Wenn es selbst auf Stack Overflow und ähnlichen Plattformen, wo vergleichsweise viele Menschen mit höherem Verständnis für solche Technologien unterwegs sind, nach und nach Reibungen im Zusammenhang mit KI-Antworten gab, dann wurde unter den Nutzern wohl doch nicht so lückenlos geprüft, wie man vielleicht annehmen würde. Die Prüfung von KI-generierten Daten erfordert menschliches Eingreifen und ist eindeutig eine Arbeit, die Zeit und Wissen kostet. Sonst hätte Microsoft die plausibel wirkenden Fehler der eigenen KI wohl kaum übersehen. Deshalb wissen wir, dass wir diese Technologie vorerst als Werkzeug nutzen sollten. Wenn wir aber die KI im Handy nach dem Wetter für heute fragen, gehen wir normalerweise nicht davon aus, dass die Antwort wegen eines Bugs oder eines anderen Fehlers falsch sein könnte. Wenn sich KI wie ChatGPT schrittweise zu allgemeiner einsetzbarer KI entwickelt und immer enger mit dem Alltag verknüpft wird, ist es dann nicht wahrscheinlich, dass Nutzer solche Antworten weitgehend ohne großen Zweifel akzeptieren?

In letzter Zeit gibt es an Schulen viele Fälle, in denen ChatGPT und Ähnliches zum Schreiben von Essays genutzt werden. Nicht nur, um Fehler aufzuzeigen, Themenideen zu bekommen oder Texte auszubauen, sondern es gab bereits Berichte über Fälle, in denen KI-Antworten ohne eigenes Nachdenken über die Aufgabe weitgehend unkritisch übernommen, nur einzelne Wörter leicht verändert und dann für hohe Bewertungen eingereicht wurden. In Situationen, in denen auf Grundlage selbst recherchierter Materialien nach den eigenen Gedanken gefragt wird, einer KI Denken, Struktur und Ausformulierung zu überlassen, ist eindeutig ein neues Paradigma.

Auch unabhängig von KI tauchen im Internet oft massenhaft falsche Informationen in Suchergebnissen auf. Viele Menschen glauben sie dann ohne zusätzliche Überprüfung für wahr. Auch ich hätte wahrscheinlich oft unbemerkt falsche Informationen übernommen, wenn ich nicht alles einzeln überprüft hätte.
Man sagt manchmal scherzhaft Datenverwitterung dazu: Wenn Bilder im Internet als JPG über verschiedene Seiten wandern und immer wieder geteilt werden, werden sie oft mehrfach skaliert und komprimiert, bis die Bildqualität völlig ruiniert ist. Ich habe sogar schon gesehen, dass ein rein weißer Hintergrund bläulich wurde.
Vielleicht geht es um die Sorge vor so etwas wie Informationsverschleiß. Schlechte Qualität verdrängt schließlich oft die gute, sagt man.
Schon jetzt sind Bild-Sharing-Seiten voll mit von KI erzeugten Bildern. Das ist nicht per se falsch, aber wenn das Internet dicht mit KI-verfassten Näherungsartikeln gefüllt würde und KI, die darauf basiert, wiederum neue Artikel erzeugt, könnte sich dann nicht nach und nach eine Verzerrung von Informationen aufsummieren? Daran muss ich denken.

rousseau 2023-02-15

Ich lese seit über 30 Jahren Science-Fiction und bin als echter Fan der Ansicht, dass unter den neuen SF-Werken, die ich in den letzten knapp 10 Jahren gelesen habe, Story of Your Life das beste ist — aber aus der Perspektive eines Branchenmenschen, der seit über 20 Jahren als Entwickler arbeitet, muss ich dieser Aussage widersprechen.

Im Kern entspringt diese Aussage einer Perspektive, die man durchaus als anmaßend bezeichnen kann. Die Menschen würden (in ihrer Unwissenheit) fälschlich glauben, dass AI-Plattformen wie ChatGPT den Bereich der Kreativität erreicht hätten, aber ich wisse, dass das nicht so sei, also müsse ich ihnen die wahre Wahrheit sagen.

Die wirkliche Wahrheit ist jedoch, dass nicht nur Branchenleute, sondern die große Mehrheit der Menschen längst weiß, dass dem nicht so ist. Spätestens seit AlphaGo ist AI schon lange ein Thema für die breite Öffentlichkeit. Die Fähigkeiten und auch die Grenzen von AI sind den meisten zumindest einigermaßen bekannt. In der AI-Go-Szene wimmelt es inzwischen von Könnern, die AlphaGo fast wie einen Säugling behandeln würden, aber niemand reagiert darauf noch schockiert. Denn es wurde bereits viel darüber gelernt, was das bedeutet und wie man es einordnen sollte.

Ich halte Ted Chiangs Aussage vielmehr für einen Irrtum, der aus Unkenntnis und Vorurteilen gegenüber der Öffentlichkeit entstanden ist. Die Menschen, die von ChatGPT begeistert sind, tun das nicht aus dem Glauben heraus, es werde unsere intellektuelle Tätigkeit ersetzen. Alle wissen sehr gut, dass es unsere intellektuelle Tätigkeit unterstützen wird, und genau so wird es auch genutzt. Prompt-Beispiele werden standardisiert und als eine Art Handbuch geteilt. Daran sieht man klar, dass es als Werkzeug verstanden wird.

Und wie nehmen die Menschen AI zum Bilderzeugen auf? Reiben sie sie wie eine Wunderlampe, damit sie an ihrer Stelle kreativ wird? Rund 90 % der AI-Bilder, die ich in letzter Zeit gesehen habe, waren Erotikbilder. Wenn die Hände schlecht gezeichnet und deshalb verschwommen sind, dann sind sie eben verschwommen — aber der Rest war nur sauber und eindeutig.

Ich hätte noch viel zu sagen, aber weil es zu viel ist, belasse ich es bei einem Satz.

„Herr Kim, ich möchte es wagen, Ihnen einen Rat zu geben. Es geht um nichts anderes als darum: Verwenden Sie nicht zu oft Excel-Funktionen. Wenn es Bequemlichkeit gibt, steigt auch das Risiko. Um ein Rind zu schlachten, braucht man eine entsprechende Klinge — aber braucht man zum Schlachten eines Huhns überhaupt ein Messer? ... Meiner Meinung nach kann Kopfrechnen schneller sein, und natürlich ist das von Mensch zu Mensch verschieden, aber ein Taschenrechner kann nützlich sein. Ist ein Computer nicht eher das Messer zum Rinderschlachten? Das ist meine Ansicht.“

lightgreenmaesil 2023-02-15

Die letzte Frage war falsch gestellt. Der Vergleich sollte nicht mit einem verschwommenen JPEG erfolgen, sondern mit einer sprachlichen Zusammenfassung eines JPEG-Fotos. Zum Beispiel der Text „ein Hund, der die Zunge herausstreckt“ im Vergleich zu einem tatsächlichen Foto davon. Auch das ist eine Form verlustbehafteter Kompression. Der Großteil der Informationen wurde entfernt und auf nur wenige Bytes Text komprimiert. Aber ist eine solche verlustbehaftete Kompression wertlos, nur weil das Originalfoto existiert? Nein. Allein schon die Dateigröße ist größer, und es dauert länger, es anzusehen. Bei einem Foto wirkt der Zeitfaktor vielleicht nicht ganz so anschaulich, aber wenn man an ein ganzes Buch und eine einseitige Zusammenfassung seiner Kernaussagen denkt, wird es deutlicher.

Wenn es also einen wissenschaftlichen Aufsatz gibt: Gibt es einen Grund, seine verlustbehaftete komprimierte Zusammenfassung anzusehen? Natürlich, und je nach Fall ist das sehr nützlich. Wenn es ein Buch gibt und man eine Zusammenfassung zu einer bestimmten Behauptung braucht, die in einem Kapitel dieses Buches erwähnt wird — natürlich gibt es dafür Gründe. Im Grunde ist es auch eine enorme verlustbehaftete Kompression, wenn Menschen in die Schule gehen, über viele Stunden Vorlesungen hören und diese dann in Notizen oder einem Spickzettel zusammenfassen. Lernen selbst ist verlustbehaftete Kompression. Ist das nutzlos?

„Kompression“ wurde mit der Kompression von Fotos verglichen, als wäre das etwas Triviales und nicht besonders Bedeutungsvolles. Tatsächlich aber ist Kompression für menschliches Lernen etwas zutiefst Wesentliches und Sinnvolles. Bei Fotos ist die Art der Kompression in gewissem Maße bereits gut verstanden, aber die Kompression von Sprache ist äußerst non-trivial und eine wichtige Aufgabe.

cenoch 2023-02-15

Die Antwort auf die letzte Frage ist

selbst wenn die Informationen, die wir über GPT erhalten, eine verlustbehaftete JPEG-Version sind,
die Informationen, die wir wollen, meist eine Collage-Version sind und der Aufwand, diese Collage zusammenzusetzen, beträchtlich ist.

Es nimmt uns die Mühe der Collage-Arbeit ab, und manchmal ist die Gesamtqualität sogar besser als das, was ich mit meinen eigenen Fähigkeiten zustande brächte,
sodass sich der Qualitätsverlust durchaus in Kauf nehmen lässt.

Ich bin wohl kaum in der Position, mir anzumaßen, Ted Chiangs Vorstellungskraft und sein Verständnis von Technologie zu bewerten,
aber insgesamt wirkt es auf mich wie das Ergebnis einer Überinterpretation einiger Merkmale dieser Technologie,
wobei die wirklich wichtigen Merkmale übersehen wurden.

johtta88 2023-02-14

Ist die Antwort auf die letzte Frage nicht einfach: „Weil es bequem ist“?
Ich weiß nicht, ob das ein passender Vergleich ist, aber so wie die Zufriedenheit heute mit Dingen hoch ist, die das Original komprimieren – etwa Binge-Watching von Filmen/Serien.

regentag 2023-02-14

Das scheint eine sehr gute Analogie zu sein, die aber wohl niemand verstehen wird, der nicht in der Branche arbeitet.
Wie könnte man das Nicht-Fachleuten verständlich machen, einschließlich derer, die nur so tun, als wären sie Experten?

yhkee0404 2023-02-14

Super Resolution kann besser als das Original sein

wedding 2023-02-15

Natürlich kann es besser sein, aber weist der Artikel nicht auch darauf hin, dass es nicht zwangsläufig besser ist?

yhkee0404 2023-02-15

Es hieß zwar, dass es besser werden kann, aber natürlich wird es nicht zwangsläufig besser. Im Text heißt es jedoch nur, die Auflösung sei unscharf, und die Möglichkeit, dass es im Gegenteil klarer werden könnte, wird ausgeblendet. Auch die Bildqualität von CCTV wird verbessert und Schwarz-Weiß wird koloriert, aber das JPEG im Titel unterstützt so etwas nicht.

seunghaekim 2023-02-15

Die Verbesserung der Bildqualität, also etwa die Verbesserung der Qualität von CCTV-Aufnahmen, ist in gewisser Hinsicht keine echte Verbesserung. Sie vermittelt dem Menschen vielmehr das Gefühl, dass das Bild verbessert wurde. Dasselbe gilt für das Kolorieren von Schwarz-Weiß-Bildern. Indem ein koloriertes Schwarz-Weiß-Bild erzeugt wird, vermittelt man dem Menschen das Gefühl eines Farbbilds. Deshalb muss die „Verbesserung“, mit der sich die heutigen Technologien zur Steigerung der Bildqualität befassen, als ein Thema betrachtet werden, das nur unter einem sehr engen Aspekt behandelt werden sollte. Der Vergleich, dass JPEG so etwas bei der Verbesserung der CCTV-Bildqualität nicht unterstütze, ist daher ein äußerst unfairer Vergleich.

yhkee0404 2023-02-15

Danke für den Kommentar. Nach derselben Logik wäre aber auch die Unschärfe in mancher Hinsicht keine Degradation, sondern eher das „Erzeugen“ von etwas Degradiertem, um einen „Eindruck“ zu vermitteln; deshalb ist das ein Thema, das nur unter einem sehr engen Blickwinkel behandelt werden sollte, und dann wäre es wohl auch ziemlich unfair, ChatGPTs mathematische Fähigkeiten mit JPEG-Degradation zu vergleichen, oder? Wenn es darum geht, die Informationsmenge selbst zu erhöhen, muss man menschliche „Sinneseindrücke“ wohl nicht unbedingt ins Spiel bringen. So wie sich beim Komprimieren eines farbigen Originals in Schwarz-Weiß die Dateigröße verringert, ähnelt das nachträgliche Einfärben in umgekehrter Richtung eher einer Dekompression oder der Wiederherstellung des Originals, weil dabei nicht nur die Bitgröße, sondern die Informationsmenge selbst zunimmt. Nur weil es nicht das Original selbst ist, scheint mir der Vergleich, es sei deshalb unscharf, wesentlich unfairer zu sein. Liest man nur den Titel, könnte man sonst missverstehen, dass auch DALL-E nur kleine Dateien mit niedriger Auflösung erzeugt und kein HD kann. Wie im Text steht, wird ein JPEG bei wiederholter Komprimierung im Allgemeinen kleiner, die Bildqualität sinkt und es wird zwangsläufig unschärfer; bei Deep Learning gibt es aber trotz möglicher Unschärfen bei mathematischen Berechnungen mit wenig Daten umgekehrt auch Bereiche, in denen die Ergebnisse sogar klarer, präziser und besser sind. Ich hoffe, dass dieser Punkt nicht übersehen wird.

seunghaekim 2023-02-15

Nichts von dem, was Sie gesagt haben, habe ich übersehen. Sie schaffen das Original, und offenbar hat es Sie sehr wütend gemacht, dass ich nicht „das Original“, sondern „etwas, das sich wie das Original anfühlt“, erschaffe. So oder so ist das nun einmal die schlichte Tatsache — was soll man da machen.

yhkee0404 2023-02-15

Einen Ausdruck wie, dass ich extrem wütend sei oder etwas extrem ungerecht finde, habe ich doch gar nicht gemacht, oder? Ich hatte nur die Sorge, dass die Öffentlichkeit diese Schlagzeile des Artikels, in der steht, dass ein gewisser Ted Chiang das gesagt habe, sieht und darüber hinweggeht. Die meisten scheinen dem zuzustimmen, daher ist es immerhin gut, dass Sie ihn persönlich kennen. Dass es schwierig ist, Analoges digital zu erzeugen, dem stimme ich zu. Da es hier aber um Text geht, ist das eigentlich ein anderer Fall.

xguru 2023-02-14

Das Problem mit dem Xerox-Kopierer ist offenbar auch etwas, das ich in 52 Dinge, die ich 2022 gelernt habe #33 gesehen hatte.
Dass sich das hiermit verbindet, ist interessant und macht es sofort verständlich!

ChatGPT ist ein verschwommenes JPEG des Webs

Verwandte Beiträge

26 Kommentare