- Während Methoden getestet wurden, um bei ChatGPT o1 und Gemini 2.5 Halluzinationen auszulösen, wurde o3 veröffentlicht
- Im Gegensatz zu o1 ist o3 ein leistungsstarkes multimodales Modell mit Funktionen wie Websuche, Bilderkennung und Code-Ausführung. Dennoch zeigte sich, dass es falsche Antworten gibt, wie es ein Mensch vermutlich nicht tun würde.
- Kernhypothese: Anders als Menschen haben LLMs keine Sinnesorgane. Daher dürften sie bei Fragen schwach sein, die Informationen wie visuelle Wahrnehmung oder Orientierungssinn erfordern.
- Fragen zum Auslösen von Halluzinationen
- Van Goghs
Die Kartoffelesser beschreiben
- Besser als o1, das bereits die Figurenkonstellation selbst falsch hatte, aber bei den konkreten Beschreibungen weiterhin fehlerhaft
- Die Solmisationssilben der Melodie von Mozarts Klaviersonate K545 nennen
- Trotz Websuche und dem Auffinden des Originalbilds konnte keine korrekte Antwort gegeben werden
- Das visuelle Modul scheint Noten nicht erkennen zu können
- Ergebnis einer Fußweg-Routenbeschreibung
- Antwortete falsch, obwohl die Suchergebnisse Naver Map enthielten
- Problem beim Umschalten zwischen koreanischer und englischer Tastaturbelegung (z. B.
cotwlvlxl -> 챗지피티)
- Bei kleiner Eingabe antwortete es gut, bei größerer Eingabe erzeugte es erfundene Antworten
- Es wirkt, als würde es beim Lösen des Problems sagen: „Ach, egal“, und einfach davonlaufen
- Bei traditionellen Algorithmen gibt es keinen solchen „Ach-egal-Moment“. Sie würden einfach lange weiterlaufen und dann per Timeout enden
- Fazit
- Das Fehlen echter Sinnesorgane ist weiterhin eine reale Schwäche von LLMs
- Dass ein Problem nicht gelöst werden kann, ist kein Defekt. Der eigentliche Defekt besteht darin, falsche Antworten zu erfinden.
- Statt vor allem die Schlussfolgerungsfähigkeit zu stärken und neue Funktionen hinzuzufügen, sollten die Entwickler den Modellen lieber eine Form von Metakognition vermitteln, damit sie sagen können, dass sie etwas nicht wissen
Noch keine Kommentare.