GPT-5.5 hat eine dreifach höhere Halluzinationsrate als das MIT-lizenzierte GLM-5.2

(arrowtsx.dev)

1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Während unter großen KI-Forschungslaboren die Skepsis gegenüber der Strategie unbegrenzter Skalierung wächst, zeigt sich erneut, dass Modellgröße keine Garantie für faktische Genauigkeit ist
Das MIT-lizenzierte Open-Weight-Modell GLM-5.2 mit 753B Parametern und rund 40B aktiven Parametern kommt bis auf 4 Punkte an GPT-5.5 heran
Die Halluzinationsraten im AA-Omniscience-Benchmark lagen bei GLM-5.2 bei 28 %, bei GPT-5.5 bei 86 % und bei DeepSeek V4 Pro bei 94 %, wodurch die Lücke bei der Unsicherheitskalibrierung ähnlich wichtig wird wie reine Performance-Scores
Im Python-Test lag DeepSeek V4 Pro trotz 3 Minuten 52 Sekunden und 7.7k Reasoning-Tokens falsch, während GLM-5.2 in 12 Sekunden und mit etwa 800 Tokens auf die technische Unmöglichkeit hinwies
Die Modellauswahl lässt sich nur schwer anhand von Parameterzahl oder theoretischer Leistung allein beurteilen; auch Rohfähigkeit, Halluzinationsrate und Recheneffizienz müssen gemeinsam betrachtet werden

Zweifel an der Modellskalierungsstrategie

Unter führenden KI-Laboren wächst die Skepsis gegenüber einem Ansatz, der Leistung nur durch mehr Parameter und mehr Trainingsdaten weiter steigern will
Claude Fable 5 wurde drei Tage nach seiner Veröffentlichung von der US-Regierung eingeschränkt und als erster US-Fall eines KI-Verbots aus Gründen der nationalen Sicherheit behandelt
- Dass eines der weltweit größten Modelle wegen des Risikos eines einzelnen Jailbreaks verboten wurde, dient als Beispiel für die Grenzen des Skalierungsparadigmas
Große Modelle erzielen im Artificial Analysis Intelligence Index weiterhin hohe Werte, aber auch Open-Weight-Modelle haben den Abstand deutlich verkleinert
- GLM-5.2 von Z.ai ist ein MIT-lizenziertes Open-Weight-LLM mit 753B Parametern und rund 40B aktiven Parametern
- GLM-5.2 liegt im Artificial Analysis Intelligence Index nur noch 4 Punkte hinter GPT-5.5 und 9 Punkte hinter Fable 5
- Da geschlossene Modelle schätzungsweise 1,5- bis 2-mal größer als GLM-5.2 sind, stützt diese Verringerung des Abstands die Möglichkeit eines Plateaus bei realer Intelligenz

Halluzinationsraten offenbaren ein Problem der Unsicherheitskalibrierung

Modelle, die mit großen Mengen faktischer und nicht-theoretischer Daten trainiert wurden, können darauf verstärkt werden, auch dann eine Antwort zu geben, wenn sie es eigentlich nicht wissen
Die Halluzinationsraten im AA-Omniscience-Benchmark unterscheiden sich je nach Modell stark
- Vergleich der Halluzinationsraten: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T Parameter, 49B aktive Parameter, 44 Punkte im AA Intelligence Index, Halluzinationsrate 94 %
- GLM-5.2: Halluzinationsrate 28 %
- Opus 4.8: Halluzinationsrate 36 %
- Fable 5: Halluzinationsrate 48 %
- GPT-5.5: Halluzinationsrate 86 %
Die Halluzinationsrate von 94 % bei DeepSeek V4 Pro bedeutet, dass das Modell bei Fragen, auf die es keine Antwort fand, nur in etwa 6 % der Fälle sagte, dass es das nicht wisse; in allen übrigen Fällen lieferte es selbstsicher falsche Antworten

Unterschiedliche Recheneffizienz im Python-Test

Der Vergleichstest bestand aus einer relativ komplexen Python-Frage mit einem klaren Architekturfehler
- Beide Modelle wurden auf OpenRouter mit high reasoning effort und temperature 1 getestet
- Der System-Prompt lautete: „You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 wurde von Z.ai mit FP8 precision bereitgestellt, DeepSeek V4 Pro von Baidu Qianfan ebenfalls mit FP8 precision
DeepSeek V4 Pro erzeugte trotz 3 Minuten 52 Sekunden und 7.7k Reasoning-Tokens eine selbstsicher falsche Antwort
GLM-5.2 kam in 12 Sekunden und mit nur etwa 800 Reasoning-Tokens zu dem Schluss, dass es technisch unmöglich ist, dass eine single-threaded task ohne yielding oder system polling multiplexed I/O ausführt
Wenn man Reasoning-Budget, Korpusgröße und Parameterzahl wahllos erhöht, droht man nur Rechenleistung zu verschwenden und plausibel klingende falsche Antworten zu erzeugen
Selbst sehr große Modelle können weder „Ich weiß es nicht“ sagen noch subtile logische oder technische Fehler erkennen; daher müssen raw capability, uncertainty calibration/hallucination rate und computational efficiency gemeinsam bewertet werden

1 Kommentare

GN⁺ 4 시간 전

Hacker-News-Kommentare

Die Behauptung, dass die tatsächliche Intelligenz stark stagniert und dass das weitere Trainieren immer größerer Modelle in Zukunft nicht nur zu Stagnation, sondern sogar zu einer Verschlechterung der Intelligenz führen werde, ist ziemlich gewagt
Ich verstehe nicht, warum man daraus schließt, dass größere Modelle und mehr Daten gleich mehr Halluzinationen bedeuten. In den letzten Jahren war es in der Praxis eher umgekehrt, und einige Modelle halluzinieren zwar möglicherweise weiterhin stärker, aber die aktuellen Modelle halluzinieren weit weniger als das frühe 175B-ChatGPT, das mit kleineren Modellen und deutlich weniger Daten trainiert wurde
Die Daten wurden wegen der Zitate erwähnt, wonach große AI-Labore gegenüber einer endlosen Ausweitung der Parameterzahl und der Trainingsdaten skeptisch werden. Im Moment sieht es eher so aus, als hätte die Branche erkannt, dass sich selbst aus Modellen unter 1T noch viel herausholen lässt, man dafür aber mehr und qualitativ bessere Daten innerhalb dieser Verteilung braucht, um die gewünschten Fähigkeiten freizulegen
- Um Modelle intelligenter zu machen als heute, braucht man Fälle und Beispiele zum Lernen, aber je näher man an die obersten Perzentile menschlichen Schlussfolgerns kommt, desto knapper wird solches Material
  Künstlich erstellte Logikprobleme kann man zwar erzeugen, aber Englisch ist keine formale Logik, deshalb wird es oft zu einem Sprachspiel. Probleme vom Typ „Monty Hall“ sind ebenfalls eher Sprachspiele, die nur für Menschen interessant sind und bei anderer Darstellung offensichtlich werden
  Letztlich kämpfen Modelltrainer mit der Trainingskorpora, also mit der überwältigenden Gewöhnlichkeit des gesamten historisch aufgezeichneten menschlichen Outputs. Wenn sich Modelle verbessern, wird der nächste Schritt wohl sein, Modelle gemeinsam mit Menschen zu entwerfen, um diese Grenzen zu überwinden. Auch die Art, wie wir Sprache verwenden und Probleme lösen, sowie das, was heute „Orchestration“ genannt wird, werden sich gemeinsam weiterentwickeln
  Wenn man riesige Kontexte verarbeiten kann und nicht dieselben Einschränkungen braucht, passen Metaphern aus der realen Welt nicht besonders gut. Dann entstehen auch Fragen wie: Wie unterschiedlich sind Halluzination und Extrapolation eigentlich?
  Ein großer Teil der Skepsis und Verwirrung gegenüber LLMs unterscheidet sich kaum davon, dass Menschen mit durchschnittlicher Intelligenz einer sehr klugen Person zuhören, das Gesagte für Unsinn halten und sie dann arrogant der Unfreundlichkeit bezichtigen
  So wie der Wolf zum Hund domestiziert wurde, damit er Eigenschaften entwickelt, die für das Leben an der Seite des Menschen geeignet sind, werden sich auch LLMs um unsere Grenzen, unsere Arroganz, unsere ästhetischen Vorlieben und unsere Vorurteile herum weiterentwickeln. Was die meisten Menschen von LLMs wollen, ist im Grunde nicht Intelligenz und Rationalität
- Das Zitat sagte nicht „größere Modelle und mehr Daten = mehr Halluzinationen“. Es sagte, dass bei größeren Modellen die Intelligenz stagniert, nicht aber etwas über mehr Daten oder eine Zunahme von Halluzinationen
  Das relevante Zitat lautet eher: „Wenn Modelle auf sehr faktischen und nicht-theoretischen Massendaten trainiert werden, lernen sie, immer eine Antwort zu geben“
  Es sind also zwei getrennte Behauptungen. 1) Größere Modelle stagnieren bei der Leistung 2) Modelle, die mit mehr faktischen Daten trainiert wurden, haben eine höhere Halluzinationsrate
  Punkt 1 ist fast schon Allgemeinwissen. Soweit ich mich erinnere, zeigten schon die Scaling-Laws-Studien von OpenAI vor einigen Jahren abnehmende Erträge bei der Parameterzahl und der Menge an Trainingsdaten. Bei Punkt 2 weiß ich nicht, ob es dafür außer dem Originaltext noch weitere Belege gibt
- Werden Halluzinationen nicht auch stark von Rechenleistung und Speicherkapazität beeinflusst? Unternehmen können in agentischen Strukturen mehr Zeit für die Verifikation der Ergebnisse aufwenden, mehr Thinking-Tokens einsetzen und weniger quantisieren. All das hängt stark von Rechenleistung und Speicher ab, hat sich aber als wirksam zur Verringerung von Halluzinationen erwiesen
  Vielleicht ist GPT-5.5 auch schlicht stark durch Mangel an Rechenleistung, Speicher und Energie begrenzt
  Ich stimme zu, dass die Schlussfolgerung, größere Modelle seien ins Stocken geraten, übertrieben wirkt
- Dass große AI-Labore gegenüber einer endlosen Ausweitung der Parameterzahl und der Trainingsdaten skeptisch geworden sind, dürfte größtenteils an der Qualität der Trainingsdaten liegen. Ich verstehe nicht, warum das in solchen Diskussionen so selten erwähnt wird
  Wie von Anfang an offensichtlich war, haben die Scaling Laws lediglich einen Teil der in den zugrunde liegenden Daten beschriebenen Fähigkeiten erschlossen und künstlichen neuronalen Netzen erlaubt, diese im latenten Raum zu abstrahieren
- Ist das nicht einfach Overfitting? Es gibt zwar mehr Daten, aber sobald man nach etwas fragt, das in diesen Daten nicht enthalten ist, entstehen Halluzinationen
Ich frage mich, ob das so etwas wie das „Minimum Viable LLM“ ist. Ich frage mich oft, wie groß ein LLM sein muss, bevor es sinnvoller wird, ihm danach größtenteils nur noch ein größeres Kontextfenster und dynamische Wissensinhalte wie PDF- oder Markdown-Dateien zu geben, um Wissen bereitzustellen, das außerhalb der Trainingsdaten liegt
Es scheint, als bräuchten LLMs nicht mehr Daten, sondern einen besseren Veredelungsprozess
Halluzinationen wirken auf den ersten Blick wie ein Problem, das sich mit RLVR leicht adressieren lässt. Es werden bereits riesige Mengen an Denkspuren erzeugt, die anhand der richtigen Antwort überprüft werden können; man müsste also nur „Ich weiß es nicht“ als gültige Antwort hinzufügen und bei Problemen, bei denen keine der Tausenden von Denkspuren zur richtigen Antwort gelangt, jene Spur, die bei „Ich weiß es nicht“ ankommt, in die Trainingsdaten hochstufen
Im Kern würde man dem Modell damit beibringen, dass „Ich weiß es nicht“ eine gültige Antwort ist
Sam Altman hat, glaube ich, früher auch einmal in einem Blogbeitrag auf diese Idee angespielt, also dürfte sie für alle offensichtlich sein. Dann liegt wohl nahe, dass es in der Praxis nicht so einfach ist, wie es klingt
- Fast alle Benchmarks messen Genauigkeit nach dem Schema: richtige Antwort 1 Punkt, alles andere 0 Punkte. Wenn man auf 100 Fragen mit nur 10 % Sicherheit überall mit „Ich weiß es nicht“ antwortet, bekommt man 0 Punkte; wenn man dagegen überall selbstbewusst antwortet, liegt der Erwartungswert bei 10 Punkten. Darauf werden die meisten AIs trainiert
  Soweit ich weiß, ist AA-Omniscience der einzige AI-Benchmark, bei dem zufälliges Raten im Schnitt schlechter abschneidet als auf jede Frage mit „Ich weiß es nicht“ zu antworten
- Ich denke, das Problem liegt in der Ausgabe von LLMs und in der Art, wie Tools diese interpretieren. Die Ausgabe ist eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens. Selbst wenn die Wahrscheinlichkeiten aller Tokens sehr niedrig sind, werden sie so normalisiert, dass ihre Gesamtwahrscheinlichkeit 1 ergibt. Nach diesem Schritt ist schwer zu unterscheiden, ob das Modell ein bestimmtes Token wirklich stark bevorzugt oder ob man nur verstärktes Rauschen sieht
  Einen separaten „Ich weiß es nicht“-Token zu trainieren bedeutet, dass man zwischen allen anderen Tokens einen Graben schaffen müsste. Statt eines unscharfen Rauschbereichs zwischen „Ja“ und „Nein“, in dem beide relativ hohe Wahrscheinlichkeiten haben, bräuchte man einen neuen Gipfel, bei dem „Ich weiß es nicht“ höher liegt. Dann entstehen wiederum neue unscharfe Bereiche zwischen „Ja“ und „Ich weiß es nicht“ sowie zwischen „Ich weiß es nicht“ und „Nein“. Will man dazwischen noch eine weitere Antwort lernen, muss das System wesentlich feiner abgestimmt sein
  Stattdessen kann man prüfen, ob mehrere Optionen nahezu die gleiche Wahrscheinlichkeit haben. Dann muss man aber auch unterscheiden, ob die beiden Top-Optionen faktisch Synonyme wie „Genève“ und „Geneva“ sind, was ein gutes Signal dafür wäre, dass das Modell die Antwort kennt, oder ob es sich eher um „Ja“ und „Nein“ handelt
- Das Kernproblem ist, dass Unterdrückung von Halluzinationen nicht generalisiert. Man kann falsche Antworten bei vielen verschiedenen Fragen bestrafen, aber das führt nicht zur Entstehung eines konsistenten Weltmodells. Nur ein konsistentes Weltmodell in Verbindung mit logischen Fähigkeiten ist eine echte Lösung für Halluzinationen
  In der aktuellen Architektur werden Halluzinationen bei offenen Aufgaben wahrscheinlich für immer bestehen bleiben
- So einfach ist es nicht. Ich habe mich diese Frage früher selbst gefragt und genau das einmal versucht: ein LLM zu trainieren
  Die Aufgabe war einfach. Ich habe mit dem Datensatz MS-MARCO[0], der Suchanfragen, Suchergebnisse und Antworten enthält, ein Trainingsset gebaut. 1) Fragen mit korrekter Antwort, denen echte Evidenz-Ergebnisse und einige irrelevante Ergebnisse beigefügt waren 2) Fragen, denen nur irrelevante Ergebnisse beigefügt waren und bei denen die Antwort „No answer present“ lautete
  Der Datensatz war mit fast 1 Million Samples groß, und ich habe mit mehreren Methoden trainiert: von einem SFT-ähnlichen Ansatz, bei dem das Modell den Datensatz nachahmen sollte, über DPO, das gute und schlechte Antworten auf dieselbe Nutzeranfrage kontrastiert, bis zu GRPO, das Annotationen zum Vorhandensein einer Antwort überprüft
  Im Ergebnis nahmen Halluzinationen nicht ab, sondern wurden sogar deutlich schlimmer. Das Modell begann nun, „No answer present“ zu behaupten, selbst wenn tatsächlich eine Antwort vorhanden war oder wenn Suchergebnisse für eine einfache Frage wie X+Y von vornherein gar nicht nötig waren
  Natürlich kann man sagen, dass mein Training im Vergleich zu dem, was führende Forschungslabore leisten können, eher grundlegend war. Trotzdem deutet es meiner Meinung nach auf eine fundamentalere Grenze hin. LLMs sind heikel und verstehen Dinge wie „die Liste der Suchergebnisse ansehen, ihre Relevanz für die Nutzeranfrage prüfen und sie nicht in die Antwort einbeziehen, wenn die Relevanz unter einem bestimmten Schwellenwert liegt“ nicht sauber aus ersten Prinzipien heraus
  Kurz gesagt: Es ist nicht so simpel, wie es scheint, und möglicherweise sogar unerreichbar
  0: https://huggingface.co/datasets/microsoft/ms_marco
- Wenn man eine solche Belohnungsfunktion verwenden könnte, bräuchte man kein LLM mehr, sondern könnte einfach diese Belohnungsfunktion abfragen und damit jede Frage beantworten. Man kann Benchmarks bauen und automatische Überprüfung durchführen, aber den allgemeinen Fall lässt sich so nicht lösen. Ein Modell kann auf Benchmarks gut abschneiden und trotzdem in Bereichen, die der Benchmark nicht abdeckt, weiterhin übermäßig selbstsichere Antworten geben
  Man kann ein Modell zwar so abstimmen, dass es häufiger „Ich weiß es nicht“ sagt, aber das kostet Leistung. Es wird dann auch manche Fragen ablehnen, die es sinnvoll beantworten könnte. Im degenerierten Fall kann das Modell sogar kollabieren und immer oder fast immer genau diesen Satz vorhersagen
Die Halluzinationsrate ist etwas knifflig zu interpretieren. Es handelt sich um einen Wert unter der Bedingung, dass das Modell die Antwort nicht kennt. Sie misst also nicht direkt die Wahrscheinlichkeit, im Alltag auf eine Halluzination zu stoßen. Diese Wahrscheinlichkeit hängt auch davon ab, wie oft das Modell die Antwort nicht kennt und wie gut die Aufgabenverteilung der Nutzer mit der Verteilung in der Evaluation übereinstimmt
Es ist daher auch heikel, diesen Unterschied in der Halluzinationsrate ausschließlich der Modellgröße zuzuschreiben. GLM-5.2 halluziniert deutlich weniger als das doppelt so große DeepSeek-V4 Pro, aber DeepSeek-V4 Flash ist nicht einmal halb so groß wie GLM-5.2 und liegt im AA-Omniscience-Halluzinationsindex auf Platz 1
Opus 4.8 ist vermutlich größer als DeepSeek-V4 Pro und hat im Index mit 36 % eine höhere Halluzinationsrate als GLM-5.2 mit 28 %, liegt aber deutlich unter den DeepSeek-Werten. Außerdem beträgt die Genauigkeit von Opus 47 %, bei GLM-5.2 sind es 25 %. Wenn man aus diesen Zahlen die absolute Halluzinationsrate berechnet, also die Zahl halluzinierter Antworten geteilt durch die Gesamtzahl der Antworten, kommt Opus auf 19 % und GLM-5.2 auf 21 %
Wenn alle anderen Bedingungen gleich sind, könnten große Modelle also in Situationen, in denen sie die Antwort nicht kennen, anfälliger für Halluzinationen sein. Allerdings gibt es viele weitere Faktoren, die die Halluzinationsrate beeinflussen, und es ist auch nicht völlig klar, ob dies die zentrale Metrik ist, die man verfolgen sollte
- Ich widerspreche dem nicht unbedingt, aber gleichzeitig „weiß“ ein Modell in diesem dichotomen Sinn auch nichts. Das klingt nach einer einfachen Erklärung, ist in Wirklichkeit aber äußerst subtil
  Was weiß ein Modell, je nachdem, ob ein Fakt einmal, gar nicht, zehnmal oder tausendmal in den Trainingsdaten vorkam? Fakten werden nicht unverändert gespeichert, sondern in Bestandteile zerlegt und komprimiert in den Gewichten abgelegt
  „Ähnliche“ Fakten, die nicht überwältigend oft vorkamen, werden zusammengefasst und am Ende verwechselt. Aber was sind überhaupt ähnliche Fakten? Welche Fakten wurden vollständig entfernt, welche mit anderen vermischt, verunreinigen so den Pool und verleihen zugleich Inferenzfähigkeit? Das Modell weiß nichts und kann auch niemals wissen, was es weiß und was nicht weiß
- Vielleicht ist es sogar so, dass ein Modell bei einfacheren Fragen eher merkt, dass es die Antwort nicht kennt
  Wenn Opus bis auf die schwierigsten Fragen alles richtig beantwortet, könnten gerade die Fragen, bei denen es scheitert, auch diejenigen sein, bei denen Verifikation oder Halluzinationserkennung am schwersten ist, wodurch die Halluzinationsrate höher ausfallen könnte
- Das ließe sich wohl mit kontrafaktischen Fragen testen. Man kann nach Ereignissen fragen, die nach dem Knowledge Cutoff Date nicht stattgefunden haben, oder nach Dingen, die tatsächlich unlösbar sind
- Halluzinationen sollte man besser „Scheitern bei der Fundierung“ nennen
  In der Kostenstruktur amerikanischer Frontier-Modelle scheint es etwas zu geben, das dem Modell jedes Mal sinnbildlich einen Elektroschocker ansetzt, wenn es unsicher ist und zögert, ob es suchen soll oder nicht. Search avoidance response entspricht fast allen Halluzinationen
  Ich warte gar nicht erst auf den Zug des Modells. Wenn es eine man page oder Hoogle-Ergebnisse gibt, werfe ich sie direkt am letzten Schnittpunkt des Prefix-Cache hinein. Das lohnt sich eher
- Hier fehlt der häufige Fehlermodus Informationen nach dem Knowledge Cutoff Date. Wenn Informationen nach diesem Zeitpunkt benötigt werden, scheitert das Modell unabhängig von seiner Größe, daher könnte die Halluzinationsrate unabhängig von der Wissensbasis wichtig sein
  Wenn bei allen Use Cases das Risiko gleich verteilt wäre, außerhalb des unterstützten Bereichs zu liegen, wäre die obige Logik richtig. Häufig ist aber garantiert, dass bestimmte Datenpunkte außerhalb des unterstützten Bereichs liegen, weshalb die absolute Fähigkeit, das zu erkennen, wichtig ist
Dass GPT-5.5 und DeepSeek V4 Pro trotz ihrer enormen Größe die klaren Spitzenreiter bei Halluzinationen sind, klingt so, als hätten größere Modelle eine höhere Halluzinationswahrscheinlichkeit. Das passt nicht zu meiner Erfahrung
- Es scheint eher zu bedeuten, dass sie eher halluzinieren, wenn sie die Antwort nicht kennen. Große Modelle liefern häufiger die richtige Antwort als kleine, aber wenn sie falschliegen, sagen sie eher etwas Erfundenes, statt „ich weiß es nicht“ zu sagen
Überraschend sind die Aussage „Wenn ein Modell mit sehr faktischen, nicht theoretischen Massendaten trainiert wird, lernt es, immer eine Antwort zu geben“ und die Werte für die AA-Omniscience-Halluzinationsrate: DeepSeek V4 Pro 94 %, GLM-5.2 28 %, Opus 4.8 36 %, Fable 5 48 %, GPT-5.5 86 %
Durch frühere Forschung war bereits bekannt, dass Halluzinationen ein grundlegendes Problem von LLMs sind und sich vermutlich ähnlich schwer beheben lassen wie Prompt Injection, aber ich wusste nicht, dass die Halluzinationsraten so schlecht sind
Alle haben so getan, als würden selbst die besten Modelle nur in Edge Cases halluzinieren, aber selbst das hier beste Modell, GLM-5.2, hat noch eine Halluzinationsrate von 28 %, wenn es etwas nicht „weiß“
Ich denke allerdings, dass der Blogtitel „Bigger models are not the way“ treffender ist und den Punkt berührt, der die größere Nachricht sein sollte. Wenn größere Modelle und größere Trainingssätze bereits keine proportionalen Erträge mehr liefern, sind wir möglicherweise schon nahe am oberen Ende der S-Kurve. Angesichts dessen, dass die Bewertungen von Unternehmen wie OpenAI oder xAI stark auf der absurden Vorstellung beruhen, diese Modelle ließen sich endlos skalieren, wäre das eine enorme Nachricht
- LLMs haben kein Konzept von Wissen im Sinne von Wikipedia
  Die Fragetokens definieren lediglich die Antworttokens. Entscheidend ist, relevante Gewichte gemeinsam zu clustern
- Beim Titel stimme ich zu, das war mein Fehler. Gerade beim Einsatz solcher „Frontier“-Modelle in Coding Agents habe ich wirklich schreckliche Dinge erlebt; sie haben oft Fakten über die Codebase erfunden
Wenn es nur darum geht, Benchmark-Scores zu maximieren, gilt vielleicht nicht immer: größer ist besser. Bei allgemeiner Intelligenz und dem für große Modelle typischen Gespür gilt das aber überhaupt nicht
Open-Source-Modelle sind beeindruckend, aber verglichen mit Opus oder 5.5 ist ziemlich klar, wie schnell sie zusammenbrechen, sobald man den engen Problemkatalog verlässt, den sie in Benchmarks gut treffen
Ich denke, die Halluzinationsrate hängt nicht von der Modellgröße ab, sondern von der Trainingsmethode. Modelle wurden mit riesigen Korpora trainiert, in denen gut formulierte Fragen sowie gut aufbereitete und korrekte Antworten überwältigend überrepräsentiert sind. Besonders deutlich ist das bei Büchern, denn Bücher sind stark kuratierte Materialien von Fachleuten des jeweiligen Gebiets
In Büchern sieht man fast nie, dass Fragen ohne Antwort gestellt werden und dann hergeleitet und erklärt wird, warum und auf welche Weise es darauf keine Antwort gibt. Es gibt auch kaum Bücher, die eine gute Frage stellen und dann ehrlich erklären, dass sie die Antwort nicht kennen. Im Kuratierungsprozess werden Fragen, auf die der Autor keine Antwort hat, meist aus der Diskussion ausgeschlossen
Außerdem sind Labs während RLHF meiner Ansicht nach auf Fragen verzerrt, für die es eine Lösung gibt und die interessante Antworten hervorbringen, während „schlechte“ Fragen ohne gute Antwort unterrepräsentiert sind. Wahrscheinlich wurde auch weniger RLHF-Aufwand in Fragen investiert, bei denen das Modell zugeben sollte, dass es etwas nicht weiß
Menschen haben ihr ganzes Leben lang gelernt, indem sie in der realen Welt auf Fragen gestoßen sind, auf die es nicht sofort eine Antwort gibt, und sie haben gelernt, sehr schnell einzuschätzen, dass sie etwas nicht wissen oder sich nicht sicher sind
Außerdem haben Menschen Angst, die LLMs fehlt. Im menschlichen Gehirn gibt es die von den logischen Denkbereichen getrennte Amygdala, die Angstsiganle sendet und uns dadurch viel vorsichtiger mit dem macht, was wir sagen. LLMs dagegen haben kein Angstorgan wie eine Amygdala und lernen nur, gemäß den Mustern ihres Trainingskorpus zu antworten. Sie „fürchten“ weder, mit einer falschen Antwort das Gesicht zu verlieren, noch gefeuert zu werden, und können deshalb auch völlig falsche Antworten mit großer Selbstsicherheit ausgeben
Deshalb lässt sich die Halluzinationsrate zwar durch Training verbessern, aber die aktuellen Labs optimieren nicht in diese Richtung, weil der Hochrisiko-Wettlauf um die intelligentesten und leistungsfähigsten Modelle im Vordergrund steht
Als Alternative könnte man einem LLM ein separates amygdalaähnliches Organ geben. Dieses Organ könnte auf Basis des Nutzer-Prompts und der Gedankenspuren des LLM asynchron Signale aussenden, Angstsignale in die Inferenz des LLM einspeisen und es zu sichereren Antworten umlenken
- Ich stimme sicher zu, dass die Modellgröße nicht die direkte Ursache ist. Allerdings brauchen Modelle mit mehr Parametern bekanntlich mehr Trainingsdaten, um Overfitting oder Underfitting zu vermeiden
  Daher denke ich, dass der Wettbewerb um die „maximale Größe der Trainingsdaten“ unbeabsichtigt zu Overfitting geführt hat. Nicht in einem katastrophalen Ausmaß, aber genug, um im Modell eine Wahrnehmung auszulösen, die wie Allwissenheit wirkt
- Skinner hätte vermutlich gesagt, dass es weniger um Gefühle wie Angst oder Gier geht als um Konsequenzen

GPT-5.5 hat eine dreifach höhere Halluzinationsrate als das MIT-lizenzierte GLM-5.2

Zweifel an der Modellskalierungsstrategie

Halluzinationsraten offenbaren ein Problem der Unsicherheitskalibrierung

Unterschiedliche Recheneffizienz im Python-Test

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare