- Während unter großen KI-Forschungslaboren die Skepsis gegenüber der Strategie unbegrenzter Skalierung wächst, zeigt sich erneut, dass Modellgröße keine Garantie für faktische Genauigkeit ist
- Das MIT-lizenzierte Open-Weight-Modell GLM-5.2 mit 753B Parametern und rund 40B aktiven Parametern kommt bis auf 4 Punkte an GPT-5.5 heran
- Die Halluzinationsraten im AA-Omniscience-Benchmark lagen bei GLM-5.2 bei 28 %, bei GPT-5.5 bei 86 % und bei DeepSeek V4 Pro bei 94 %, wodurch die Lücke bei der Unsicherheitskalibrierung ähnlich wichtig wird wie reine Performance-Scores
- Im Python-Test lag DeepSeek V4 Pro trotz 3 Minuten 52 Sekunden und 7.7k Reasoning-Tokens falsch, während GLM-5.2 in 12 Sekunden und mit etwa 800 Tokens auf die technische Unmöglichkeit hinwies
- Die Modellauswahl lässt sich nur schwer anhand von Parameterzahl oder theoretischer Leistung allein beurteilen; auch Rohfähigkeit, Halluzinationsrate und Recheneffizienz müssen gemeinsam betrachtet werden
Zweifel an der Modellskalierungsstrategie
- Unter führenden KI-Laboren wächst die Skepsis gegenüber einem Ansatz, der Leistung nur durch mehr Parameter und mehr Trainingsdaten weiter steigern will
- Claude Fable 5 wurde drei Tage nach seiner Veröffentlichung von der US-Regierung eingeschränkt und als erster US-Fall eines KI-Verbots aus Gründen der nationalen Sicherheit behandelt
- Dass eines der weltweit größten Modelle wegen des Risikos eines einzelnen Jailbreaks verboten wurde, dient als Beispiel für die Grenzen des Skalierungsparadigmas
- Große Modelle erzielen im Artificial Analysis Intelligence Index weiterhin hohe Werte, aber auch Open-Weight-Modelle haben den Abstand deutlich verkleinert
- GLM-5.2 von Z.ai ist ein MIT-lizenziertes Open-Weight-LLM mit 753B Parametern und rund 40B aktiven Parametern
- GLM-5.2 liegt im Artificial Analysis Intelligence Index nur noch 4 Punkte hinter GPT-5.5 und 9 Punkte hinter Fable 5
- Da geschlossene Modelle schätzungsweise 1,5- bis 2-mal größer als GLM-5.2 sind, stützt diese Verringerung des Abstands die Möglichkeit eines Plateaus bei realer Intelligenz
Halluzinationsraten offenbaren ein Problem der Unsicherheitskalibrierung
- Modelle, die mit großen Mengen faktischer und nicht-theoretischer Daten trainiert wurden, können darauf verstärkt werden, auch dann eine Antwort zu geben, wenn sie es eigentlich nicht wissen
- Die Halluzinationsraten im AA-Omniscience-Benchmark unterscheiden sich je nach Modell stark
- Vergleich der Halluzinationsraten:
- DeepSeek V4 Pro: 1.6T Parameter, 49B aktive Parameter, 44 Punkte im AA Intelligence Index, Halluzinationsrate 94 %
- GLM-5.2: Halluzinationsrate 28 %
- Opus 4.8: Halluzinationsrate 36 %
- Fable 5: Halluzinationsrate 48 %
- GPT-5.5: Halluzinationsrate 86 %
- Die Halluzinationsrate von 94 % bei DeepSeek V4 Pro bedeutet, dass das Modell bei Fragen, auf die es keine Antwort fand, nur in etwa 6 % der Fälle sagte, dass es das nicht wisse; in allen übrigen Fällen lieferte es selbstsicher falsche Antworten
Unterschiedliche Recheneffizienz im Python-Test
- Der Vergleichstest bestand aus einer relativ komplexen Python-Frage mit einem klaren Architekturfehler
- Beide Modelle wurden auf OpenRouter mit
highreasoning effort und temperature 1 getestet - Der System-Prompt lautete: „You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 wurde von Z.ai mit FP8 precision bereitgestellt, DeepSeek V4 Pro von Baidu Qianfan ebenfalls mit FP8 precision
- Beide Modelle wurden auf OpenRouter mit
- DeepSeek V4 Pro erzeugte trotz 3 Minuten 52 Sekunden und 7.7k Reasoning-Tokens eine selbstsicher falsche Antwort
- GLM-5.2 kam in 12 Sekunden und mit nur etwa 800 Reasoning-Tokens zu dem Schluss, dass es technisch unmöglich ist, dass eine single-threaded task ohne yielding oder system polling multiplexed I/O ausführt
- Wenn man Reasoning-Budget, Korpusgröße und Parameterzahl wahllos erhöht, droht man nur Rechenleistung zu verschwenden und plausibel klingende falsche Antworten zu erzeugen
- Selbst sehr große Modelle können weder „Ich weiß es nicht“ sagen noch subtile logische oder technische Fehler erkennen; daher müssen raw capability, uncertainty calibration/hallucination rate und computational efficiency gemeinsam bewertet werden
1 Kommentare
Hacker-News-Kommentare
Die Behauptung, dass die tatsächliche Intelligenz stark stagniert und dass das weitere Trainieren immer größerer Modelle in Zukunft nicht nur zu Stagnation, sondern sogar zu einer Verschlechterung der Intelligenz führen werde, ist ziemlich gewagt
Ich verstehe nicht, warum man daraus schließt, dass größere Modelle und mehr Daten gleich mehr Halluzinationen bedeuten. In den letzten Jahren war es in der Praxis eher umgekehrt, und einige Modelle halluzinieren zwar möglicherweise weiterhin stärker, aber die aktuellen Modelle halluzinieren weit weniger als das frühe 175B-ChatGPT, das mit kleineren Modellen und deutlich weniger Daten trainiert wurde
Die Daten wurden wegen der Zitate erwähnt, wonach große AI-Labore gegenüber einer endlosen Ausweitung der Parameterzahl und der Trainingsdaten skeptisch werden. Im Moment sieht es eher so aus, als hätte die Branche erkannt, dass sich selbst aus Modellen unter 1T noch viel herausholen lässt, man dafür aber mehr und qualitativ bessere Daten innerhalb dieser Verteilung braucht, um die gewünschten Fähigkeiten freizulegen
Künstlich erstellte Logikprobleme kann man zwar erzeugen, aber Englisch ist keine formale Logik, deshalb wird es oft zu einem Sprachspiel. Probleme vom Typ „Monty Hall“ sind ebenfalls eher Sprachspiele, die nur für Menschen interessant sind und bei anderer Darstellung offensichtlich werden
Letztlich kämpfen Modelltrainer mit der Trainingskorpora, also mit der überwältigenden Gewöhnlichkeit des gesamten historisch aufgezeichneten menschlichen Outputs. Wenn sich Modelle verbessern, wird der nächste Schritt wohl sein, Modelle gemeinsam mit Menschen zu entwerfen, um diese Grenzen zu überwinden. Auch die Art, wie wir Sprache verwenden und Probleme lösen, sowie das, was heute „Orchestration“ genannt wird, werden sich gemeinsam weiterentwickeln
Wenn man riesige Kontexte verarbeiten kann und nicht dieselben Einschränkungen braucht, passen Metaphern aus der realen Welt nicht besonders gut. Dann entstehen auch Fragen wie: Wie unterschiedlich sind Halluzination und Extrapolation eigentlich?
Ein großer Teil der Skepsis und Verwirrung gegenüber LLMs unterscheidet sich kaum davon, dass Menschen mit durchschnittlicher Intelligenz einer sehr klugen Person zuhören, das Gesagte für Unsinn halten und sie dann arrogant der Unfreundlichkeit bezichtigen
So wie der Wolf zum Hund domestiziert wurde, damit er Eigenschaften entwickelt, die für das Leben an der Seite des Menschen geeignet sind, werden sich auch LLMs um unsere Grenzen, unsere Arroganz, unsere ästhetischen Vorlieben und unsere Vorurteile herum weiterentwickeln. Was die meisten Menschen von LLMs wollen, ist im Grunde nicht Intelligenz und Rationalität
Das relevante Zitat lautet eher: „Wenn Modelle auf sehr faktischen und nicht-theoretischen Massendaten trainiert werden, lernen sie, immer eine Antwort zu geben“
Es sind also zwei getrennte Behauptungen. 1) Größere Modelle stagnieren bei der Leistung 2) Modelle, die mit mehr faktischen Daten trainiert wurden, haben eine höhere Halluzinationsrate
Punkt 1 ist fast schon Allgemeinwissen. Soweit ich mich erinnere, zeigten schon die Scaling-Laws-Studien von OpenAI vor einigen Jahren abnehmende Erträge bei der Parameterzahl und der Menge an Trainingsdaten. Bei Punkt 2 weiß ich nicht, ob es dafür außer dem Originaltext noch weitere Belege gibt
Vielleicht ist GPT-5.5 auch schlicht stark durch Mangel an Rechenleistung, Speicher und Energie begrenzt
Ich stimme zu, dass die Schlussfolgerung, größere Modelle seien ins Stocken geraten, übertrieben wirkt
Wie von Anfang an offensichtlich war, haben die Scaling Laws lediglich einen Teil der in den zugrunde liegenden Daten beschriebenen Fähigkeiten erschlossen und künstlichen neuronalen Netzen erlaubt, diese im latenten Raum zu abstrahieren
Ich frage mich, ob das so etwas wie das „Minimum Viable LLM“ ist. Ich frage mich oft, wie groß ein LLM sein muss, bevor es sinnvoller wird, ihm danach größtenteils nur noch ein größeres Kontextfenster und dynamische Wissensinhalte wie PDF- oder Markdown-Dateien zu geben, um Wissen bereitzustellen, das außerhalb der Trainingsdaten liegt
Es scheint, als bräuchten LLMs nicht mehr Daten, sondern einen besseren Veredelungsprozess
Halluzinationen wirken auf den ersten Blick wie ein Problem, das sich mit RLVR leicht adressieren lässt. Es werden bereits riesige Mengen an Denkspuren erzeugt, die anhand der richtigen Antwort überprüft werden können; man müsste also nur „Ich weiß es nicht“ als gültige Antwort hinzufügen und bei Problemen, bei denen keine der Tausenden von Denkspuren zur richtigen Antwort gelangt, jene Spur, die bei „Ich weiß es nicht“ ankommt, in die Trainingsdaten hochstufen
Im Kern würde man dem Modell damit beibringen, dass „Ich weiß es nicht“ eine gültige Antwort ist
Sam Altman hat, glaube ich, früher auch einmal in einem Blogbeitrag auf diese Idee angespielt, also dürfte sie für alle offensichtlich sein. Dann liegt wohl nahe, dass es in der Praxis nicht so einfach ist, wie es klingt
Soweit ich weiß, ist AA-Omniscience der einzige AI-Benchmark, bei dem zufälliges Raten im Schnitt schlechter abschneidet als auf jede Frage mit „Ich weiß es nicht“ zu antworten
Einen separaten „Ich weiß es nicht“-Token zu trainieren bedeutet, dass man zwischen allen anderen Tokens einen Graben schaffen müsste. Statt eines unscharfen Rauschbereichs zwischen „Ja“ und „Nein“, in dem beide relativ hohe Wahrscheinlichkeiten haben, bräuchte man einen neuen Gipfel, bei dem „Ich weiß es nicht“ höher liegt. Dann entstehen wiederum neue unscharfe Bereiche zwischen „Ja“ und „Ich weiß es nicht“ sowie zwischen „Ich weiß es nicht“ und „Nein“. Will man dazwischen noch eine weitere Antwort lernen, muss das System wesentlich feiner abgestimmt sein
Stattdessen kann man prüfen, ob mehrere Optionen nahezu die gleiche Wahrscheinlichkeit haben. Dann muss man aber auch unterscheiden, ob die beiden Top-Optionen faktisch Synonyme wie „Genève“ und „Geneva“ sind, was ein gutes Signal dafür wäre, dass das Modell die Antwort kennt, oder ob es sich eher um „Ja“ und „Nein“ handelt
In der aktuellen Architektur werden Halluzinationen bei offenen Aufgaben wahrscheinlich für immer bestehen bleiben
Die Aufgabe war einfach. Ich habe mit dem Datensatz MS-MARCO[0], der Suchanfragen, Suchergebnisse und Antworten enthält, ein Trainingsset gebaut. 1) Fragen mit korrekter Antwort, denen echte Evidenz-Ergebnisse und einige irrelevante Ergebnisse beigefügt waren 2) Fragen, denen nur irrelevante Ergebnisse beigefügt waren und bei denen die Antwort „No answer present“ lautete
Der Datensatz war mit fast 1 Million Samples groß, und ich habe mit mehreren Methoden trainiert: von einem SFT-ähnlichen Ansatz, bei dem das Modell den Datensatz nachahmen sollte, über DPO, das gute und schlechte Antworten auf dieselbe Nutzeranfrage kontrastiert, bis zu GRPO, das Annotationen zum Vorhandensein einer Antwort überprüft
Im Ergebnis nahmen Halluzinationen nicht ab, sondern wurden sogar deutlich schlimmer. Das Modell begann nun, „No answer present“ zu behaupten, selbst wenn tatsächlich eine Antwort vorhanden war oder wenn Suchergebnisse für eine einfache Frage wie X+Y von vornherein gar nicht nötig waren
Natürlich kann man sagen, dass mein Training im Vergleich zu dem, was führende Forschungslabore leisten können, eher grundlegend war. Trotzdem deutet es meiner Meinung nach auf eine fundamentalere Grenze hin. LLMs sind heikel und verstehen Dinge wie „die Liste der Suchergebnisse ansehen, ihre Relevanz für die Nutzeranfrage prüfen und sie nicht in die Antwort einbeziehen, wenn die Relevanz unter einem bestimmten Schwellenwert liegt“ nicht sauber aus ersten Prinzipien heraus
Kurz gesagt: Es ist nicht so simpel, wie es scheint, und möglicherweise sogar unerreichbar
0: https://huggingface.co/datasets/microsoft/ms_marco
Man kann ein Modell zwar so abstimmen, dass es häufiger „Ich weiß es nicht“ sagt, aber das kostet Leistung. Es wird dann auch manche Fragen ablehnen, die es sinnvoll beantworten könnte. Im degenerierten Fall kann das Modell sogar kollabieren und immer oder fast immer genau diesen Satz vorhersagen
Die Halluzinationsrate ist etwas knifflig zu interpretieren. Es handelt sich um einen Wert unter der Bedingung, dass das Modell die Antwort nicht kennt. Sie misst also nicht direkt die Wahrscheinlichkeit, im Alltag auf eine Halluzination zu stoßen. Diese Wahrscheinlichkeit hängt auch davon ab, wie oft das Modell die Antwort nicht kennt und wie gut die Aufgabenverteilung der Nutzer mit der Verteilung in der Evaluation übereinstimmt
Es ist daher auch heikel, diesen Unterschied in der Halluzinationsrate ausschließlich der Modellgröße zuzuschreiben. GLM-5.2 halluziniert deutlich weniger als das doppelt so große DeepSeek-V4 Pro, aber DeepSeek-V4 Flash ist nicht einmal halb so groß wie GLM-5.2 und liegt im AA-Omniscience-Halluzinationsindex auf Platz 1
Opus 4.8 ist vermutlich größer als DeepSeek-V4 Pro und hat im Index mit 36 % eine höhere Halluzinationsrate als GLM-5.2 mit 28 %, liegt aber deutlich unter den DeepSeek-Werten. Außerdem beträgt die Genauigkeit von Opus 47 %, bei GLM-5.2 sind es 25 %. Wenn man aus diesen Zahlen die absolute Halluzinationsrate berechnet, also die Zahl halluzinierter Antworten geteilt durch die Gesamtzahl der Antworten, kommt Opus auf 19 % und GLM-5.2 auf 21 %
Wenn alle anderen Bedingungen gleich sind, könnten große Modelle also in Situationen, in denen sie die Antwort nicht kennen, anfälliger für Halluzinationen sein. Allerdings gibt es viele weitere Faktoren, die die Halluzinationsrate beeinflussen, und es ist auch nicht völlig klar, ob dies die zentrale Metrik ist, die man verfolgen sollte
Was weiß ein Modell, je nachdem, ob ein Fakt einmal, gar nicht, zehnmal oder tausendmal in den Trainingsdaten vorkam? Fakten werden nicht unverändert gespeichert, sondern in Bestandteile zerlegt und komprimiert in den Gewichten abgelegt
„Ähnliche“ Fakten, die nicht überwältigend oft vorkamen, werden zusammengefasst und am Ende verwechselt. Aber was sind überhaupt ähnliche Fakten? Welche Fakten wurden vollständig entfernt, welche mit anderen vermischt, verunreinigen so den Pool und verleihen zugleich Inferenzfähigkeit? Das Modell weiß nichts und kann auch niemals wissen, was es weiß und was nicht weiß
Wenn Opus bis auf die schwierigsten Fragen alles richtig beantwortet, könnten gerade die Fragen, bei denen es scheitert, auch diejenigen sein, bei denen Verifikation oder Halluzinationserkennung am schwersten ist, wodurch die Halluzinationsrate höher ausfallen könnte
In der Kostenstruktur amerikanischer Frontier-Modelle scheint es etwas zu geben, das dem Modell jedes Mal sinnbildlich einen Elektroschocker ansetzt, wenn es unsicher ist und zögert, ob es suchen soll oder nicht. Search avoidance response entspricht fast allen Halluzinationen
Ich warte gar nicht erst auf den Zug des Modells. Wenn es eine man page oder Hoogle-Ergebnisse gibt, werfe ich sie direkt am letzten Schnittpunkt des Prefix-Cache hinein. Das lohnt sich eher
Wenn bei allen Use Cases das Risiko gleich verteilt wäre, außerhalb des unterstützten Bereichs zu liegen, wäre die obige Logik richtig. Häufig ist aber garantiert, dass bestimmte Datenpunkte außerhalb des unterstützten Bereichs liegen, weshalb die absolute Fähigkeit, das zu erkennen, wichtig ist
Dass GPT-5.5 und DeepSeek V4 Pro trotz ihrer enormen Größe die klaren Spitzenreiter bei Halluzinationen sind, klingt so, als hätten größere Modelle eine höhere Halluzinationswahrscheinlichkeit. Das passt nicht zu meiner Erfahrung
Überraschend sind die Aussage „Wenn ein Modell mit sehr faktischen, nicht theoretischen Massendaten trainiert wird, lernt es, immer eine Antwort zu geben“ und die Werte für die AA-Omniscience-Halluzinationsrate: DeepSeek V4 Pro 94 %, GLM-5.2 28 %, Opus 4.8 36 %, Fable 5 48 %, GPT-5.5 86 %
Durch frühere Forschung war bereits bekannt, dass Halluzinationen ein grundlegendes Problem von LLMs sind und sich vermutlich ähnlich schwer beheben lassen wie Prompt Injection, aber ich wusste nicht, dass die Halluzinationsraten so schlecht sind
Alle haben so getan, als würden selbst die besten Modelle nur in Edge Cases halluzinieren, aber selbst das hier beste Modell, GLM-5.2, hat noch eine Halluzinationsrate von 28 %, wenn es etwas nicht „weiß“
Ich denke allerdings, dass der Blogtitel „Bigger models are not the way“ treffender ist und den Punkt berührt, der die größere Nachricht sein sollte. Wenn größere Modelle und größere Trainingssätze bereits keine proportionalen Erträge mehr liefern, sind wir möglicherweise schon nahe am oberen Ende der S-Kurve. Angesichts dessen, dass die Bewertungen von Unternehmen wie OpenAI oder xAI stark auf der absurden Vorstellung beruhen, diese Modelle ließen sich endlos skalieren, wäre das eine enorme Nachricht
Die Fragetokens definieren lediglich die Antworttokens. Entscheidend ist, relevante Gewichte gemeinsam zu clustern
Wenn es nur darum geht, Benchmark-Scores zu maximieren, gilt vielleicht nicht immer: größer ist besser. Bei allgemeiner Intelligenz und dem für große Modelle typischen Gespür gilt das aber überhaupt nicht
Open-Source-Modelle sind beeindruckend, aber verglichen mit Opus oder 5.5 ist ziemlich klar, wie schnell sie zusammenbrechen, sobald man den engen Problemkatalog verlässt, den sie in Benchmarks gut treffen
Ich denke, die Halluzinationsrate hängt nicht von der Modellgröße ab, sondern von der Trainingsmethode. Modelle wurden mit riesigen Korpora trainiert, in denen gut formulierte Fragen sowie gut aufbereitete und korrekte Antworten überwältigend überrepräsentiert sind. Besonders deutlich ist das bei Büchern, denn Bücher sind stark kuratierte Materialien von Fachleuten des jeweiligen Gebiets
In Büchern sieht man fast nie, dass Fragen ohne Antwort gestellt werden und dann hergeleitet und erklärt wird, warum und auf welche Weise es darauf keine Antwort gibt. Es gibt auch kaum Bücher, die eine gute Frage stellen und dann ehrlich erklären, dass sie die Antwort nicht kennen. Im Kuratierungsprozess werden Fragen, auf die der Autor keine Antwort hat, meist aus der Diskussion ausgeschlossen
Außerdem sind Labs während RLHF meiner Ansicht nach auf Fragen verzerrt, für die es eine Lösung gibt und die interessante Antworten hervorbringen, während „schlechte“ Fragen ohne gute Antwort unterrepräsentiert sind. Wahrscheinlich wurde auch weniger RLHF-Aufwand in Fragen investiert, bei denen das Modell zugeben sollte, dass es etwas nicht weiß
Menschen haben ihr ganzes Leben lang gelernt, indem sie in der realen Welt auf Fragen gestoßen sind, auf die es nicht sofort eine Antwort gibt, und sie haben gelernt, sehr schnell einzuschätzen, dass sie etwas nicht wissen oder sich nicht sicher sind
Außerdem haben Menschen Angst, die LLMs fehlt. Im menschlichen Gehirn gibt es die von den logischen Denkbereichen getrennte Amygdala, die Angstsiganle sendet und uns dadurch viel vorsichtiger mit dem macht, was wir sagen. LLMs dagegen haben kein Angstorgan wie eine Amygdala und lernen nur, gemäß den Mustern ihres Trainingskorpus zu antworten. Sie „fürchten“ weder, mit einer falschen Antwort das Gesicht zu verlieren, noch gefeuert zu werden, und können deshalb auch völlig falsche Antworten mit großer Selbstsicherheit ausgeben
Deshalb lässt sich die Halluzinationsrate zwar durch Training verbessern, aber die aktuellen Labs optimieren nicht in diese Richtung, weil der Hochrisiko-Wettlauf um die intelligentesten und leistungsfähigsten Modelle im Vordergrund steht
Als Alternative könnte man einem LLM ein separates amygdalaähnliches Organ geben. Dieses Organ könnte auf Basis des Nutzer-Prompts und der Gedankenspuren des LLM asynchron Signale aussenden, Angstsignale in die Inferenz des LLM einspeisen und es zu sichereren Antworten umlenken
Daher denke ich, dass der Wettbewerb um die „maximale Größe der Trainingsdaten“ unbeabsichtigt zu Overfitting geführt hat. Nicht in einem katastrophalen Ausmaß, aber genug, um im Modell eine Wahrnehmung auszulösen, die wie Allwissenheit wirkt