Technisches Whitepaper über die strukturellen Widersprüche autonomer KI-Selbstkorrektur und eine deterministische Architektur
(drive.google.com)Ich bin im Internet über ein interessantes PDF-Dokument gestolpert. Nachdem ich es gelesen hatte, fand ich den Inhalt persönlich ziemlich schockierend, deshalb teile ich es hier.
Es wirkt so, als würde der Text den Multi-Agenten-Ansatz kritisieren, den derzeit alle in der AI-Szene vorantreiben, und sagen, dass man AI keine Autonomie geben sollte, sondern sie eher wie ein „Rendering-Bauteil“ einsetzen müsse.
Auch der Dokumenttitel ist als Arbeitstitel formuliert, und da im hinteren Teil von irgendwelchen PoC-Daten die Rede ist, vermute ich, dass es sich um ein geleaktes internes Whitepaper handeln könnte, das irgendein Deeptech-Unternehmen oder Forschungsinstitut für Investoren erstellt hat.
Ehrlich gesagt habe ich nicht alles zu 100 % verstanden, aber ich fand den Ton ziemlich interessant, mit dem dort frontal behauptet wird, dass die Richtung, in die Big Tech gerade geht, falsch ist, daher poste ich es hier.
Da es kein offizieller Artikel ist, habe ich es auf mein Google Drive hochgeladen und teile den Link hier.
5 Kommentare
Für Ingenieurinnen und Ingenieure, die mit KI arbeiten, ist es keineswegs ein verborgenes oder überraschendes Grundaxiom, dass bei großen Sprachmodellen (LLMs) letztlich sowohl „Kreativität“ als auch „Halluzination“ dasselbe Ergebnis probabilistischer Next-token prediction sind; das Whitepaper übertreibt diesen Punkt jedoch, als würde es damit ein großes Geheimnis enthüllen.
Etwas enttäuschend ist die Logik, mit der die „autonome Korrektur“ von Multi-Agenten-Systemen einfach auf eine „tautologische Wiederholung (Homogeneous Iteration)“ innerhalb desselben Kontexts reduziert und dann kritisiert wird.
Wenn man in realen Entwicklungsumgebungen intelligente Agenten in eine IDE integriert und fortgeschrittenes Prompt Engineering betreibt, ist diese probabilistische Natur des Modells weniger ein „unüberwindbarer fataler Mangel“ als vielmehr schlicht eine „Grundbedingung“, die beim Systemdesign als Konstante anzusetzen ist. In der Praxis geht man ohnehin davon aus, dass das Modell den Kontext verlassen kann, und sichert sich reale Kontrolle, indem man klar getrennte Kontexte bereitstellt oder durch Kontexte unterschiedlicher Größenordnung arbeitet.
Dieses Whitepaper verpackt jedoch diese allseits bekannte Tatsache in großspurige akademische Begriffe wie „Kategorienfehler“ und „probabilistische Umgehung“ und schürt damit Verunsicherung. Der Zweck scheint klar: Nur wenn die Autonomie von LLMs selbst vollständig abgewertet wird, lässt sich der Wert des von ihnen vorgeschlagenen „deterministischen, vom Menschen direkt entworfenen Kontrollnetzes (SERA-System)“ maximal herausstellen.
Letztlich ist dieser Text weniger ein Whitepaper mit technischem Augenmaß als vielmehr ein tendenziöser Sales Pitch, der sich an Entscheidungsträger in Enterprise-Umgebungen richtet, die Risiken durch Halluzinationen fürchten, und sie davon überzeugen soll: „Führt statt unkontrollierbarer Agenten lieber unsere hartcodierte deterministische Pipeline ein.“
Das ist ein inhaltsarmer Text, der nur Argumente auflistet und weder entscheidende Belege für die Behauptungen noch direkte Experimente liefert.
So etwas wie eine langweilige Fortsetzung von Yann LeCuns Aussagen wie „Selbst bei GPT-5000 wird das Modell nicht lernen, dass ein Gegenstand auf dem Tisch mitgeschoben wird, wenn man den Tisch schiebt“ oder „Autoregressive Modelle kollabieren zwangsläufig, je länger die Sequenz wird, weil sich Fehler aufsummieren“ ...
Offen gesagt frage ich mich, ob das nicht einfach ein Upload zur viralen Vermarktung der am Ende des Whitepapers erwähnten Firma ist.
Das ist doch wohl nicht euer Ernst..
Ich denke, das ist letztlich nur der schon lange geführte Diskurs über Neuro-Symbolic. Es gab einmal eine Zeit, in der man „deterministisch“ noch deutlich mehr Bedeutung beimaß als heute. Doch als sich die Leistung so weit verbessert hat, dass probabilistische Modelle auf ein deterministisches Niveau angenähert werden konnten, verschwand viel Raum für Debatten. Am Ende wollten wir nie wirklich etwas Deterministisches, sondern vielmehr eine „akzeptable“ Unsicherheit. In diesem Sinne muss man dem Determinismus zumindest aus der Perspektive der „Industrie“ und nicht der Wissenschaft vielleicht nicht allzu viel Bedeutung beimessen. Selbst wenn die Integration erst voranschreitet, sobald die Unsicherheit der heutigen generativen Modelle stagniert, ist das überhaupt nicht zu spät.
Es ist zwar kompliziert formuliert, aber letztlich ist die Aussage etwas, das auch auf Menschen zutrifft.
Die Frage ist doch, ob ein von Dummkopf A geschriebener Text dadurch besser wird, dass Dummkopf A ihn noch einmal anschaut.
Natürlich gibt es in wenigen Fällen Spielraum, dass er besser wird, und es gibt auch eine Wahrscheinlichkeit, alle Fragen einfach richtig zu raten und in der CSAT die volle Punktzahl zu bekommen, aber in den meisten Fällen kehrt man nur zum durchschnittlichen Niveau von Dummkopf A nach dem N-ten Versuch zurück.
(Chapter 2 kann ich allerdings nicht vollständig zustimmen.)
Ich wünschte nur, man würde verstehen, dass das im Paper erwähnte what-ever Scaling Law ein vorübergehendes Wachstumsgesetz ist und nichts Ewiges.
Wenn man das OpenAI-Paper richtig gelesen hätte, würde man so etwas gar nicht behaupten.
Eigentlich wäre die Sache mit einem Schlag erledigt, wenn man statt 100 solcher Papers einfach beweisen würde, dass die Person, die behauptet, es funktioniere einfach, auch recht hat.
Das Problem ist, dass man nur diese Alchemie des "Es funktioniert" betreibt.