Wenn LLMs menschenähnliche Eigenschaften haben, dann gilt das auch für Age of Empires II

(arxiv.org)

1 Punkte von GN⁺ 2026-06-07 | 1 Kommentare | Auf WhatsApp teilen

Die Anthropomorphismus-Evaluation in der LLM-Forschung wirft das Problem auf, dass Interpretationen ohne Messkriterien von der Darstellungsform abhängen können, wenn Modelloutputs mit menschenähnlichen Eigenschaften versehen oder unter dieser Annahme betrachtet werden
Ein Fall, in dem in Age of Empires II ein einfaches neuronales Netz implementiert und trainiert wurde, dient als Beleg dafür, dass sich bei hinreichend leistungsfähigem Substrat eine zu LLMs äquivalente Entität implementieren lässt
Es wird argumentiert, dass manche Eigenschaften wie die Zuordnung zwischen Prompt und Output erhalten bleiben können, die Interpretation wahrgenommenen Verhaltens oder die de-anthropomorphisierende Qualität jedoch je nach Substrat variieren kann
Wenn Experimente die Existenz oder Nichtexistenz verallgemeinerter anthropomorpher Eigenschaften voraussetzen, führt das zu zirkulären oder wenig informativen Schlussfolgerungen
Für empirische Debatten sind explizite Messkriterien und eine Erklärung nötig, was substratübergreifend verallgemeinert werden soll; als Standard wird angenommen, dass LLMs nicht substratspezifisch einzigartig sind

Abstract

Es gibt viel Forschung zu LLMs und zu agentischen Workflows auf LLM-Basis, doch einige Arbeiten sprechen vom Auftreten verallgemeinerter anthropomorpher Eigenschaften wie Moralität oder natürlichsprachlichem Verstehen, schreiben solche Eigenschaften zu oder setzen sie voraus
Das zentrale Ziel ist nicht, für oder gegen die Existenz solcher Eigenschaften in LLMs zu argumentieren, sondern zu zeigen, dass solche Schlussfolgerungen falsch sein können
Nach dem Erstellen und Trainieren eines einfachen neuronalen Netzes in Age of Empires II wird gezeigt, dass jede Entität auf einem hinreichend leistungsfähigen Substrat, etwa LEGO oder dem Greater Boston Area, solche Eigenschaften zeigen könnte
Anthropomorphe Eigenschaften von LLMs sind empirisch nicht einzigartig; einige Eigenschaften wie Antworten auf Prompts können konsistent bleiben, während andere wie die Interpretation wahrgenommenen Verhaltens je nach Substrat variieren können
Für empirisch fundierte Debatten sind explizite Messkriterien nötig; andernfalls wird die Interpretation der Darstellungsform überlassen
Wenn man die Existenz oder Nichtexistenz substratunabhängiger verallgemeinerter Eigenschaften annimmt, führt dies unabhängig von der Perspektive der Experimentierenden zu zirkulären oder wenig informativen Schlussfolgerungen
Die Grundannahme ist eine „null“-Annahme, die von der Nicht-Einzigartigkeit von LLMs ausgeht, statt Experimente auf der Voraussetzung anthropomorpher Eigenschaften aufzubauen
Es wird bewiesen, dass Age of Empires II funktional vollständig und Turing-vollständig ist

Einleitung

LLMs sind eine vergleichsweise neue Technologie, werden jedoch breit eingesetzt und sind zugleich nicht hinreichend verstanden
Offensichtlich menschliche Eigenschaften von LLMs, etwa ihre Fähigkeiten und Kommunikationsfähigkeit, fördern dazu, dass Menschen LLMs anthropomorphisieren
Überzeugende Dialogsysteme wie ELIZA gibt es seit mehr als einem halben Jahrhundert, doch LLM-basierte Chatbots sind Entitäten mit beispiellosen Fähigkeiten, die aus einem vertrauten Ausgangspunkt heraus erklärungsbedürftig wirken
Vor diesem Hintergrund wurden Bewertungen in Bereichen wie Theory of Mind, Lernen und Verstehen sowie Psychologie vorgenommen, mit vielfältigen Ergebnissen
Einige Studien testen breite menschenähnliche Eigenschaften wie Angst oder Moralität bei LLMs, schreiben sie ihnen zu und machen LLMs zum zentralen Gegenstand des Experiments
Unabhängig davon, ob die Evaluation positiv oder negativ ausfällt, beeinflusst die zentrale Annahme, dass LLMs anthropomorphe Eigenschaften haben, die Versuchsplanung, einschließlich Testset-Design, Interpretation natürlichsprachlicher Outputs und Nullhypothese
Solche Annahmen wirken direkt auf die Schlussfolgerungen und können sie verzerren
In der LLM-Forschung ist es ein grundlegend fehlerhafter Ansatz, die Existenz oder Nichtexistenz allgemeiner anthropomorpher Eigenschaften als Teil der Messung vorauszusetzen

Age of Empires II und Substrat-Nicht-Einzigartigkeit

Die Implementierung und das Training eines neuronalen Netzes innerhalb von Age of Empires II mögen wie eine interessante Übung ohne Bezug zur Anthropomorphisierung von LLMs erscheinen
Diese Implementierung impliziert jedoch unmittelbar, dass sich bei hinreichend leistungsfähigem Substrat eine zu LLMs äquivalente Entität implementieren lässt und dass eine solche Implementierung die Darstellung von LLMs verändern und damit wahrgenommene Eigenschaften beeinflussen kann
Wenn LLMs hinreichend effektiv darin sind, anthropomorphe Eigenschaften in gewissem Maß zu imitieren, dann sind diese Imitation oder – je nach Perspektive – echte anthropomorphe Verhaltensweisen nicht ausschließlich der Entität LLM im Computer eigen
LLMs sind nicht einzigartig; Implementierungen auf anderen Substraten können manche Eigenschaften wie Prompt-Output-Mappings bewahren, aber de-anthropomorphisierende Qualität möglicherweise nicht
Dadurch verändern sich Wahrnehmung und Interpretation solcher Qualitäten
Debatten auf Basis empirischer Beobachtung benötigen explizite Messkriterien und eine explizite Aussage darüber, welche Aspekte über das Substrat hinweg verallgemeinert werden sollen

Das Problem von Annahmen und die „null“-Annahme

Wenn eine Wissenschaftlerin oder ein Wissenschaftler einen Deutungsrahmen wie eine rechnerische Theorie des Geistes akzeptiert und annimmt, dass die betreffende Eigenschaft unabhängig vom Substrat in einem System existieren kann, werden die Schlussfolgerungen unhaltbar
Wenn man einen solchen Rahmen akzeptiert und verallgemeinerte oder nicht verallgemeinerte Behauptungen über anthropomorphe Eigenschaften formuliert, werden die Schlussfolgerungen zirkulär oder wenig informativ
Dasselbe Ergebnis gilt auch dann, wenn man diesen Rahmen ablehnt
Es ist fehlerhaft, eine Hypothese zu testen, die die Existenz oder Nichtexistenz verallgemeinerter anthropomorpher Eigenschaften beweisen oder widerlegen soll, wenn man diese Existenz oder Nichtexistenz zuvor bereits annimmt
Positive oder negative Schlussfolgerungen aus solchen Experimenten können die jeweilige Behauptung nicht stützen
Dieses Problem besteht unabhängig von der Gültigkeit des Rahmens, davon, ob er akzeptiert oder verworfen wird, und unabhängig von der Wahl des Rahmens
Solche Annahmen müssen nicht explizit gemacht werden; etwa setzt eine Arbeit, die behauptet, ein LLM könne sich nicht faktisch „selbst erklären“, bereits ein gewisses Maß an Selbstbewusstsein voraus
Wenn man keine Verallgemeinerbarkeit behauptet und solche Annahmen nicht trifft, kann die betreffende Eigenschaft näherungsweise wahrheitsgetreu gemessen werden
Die „null“-Annahme spiegelt die Nicht-Einzigartigkeit von LLMs wider, indem sie keine Aussage über die Existenz oder Nichtexistenz anthropomorpher Eigenschaften im System macht

1.1 Beiträge

Das Ziel ist nicht, die Existenz anthropomorpher Eigenschaften in LLMs, die Gültigkeit von Theory of Mind oder Implikationen für Bewusstsein beziehungsweise das Leib-Seele-Problem im Kontext von KI zu diskutieren
Debatten über die Existenz anthropomorpher Eigenschaften benötigen wohldefinierte Messungen; im Bereich Bewusstsein oder Leib-Seele-Problem gibt es weder weithin akzeptierte experimentelle Protokolle noch allgemein anerkannte Schulen
Es liegt auch außerhalb des Umfangs, ein funktionierendes Age-of-Empires-II-basiertes LLM bereitzustellen
Das Hauptziel besteht darin, eine Debatte über Annahmen und die Genauigkeit von Ergebnissen im Zusammenhang mit der Anthropomorphisierung von LLMs zu fördern
Besonders im Fokus stehen Fälle, in denen experimentelle Ergebnisse, die solche Schlussfolgerungen stützen sollen, aus der Annahme der Existenz oder Nichtexistenz dieser Eigenschaften hervorgehen
Ebenfalls enthalten sind mögliche Einwände und Antworten, ein kleines Meta-Review zu anthropomorphismusbezogenen Forschungsfeldern sowie ein Beweis für die funktionale Vollständigkeit und Turing-Vollständigkeit von Age of Empires II
Das letztliche Ziel ist, unabhängig davon, welche Position man zur Beziehung zwischen Geist und Maschine einnimmt, Anhaltspunkte für die Entwicklung rigoroser Experimente zu geben, die die Existenz anthropomorpher Eigenschaften in LLMs überzeugend stützen oder widerlegen können

1 Kommentare

GN⁺ 2026-06-07

Lobste.rs-Meinungen

Vielleicht ist das eine dumme Anmerkung, aber ich verstehe die Argumentation nicht wirklich. Die Grundbehauptung ist ziemlich banal und wird, wie auch im FAQ eingeräumt, im Wesentlichen darauf reduziert, dass man in jeder Turing-vollständigen Rechenumgebung ein LLM implementieren kann, auch über die eingebauten Mechanismen eines Videospiels
Von dort aus wird dann behauptet, dass wir unsere Denkweise über LLMs grundlegend ändern müssten. Wenn man zum Beispiel ein LLM in AoE II kopiert, „Ich bin einsam“ eingibt und es antwortet: „Das ist schade, wie wäre es, wenn du einen Freund triffst? In solchen Situationen hilft Nähe“, dann überzeugt mich das nicht davon, dass dieses AoE-II-LLM wüsste, was hilft, echte Empathie besitzt oder dass seine Ausgabe unabhängig von ihrer simulierten Natur vertrauenswürdig wäre
Vielleicht ist das meine Voreingenommenheit als jemand, der an Software- und Hardware-Engineering gewöhnt ist, aber ich spüre hier überhaupt keinen kognitiven Wandel. „Die Grafikkarten im Datacenter haben dieses Token erzeugt“ und „eine Turing-Maschine in einem Videospiel hat es erzeugt“ fühlen sich für mich nicht unterschiedlich an
Ich stimme zu 100 % zu, dass es schwierig ist, LLMs in unserem Weltmodell einzuordnen, und dass wir dazu neigen, LLMs zu stark zu anthropomorphisieren, aber ich sehe nicht, welchen Beitrag diese Arbeit zur Lösung dieses Problems leisten soll
- Das klingt für mich wie eine Neuverpackung von Searles Chinese-Room-Argument, und ich fand dieses Argument schon immer philosophisch unerquicklich. Das Paper scheint es auch nur kurz zu erwähnen
  Es scheint denselben Fehler zu machen. Es zeigt, dass das System, sei es die Person im Chinese Room oder die Game Engine, „nur“ Regeln befolgt, und schließt daraus, dass man ihm keine Intelligenz oder allgemeinen menschlichen Eigenschaften zuschreiben könne
  Aber ich glaube nicht, dass man schlüssig argumentieren kann, dass etwas, nur weil es sich auf nichtintelligente Teile oder Regeln reduzieren lässt, als Ganzes seine beobachtbaren Eigenschaften auf magische Weise verliert
  Allerdings habe ich nicht die gesamte Argumentation des Papers gelesen, ich bin also auch nur ein Internet-Kommentator
Leider geht der Artikel nicht auf die tatsächliche AOE2-AI ein. Die AOE2-AI basiert auf CLIPS, also einem s-Expression-Expertensystem auf einer RETE-Engine, und ein Bekannter von mir ist ziemlich tief darin versunken und hat dazu einen Einführungstext, einen Vortrag und sogar einen deklarativen Chat-Server gebaut
Dokumentation zur AOE2-AI gibt es unter https://www.scribd.com/document/348253/CPSB und https://userpatch.aiscripters.net/reference.html. Beispiele setzen wie hier strategische Bedingungen und Ziele regelbasiert fest
- CLIPS wird auch vom Team hinter Magic the Gathering: Arena verwendet, um große Teile der Regel-Engine zu bauen, die digitales Magic antreibt
Im Abstract gibt es einen Tippfehler, der die Bedeutung verändert. Es müsste nicht „Age of Empires II on“, sondern „Age of Empires II in“ heißen
Das Paper behauptet, in AoE 2 ein neuronales Netz gebaut und trainiert zu haben, und dass auch Lego oder Boston als Substrat für neuronale Netze dienen könnten. Ein verwandtes Beispiel für Ersteres sind Wang-Kacheln, ein verwandtes Beispiel für Letzteres sind Billiard-Ball-Computer. Das wurde in einer Arbeit von 2011 sogar mit lebenden Schwärmen von M. guinotae-Soldatenkrabben umgesetzt und wird daher auch „crab computers“ genannt
Heute habe ich gelernt, dass AOEII Turing-vollständig ist
- Die Hürde für Turing-Vollständigkeit ist extrem niedrig
- Sobald man einem System auch nur ein wenig Komplexität hinzufügt, ist es oft sehr schwer, unterhalb der Schwelle zur Turing-Vollständigkeit zu bleiben. Einen großartigen Text von Gwern dazu gibt es hier
Das hätte ein interessanter Blogpost sein können, stattdessen ist es ein schwer lesbares, wichtigtuerisches Paper geworden, vermutlich steuerfinanziert, und niemandem nützlich
- Zum Glück gibt es im Paper keine Förderinformationen, also dürfte es nach der Reihenfolge der Autorenzugehörigkeiten fast sicher vollständig von Microsoft finanziert worden sein
Nachdem ich diesen Absatz gelesen habe, bereue ich, meinem Instinkt nicht gefolgt zu sein, dass es von vornherein nicht lesenswert ist
Ich habe einen Hintergrund in Philosophie des Geistes und konnte anhand der Zitate in Abschnitt 2 schon ahnen, welche Art von Argument das Paper bringen würde. Aber nachdem ich es komplett gelesen habe, habe ich überhaupt keine Ahnung, welches Argument dieses Paper eigentlich machen will

Wenn LLMs menschenähnliche Eigenschaften haben, dann gilt das auch für Age of Empires II

Abstract

Einleitung

Age of Empires II und Substrat-Nicht-Einzigartigkeit

Das Problem von Annahmen und die „null“-Annahme

1.1 Beiträge

Verwandte Beiträge

1 Kommentare

Lobste.rs-Meinungen