1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Die Anthropomorphismus-Evaluation in der LLM-Forschung wirft das Problem auf, dass Interpretationen ohne Messkriterien von der Darstellungsform abhängen können, wenn Modelloutputs mit menschenähnlichen Eigenschaften versehen oder unter dieser Annahme betrachtet werden
  • Ein Fall, in dem in Age of Empires II ein einfaches neuronales Netz implementiert und trainiert wurde, dient als Beleg dafür, dass sich bei hinreichend leistungsfähigem Substrat eine zu LLMs äquivalente Entität implementieren lässt
  • Es wird argumentiert, dass manche Eigenschaften wie die Zuordnung zwischen Prompt und Output erhalten bleiben können, die Interpretation wahrgenommenen Verhaltens oder die de-anthropomorphisierende Qualität jedoch je nach Substrat variieren kann
  • Wenn Experimente die Existenz oder Nichtexistenz verallgemeinerter anthropomorpher Eigenschaften voraussetzen, führt das zu zirkulären oder wenig informativen Schlussfolgerungen
  • Für empirische Debatten sind explizite Messkriterien und eine Erklärung nötig, was substratübergreifend verallgemeinert werden soll; als Standard wird angenommen, dass LLMs nicht substratspezifisch einzigartig sind

Abstract

  • Es gibt viel Forschung zu LLMs und zu agentischen Workflows auf LLM-Basis, doch einige Arbeiten sprechen vom Auftreten verallgemeinerter anthropomorpher Eigenschaften wie Moralität oder natürlichsprachlichem Verstehen, schreiben solche Eigenschaften zu oder setzen sie voraus
  • Das zentrale Ziel ist nicht, für oder gegen die Existenz solcher Eigenschaften in LLMs zu argumentieren, sondern zu zeigen, dass solche Schlussfolgerungen falsch sein können
  • Nach dem Erstellen und Trainieren eines einfachen neuronalen Netzes in Age of Empires II wird gezeigt, dass jede Entität auf einem hinreichend leistungsfähigen Substrat, etwa LEGO oder dem Greater Boston Area, solche Eigenschaften zeigen könnte
  • Anthropomorphe Eigenschaften von LLMs sind empirisch nicht einzigartig; einige Eigenschaften wie Antworten auf Prompts können konsistent bleiben, während andere wie die Interpretation wahrgenommenen Verhaltens je nach Substrat variieren können
  • Für empirisch fundierte Debatten sind explizite Messkriterien nötig; andernfalls wird die Interpretation der Darstellungsform überlassen
  • Wenn man die Existenz oder Nichtexistenz substratunabhängiger verallgemeinerter Eigenschaften annimmt, führt dies unabhängig von der Perspektive der Experimentierenden zu zirkulären oder wenig informativen Schlussfolgerungen
  • Die Grundannahme ist eine „null“-Annahme, die von der Nicht-Einzigartigkeit von LLMs ausgeht, statt Experimente auf der Voraussetzung anthropomorpher Eigenschaften aufzubauen
  • Es wird bewiesen, dass Age of Empires II funktional vollständig und Turing-vollständig ist

Einleitung

  • LLMs sind eine vergleichsweise neue Technologie, werden jedoch breit eingesetzt und sind zugleich nicht hinreichend verstanden
  • Offensichtlich menschliche Eigenschaften von LLMs, etwa ihre Fähigkeiten und Kommunikationsfähigkeit, fördern dazu, dass Menschen LLMs anthropomorphisieren
  • Überzeugende Dialogsysteme wie ELIZA gibt es seit mehr als einem halben Jahrhundert, doch LLM-basierte Chatbots sind Entitäten mit beispiellosen Fähigkeiten, die aus einem vertrauten Ausgangspunkt heraus erklärungsbedürftig wirken
  • Vor diesem Hintergrund wurden Bewertungen in Bereichen wie Theory of Mind, Lernen und Verstehen sowie Psychologie vorgenommen, mit vielfältigen Ergebnissen
  • Einige Studien testen breite menschenähnliche Eigenschaften wie Angst oder Moralität bei LLMs, schreiben sie ihnen zu und machen LLMs zum zentralen Gegenstand des Experiments
  • Unabhängig davon, ob die Evaluation positiv oder negativ ausfällt, beeinflusst die zentrale Annahme, dass LLMs anthropomorphe Eigenschaften haben, die Versuchsplanung, einschließlich Testset-Design, Interpretation natürlichsprachlicher Outputs und Nullhypothese
  • Solche Annahmen wirken direkt auf die Schlussfolgerungen und können sie verzerren
  • In der LLM-Forschung ist es ein grundlegend fehlerhafter Ansatz, die Existenz oder Nichtexistenz allgemeiner anthropomorpher Eigenschaften als Teil der Messung vorauszusetzen
Anzeige

Age of Empires II und Substrat-Nicht-Einzigartigkeit

  • Die Implementierung und das Training eines neuronalen Netzes innerhalb von Age of Empires II mögen wie eine interessante Übung ohne Bezug zur Anthropomorphisierung von LLMs erscheinen
  • Diese Implementierung impliziert jedoch unmittelbar, dass sich bei hinreichend leistungsfähigem Substrat eine zu LLMs äquivalente Entität implementieren lässt und dass eine solche Implementierung die Darstellung von LLMs verändern und damit wahrgenommene Eigenschaften beeinflussen kann
  • Wenn LLMs hinreichend effektiv darin sind, anthropomorphe Eigenschaften in gewissem Maß zu imitieren, dann sind diese Imitation oder – je nach Perspektive – echte anthropomorphe Verhaltensweisen nicht ausschließlich der Entität LLM im Computer eigen
  • LLMs sind nicht einzigartig; Implementierungen auf anderen Substraten können manche Eigenschaften wie Prompt-Output-Mappings bewahren, aber de-anthropomorphisierende Qualität möglicherweise nicht
  • Dadurch verändern sich Wahrnehmung und Interpretation solcher Qualitäten
  • Debatten auf Basis empirischer Beobachtung benötigen explizite Messkriterien und eine explizite Aussage darüber, welche Aspekte über das Substrat hinweg verallgemeinert werden sollen

Das Problem von Annahmen und die „null“-Annahme

  • Wenn eine Wissenschaftlerin oder ein Wissenschaftler einen Deutungsrahmen wie eine rechnerische Theorie des Geistes akzeptiert und annimmt, dass die betreffende Eigenschaft unabhängig vom Substrat in einem System existieren kann, werden die Schlussfolgerungen unhaltbar
  • Wenn man einen solchen Rahmen akzeptiert und verallgemeinerte oder nicht verallgemeinerte Behauptungen über anthropomorphe Eigenschaften formuliert, werden die Schlussfolgerungen zirkulär oder wenig informativ
  • Dasselbe Ergebnis gilt auch dann, wenn man diesen Rahmen ablehnt
  • Es ist fehlerhaft, eine Hypothese zu testen, die die Existenz oder Nichtexistenz verallgemeinerter anthropomorpher Eigenschaften beweisen oder widerlegen soll, wenn man diese Existenz oder Nichtexistenz zuvor bereits annimmt
  • Positive oder negative Schlussfolgerungen aus solchen Experimenten können die jeweilige Behauptung nicht stützen
  • Dieses Problem besteht unabhängig von der Gültigkeit des Rahmens, davon, ob er akzeptiert oder verworfen wird, und unabhängig von der Wahl des Rahmens
  • Solche Annahmen müssen nicht explizit gemacht werden; etwa setzt eine Arbeit, die behauptet, ein LLM könne sich nicht faktisch „selbst erklären“, bereits ein gewisses Maß an Selbstbewusstsein voraus
  • Wenn man keine Verallgemeinerbarkeit behauptet und solche Annahmen nicht trifft, kann die betreffende Eigenschaft näherungsweise wahrheitsgetreu gemessen werden
  • Die „null“-Annahme spiegelt die Nicht-Einzigartigkeit von LLMs wider, indem sie keine Aussage über die Existenz oder Nichtexistenz anthropomorpher Eigenschaften im System macht

1.1 Beiträge

  • Das Ziel ist nicht, die Existenz anthropomorpher Eigenschaften in LLMs, die Gültigkeit von Theory of Mind oder Implikationen für Bewusstsein beziehungsweise das Leib-Seele-Problem im Kontext von KI zu diskutieren
  • Debatten über die Existenz anthropomorpher Eigenschaften benötigen wohldefinierte Messungen; im Bereich Bewusstsein oder Leib-Seele-Problem gibt es weder weithin akzeptierte experimentelle Protokolle noch allgemein anerkannte Schulen
  • Es liegt auch außerhalb des Umfangs, ein funktionierendes Age-of-Empires-II-basiertes LLM bereitzustellen
  • Das Hauptziel besteht darin, eine Debatte über Annahmen und die Genauigkeit von Ergebnissen im Zusammenhang mit der Anthropomorphisierung von LLMs zu fördern
  • Besonders im Fokus stehen Fälle, in denen experimentelle Ergebnisse, die solche Schlussfolgerungen stützen sollen, aus der Annahme der Existenz oder Nichtexistenz dieser Eigenschaften hervorgehen
  • Ebenfalls enthalten sind mögliche Einwände und Antworten, ein kleines Meta-Review zu anthropomorphismusbezogenen Forschungsfeldern sowie ein Beweis für die funktionale Vollständigkeit und Turing-Vollständigkeit von Age of Empires II
  • Das letztliche Ziel ist, unabhängig davon, welche Position man zur Beziehung zwischen Geist und Maschine einnimmt, Anhaltspunkte für die Entwicklung rigoroser Experimente zu geben, die die Existenz anthropomorpher Eigenschaften in LLMs überzeugend stützen oder widerlegen können

1 Kommentare

 
GN⁺ 4 시간 전
Lobste.rs-Meinungen
  • Vielleicht ist das eine dumme Anmerkung, aber ich verstehe die Argumentation nicht wirklich. Die Grundbehauptung ist ziemlich banal und wird, wie auch im FAQ eingeräumt, im Wesentlichen darauf reduziert, dass man in jeder Turing-vollständigen Rechenumgebung ein LLM implementieren kann, auch über die eingebauten Mechanismen eines Videospiels
    Von dort aus wird dann behauptet, dass wir unsere Denkweise über LLMs grundlegend ändern müssten. Wenn man zum Beispiel ein LLM in AoE II kopiert, „Ich bin einsam“ eingibt und es antwortet: „Das ist schade, wie wäre es, wenn du einen Freund triffst? In solchen Situationen hilft Nähe“, dann überzeugt mich das nicht davon, dass dieses AoE-II-LLM wüsste, was hilft, echte Empathie besitzt oder dass seine Ausgabe unabhängig von ihrer simulierten Natur vertrauenswürdig wäre
    Vielleicht ist das meine Voreingenommenheit als jemand, der an Software- und Hardware-Engineering gewöhnt ist, aber ich spüre hier überhaupt keinen kognitiven Wandel. „Die Grafikkarten im Datacenter haben dieses Token erzeugt“ und „eine Turing-Maschine in einem Videospiel hat es erzeugt“ fühlen sich für mich nicht unterschiedlich an
    Ich stimme zu 100 % zu, dass es schwierig ist, LLMs in unserem Weltmodell einzuordnen, und dass wir dazu neigen, LLMs zu stark zu anthropomorphisieren, aber ich sehe nicht, welchen Beitrag diese Arbeit zur Lösung dieses Problems leisten soll

    • Das klingt für mich wie eine Neuverpackung von Searles Chinese-Room-Argument, und ich fand dieses Argument schon immer philosophisch unerquicklich. Das Paper scheint es auch nur kurz zu erwähnen
      Es scheint denselben Fehler zu machen. Es zeigt, dass das System, sei es die Person im Chinese Room oder die Game Engine, „nur“ Regeln befolgt, und schließt daraus, dass man ihm keine Intelligenz oder allgemeinen menschlichen Eigenschaften zuschreiben könne
      Aber ich glaube nicht, dass man schlüssig argumentieren kann, dass etwas, nur weil es sich auf nichtintelligente Teile oder Regeln reduzieren lässt, als Ganzes seine beobachtbaren Eigenschaften auf magische Weise verliert
      Allerdings habe ich nicht die gesamte Argumentation des Papers gelesen, ich bin also auch nur ein Internet-Kommentator
  • Leider geht der Artikel nicht auf die tatsächliche AOE2-AI ein. Die AOE2-AI basiert auf CLIPS, also einem s-Expression-Expertensystem auf einer RETE-Engine, und ein Bekannter von mir ist ziemlich tief darin versunken und hat dazu einen Einführungstext, einen Vortrag und sogar einen deklarativen Chat-Server gebaut
    Dokumentation zur AOE2-AI gibt es unter https://www.scribd.com/document/348253/CPSB und https://userpatch.aiscripters.net/reference.html. Beispiele setzen wie hier strategische Bedingungen und Ziele regelbasiert fest

    • CLIPS wird auch vom Team hinter Magic the Gathering: Arena verwendet, um große Teile der Regel-Engine zu bauen, die digitales Magic antreibt
  • Im Abstract gibt es einen Tippfehler, der die Bedeutung verändert. Es müsste nicht „Age of Empires II on“, sondern „Age of Empires II in“ heißen
    Das Paper behauptet, in AoE 2 ein neuronales Netz gebaut und trainiert zu haben, und dass auch Lego oder Boston als Substrat für neuronale Netze dienen könnten. Ein verwandtes Beispiel für Ersteres sind Wang-Kacheln, ein verwandtes Beispiel für Letzteres sind Billiard-Ball-Computer. Das wurde in einer Arbeit von 2011 sogar mit lebenden Schwärmen von M. guinotae-Soldatenkrabben umgesetzt und wird daher auch „crab computers“ genannt

  • Heute habe ich gelernt, dass AOEII Turing-vollständig ist

    • Die Hürde für Turing-Vollständigkeit ist extrem niedrig
    • Sobald man einem System auch nur ein wenig Komplexität hinzufügt, ist es oft sehr schwer, unterhalb der Schwelle zur Turing-Vollständigkeit zu bleiben. Einen großartigen Text von Gwern dazu gibt es hier
  • Das hätte ein interessanter Blogpost sein können, stattdessen ist es ein schwer lesbares, wichtigtuerisches Paper geworden, vermutlich steuerfinanziert, und niemandem nützlich

    • Zum Glück gibt es im Paper keine Förderinformationen, also dürfte es nach der Reihenfolge der Autorenzugehörigkeiten fast sicher vollständig von Microsoft finanziert worden sein
  • Nachdem ich diesen Absatz gelesen habe, bereue ich, meinem Instinkt nicht gefolgt zu sein, dass es von vornherein nicht lesenswert ist
    Ich habe einen Hintergrund in Philosophie des Geistes und konnte anhand der Zitate in Abschnitt 2 schon ahnen, welche Art von Argument das Paper bringen würde. Aber nachdem ich es komplett gelesen habe, habe ich überhaupt keine Ahnung, welches Argument dieses Paper eigentlich machen will