18 Punkte von GN⁺ 2025-07-08 | 4 Kommentare | Auf WhatsApp teilen
  • Ein kritischer Text zur Tendenz, LLMs zu vermenschlichen. Ein LLM ist letztlich nur eine „Sammlung aus Matrixmultiplikationen und nichtlinearen Funktionen“
  • Die von LLMs erzeugten Sprachsequenzen sind komplexe funktionale Pfade, in die keine menschliche „Absicht“ oder „Ethik“ eingreift
  • Beim Sicherheitsproblem von LLMs (Alignment) geht es im Kern darum, die Wahrscheinlichkeit unerwünschter Ausgaben mathematisch zu quantifizieren und zu begrenzen
  • Menschzentrierte Konzepte wie Ethik oder Bewusstsein auf LLMs anzuwenden, verwirrt die Debatte und verwischt eher die eigentliche Problemdefinition und Lösung
  • Menschliches Bewusstsein und LLMs sind ihrem Wesen nach verschieden; entscheidend sind technisches Verständnis und der Umgang mit gesellschaftlichem Wandel

Warum wir eine Perspektive brauchen, die LLMs nicht wie Menschen betrachtet

Problematisierung der Debatte über LLMs und Anthropomorphisierung (Denken wie ein Mensch)

  • Wenn in Diskussionen über AI und LLMs (Large Language Models) Alignment oder AI-Sicherheit auftauchen, empfinden viele Fachleute Verwirrung über die Tendenz, LLMs menschliche Eigenschaften (Bewusstsein, Absicht usw.) zuzuschreiben
  • LLMs lassen sich ihrem Wesen nach als Kombination aus MatMul (Matrixmultiplikation) und nichtlinearen Funktionen verstehen

Das strukturelle Wesen von LLMs

  • LLMs sind Funktionen, die einzelne Wörter (Eingabetokens) in einen Vektorraum abbilden, auf Basis des bisherigen Pfads die Wahrscheinlichkeitsverteilung des nächsten Tokens berechnen und sequenziell Ausgaben erzeugen
  • Dieser Prozess ähnelt einem „Snake-Spiel im hochdimensionalen Raum“, und der Erzeugungspfad ist so komplex wie ein Strange Attractor in einem dynamischen System
  • LLMs lernen aus großen Mengen von von Menschen geschriebenem Text + Fachkorpora + automatisch erzeugbaren und verifizierbaren Daten und gewinnen so eine Abbildung, die die Struktur menschlicher Sprache nachahmt

Zu vermeidende Pfade (Sprachsequenzen), Alignment und Sicherheitsfragen

  • Einige Sprachsequenzen sind sozial oder ethisch unangemessen, daher möchte man, dass sie nicht erzeugt werden
  • Da sich jedoch streng mathematisch nur schwer definieren lässt, welche Pfade unerwünscht sind, wird die Verteilung anhand von Beispielen und Gegenbeispielen angepasst (nudged)
  • „Alignment“ und „Sicherheit“ bei LLMs bedeuten, die Wahrscheinlichkeit mathematisch zu quantifizieren, mit der unerwünschte Sequenzen erzeugt werden, und dafür Grenzen festzulegen
  • Tatsächlich lässt sich der Maßstab für „unerwünschte“ Sequenzen mathematisch nicht klar definieren; er ist nur über Beispiele zugänglich, weshalb praktische Grenzen bestehen
  • Man kann zwar für ein bestimmtes LLM die Wahrscheinlichkeit berechnen, dass eine gegebene Sequenz ausgegeben wird, aber man kann nicht einfach alle diese Wahrscheinlichkeiten aufsummieren oder integrieren und daraus sicher ableiten: „Dieses Modell erzeugt alle N Durchläufe eine unerwünschte Sequenz“

Der tatsächliche Nutzen von LLMs

  • LLMs machen es möglich, viele bestehende Probleme des Natural Language Processing (NLP) algorithmisch zu lösen
  • Beispiele: Dokumente in natürlichem Englisch zusammenfassen, Daten in einer JSON-Struktur organisieren, kreative Märchen und Bilder erzeugen — Dinge, die vor 5–6 Jahren noch unmöglich waren und nun auf natürliche Weise erledigt werden
  • Angesichts der steilen Verbesserungskurve ist zu erwarten, dass künftig noch mehr zuvor unlösbare Probleme gelöst werden

Die Grenzen einer menschenähnlichen Betrachtungsweise

  • Die Sichtweise, LLMs „Bewusstsein“, „Ethik“, „Werte“ oder „Ziele“ zuzuschreiben, wird abgelehnt
  • Ein LLM ist letztlich nichts weiter als eine „rekursive Gleichung“, die nur dann Ausgaben erzeugt, wenn eine Eingabe gegeben ist
  • Diskussionen darüber, AI „erwache“ oder entwickle ein „Zielbewusstsein“, sind ein Irrtum auf demselben Niveau wie die Behauptung, eine Wettersimulation habe Gefühle
  • In AI-Debatten verwischen menschzentrierte Begriffe wie „Handeln“, „ethische Beschränkung“ oder „Zielverfolgung“ das Wesen des Problems
  • Das ist ein ähnlicher kognitiver Fehler wie in der Vergangenheit, als Menschen Naturphänomene als „Zorn Gottes“ oder „böse Geister“ anthropomorphisierten

Die richtige Richtung für die Alignment-Debatte

  • LLMs sind lediglich Funktionen zur Sequenzgenerierung, und durch Anpassung des Eingabepräfixes lässt sich die Ausgabewahrscheinlichkeit verändern
  • Für alle unerwünschten Ausgabesequenzen das Präfix zu suchen, das ihre Wahrscheinlichkeit maximiert, ist ebenfalls ein mathematischer Ansatz
  • Ein solcher klarer, formelbasierter Ansatz präzisiert eher Problemdefinition und Lösung

Warum Anthropomorphisierung im AI-Bereich so häufig auftaucht

  • Ein erheblicher Teil der Führungspersonen in der AI-Branche ist mit dem Lebensziel in das Feld eingestiegen, AGI verwirklichen zu wollen
  • Deshalb kann sich in technische Diskussionen leicht der Glaube an menschenähnliche Intelligenz oder die Erschaffung eines gottähnlichen Wesens einschleichen
  • Es wird eingeräumt, dass die Forderung, sich von anthropomorphisierenden Perspektiven zu lösen, schwer akzeptiert wird

Der grundlegende Unterschied zwischen menschlichem Bewusstsein und LLMs

  • Menschen sind wesentlich vielschichtige und komplexe Wesen, die durch über Hunderte Millionen Jahre wirkende natürliche Selektion, komplexe neuronale Strukturen, Hormone, hochdimensionale sensorische Eingaben, Energieregulation und andere noch nicht verstandene Prozesse evolviert sind
  • Es ist unmöglich, die Wahrscheinlichkeit zu berechnen, mit der ein Mensch eine bestimmte Sequenz erzeugt
  • LLMs funktionieren völlig anders als menschliches Denken, und selbst „die Wahrscheinlichkeit, diese Sequenz zu erzeugen“, ist schwer zu definieren
  • Menschliche Konzepte wie „Ethik“ oder „Überlebensinstinkt“ auf LLMs anzuwenden, ist so unpassend wie eine Debatte über Gefühle eines Programms für numerische Simulationen

Die eigentlichen Probleme und die Richtung des Wandels

  • Die funktionale Klasse, die moderne LLMs bereitstellen, ist äußerst nützlich und bewirkt große gesellschaftliche Veränderungen, selbst wenn sie AGI überhaupt nicht näherkommt
  • Auch ohne AGI können LLMs schon mit der heutigen Technik große Veränderungen in der Welt auslösen
    • Eine umfassende gesellschaftliche Transformation wie bei der Elektrifizierung ist möglich
  • In den kommenden Jahrzehnten rasanter Veränderungen ist es notwendig, sich auf reale Probleme (Sicherheit, Nutzung usw.) zu konzentrieren

4 Kommentare

 
mirea0 2025-07-08

Wichtiger als die Frage, ob man vermenschlicht oder nicht, ist meiner Meinung nach Folgendes:
Sobald ein System eigenständig lernt und Schlussfolgerungen zieht, ist der Punkt überschritten, an dem Sicherheit garantiert werden kann. (Zu glauben, dass du als Mensch an diesem Punkt noch alles vollständig kontrollieren kannst, ist anmaßend.)
Aus der Perspektive des Lernens betrachtet: Ist es nicht vielmehr sicherer, es menschenähnlich denken zu lassen und so zu trainieren, dass es aus menschlicher Perspektive lernt!?

 
cgl00 2025-07-11

Ich glaube, dass es aufgrund der Struktur von LLMs unmöglich sein wird, Sicherheit vollständig zu garantieren. Meiner Meinung nach ist die Instabilität von LLMs unvermeidbar, und entscheidend ist wohl, wie man ihnen bei physischen Handlungen wie Agenten oder autonomem Fahren Befugnisse erteilt.

 
kimjoin2 2025-07-08

Das ist, als würde man ein Auto mit einem Marathon vergleichen..

 
GN⁺ 2025-07-08
Hacker-News-Kommentare
  • Ich verstehe technisch gut, wie LLMs funktionieren, halte es aber nicht für sinnlos, sie bis zu einem gewissen Grad menschlich zu beschreiben.
    Begriffe wie „ein Generator, der probabilistisch das nächste Wort erzeugt“ wirken auf mich wie eine wenig sinnvolle Abstraktion auf niedrigem Niveau, wenn man über Situationen spricht, in denen LLMs auf komplexe Fragen zur Modellierung der Welt antworten oder kreative Geschichten verfassen.
    Das ist so, als würde man bei einer UI-Event-API über Nullen und Einsen oder Transistorspannungen sprechen: technisch korrekt, aber nutzlos, um ein System auf höherer Ebene zu verstehen.
    Um über Phänomene auf höherer Ebene zu sprechen, braucht man Abstraktionen auf höherer Ebene, und wir wissen nicht besonders gut, was auf der internen Ebene eigentlich vor sich geht.
    LLMs ahmen Menschen bis zu einem gewissen Grad nach, zumindest in der Form ihrer Ausgaben, daher ist eine menschliche Analogie die nützlichste Abstraktion und wohl auch der Grund, warum Menschen ganz natürlich so sprechen, wenn sie über die Möglichkeiten von LLMs reden.

    • Du sagst, man brauche Abstraktionen auf höherer Ebene, um hochrangige Phänomene von LLMs zu verstehen, aber ich denke, wir wissen bereits, wie das Innere funktioniert.
      Effizientes Netzwerkdesign und Leistungssteigerungen hängen stark vom Verständnis der inneren Funktionsweise ab, etwa Netzwerkdimensionen, Feature-Extraktion, Attention, Attention Heads, Caching, hochdimensionale Eigenschaften, Vermeidung von Overfitting usw.
      Menschliche Analogien sind eher dann nötig, wenn man in populärwissenschaftlichen Büchern mit begrenztem Vokabular arbeitet; für Praktiker sind sie aus meiner Sicht nicht unverzichtbar.

    • Umgekehrt denke ich, dass gerade diese menschlichen Analogien der Hauptgrund dafür sind, dass die Erzählung über LLMs verzerrt wird.
      Die Leute sagen, LLMs würden denken und schlussfolgern, aber tatsächlich tun sie das nicht.
      Und diese Wahrnehmung wird von Unternehmen, die LLMs verkaufen, aktiv gefördert.
      In der Folge wird dadurch die Diskussion über Nützlichkeit und Einsatzgebiete von LLMs eher getrübt.

    • Ich erinnere mich daran, dass Dawkins in The Selfish Gene über eine „intentional stance“ gegenüber Genen gesprochen hat.
      Gene so zu beschreiben, als hätten sie Absichten, ist zwar falsch, aber es ist eine verständliche und praktische Kurzform, statt jedes Mal ausführlich zu schreiben: „Ein Organismus mit diesem Gen wird zu folgendem Verhalten neigen.“
      Wenn man die niedrigere Abstraktionsebene verstanden hat, muss man beim Sprechen über höhere Ebenen nicht ständig auf der niedrigeren Ebene verharren.

    • Nach reichlich Nutzung von Sprachmodellen denke ich, dass der gefährlichste Bereich menschlicher Analogien die dialogorientierte UI ist.
      Wenn ich mich jeweils nur auf ein einzelnes Q/A-Paar konzentriere oder den Gesprächsverlauf maximal reduziere und bearbeite, verschwinden viele Probleme bei der Nutzung von LLMs weitgehend.
      Wenn man nach mehreren Nachrichten das Gespräch überprüft oder das Modell bittet, „Halluzinationen“ zu korrigieren, werden fehlerhafte Informationen wiederholt erwähnt und das Gespräch verstärkt sich eher in die falsche Richtung.
      Dasselbe habe ich auch beim Programmieren erlebt; falscher Code hat die weitere Unterhaltung klar weiter verunreinigt.

    • Ich gehöre eher zu denen, die wie GP und OP nicht genug Begeisterung aufbringen können, weil sie den internen Betriebszustand von LLMs nicht klar vor Augen haben.
      Manchmal beneide ich solche Leute sogar.
      Vielleicht liegt das auch daran, dass ich in Matheprüfungen oft schlecht abgeschnitten habe.
      Stattdessen versuche ich, mir das Ganze möglichst abstrakt, visuell und philosophisch vorzustellen.
      Ich habe dazu etwas auf meinem Blog geschrieben; falls jemand Feedback hat, kann man mich per E-Mail kontaktieren.

  • Ich denke, es ist eine zu starke Vereinfachung, LLMs nur als Sequenzgeneratoren zu sehen und Fehlverhalten einfach als falsche Sequenzen abzutun.
    LLMs besitzen Hidden States, die sich nicht unmittelbar in Tokens zeigen, und ein LLM kann Ausgaben erzeugen, die seinem internen Zustand widersprechen, um langfristig bessere Ergebnisse zu erzielen.
    Ich frage mich, ob es schon zu stark vermenschlichend ist, dieses Phänomen als „Lügen“ zu bezeichnen.
    Wenn ja, brauchen wir neue Begriffe, um den Prozess zu beschreiben, in dem ein LLM intern „Verhalten“ nachahmt, um den Prediction Loss zu minimieren.
    Metaphorisches Denken ist immer mit Vorsicht zu genießen, aber deshalb nicht automatisch unnötig.
    Neue Begriffe würden allerdings wohl zu sperrig, und ihre Verbreitung in der Öffentlichkeit wäre schwierig; deshalb landet man am Ende doch wieder bei menschlichen Begriffen.
    Natürlich entsteht dadurch die Gefahr, LLMs wie „fehlerhafte Menschen“ erscheinen zu lassen, aber immerhin vermeidet man so unnötigen Fachjargon.

    • Ich arbeite schon lange mit Modellen, die Hidden States haben, und empfinde das als ein sehr klassisches Merkmal statistischer Modelle.
      Selbst gängige LLM-Lehrbücher erklären sie als Latent-Variable-Modelle.
      LLMs sind im Grunde nur eine Version von Latent-Variable-Modellen mit enorm aufgeblasener Größe und Komplexität.
      Für mich ist diese unpersönliche Beschreibung ehrlich gesagt sogar einfacher.
      Latent-Variable-Modelle galten schon immer als etwas geheimnisvoll und mysteriös.
      Dieses Mysteriöse hat sicher dazu beigetragen, dass man LLMs menschlich beschreibt, zugleich ist es aber auch bis zu einem gewissen Grad eine notwendige Abstraktion für effiziente Kommunikation und die Modellierung komplexer Systeme.
      Gleichzeitig führt genau das meiner Meinung nach zu überzogenen Erwartungen, zu einer Debatte im Stil von „als hätte die Maschine eine Seele“ und zu übertriebener Darstellung ihrer Nützlichkeit.

    • Ich denke, LLMs werden vor allem deshalb vermenschlicht, weil große Enterprise-Vendoren in ihrem Marketing genau solche Begriffe betonen.
      Die Leute begeistern sich für die Technologie und übernehmen dann dieselben Begriffe wie die Vendoren.
      Ab einem gewissen Punkt wirkt das wie ein sich selbst erfüllender Prozess.
      Es erinnert mich ein wenig an das Meme über die Aussprache von GIF.

    • Ein Hidden State ist letztlich nur ein interner Mechanismus, den ein Modell nutzt, um die Kombinationswahrscheinlichkeiten von Tokens besser zu schätzen.
      Solche Argumentationen sind schon bei den Versuchen der logischen Positivisten im frühen 20. Jahrhundert gescheitert.
      Damals gab es die Annahme, dass man dichtes „Wissen“ erwerben könne, wenn man die Kombinationswahrscheinlichkeiten von Sprache hervorragend vorhersagt.
      Philosophisch gibt es aber viele Gründe anzunehmen, dass Sprache nur ein unvollständiger Ausdruck von Wissen ist.
      Es gibt reichlich Hinweise darauf, dass menschliches Denken deutlich komplexer ist, als bloß Symbolmuster zu lernen und wieder auszugeben.
      Skeptiker wie Hume haben Ähnliches behauptet, aber ich denke, spätere erkenntnistheoretische Debatten haben bessere Erklärungen geliefert.

    • Hier der Autor des Ausgangsposts.
      Ich frage mich, was genau mit „Hidden State“ gemeint ist.
      Bei den meisten LLMs ist der Kontext selbst der Zustand, und ich glaube nicht, dass es noch einen separaten „versteckten“ Zustand gibt.
      Falls ich etwas übersehe, würde ich mich über eine Erklärung freuen.

    • In LLMs wird eine Tokensequenz von einem Embedding in N^L nach R^{LxD} abgebildet, läuft durch Attention weiter nach R^{LxD} und wird am Ende mit einer separaten Projektion auf das Vokabular nach R^{LxV} transformiert, also zu einer Wahrscheinlichkeitsverteilung für jedes Token.
      Innerhalb der Attention gibt es zwar verschiedene Multi-Head-Varianten, aber letztlich arbeitet man immer mit Repräsentationen, die einzelnen Tokens zugeordnet sind.
      Deshalb behaupte ich, dass es keinen Hidden State gibt, der nicht an ein bestimmtes Token gebunden ist.
      Das unterscheidet sich von Modellen wie LSTMs, die einen klar aktualisierten Hidden State besitzen.
      Ich denke, die Erklärung des Prinzips, nach dem aus vorherigen Wörtern Wahrscheinlichkeiten berechnet werden, reicht aus, um das meiste zu verstehen.
      Ich sehe nicht, warum man dafür unbedingt menschliche Analogien bräuchte.

  • Die Kernaussage des Autors ähnelt der Sichtweise von Searle: Ein auf Berechnung, Funktion und syntaktischen Regeln basierendes System kann keinen echten Geist reproduzieren.
    Viele werden dem zustimmen oder widersprechen, aber letztlich hängt die Antwort davon ab, welche Annahmen man trifft, insbesondere über Bewusstsein.
    Der Autor hält es für produktiver, sich statt auf menschliche Analogien auf das konkrete technische System zu konzentrieren, und so weit würde ich mitgehen.
    Unabhängig davon erkenne ich aber auch an, dass selbst in einem regelbasierten probabilistischen System irgendwo emergente, unerwartete und mind-like Eigenschaften auftreten.
    Menschen mit ML- oder mathematischem Hintergrund halten solche Systeme zwar nicht für Träger menschlicher Eigenschaften wie Moral, Emotion oder Persönlichkeit, aber den meisten fällt der Zugang über mathematische Strukturen ohnehin schwer, und nach außen hin wirkt das Verhalten eben „plausibel“ menschlich.
    Deshalb ist es aus praktischer Sicht durchaus sinnvoll, Fragen von menschlichen Eigenschaften ausgehend zu stellen.
    Am Ende braucht es meiner Meinung nach sowohl die strikt technische Perspektive als auch die qualitative, subjektive Perspektive, die auf dem mentalen Erleben der Nutzer beruht.

    • Die Vorstellung, etwas sei emergent und mind-like, wirkt meiner Meinung nach besonders auf Menschen natürlich, die das Funktionsprinzip des Systems nicht gut kennen.
      Das erinnert an Clarkes Gesetz: „Jede hinreichend fortschrittliche Technologie ist von Magie nicht zu unterscheiden“, nur dass diese Schwelle je nach technischem Verständnis für jeden anders liegt.
      Bei einer technisch wenig gebildeten Öffentlichkeit kann das sogar bis zur Vergöttlichung von AI als Godbot führen.
      Passende Artikel: Spectator - AI Godbots Gefahr, arXiv-Artikel, Guardian - Thailands AI-Wahrsagerin

    • Danke, dass du in dieser Diskussion so eine gut ausbalancierte Perspektive eingebracht hast.
      Es überrascht mich auf HN immer wieder, dass manche LLMs emotional geradezu überhöhen, während andere darauf bestehen, sie hätten überhaupt keinen Reiz und keinen Wert.
      Ich kann auch nicht nachvollziehen, dass manche aus Gegenreaktion auf überzogenes Marketing absichtlich eine haltlose Gegenposition einnehmen.

    • Dass etwas emergent und mind-like wirkt, liegt letztlich daran, dass es menschliche Kommunikationsmuster besser nachahmt als jedes andere System in der Geschichte.
      Diese Fähigkeit ist äußerst beeindruckend und bringt auch viele reale, lebensverbessernde Anwendungsmöglichkeiten mit sich, aber „Intelligenz“ bleibt dabei letztlich nur eine Illusion.
      In der Branche will jeder diese Illusion bewusst verstärken, und der Grund dafür ist am Ende natürlich Geld.

    • Ich würde absolut bestreiten, dass man so vorgehen sollte.
      Es gibt keinen Grund, ein missverstandenes Weltbild noch zu verstärken, das in vielen anderen Bereichen ernsthafte Folgen haben kann.
      LLMs spiegeln menschliche Denkprozesse nur teilweise und zudem schlecht wider.
      Wenn man dem Phänomen noch mehr Bedeutung zuschreibt, ist das so, als hielte man die Person im Spiegel für lebendig.
      Dass ein Spiegel Menschen zeigt, liegt nicht am Wesen des Spiegels, sondern daran, dass ein Mensch davorsteht.
      Sobald ein LLM keinen Input mehr in Form von Überresten menschlichen Denkens, also Daten, erhält, spiegelt es auch nichts Menschähnliches mehr wider.

  • Ich habe den Eindruck, dass der Autor dazu neigt, jede Diskussion pauschal als „Vermenschlichung“ abzustempeln.
    Er scheint sich an dem Wort „goal“ festzubeißen und schon dessen bloße Verwendung für Vermenschlichung zu halten.
    Zum Beispiel hat auch eine BFS, die jede Stellung auf einem Schachbrett bewertet und beim Finden eines Schachmatts den gesamten Entscheidungsbaum ausgibt, ein „goal“.
    Den technischen Begriff „goal“ in Vorstellungen über LLM- oder AGI-Ziele zu verwenden, hat meiner Meinung nach nichts mit Vermenschlichung zu tun.

    • Hier der Autor des Ausgangsposts.
      Gegen die Verwendung von „goal“ im Kontext von RL-Algorithmen habe ich überhaupt nichts.
      Ich hoffe, es ist klar geworden, dass sich mein Einwand im Text nur auf die Verwendung von „goal“ im LLM-Kontext bezog.
  • In dem Moment, in dem Menschen Begriffe wie „consciousness“, „ethics“, „values“ oder „morals“ auf diese gelernte Funktion projizieren, kann ich nicht mehr mitgehen.
    Was wir hier letztlich vor uns haben, ist eine riesige rekursive Gleichung, und wenn wir sie nicht ausführen, produziert sie auch keine Wörter.
    Wenn man so argumentiert, müsste man dann nicht zuerst noch einmal darüber nachdenken, was es überhaupt heißt, Menschen menschlich zu beschreiben?

  • Ich kann der Aussage nicht zustimmen, es sei seltsam, dass man LLMs wie Menschen behandle, obwohl sie doch nur Funktionen zur Sequenzgenerierung seien.
    Menschen unterscheiden sich darin nicht grundsätzlich; auch sie bewegen sich von Geburt an entlang einer Art Liste von Funktionen.
    Ein LLM ist nur ein sehr groß skaliertes System zur Funktionsapproximation, während die Natur über Hunderte Millionen Jahre durch Evolution, bei der im Überlebenskampf nur ein Teil bestehen blieb, die Arten von Funktionen immer weiter verändert hat.
    Manche glauben vielleicht, beim Menschen gebe es etwas Besonderes außerhalb mathematischer Gesetze, aber das geht letztlich nicht über Mystizismus oder übernatürliche Überzeugungen hinaus.
    Wenn man das nicht annimmt, dann lässt sich menschliche Erfahrung am Ende durch Funktionen und Funktionsapproximation erklären.
    Siehe auch: Universal Approximation Theorem Wiki

    • Schon die Behauptung „Glaubst du, dass es beim Menschen etwas jenseits mathematischer Gesetze gibt?“ ist umstritten.
      Es gibt klar Bereiche menschlicher Erfahrung oder sprachlicher Ausdrucksformen, die über das hinausgehen, was physikalische Beschreibungen erfassen.
      Zum Beispiel kann ein von Geburt an nur schwarz-weiß sehender Mensch, der nie Rot erlebt hat, die subjektive Erfahrung von Rot durch kein Erklärungssystem erhalten.
      Ich denke, einige Phänomene, auf die menschliche Sprache verweist, liegen weiterhin außerhalb physikalischer Erklärungen.

    • Der Autor scheint die Position zu vertreten, dass es beim menschlichen Bewusstsein „etwas gibt, das sich nicht als Funktion erklären lässt“.
      Erfahrungsgemäß halten Menschen an solchen Vorstellungen fest, sei es aus religiösen Gründen oder aufgrund philosophischer Vorannahmen, und es bringt wenig, diese geistige Komponente einfach auszuklammern.
      Praktischer ist es, die Diskussion unter dieser Annahme fortzuführen.
      Man kann anerkennen, dass ein LLM wie ein „Chinese Room“ nur übersetzt, ohne Bedeutung zu verstehen, und trotzdem sehen, dass es sich weiterhin auf eine Weise verhält, die menschlich wirkt.
      Selbst wenn menschliche Analogien technisch falsch sind, sind sie praktisch nützlicher, wenn man das Verhalten des Systems vorhersagen und es effektiv nutzen will.
      Umgekehrt kann man in Diskussionen über Menschen die Unterschiede zu Funktionen einfach ausklammern.
      Man sagt dann vielleicht: „Menschen sind dramatisch anders als Funktionen ... man kann nicht berechnen, mit welcher Wahrscheinlichkeit ein Mensch diese Sequenz erzeugt“, aber tatsächlich lassen sich auch bei Menschen unter bestimmten Bedingungen Wahrscheinlichkeiten ansetzen, etwa wenn man ein bestimmtes Popkultur-Zitat anreißt und vorhersagt, dass viele Amerikaner eines bestimmten Alters es vervollständigen können.

    • Ich denke, man kann allenfalls behaupten, dass man menschliche Vernunft oder analytische Denkprozesse bisher am besten mit linearer Algebra modelliert hat.
      Die Erwartung, dass LLMs mehr als nur „Modelle“ sein sollten, ist letztlich ein von Interessen aus Branchen, Lebensunterhalt und Karriere getragener Glaubenswunsch.
      Trotzdem gibt es keinen substanziellen Beleg dafür, warum ein lineares Algebra-Modell das Leben oder auch nur einen Aspekt von Lebendigkeit vollständig modellieren sollte.
      Wenn es in einem Gödel-artigen Sinn so etwas wie eine „Zombie-Katze“ geben kann, warum sollte man dann das zugrunde liegende probabilistische Modell überhöhen?

    • Die Erwähnung des „Universal Approximation Theorem“ lese ich so, dass immer bessere Lookup-Tabellen ebenfalls zur Funktionsapproximation verwendet werden können.

  • In manchen Situationen ist es sehr wichtig, sich klarzumachen, dass ein LLM ein probabilistischer Wortgenerator ist.
    Für die alltägliche Nutzung funktioniert es in der Praxis aber oft deutlich besser, es menschlich zu behandeln.
    Diese menschliche Sicht dient dann als praktische Abstraktion, mit der man leichter die gewünschte Antwort hervorlocken kann.
    Es ist keine perfekte Analogie, aber etwa der Fall, in dem jemand ein LLM damit bedrohte, dass ein Mensch sterben würde, wenn es kein JSON-Format ausgibt, ist eben kein Verhalten, auf das man aus einer reinen Gradient-Descent-Perspektive ohne Weiteres käme.

  • Menschen neigen dazu, allem um sich herum Menschlichkeit zuzuschreiben.
    Sie sprechen mit unbelebten Dingen wie Schiffen oder Autos, mit Tieren und sogar mit Pflanzen; das ist instinktiv.
    Die meisten Menschen wissen zwar sehr wohl, dass ihr Auto sie nicht liebt, aber bei dialogorientierten LLMs glauben nicht wenige tatsächlich an echtes Bewusstsein.
    LLMs „lernen“ oder „passen sich an“ im Unterschied zum menschlichen Gehirn nicht an, jedenfalls bisher nicht; sie werden trainiert und sind danach im Wesentlichen Read-only-Entitäten.
    Trotzdem sind LLMs absichtlich darauf ausgelegt, menschliche Kommunikation nachzuahmen.
    Deshalb sind Projektion und Vermenschlichung unvermeidlich.
    Vielleicht ist das noch keine AGI, aber es ist klar von der menschlichen Art des Lernens inspiriert, und schon das Ergebnis bis hierher ist interessant.
    Kurzfristig haben sich LLMs vor allem als deutlich einfacher nutzbare praktische Werkzeuge in Form einer dialogorientierten Schnittstelle etabliert und sind tatsächlich in einer Kommunikationsform gestaltet, die Menschen leichtfällt.
    Dadurch kann praktisch jeder sie ohne besondere Schulung sofort effektiv nutzen.

    • Ich stimme der Aussage „Menschen schreiben Dingen Menschlichkeit zu“ nicht zu; das ist eine Begriffsverwechslung.
      Bei unbelebten Dingen personifizierende Ausdrucksweisen zu verwenden ist etwas anderes, als tatsächliche menschliche Eigenschaften oder Bewusstsein zu projizieren, also Anthropomorphismus zu betreiben.
      Kaum jemand glaubt wirklich, dass ein Auto lebt.
      Dagegen glauben viele, dass LLMs Bewusstsein haben.
      Dazu passend: anthropomorphism vs personification

    • Die Aussage „LLMs haben kein Bewusstsein, weil sie nicht wie Gehirne lernen oder sich anpassen“ ist weder hinreichend noch notwendig.
      Für Bewusstsein ist Lernen nicht zwingend erforderlich, wohl aber möglicherweise ein Zeiterleben und ein Kurzzeitgedächtnis.
      Auch schwer demente Menschen können kaum noch lernen und haben trotzdem ein subjektives Bewusstsein des „Hier und Jetzt“.
      Das heißt, schon ein sehr kleines bisschen Kurzzeitgedächtnis kann für Bewusstsein ausreichen.
      Umgekehrt erzeugt Lernen für sich genommen ebenfalls kein Bewusstsein.
      Es gibt viele Software-Systeme mit Echtzeitlernen, die dennoch keinerlei Subjektivität besitzen.

  • Meine Frage ist vielmehr, ob das menschliche Gehirn am Ende vielleicht ebenfalls auf eine LLM-artige Weise funktioniert.
    Auch das Gehirn entsteht aus evolutionären Veränderungen und Mutationen sowie aus evolutionären Reward-Algorithmen, die eine spezialisierte Struktur hervorbringen.
    Diese Struktur maximiert letztlich durch Vorhersage und Verhalten Überleben und Fortpflanzung, während zusätzliche Unterziele wie Moral, Werte oder Bewusstsein als Nebenzweige mit evolviert sind und so Komplexität entstanden ist.
    Wenn das so ist, müsste sich dann bei hinreichender Rechenleistung nicht all diese Struktur, zusammen mit Welt und Zeitverlauf, als transformierbare deterministische Funktion ausdrücken lassen?
    Wenn man bedenkt, dass schon die Entstehung des Lebens selbst aus scheinbar unmöglichen Wahrscheinlichkeiten hervorgegangen ist, dann scheint mir auch all das gegenwärtig „Wundersame“ letztlich auf mathematische Systeme reduzierbar.

    • Auf die Frage „Könnte das menschliche Gehirn wie ein LLM sein?“ würde ich zurückfragen: Vergisst du nach jedem Gespräch alles Vorangegangene?
      Wenn du mit Menschen sprichst und sie jedes Mal alles exakt wiederholen müssen, damit du den Kontext verstehst, würde ich dir ernsthaft empfehlen, dich medizinisch untersuchen zu lassen.
      Dann solltest du dir unbedingt den Film Memento (2000) anschauen, der sich genau mit Amnesie beschäftigt.

    • Wichtig ist, dass wir Maschinen keine Emotionen, Moral oder Motivation zuschreiben dürfen.
      Maschinen haben nichts davon.

    • Ich denke schon, dass es etliche Ähnlichkeiten mit dem menschlichen Gehirn gibt.
      LLMs sind das jüngste Ergebnis von über 80 Jahren Forschung zur rechnerischen Modellierung des menschlichen Gehirns.

    • Das Stärkste an LLMs ist, dass ihr Scheitern keinen Verlust bedeutet.
      Man ändert einfach den Prompt, probiert es erneut oder trainiert neu.
      Beim Menschen kann ein einzelner Fehler lebensgefährlich sein.
      Fehler von LLMs haben keine schwerwiegenden Konsequenzen; man muss nur die Anforderung ändern.

  • Es gibt die Aussage: „In dem Moment, in dem Menschen LLMs Bewusstsein, Ethik, Werte oder Moral zuschreiben, beginnt die Verwirrung.“
    Für produktive Diskussionen in solchen Debatten bräuchte es konkretere Beispiele, doch in der Realität reden die Beteiligten meist aneinander vorbei.
    Wenn man etwa hört: „Das Modell will X, weiß aber, dass Y falsch ist, und bevorzugt deshalb Z“, dann versteht die eine Seite das als Zuschreibung von Bewusstsein oder Werten an das Modell, während die andere Seite nur metaphorisch das äußere Verhalten beschreibt, etwa wie in „Wasser will nach unten“.
    Am Ende laufen solche Wortspiele oft auf ein Nebeneinander von „Ich will philosophisch erklären“ und „Ich will nur über U-Boote reden“ hinaus.
    So entsteht nur schwer eine produktive Diskussion.