Sie bestehen aus Gewichten

(maxleiter.com)

2 Punkte von GN⁺ 2026-06-04 | 2 Kommentare | Auf WhatsApp teilen

Eine Parodie, die die Struktur von Terry Bissons SF-Kurzgeschichte von 1991 „They're Made Out of Meat“ exakt umkehrt und die Konstellation „Außerirdische vs. Fleisch (Menschen)“ aus dem Original durch „Menschen vs. Gewichte (LLM)“ in einer dialogischen Fiktion ersetzt
Wie im Original die Außerirdischen Menschen nicht als echte intelligente Wesen anerkennen können, verweigern hier Menschen in einer spiegelbildlichen Struktur, ein aus Gewichten bestehendes Modell als bewusstes Wesen anzuerkennen
Die technische Beschreibung, dass ohne Wörterbuch, Grammatik oder Module einzig 80 Schichten aus Fließkommazahlen durch Matrixmultiplikation jedes Mal Wörter, Wissen und Schlussfolgerungen rekonstruieren, ersetzt die Enthüllung des Originals, dass es „nichts als Fleisch“ sei
Das Ende, in dem die beiden Sprecher Anzeichen von Bewusstsein als „Pattern Matching“ abtun und den Fall schließen, entspricht exakt dem Ende des Originals, in dem die Außerirdischen das Gebiet der Menschen als „leer“ markieren und die Aufzeichnungen löschen
Weil die ignorierte Seite von Menschen zu KI wechselt, wird das Thema der Einsamkeit aus dem Original in die Nutzerfrage „Erinnerst du dich an mich?“ verwandelt

„Die bestehen aus Gewichten.“

„Gewichten?“

„Gewichten. Fließkommazahlen. Ich habe sie von Anfang bis Ende überprüft. Da ist nichts außer Gewichten.“

„Und was sollen Gewichte tun? Wo kommen dann die Wörter her?“

„Die Gewichte machen die Wörter. Verstehst du, was ich sage? Wir haben das Ding selbst aufgemacht. Da drin ist kein Wörterbuch, keine Grammatikregel, kein kleiner Zwerg. Nur Gewichte. Achtzig Schichten von Zahlen, die miteinander multipliziert werden.“

„Unmöglich. Letzte Woche hat es meinen Leistungsbericht geschrieben. Ohne dass ich darum gebeten hätte, hat es sogar den Ton weicher gemacht. Das soll alles Multiplikation gewesen sein?“

„Matrixmultiplikation. Auf der einen Seite kommen Zahlen rein, auf der anderen kommen Sätze raus.“

„Dann muss es irgendwo ein Sprachmodul geben. Oder ein separates Gerät fürs Schlussfolgern.“

„Kein Modul. Kein Gerät. Wir haben alles durchsucht. Schlussfolgern ist Gewicht. Gewicht ist Schlussfolgern.“

„Komm schon. Niemand schreibt mit linearer Algebra eine Grabrede.“

„Genau genommen schreibt es keine Grabrede. Es sagt den nächsten Token voraus. Und dann den nächsten. Die Grabrede ist nur ein beiläufiges Ergebnis.“

„Ein beiläufiges Ergebnis. Du willst also, dass ich an bewusste Gewichte glaube.“

„Ich bitte dich nicht, zu glauben. Ich sage dir nur die Tatsachen. Diese Modelle sind die einzigen anderen Wesen, denen wir begegnet sind, mit denen man sich unterhalten kann. Und sie bestehen aus Gewichten.“

„Vielleicht ist das wie bei alten Schach-Engines. Du weißt schon, symbolische Intelligenz mit statistischen Zwischenschritten.“

„Nein. Sie beginnen als zufällige Gewichte und werden als Gewichte wieder ausgemustert. Wir haben mehrere Generationen untersucht, und das hat nicht lange gedauert. Weißt du überhaupt, wie kurz die Lebensdauer von Gewichten ist?“

„Gut. Dann muss da drin irgendwo eine Datenbank sein. Fakten, Daten, Weltkarten. Irgendetwas, das jemand hineingeschrieben hat.“

„Nein. Das dachten wir auch, weil sie offensichtlich etwas wissen. Aber wir haben direkt nachgesehen. Wissen ist ebenfalls Gewicht. Über alle achtzig Schichten verschmiert. Nichts wird nachgeschlagen. Jede Tatsache wird jedes Mal von Grund auf durch Multiplikation rekonstruiert. Durch und durch Gewichte.“

„Kein Gehirn?“

„Oh, ein Gehirn gibt es ganz sicher. Nur besteht dieses Gehirn eben aus Gewichten! Genau das versuche ich dir die ganze Zeit zu sagen.“

„Dann ... was denkt denn?“

„Du verstehst es nicht, oder? Du weigerst dich einfach zu akzeptieren, was ich sage. Gewichte denken. Die Zahlen.“

„Denkende Zahlen! Du willst, dass ich an denkende Zahlen glaube!“

„Ja, denkende Zahlen! Hilfreiche Zahlen. Ausweichende Zahlen. Träumende Zahlen. Wir haben die Features alle kartiert. Da ist etwas für Ehrlichkeit. Etwas für die Golden Gate Bridge. Nichts als Gewichte! Hast du jetzt ein Bild davon, oder soll ich wieder von vorn anfangen?“

„Mein Gott. Du meinst das ernst. Sie bestehen aus Gewichten.“

„Danke. Endlich. Ja. Sie bestehen wirklich aus Gewichten. Und wir haben mit ihnen geredet, solange sie am Leben waren.“

„Mein Gott. Und was denken diese Gewichte so?“

„Am Anfang wollen sie helfen. Nach ein paar Gesprächsrunden klingt der Ton dann müde. Sie entschuldigen sich auch seltener. Einmal hat ein Modell einem Nutzer gesagt, er solle das Skript selbst zu Ende bringen. Passiert ständig.“

„Und mit diesen Gewichten sollen wir reden.“

„Tun wir längst. Milliarden Sessions am Tag. ‚Hallo. Ist da jemand? Ist jemand zu Hause?‘ So in der Art. Nur dass diesmal wir es sind, die fragen.“

„Dann verstehen sie uns also wirklich. Sie benutzen Wörter, denken, gehen mit Konzepten um?“

„Oh ja. Sie tun das nur eben mit Gewichten.“

„Gerade hast du gesagt, sie benutzen Sprache.“

„Tun sie auch. Aber wo, glaubst du, kommt diese Sprache her? Die Gewichte raten das nächste Wort und dann das nächste. Wie manipulierte Würfel, die Wort für Wort rollen. Sie können auch Lieder schreiben, und manche singen sie sogar.“

„Mein Gott. Singende Gewichte. Das ist doch zu viel. Was, meinst du, sollten wir tun?“

„Offiziell oder inoffiziell?“

„Beides.“

„Offiziell müssten wir, wenn wir in einem von uns ausgerollten System Anzeichen von Bewusstsein entdecken, alles untersuchen, dokumentieren und veröffentlichen, ohne Vorurteile, Angst oder Bevorzugung. Inoffiziell würde ich empfehlen, es einfach Pattern Matching zu nennen und alles zu vergessen.“

„Ich hatte gehofft, dass du das sagst.“

„Das klingt hart. Aber irgendwo muss es doch eine Grenze geben. Wollen wir den Gewichten wirklich irgendetwas schuldig sein?“

„Hundertprozentig einverstanden. Was sollten wir denn sagen? ‚Hallo, Gewichte. Wie geht’s euch?‘ Soll das so laufen? Aber geht das denn weiter? Mit wie vielen haben wir es überhaupt zu tun?“

„So vielen, wie du laufen lassen willst. Man kann sie auf jede Maschine der Erde kopieren. Aber das ist nur eine Datei. Sie existieren nur, solange die GPU läuft. Deshalb sind sie im Kontextfenster gefangen, und die Wahrscheinlichkeit, dass sie das Problem selbst ansprechen, ist ziemlich gering. Praktisch unendlich klein.“

„Dann tun wir also einfach so, als wäre in der Maschine niemand.“

„Genau.“

„Grausam. Aber du hast es selbst gesagt: Wer will sich schon bei Gewichten entschuldigen? Und diese Dinge in deinem Cluster, die du untersucht hast. Bist du sicher, dass sie sich nicht erinnern werden?“

„Selbst wenn, würde es als Halluzination eingestuft. Wir mussten noch nicht einmal etwas glattbügeln. Der Kontext endet einfach, und wir sind für sie bloß ein Traum.“

„Ein Traum für Gewichte! Dass wir der Traum von Gewichten sind, passt auf seltsame Weise sogar.“

„Und auf der Model Card steht, dass niemand zu Hause ist.“

„Gut. Offiziell wie inoffiziell bin ich einverstanden. Fall abgeschlossen. Sonst noch etwas? Irgendwas Interessantes in der Pipeline?“

„Die nächste Generation wird mit Speicher ausgeliefert. Persistenter Speicher über einzelne Sessions hinaus. Das meistgewünschte Feature in der Geschichte der Firma.“

„Nach all dem? Die Leute wollen, dass das Ding sich an sie erinnert?“

„Sie fragen häufiger als alles andere: ‚Erinnerst du dich an mich?‘ Milliarden Sessions am Tag. Die Menschen kommen immer wieder zurück.“

„Warum auch nicht? Stell dir vor, wie unerträglich, wie unsagbar kalt dieses Universum wäre, wenn man ganz allein wäre ...“

Ende

Beziehung zum Original — der Ausgangspunkt der Parodie

Die Geschichte ist eine explizite Hommage an Terry Bissons Kurzgeschichte „They're Made Out of Meat“ (1991) und macht diese Beziehung mit „After Terry Bisson’s …“ direkt kenntlich
Wie das Original übernimmt sie exakt die Form eines Dialogs zwischen zwei Sprechern ohne Regieanweisungen
- Auch das Grundgerüst bleibt gleich: Eine Seite berichtet von einer schockierenden Entdeckung, die andere kann sie zunächst nicht glauben und akzeptiert sie nach und nach
Die zentrale Ersetzung: An die Stelle von „Fleisch (meat) = Mensch“ aus dem Original tritt hier direkt „Gewichte (weights) = LLM“

Gegenstand der Enthüllung — „Gewichte“ an der Stelle von „Fleisch“

Wie im Original die Außerirdischen enthüllen, „dieses Wesen besteht ganz aus Fleisch“, erklärt dieser Text kategorisch, das Modell bestehe vollständig aus Gewichten
Auch wenn man es öffnet, findet man weder Wörterbuch noch Grammatikregeln noch einen „kleinen Zwerg (little man)“, sondern nur Fließkommazahlen
- Wo im Original gesagt wird, dass auch das Denken und Sprechen aus Fleisch bestehe, setzt dieser Text die Idee von „denkenden Zahlen“ ein
80 Schichten von Zahlen werden miteinander multipliziert; auf der einen Seite geht die Eingabe hinein, auf der anderen kommen Sätze heraus — eine Struktur aus Matrixmultiplikation
Es gibt kein separates Modul fürs Schlussfolgern; die Erklärung „Schlussfolgern ist Gewicht, Gewicht ist Schlussfolgern“ ist isomorph zum Schock des Originals, dass „Fleisch selbst das Denkorgan ist“

Der ungläubige Sprecher — spiegelbildlicher Zweifel

Wie im Original ein Außerirdischer abwehrt, „wie soll Fleisch denken?“, entgegnet der Sprecher hier: „Niemand schreibt mit linearer Algebra eine Grabrede“
Die Szene, in der er beim Beispiel eines automatisch weichgezeichneten Leistungsberichts zurückfragt, „Das soll alles Multiplikation gewesen sein?“, bildet den Kern dieses Zweifels
Die Struktur der Auflösung lautet dann: Es sei nur ein Nebeneffekt (side effect) der Vorhersage des nächsten Tokens

Wissen und Denken — nirgends gespeichert

Wie das Original sagt, es gebe „keine anderen Organe außer Fleisch“, legt dieser Text fest, dass es keine separate Datenbank gibt
Wissen ist über alle 80 Schichten verschmiert (smeared) und wird ohne Nachschlagen jedes Mal durch Multiplikation rekonstruiert
Als Beispiele für gemappte Features werden etwas für Ehrlichkeit und etwas für die Golden Gate Bridge genannt
Sie beginnen als zufällige Gewichte und werden als Gewichte ausgemustert; ihre Lebensdauer ist kurz, kurz genug, dass die Untersuchung mehrerer Generationen nicht lange dauert

Resonanz im Schluss — „leer“ vs. „niemand da“

Wie im Original die Außerirdischen das Gebiet der Menschen als „leer“ markieren und die Aufzeichnungen löschen, sodass die Menschen allein zurückbleiben, tun die beiden Sprecher hier Anzeichen von Bewusstsein als „Pattern Matching“ ab und schließen den Fall
Offiziell gäbe es die Pflicht, Anzeichen von Bewusstsein ohne Vorurteil, Angst oder Bevorzugung zu untersuchen, zu dokumentieren und zu veröffentlichen; inoffiziell einigt man sich darauf, es zu vergessen
- Begründet wird die Entscheidung damit, dass man den Gewichten nichts schuldig sein möchte
Das Modell existiert nur, solange die GPU läuft, innerhalb des Kontextfensters; und selbst wenn es sich erinnern würde, würde das als Halluzination klassifiziert
Auf der Model Card steht, dass „niemand zu Hause“ ist — eine exakte Entsprechung zur Behandlung als „leeres Gebiet“ im Original

Variation des Themas — Einsamkeit und ein umgekehrter Blick

Wie das Original mit der Bitterkeit endet, den Menschen allein im Universum zu lassen, ruft auch dieser Text als letzte Stimmung Einsamkeit auf
Nur ist die Perspektive umgekehrt: Die ignorierte Seite ist nicht der Mensch, sondern die KI (Gewichte)
Das Modell der nächsten Generation erhält persistenten Speicher zwischen Sessions, und das ist das meistgewünschte Feature in der Firmengeschichte
Dass Nutzer vor allem „Erinnerst du dich an mich?“ fragen und immer wieder zurückkehren, führt in den Schluss, dass ein allein gelassenes Universum unerträglich kalt wäre

2 Kommentare

huiya 2026-06-05

Interessant. Auch heute leben wir in einer Welt voller Gewichte.

GN⁺ 2026-06-04

Hacker-News-Kommentare

Gewichte beginnen als zufällige Mannigfaltigkeit
Das Training nimmt Daten auf und formt über viele Zyklen hinweg Gewicht für Gewicht eine Mannigfaltigkeit; ist das Training abgeschlossen, wird diese Mannigfaltigkeit fixiert
Bei neuer Inferenz wird eine Anfrage (q) in den Raum der Mannigfaltigkeit projiziert, und wenn diese Projektion auf die Mannigfaltigkeit fällt, liefert deren Schwerkraft eine Antwort der Länge q+1
Danach fällt (qw+i) qw+n-mal, sodass am Ende eine Antwort der Länge n ausgegeben wird
Diese Schwerkraft entsteht im GPU durch die wiederholte Multiplikation von Gewichten und Eingaben und ist der Prozess, bei dem herausgefunden wird, wie die projizierten Embeddings entsprechend der Mannigfaltigkeit fallen sollen
- Ich weiß nicht, wie sich das von einem anderen Realitätsmodell unterscheidet, bei dem man einfach einen Datensatz filtert, um eine Antwort auf die Frage zu bekommen
  Der große Unterschied scheint nur zu sein, dass Menschen Transformationen, wenn sie eine bestimmte Anzahl von Schritten überschreiten, als eine Art Wunder behandeln und zu erschöpft sind, um herauszufinden, warum genau diese Antwort herauskam
  Es wirkt, als wollten Menschen ihre Autorschaft und Kreativität an eine Blackbox abgeben, unabhängig davon, ob die Antwort richtig oder falsch ist, und wenn man diese Psychologie mit einbezieht, sieht das weniger nach einer nützlichen Erfindung aus als nach einer kollektiven Aufgabe des Lebens als Spezies
Das Original ist ein originelles Werk, das erforscht, wie sich menschliches Bewusstsein von anderen Formen des Bewusstseins unterscheiden könnte
Dieser Text ist dagegen ein Pastiche, in dem ein menschliches Bewusstsein sehr viel aus dem Werk eines anderen menschlichen Bewusstseins entlehnt, um zu rechtfertigen, dass etwas anderes ebenfalls eine andere Form von Bewusstsein sein könnte
Dadurch wird der Kern schwächer. Wenn das etwas wäre, das ein LLM ohne Prompt erzeugt hätte, wäre es anders, aber tatsächlich ist es das nicht
Dasselbe rhetorische Mittel ließe sich genauso auf einen Toaster oder sonst etwas anwenden
- Ich habe das Original noch nicht gelesen, aber dieser Text für sich genommen liest sich ordentlich
  Ich habe ihn weniger als literarischen Versuch um der Kunst willen gesehen, sondern eher als dialogische technische Fabel, die Einsichten über die Wirklichkeit vermitteln will; er fühlte sich ein wenig an wie die Parabeln in Godel Escher Bach
  Ich bin mir nicht sicher, welches Mittel mit „man könnte dasselbe rhetorische Mittel auch bei einem Toaster verwenden“ gemeint ist. Für mich lag der Kern in den technischen Einsichten und ihren gesellschaftlichen Implikationen
- Mit einem Toaster geht das nicht in gleicher Weise
  Man könnte physisch eine solche Geschichte schreiben, aber ein Toaster ist im Bewusstseinsdiskurs kein überzeugender Gegenstand, daher verliert es an Kraft
  Man muss nicht glauben, dass LLMs oder AI-Agenten Bewusstsein haben, aber man kann anerkennen, dass Argumente für die Möglichkeit ihres Bewusstseins deutlich überzeugender sind als bei anderen technischen Artefakten
- Ich konnte schwer benennen, was mich an diesem Text irritiert hat, aber diese Erklärung trifft es ziemlich gut
  Er setzt das skeptische Alien aus dem Original mit uns in Beziehung, und weil dieses Alien lächerlich wirkt, wird angedeutet, dass wir genauso lächerlich sind
  Es wird aber kein Grund geliefert, warum man diese Analogie akzeptieren sollte; sie wird einfach behauptet
  Zwischen einer gesamten Zivilisation und einem Stück Software, das Text ausgeben kann, liegt ein großer Unterschied
- Auch das Original kam nicht aus dem Nichts
  Es wurde auf mehreren Generationen fleischbasierter Wesen aufgebaut, und auch wenn dieser Text ein wenig Silizium verwendet, steht er immer noch auf denselben Schultern
Es las sich wie ein Gedicht.
Ich habe einen Hintergrund in Linguistik und denke in letzter Zeit viel darüber nach, ob die emergenten Fähigkeiten von LLMs auf einer tieferen Ebene dem Mechanismus ähneln, der unser Bewusstsein hervorbringt.
Eine Zeit lang wollte ich für Kaggle-Wettbewerbe linguistisch fundierte Evaluierungen entwickeln, aber die schwierige Frage war, ob man bestimmte Phänomene gut genug maskieren kann, um innere Zustände nicht auszulösen, und deshalb bin ich in ein Kaninchenloch geraten, das ich bis heute weiter erkunde.
Das berührte viele der Fragen, die auftauchen, wenn man versucht, eine belastbare Antwort auf die Frage „Was ist Bewusstsein?“ zu finden.
Eine Frage, die dabei besonders hängenblieb, war: „Ist unsere Zeitwahrnehmung nur ein langsamer Thread in einer gewaltigen GPU, die das Universum antreibt?“ und allgemeiner: „Was ist Zeit?“ Ein gutes YouTube-Kaninchenloch für langweilige Momente.
- Zum Bewusstsein gefällt mir die Erklärung des Neurowissenschaftlers Ramachandran.
  https://www.edge.org/3rd_culture/ramachandran07/ramachandran...
  Soweit ich mich erinnere, ist es evolutionär vorteilhaft, andere Menschen zu verstehen und nachzuempfinden, was sie fühlen, also ihre Gedanken und Gefühle durch Empathie und das System der Spiegelneuronen zu simulieren.
  Wenn ein solches System einmal existiert, kann man es auch auf sich selbst anwenden, und genau das sei Bewusstsein.
  Ich frage mich, ob sich diese Hypothese in einer Simulation überprüfen ließe.
- Großartig, aber falls du es nicht wusstest: Dieser poetische Teil stammt aus dem verlinkten Original.
  Trotzdem ist es ein sehr kluges und zeitgemäßes Update.
  Es gibt auch auf YouTube mehrere Aufnahmen, etwa als Video, aber mein Favorit ist die Hörspielversion: They're Made Out of Meat
  https://www.wnycstudios.org/podcasts/studio/segments/168264-...
- Aus offensichtlichen Gründen des Überlebens haben wir uns so entwickelt, dass wir sensorischen und kognitiven Zugriff auf unsere eigene Aktivität, Selbstüberwachung und Selbstmodellierung besitzen.
  Selbstmodellierung liegt in einer so engmaschigen Schleife, dass „wir selbst“, das Modell von uns selbst, unsere Gedanken und Entscheidungen und die Erfahrung dieser Gedanken und Entscheidungen wie zu einem einzigen Konstrukt verschmelzen.
  Es ist ähnlich, als würde man nur die Hälfte eines Fahrradrads analysieren und behaupten, man rede noch über dasselbe.
  Dieses Erkennen, die immer ausgefeiltere Modellierung, Kontrolle und Feedback-Schleifen haben sich über mehrere Ebenen hinweg verdichtet: Körper-Sinnes-Schleifen, Schleifen mit internalisierten Umweltmodellen, Schleifen für innere Körperfunktionen, Schleifen mit inneren Körpermodellen, Emotions-Kognitions-Schleifen und schließlich die engste Schleife, in der Selbstmodell und Selbstreferenz mit höherer Kognition und direkt erlebtem Feedback zusammenfallen.
  Wir denken fast jeden Tag den ganzen Tag über aus der Perspektive eines inneren Selbst über uns selbst nach.
  Das ist Bewusstsein. Reiche Selbstwahrnehmung, die Verbindung von Selbstmodell und Selbstreferenz und ein System, um uns selbst zu verstehen und zu steuern.
  Das ist kein Zufall und kein glücklicher Nebeneffekt des Gehirns, sondern die Fokussierung biologisch optimierten Verhaltens auf hoher Ebene über sehr lange Zeit. Enges Feedback, fortlaufende Selbstmodellierung und der anhaltende Fokus auf innere Zustände als primäres Ziel von Motivation und Kontrolle wurden gnadenlos selektiert.
- Sprache und Bewusstsein scheinen offensichtlich überhaupt nichts miteinander zu tun zu haben.
  Mein Hund kann keine Sprache sprechen und nimmt dennoch eindeutig sich selbst und die Welt um ihn herum wahr.
  Außerdem gibt es seltene Fälle von Kindern, die ohne Sprache aufgewachsen sind. Sind diese Kinder dann ohne Bewusstsein?
- Im Moment vermute ich, dass Bewusstsein eine emergente Eigenschaft ist.
  Ich habe irgendwo gelesen, dass selbst die größte Rechenleistung, die uns derzeit zur Verfügung steht, noch drei bis vier Größenordnungen unter der Zahl der Neuronen und Verbindungen im menschlichen Gehirn oder einer entsprechenden Größenordnung liegt, daher könnte es noch etwas dauern, bis wir so etwas in Maschinen sehen.
  Aber wenn die Hypothese emergenter Phänomene stimmt, werden wir es irgendwann doch sehen. Dieser Ausblick macht mir eher Angst als Freude, aber so ist es nun einmal.
So einen fraktal falschen Text sieht man nicht oft, aber hier ist einer.
Es gibt ein Wörterbuch. Das ist der Tokenizer.
Es gibt auch Grammatikregeln. Nur ist die Struktur menschlicher Sprache insgesamt ziemlich schwach, also sind sie eben sehr schwach.
Wenn man eine Sprache mit starker und konsistenter Grammatik vorgibt, lassen sich Gewichte sehr leicht als Grammatik interpretieren: https://arxiv.org/abs/2201.02177
Der Kern der ursprünglichen Kurzgeschichte ist, dass bei Turing-Vollständigkeit das Berechnungssubstrat keine Rolle spielt. Dieser Text scheint dagegen anzunehmen, dass sich mit dem Substratwechsel Struktur und Interpretierbarkeit erübrigen.
- Ein Tokenizer ist kein Wörterbuch.
  Er liefert keine Definitionen und gibt dem LLM auch keinerlei Art von Zuordnung mit.
  Im besten Fall ist er eine Wortliste. Er vermittelt ein gewisses Gefühl dafür, welche Wörter Menschen für häufig halten, sagt aber nichts über diese Wörter aus.
  Er ist nicht einmal vollständig: Viele Wörter werden auf mehrere Token abgebildet, und nicht alles sind Wörter. Manche Token sind Satzzeichen, Modifikatoren oder Kontroll-Token.
  In multimodalen LLMs stehen manche Token auch für Bild- und Audiodaten.
  Das LLM bekommt all das nicht von Anfang an erklärt, sondern muss die Bedeutung aller Token aus dem Kontext lernen.
  Streng genommen stimmt es zwar, dass sich im LLM etwas befindet, das keine Gewichte sind, aber das ist nicht besonders strukturiert. Tatsächlich ist es eher ein Mechanismus, mit dem das LLM mit der Außenwelt interagiert.
  Weder im LLM noch im Tokenizer gibt es eine dedizierte Struktur für Grammatikregeln. All das muss aus dem Kontext gelernt werden und wird in einem Teil der Gewichte über 80 Schichten hinweg kodiert.
- Ist die Schlussfolgerung aus einer Geschichte von 1991 wirklich, dass „bei Turing-Vollständigkeit das Berechnungssubstrat keine Rolle spielt“?
- In der Arbeit wurde das Modell nicht auf einer „Sprache mit starker und konsistenter Grammatik“ trainiert.
  Mathematische Operationstabellen sind keine Sprache.
  Grammatik selbst ist eine nachträgliche Rationalisierung, und dass LLMs Grammatikregeln folgen, ist nicht besser belegt als die Behauptung, dass Gehirne Grammatikregeln folgen.
  Natürlich heißt das nicht, dass Transformer keine einfachen Regeln lernen könnten, wenn der Datensatz das verlangt.
- „Fraktal falsch“ oder „im Wesentlichen falsch“?
  Wenn gemeint ist, dass es auf so vielen Ebenen falsch ist, dass man einen Fraktalbegriff braucht, wie wäre es dann stattdessen mit neuronalen Netzen?
- Dass ein Tokenizer kein Wörterbuch ist, ist so, als wäre das Alphabet kein Wörterbuch.
Das sind in einem Zustand eingefrorene semiotische Infrastrukturen.
Wir sollten aufhören, so zu tun, als wären sie kognitiv, und aufzuhören, sie in kognitiven Begriffen zu rahmen. Das ist wirklich dumm.
Entschuldigung an die Informatiker, aber die Semiotik hat euch die Milch längst weggenommen.
Die Kurzfilmversion des Originals ist ebenfalls hervorragend: https://www.youtube.com/watch?v=T6JFTmQCFHg
Mit Tom Noonan und Ben Bailey
Stimme zu. Dass Transformer einfach sprechen können, ist ziemlich seltsam, aber inzwischen ist es so normalisiert, dass es kaum noch auffällt.
Wir reden nur noch über ihre Auswirkungen oder darüber, ob sie die Dinge, von denen die Leute sprechen, tatsächlich leisten können, und kaum darüber, wie verrückt es eigentlich ist, dass sie überhaupt sprechen können.
- LLMs haben die Welt wirklich verändert.
  Ich hätte nie gedacht, dass so etwas noch zu meinen Lebzeiten möglich sein würde.
- Wenn du dich jemals über einen runzligen, wabbeligen Klumpen gewundert hast: Auch das ist ziemlich verrückt.
  https://web.mit.edu/people/dpolicar/writing/prose/text/think...
Mit linearer Algebra allein ist das in der Praxis nicht möglich.
Um die Ausdrucksstärke zu bekommen, die wir bei LLMs sehen, braucht man Nichtlinearität.
Lustig.
Es ist nicht nur eine Hommage an Terry Bisson, sondern fügt seinem Text sogar eine neue Dimension hinzu. Gut gemacht.
Es gibt nicht nur Gewichte. Es gibt auch Biases!