Was ist eine Markov-Kette?
- Als LLMs (Large Language Models) erstmals auftauchten, beschrieben Leute sie als sehr kluge Markov-Ketten
- Heutzutage sind Menschen mit LLMs vertrauter als mit Markov-Ketten
- Man kann sich eine Markov-Kette als ein sehr kleines, sehr einfaches und sehr naives LLM vorstellen
- Eine Markov-Kette sagt das nächste Wort auf Basis des aktuellen Kontexts voraus, berücksichtigt dabei aber weder Semantik, Dimensionalität noch andere komplexe Vektormathematik
- Eine Markov-Kette ist ein primitives statistisches Modell
- Die Funktion „Nächstes Wort vorschlagen“ auf Smartphone-Tastaturen verwendet in der Regel Markov-Ketten
- Markov-Ketten sind günstig in der Ausführung und lassen sich leicht an den Textstil der Nutzer anpassen
- Man könnte die Funktionsweise von LLMs und Markov-Ketten tiefgehend erklären, aber hier reicht es zu wissen, dass Markov-Ketten Aufgaben schlechter bewältigen als LLMs
Was ist witzig?
- Humor lebt von nicht ernst gemeinter Überraschung
- Die besten Witze enthalten einen erfreulichen und bedeutenden „Snap“
- „Snap“ meint den Stoß, der aus der Überraschung entsteht
- Je weniger Überraschung, desto weniger lustig ist es
- Deshalb werden Witze weniger lustig, je öfter man sie hört
- „Random“-Humor ist nicht lustig, weil seine Unvorhersehbarkeit selbst vorhersehbar ist
- Witze schreiben bedeutet, Muster zu brechen
- Durch die „Verwirklichung der Szene“ lässt sich der Snap verstärken
- Verwendet man originellere oder bildhaftere Sprache, wirkt die Szene realistischer
- Witze sind vielfältig und Humor ist subjektiv
Die Vorhersehbarkeit von LLMs
- Um einen Satz erfolgreich vorherzusagen, braucht man viel Kontext
- LLMs haben viel Kontext
- LLMs finden über viele mathematische Berechnungen das wahrscheinlichste nächste Token
- Ein „besseres“ LLM ist vorhersehbarer
- LLMs eignen sich nicht für kreatives Schreiben
- LLMs erzeugen durchschnittliche Ergebnisse
- Um Witze zu erzeugen, muss ein LLM überraschen
- Gute LLMs können das nicht gut
- LLMs eignen sich nicht für künstlerischen Ausdruck
- LLMs können interessante Konzepte übersehen
- Mit diesem Framework könnte man neue Sprachmodelle bauen
Warum das interessant ist
- Das deutet auf etwas Tieferes hin
- Es geht nicht um die Debatte Seele gegen Maschine
- Es zeigt einen inhärenten Fehler des Modells
- Nachrichten von ChatGPT wirken wie Aufsätze aus der Oberstufe
- Es reproduziert durchschnittliche Ausgaben
- Persönlichkeit wurde daraus entfernt und durch akademische Strenge verstärkt
- Der Ton ist fade und klingt nach Konzernsprache
- Gefälschte Amazon-Bewertungen lassen sich leicht erkennen
- Modelle zur Erkennung von LLM-Texten werden bald wohl auf Persönlichkeit prüfen müssen
Zusammenfassung von GN⁺
- Dieser Text erklärt die Unterschiede zwischen Markov-Ketten und LLMs und untersucht das Wesen von Humor
- Markov-Ketten sind einfache statistische Modelle und haben schwächere Vorhersagefähigkeiten als LLMs
- Humor basiert auf nicht ernst gemeinter Überraschung, und Witze schreiben bedeutet, Muster zu brechen
- LLMs sind sehr vorhersehbar und deshalb für kreatives Schreiben ungeeignet
- Der Text zeigt die Grenzen von LLMs auf und deutet die Möglichkeit neuer Sprachmodelle an
1 Kommentare
Hacker-News-Kommentare
Ich bin vor ein paar Jahren bei einem Side-Project zum gleichen Schluss gekommen
Ich habe Claude 3.5 Sonnet gebeten, 10 kurze Witze zum Thema zu schreiben, dass Markov-Ketten lustiger sind als LLMs
Das heißt nicht, dass Markov-Ketten besser sind
Zu Studienzeiten haben Freunde von mir einen Markov-Chain-Generator für die Rubrik "Polizeibericht" der Uni-Zeitung verwendet
Ich finde es unangenehm, die Bibel für solche Experimente zu verwenden
Als empirischer Beleg: /r/subreddit simulator ist eine Markov-basierte Reddit-Parodie
Ich habe ein paar Mal "von KI geschriebene Fake-XYZ" auf Reddit gepostet
Vor etwa 10 Jahren, als ich noch zur Schule ging, habe ich einen Markov-Twitter-Bot gebaut
Die Entwicklung des Blogs AI weirdness stützt diese Idee
Ich habe zwei Bots auf meinem privaten Discord-Server