Andrej Karpathy: LLMs brauchen „System Prompt Learning“

xguru · 2025-05-13T09:03:46+09:00

Er argumentiert, dass LLMs ein drittes Lernparadigma brauchen, das über Pretraining und Fine-Tuning hinausgeht: „System Prompt Learning“ Pretraining lernt Wissen, Fine-Tuning lernt gewohnheitsmäßiges Verhalten; beide gehen mit Änderungen an den Modellparametern einher Menschliches Lernen ähnelt dagegen eher einer Veränderung des System Prompts und folgt eher dem Muster „mit einer Problemsituation konfrontiert werden → verstehen → Strategie ableiten → für das nächste Mal explizit merken“ Beispiel: eine Art Selbstnotiz wie „Wenn ich auf diese Art von Problem stoße, sollte ich diesen Ansatz bzw. diese Lösung ausprobieren“ Im Unterschied zum üblichen Memory für den Nutzerkontext geht es dabei eher darum, allgemeine Problemlösungsstrategien und Schlussfolgerungsverfahren explizit zu speichern Menschen merken sich solche Strategien bewusst oder schreiben sie auf; LLMs gleichen dagegen bislang eher der Hauptfigur aus Memento, der kein solches Scratchpad hat Dieses strategiebasierte Lernen könnte ein deutlich höherdimensionaler und dateneffizienterer Feedback-Kanal sein als verstärkendes Lernen (RL) auf Basis von Belohnungssignalen Der kürzlich geleakte System Prompt von Claude umfasst rund 17.000 Wörter und beschreibt nicht nur einfache Verhaltenspräferenzen, sondern auch allgemeine Problemlösungsstrategien im Detail Beispiel: Wenn Claude darum gebeten wird, die Anzahl von Wörtern zu zählen, antwortet es nicht sofort, sondern denkt schrittweise nach, nummeriert jedes Wort/jeden Buchstaben/jedes Zeichen und antwortet erst nach einem expliziten Zählverfahren Dieses Wissen ist nicht von der Art, die sofort oder ausschließlich in Gewichten verankert werden muss, und es sollte auch nicht von Menschen einzeln von Hand in den System Prompt geschrieben werden Stattdessen wäre dies durch eine neue Lernform möglich: System Prompt Learning. Im Setup ähnelt es RL, die Lernmethode selbst ist jedoch eher textbasiertes Editieren als Gradientenabstieg Große Teile eines LLM-System-Prompts könnten durch System Prompt Learning geschrieben werden; das wäre vergleichbar damit, dass ein LLM selbst ein Buch darüber verfasst, wie man Probleme löst Dass das LLM den Prompt selbst editiert bzw. aktualisiert, könnte sich zu einem starken neuen Lernparadigma entwickeln Allerdings bleiben dabei offene Aufgaben: Wie würde dieses Text-Editing funktionieren? Kann oder sollte das Modell dieses Editing-System selbst lernen? Welcher Mechanismus wäre nötig, um wie beim Menschen explizites Strategiewissen schrittweise in verinnerlichte Gewohnheiten bzw. Gewichte zu überführen?

(x.com/karpathy)

22 Punkte von xguru 2025-05-13 | 1 Kommentare | Auf WhatsApp teilen

Er argumentiert, dass LLMs ein drittes Lernparadigma brauchen, das über Pretraining und Fine-Tuning hinausgeht: „System Prompt Learning“
Pretraining lernt Wissen, Fine-Tuning lernt gewohnheitsmäßiges Verhalten; beide gehen mit Änderungen an den Modellparametern einher
Menschliches Lernen ähnelt dagegen eher einer Veränderung des System Prompts und folgt eher dem Muster „mit einer Problemsituation konfrontiert werden → verstehen → Strategie ableiten → für das nächste Mal explizit merken“
- Beispiel: eine Art Selbstnotiz wie „Wenn ich auf diese Art von Problem stoße, sollte ich diesen Ansatz bzw. diese Lösung ausprobieren“
Im Unterschied zum üblichen Memory für den Nutzerkontext geht es dabei eher darum, allgemeine Problemlösungsstrategien und Schlussfolgerungsverfahren explizit zu speichern
Menschen merken sich solche Strategien bewusst oder schreiben sie auf; LLMs gleichen dagegen bislang eher der Hauptfigur aus Memento, der kein solches Scratchpad hat
Dieses strategiebasierte Lernen könnte ein deutlich höherdimensionaler und dateneffizienterer Feedback-Kanal sein als verstärkendes Lernen (RL) auf Basis von Belohnungssignalen
Der kürzlich geleakte System Prompt von Claude umfasst rund 17.000 Wörter und beschreibt nicht nur einfache Verhaltenspräferenzen, sondern auch allgemeine Problemlösungsstrategien im Detail

Beispiel: Wenn Claude darum gebeten wird, die Anzahl von Wörtern zu zählen, antwortet es nicht sofort, sondern denkt schrittweise nach,
nummeriert jedes Wort/jeden Buchstaben/jedes Zeichen und antwortet erst nach einem expliziten Zählverfahren
Dieses Wissen ist nicht von der Art, die sofort oder ausschließlich in Gewichten verankert werden muss, und es sollte auch nicht von Menschen einzeln von Hand in den System Prompt geschrieben werden
Stattdessen wäre dies durch eine neue Lernform möglich: System Prompt Learning. Im Setup ähnelt es RL,
die Lernmethode selbst ist jedoch eher textbasiertes Editieren als Gradientenabstieg
Große Teile eines LLM-System-Prompts könnten durch System Prompt Learning geschrieben werden; das wäre vergleichbar damit, dass ein LLM selbst ein Buch darüber verfasst, wie man Probleme löst
Dass das LLM den Prompt selbst editiert bzw. aktualisiert, könnte sich zu einem starken neuen Lernparadigma entwickeln
- Allerdings bleiben dabei offene Aufgaben:
  - Wie würde dieses Text-Editing funktionieren?
  - Kann oder sollte das Modell dieses Editing-System selbst lernen?
  - Welcher Mechanismus wäre nötig, um wie beim Menschen explizites Strategiewissen schrittweise in verinnerlichte Gewohnheiten bzw. Gewichte zu überführen?

1 Kommentare

parkindani 2025-05-13

Wenn das LLM den System-Prompt selbst ändern könnte, müsste der Mensch wohl auch die Regeln für diese Richtlinie festlegen; am Ende bleiben dann vielleicht nur so etwas wie die drei Robotergesetze übrig.

Andrej Karpathy: LLMs brauchen „System Prompt Learning“

Verwandte Beiträge

1 Kommentare