Die bittere Lehre aus der LLM-Erweiterung

(sawyerhood.com)

23 Punkte von GN⁺ 2025-11-28 | 1 Kommentare | Auf WhatsApp teilen

In den vergangenen drei Jahren hat sich die Entwicklung von LLM-Erweiterungsansätzen in viele Richtungen entfaltet, darunter Plugins, Benutzeranweisungen, Memory, Protokolle und Skills
Frühe ChatGPT Plugins versuchten den Einsatz universeller Werkzeuge über API-Aufrufe, scheiterten jedoch an Modellgrenzen und einer komplexen UX
Danach erschienen Custom Instructions und Custom GPTs, die einfache promptbasierte Personalisierung und eine Struktur für teilbare, angepasste Modelle boten
Model Context Protocol (MCP) und Claude Code ermöglichten komplexe, aber leistungsfähige Tool-Integrationen, und zuletzt kehrten Agent Skills in vereinfachter Form zurück
Am Ende wird vermutlich eine Agentenarchitektur, die Aufgaben nur mit Allzweck-Tools und natürlichsprachlichen Anweisungen ausführt, zur zentralen Richtung der LLM-Erweiterung werden

Geschichte und Wandel der LLM-Erweiterung

Die Nutzung von LLMs hat sich von einfacher Texteingabe zu Agenten mit Kontrolle über Codebasen und Browser weiterentwickelt
- Wie sich Benutzeranpassung (customization) unterstützen lässt, wurde zur zentralen Herausforderung
- Erprobt wurden sehr unterschiedliche Ansätze, von einfachen System Prompts bis zu komplexen Client-Server-Protokollen

ChatGPT Plugins (März 2023)

OpenAI stellte ChatGPT Plugins vor, entworfen so, dass ein LLM über OpenAPI-Spezifikationen REST-Endpunkte aufrufen kann
- Ziel war der Einsatz universeller Werkzeuge auf AGI-Niveau
Wegen der Grenzen von GPT-3.5 und frühem GPT-4 kam es beim Erkunden großer API-Spezifikationen jedoch zu Fehlern und Kontextverlust
- Auch die umständliche UX, etwa das manuelle Aktivieren von Plugins, war ein Problem
Trotzdem zeigte das Plugin Code Interpreter (später Advanced Data Analysis) das Potenzial einer leistungsfähigen Sandbox-Ausführungsumgebung

Custom Instructions (Juli 2023)

Eine einfache Funktion für benutzerdefinierte Prompts, die die Komplexität von Plugins reduzierte
- Wird automatisch jeder Unterhaltung hinzugefügt und löst damit das Problem wiederholter Kontextsetzung
Später fungierte sie als Vorläufer von Regeldateien in Entwicklungsumgebungen wie .cursorrules und CLAUDE.md

Custom GPTs (November 2023)

OpenAI machte mit Custom GPTs Prompt Engineering zum Produkt
- Persona, Dateien und Actions lassen sich bündeln, um teilbare Links zu angepassten GPTs zu erzeugen
Damit erfolgte ein Rückzug vom offenen Plugin-Ansatz hin zu Apps mit Einzelzweckcharakter

Memory in ChatGPT (Februar 2024)

Der erste Fall eines Wechsels zu automatischer Personalisierung
- Während Gesprächen erwähnte Informationen werden gespeichert und später automatisch in den Kontext eingebunden
- Damit begann eine persistente Agentenstruktur, die langfristigen Zustand hält, ohne dass Nutzer ihn direkt konfigurieren müssen

Cursor Rules (April 2024)

Die Cursor IDE führte über die Datei .cursorrules eine verwaltung von Anweisungen auf Repository-Ebene ein
- Zum Beispiel: „Tabs verwenden“, „keine Semikolons“, „TypeScript verwenden“
Später wurde dies auf die Ordnerstruktur .cursor/rules erweitert, sodass sich Regeln pro Datei und Verzeichnis anwenden lassen
Hinzu kam die Fähigkeit des LLM, selbst zu entscheiden, wann Regeln angewendet werden sollen

Model Context Protocol (MCP, November 2024)

Das von Anthropic eingeführte MCP bietet eine Struktur, mit der Modelle reale Werkzeuge zuverlässig nutzen können
- Es hält eine Client-Server-Verbindung aufrecht und tauscht Tool-Definitionen, Ressourcen und Prompts aus
Es geht nicht nur um zusätzlichen Kontext, sondern um echte Fähigkeiten (capabilities)
- Zum Beispiel: Repositories lesen, DB-Abfragen, Vercel-Deployments
Trotz hoher Komplexität und großem Konfigurationsaufwand wurde es als Basisschicht für ChatGPT Apps (angekündigt im Oktober 2025) genutzt

Claude Code und Erweiterungsmechanismen (Februar 2025)

Claude Code ist ein Agent, der verschiedene Erweiterungsansätze integriert
- CLAUDE.md verwaltet Repository-Anweisungen
- MCP integriert Werkzeuge
- Unterstützung für Slash Commands, Hooks, Sub-agents, Output Styles (soll eingestellt werden) und mehr
Ob einige Funktionen dauerhaft bleiben, ist unklar, dennoch gilt es als experimentelles Integrationsmodell für Agenten-Erweiterung

Agent Skills (Oktober 2025)

Als Wiedergeburt der ChatGPT Plugins nutzen sie ohne komplexes Protokoll eine ordnerbasierte Skill-Struktur
- Bestehend aus skills/-Verzeichnis, SKILL.md, Skripten und Beispieldateien
- Um Context-Window-Bloat zu vermeiden, wird der vollständige Inhalt nur bei Bedarf gelesen
Beispiel: ein Playwright-basierter Skill zum Testen von Web-Apps
- SKILL.md enthält Metadaten und Nutzungshinweise
- Skripte werden direkt ausgeführt, ohne dass das LLM den Code unnötig in den Kontext laden muss
Grundlage ist Allzweckzugriff auf den Computer, wobei universellen Tools mehr vertraut wird als Spezialwerkzeugen

Ausblick

Agent Skills setzen das Ideal früher Plugins in die Praxis um
- Modelle sind inzwischen intelligent genug, um Aufgaben nur mit allgemeinen Tools und Anweisungen auszuführen
Agenten werden nicht mehr als bloße LLM-Schleife verstanden, sondern als mit dem Computer verbundene ausführende Instanz neu definiert
- Beispiele wie Claude Code und Zo Computer verbinden LLM und Computer direkt
Ab 2026 dürften sich LLM-Anwendungen als computerintegrierte Agentenarchitektur verbreiten
Insgesamt ist es gut möglich, dass natürlichsprachliche Erweiterung statt komplexer Protokolle wie MCP wieder ins Zentrum rückt

1 Kommentare

GN⁺ 2025-11-28

Hacker-News-Kommentare

Ich halte natürliche Sprache für zu mehrdeutig, um sie effizient zu einer Programmiersprache zu erweitern.
Genau deshalb hat die Mathematik ihre eigene domänenspezifische Sprache: um Eindeutigkeit zu gewährleisten.
- Ich habe früher in der technischen Kommunikation gearbeitet, und auch natürliche Sprache lässt sich durch wiederholte Lesen–Überarbeiten–Prüfen-Schleifen ziemlich präzise ausformen.
  Auf Englisch ist das lästig, aber mit etwas Übung kann man Mehrdeutigkeiten reduzieren.
- Deshalb halte ich progressive hardening für nötig, also ein schrittweises Verschärfen der Spezifikation.
  Das zugehörige Konzept ist in diesem Dokument gut zusammengefasst.
Ich denke, Skills sind das Konzept, das den Traum der ChatGPT Plugins Wirklichkeit werden lässt.
Die Modelle sind jetzt wohl klug genug, dass es tatsächlich funktionieren kann.
Simon Willison hat in diesem Beitrag auch argumentiert, dass Skills eine größere Veränderung als MCP seien, aber wegen der Trägheit rund um MCP scheint das bisher weniger Aufmerksamkeit zu bekommen.
- Skills wirken vermutlich weniger spannend, weil sie im Grunde eher selektiv geladener Dokumentation ähneln.
  Dass sie das komplexe Scaffolding beseitigen, das MCP verlangt, ist aber von deutlich größerer Bedeutung.
  Zum Beispiel musste ich für die Verarbeitung von Transkripten aus einem Fathom-Konto nur ein CLI-Skript erstellen und SKILL.md schreiben.
  Das Testen einer Client-API habe ich auf dieselbe Weise gelöst.
  Dieser Ansatz ist allerdings weniger flashy und bietet weniger Raum für groß angelegtes Tooling, weshalb er wohl weniger Beachtung findet.
- Die LLM-Müdigkeit ist derzeit wohl so groß, dass die Leute sich für Skills weniger begeistern.
  Außerdem setzen Skills Agenten voraus, die beliebigen Code ausführen können, was die Einstiegshürde erhöht.
- Ich verstehe noch nicht, was an einem Skills-Verzeichnis eigentlich besonders sein soll.
  Ich habe Claude Code schon früher gesagt: „Lies X und mach Y“, und ich frage mich, worin genau der Unterschied zu Skills besteht.
- Die Sandbox-Ausführung von Claude Skills ist viel zu ineffizient.
  Dass man die Arbeit über I/O und print-Anweisungen nachverfolgen muss, ist frustrierend.
- Skills wirken auf mich wie eine Endnutzer-Version von MCP.
  MCP ist für den Systemaufbau gedacht, Skills sind Claude-spezifisch und bedeuten daher starken Lock-in.
  Dass Skills sich weder gegenseitig referenzieren noch kombinieren lassen, ist ebenfalls eine große Einschränkung.
  Wenn man am Ende Probleme wie Erweiterbarkeit, Wiederverwendbarkeit oder Remote-Nutzung lösen will, landet man vermutlich wieder bei MCP.
  Falls Skills sich aber als eine andere Sicht auf MCP etablieren, könnte es später vielleicht auch einen Skill→MCP-Konverter geben.
Ich verstehe nicht, was die Behauptung, dass sich die Modelle verbessert haben, mit der Bitter Lesson zu tun haben soll.
Es ist immer noch eine Struktur, in der menschliche Expertise eingespeist wird, um die Grenzen der Modelle auszugleichen.
Eine echte Bitter Lesson wäre es, wenn man ohne menschliches Eingreifen allein durch mehr Rechenressourcen bessere Ergebnisse erzielen würde.
- Ich habe auch geklickt, weil ich dachte, genau darum würde es in dem Artikel gehen.
Custom GPTs sind zwar ein altes Konzept, aber ich habe dafür kürzlich einen praktischen Einsatz gefunden.
Ich habe ein Custom GPT gebaut, das über die Notion API die Besprechungsnotizen und To-dos meiner Frau verwaltet, und innerhalb weniger Stunden war es schon ziemlich nützlich.
Ich wollte es mit der Reminders-App verbinden, musste wegen API-Beschränkungen und UI-Berechtigungsproblemen am Ende aber selbst einen MCP-Server bauen.
Ich habe auf einem alten MacBook Pro Amphetamine laufen lassen und es über Tailnet und einen Cloudflare-Tunnel verbunden, damit ChatGPT darauf zugreifen konnte.
Es ist kompliziert, aber einen AI-Agenten als zentrales Hub zu haben, war ziemlich wertvoll.
Die zugehörige Umsetzung ist in diesem Blog beschrieben.
Auch ChatGPT 5.1 halluziniert weiterhin APIs, die es nicht gibt, aber es wird trotzdem allmählich besser.
Jedes Mal, wenn Menschen ihre Fähigkeit zur Informationsverarbeitung verbessert haben, hat sich die Welt verändert; selbst wenn LLMs nur die Wahrscheinlichkeit richtiger Antworten erhöhen, wird sich die Welt erneut verändern.
Ich kann die Aussage nachvollziehen, dass man „MCP shorten“ möchte.
MCP ist schwer zu handhaben, aber es gibt viele Aufgaben in der Welt, die sichere Schnittstellen brauchen.
Dass das ursprüngliche Design so komplex war, lag daran, dass es die Realität der Verarbeitung gestreamter Tokens direkt offengelegt hat.
Es ist kompliziert, liegt aber meiner Meinung nach immer noch an der Grenze eines einfachen Systems, das tatsächlich funktioniert.
Vollständig ersetzt werden kann es wohl nicht, und solange Modelle nicht sauber mit Agentenumgebungen umgehen können, wird man Strukturen wie MCP noch eine Weile brauchen.
- MCP ist letztlich auch nur noch ein weiteres selbstbeschreibendes API-Format.
  Heutige Modelle können oft schon allein mit einer einfachen API-Beschreibung ausreichend interagieren.
  Wenn es bereits eine API gibt, gibt es weniger Gründe, extra noch einen MCP-Server zu bauen.
- Ich verstehe nicht, warum Leute sagen, MCP sei schwierig.
  Die Implementierung ist im Grunde nur JSON-RPC + API.
  Das Hello-World-Beispiel von Python FastMCP ist fast identisch mit der Flask-Version.
- MCP scheint seiner Zeit voraus gewesen zu sein.
  Skills sind als Gegenreaktion darauf entstanden, und künftig dürfte es sich in Richtung einer selbstassemblierenden Struktur aus LLM-Raum und Code-Raum entwickeln.
- MCP ist nur wieder eine weitere Middleware-Geschichte, und so etwas ist bislang immer gescheitert.
Auch Skills.md wird am Ende vermutlich wie MCP unter aufgeblähtem Kontext leiden.
Stattdessen würde ich lieber einfach nur Skripte ohne Beschreibung dort ablegen und das LLM darauf trainieren, im Ordner selbst nach dem Nötigen zu suchen.
- Ich halte das für ein lösbares Engineering-Problem.
  Man könnte zum Beispiel einen leichtgewichtigen Subagenten einsetzen, der Skills liest und auswählt.
Die diesen Monat angekündigten ChatGPT Apps fühlen sich fast genauso an wie die ChatGPT Plugins von vor drei Jahren.
Der Unterschied liegt nur in der Art, wie Plugins aufgerufen werden — früher hat man sie aus einem Dropdown gewählt, jetzt schreibt man einfach den Namen in den Prompt.
Aus Sicht der Nutzer wirkt das nicht wie ein großer Unterschied.
Ich betrachte Prompts als probabilistische Programme und denke, dass man dafür eine dedizierte Shell braucht, die sie aufruft.
Coding-Agenten wie Claude Code oder Codex sind Beispiele dafür.
Ich forsche daran, solche Funktionen vom IDE zu entkoppeln und zu einer eigenständigen Shell wie llm-do weiterzuentwickeln.
Der eigentliche Kern der LLM-Erweiterung ist die Shell-Integration.
Ein mit der Shell verbundenes LLM kann im Grunde fast alles tun.
- Man kann zwar auch mit einem Löffel einen Pool ausheben, aber ich finde einen Backhoe dafür deutlich sinnvoller.

Die bittere Lehre aus der LLM-Erweiterung

Geschichte und Wandel der LLM-Erweiterung

ChatGPT Plugins (März 2023)

Custom Instructions (Juli 2023)

Custom GPTs (November 2023)

Memory in ChatGPT (Februar 2024)

Cursor Rules (April 2024)

Model Context Protocol (MCP, November 2024)

Claude Code und Erweiterungsmechanismen (Februar 2025)

Agent Skills (Oktober 2025)

Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare