- In den vergangenen drei Jahren hat sich die Entwicklung von LLM-Erweiterungsansätzen in viele Richtungen entfaltet, darunter Plugins, Benutzeranweisungen, Memory, Protokolle und Skills
- Frühe ChatGPT Plugins versuchten den Einsatz universeller Werkzeuge über API-Aufrufe, scheiterten jedoch an Modellgrenzen und einer komplexen UX
- Danach erschienen Custom Instructions und Custom GPTs, die einfache promptbasierte Personalisierung und eine Struktur für teilbare, angepasste Modelle boten
- Model Context Protocol (MCP) und Claude Code ermöglichten komplexe, aber leistungsfähige Tool-Integrationen, und zuletzt kehrten Agent Skills in vereinfachter Form zurück
- Am Ende wird vermutlich eine Agentenarchitektur, die Aufgaben nur mit Allzweck-Tools und natürlichsprachlichen Anweisungen ausführt, zur zentralen Richtung der LLM-Erweiterung werden
Geschichte und Wandel der LLM-Erweiterung
- Die Nutzung von LLMs hat sich von einfacher Texteingabe zu Agenten mit Kontrolle über Codebasen und Browser weiterentwickelt
- Wie sich Benutzeranpassung (customization) unterstützen lässt, wurde zur zentralen Herausforderung
- Erprobt wurden sehr unterschiedliche Ansätze, von einfachen System Prompts bis zu komplexen Client-Server-Protokollen
ChatGPT Plugins (März 2023)
- OpenAI stellte ChatGPT Plugins vor, entworfen so, dass ein LLM über OpenAPI-Spezifikationen REST-Endpunkte aufrufen kann
- Ziel war der Einsatz universeller Werkzeuge auf AGI-Niveau
- Wegen der Grenzen von GPT-3.5 und frühem GPT-4 kam es beim Erkunden großer API-Spezifikationen jedoch zu Fehlern und Kontextverlust
- Auch die umständliche UX, etwa das manuelle Aktivieren von Plugins, war ein Problem
- Trotzdem zeigte das Plugin Code Interpreter (später Advanced Data Analysis) das Potenzial einer leistungsfähigen Sandbox-Ausführungsumgebung
Custom Instructions (Juli 2023)
- Eine einfache Funktion für benutzerdefinierte Prompts, die die Komplexität von Plugins reduzierte
- Wird automatisch jeder Unterhaltung hinzugefügt und löst damit das Problem wiederholter Kontextsetzung
- Später fungierte sie als Vorläufer von Regeldateien in Entwicklungsumgebungen wie
.cursorrules und CLAUDE.md
Custom GPTs (November 2023)
- OpenAI machte mit Custom GPTs Prompt Engineering zum Produkt
- Persona, Dateien und Actions lassen sich bündeln, um teilbare Links zu angepassten GPTs zu erzeugen
- Damit erfolgte ein Rückzug vom offenen Plugin-Ansatz hin zu Apps mit Einzelzweckcharakter
Memory in ChatGPT (Februar 2024)
- Der erste Fall eines Wechsels zu automatischer Personalisierung
- Während Gesprächen erwähnte Informationen werden gespeichert und später automatisch in den Kontext eingebunden
- Damit begann eine persistente Agentenstruktur, die langfristigen Zustand hält, ohne dass Nutzer ihn direkt konfigurieren müssen
Cursor Rules (April 2024)
- Die Cursor IDE führte über die Datei
.cursorrules eine verwaltung von Anweisungen auf Repository-Ebene ein
- Zum Beispiel: „Tabs verwenden“, „keine Semikolons“, „TypeScript verwenden“
- Später wurde dies auf die Ordnerstruktur
.cursor/rules erweitert, sodass sich Regeln pro Datei und Verzeichnis anwenden lassen
- Hinzu kam die Fähigkeit des LLM, selbst zu entscheiden, wann Regeln angewendet werden sollen
Model Context Protocol (MCP, November 2024)
- Das von Anthropic eingeführte MCP bietet eine Struktur, mit der Modelle reale Werkzeuge zuverlässig nutzen können
- Es hält eine Client-Server-Verbindung aufrecht und tauscht Tool-Definitionen, Ressourcen und Prompts aus
- Es geht nicht nur um zusätzlichen Kontext, sondern um echte Fähigkeiten (capabilities)
- Zum Beispiel: Repositories lesen, DB-Abfragen, Vercel-Deployments
- Trotz hoher Komplexität und großem Konfigurationsaufwand wurde es als Basisschicht für ChatGPT Apps (angekündigt im Oktober 2025) genutzt
Claude Code und Erweiterungsmechanismen (Februar 2025)
- Claude Code ist ein Agent, der verschiedene Erweiterungsansätze integriert
CLAUDE.md verwaltet Repository-Anweisungen
- MCP integriert Werkzeuge
- Unterstützung für Slash Commands, Hooks, Sub-agents, Output Styles (soll eingestellt werden) und mehr
- Ob einige Funktionen dauerhaft bleiben, ist unklar, dennoch gilt es als experimentelles Integrationsmodell für Agenten-Erweiterung
Agent Skills (Oktober 2025)
- Als Wiedergeburt der ChatGPT Plugins nutzen sie ohne komplexes Protokoll eine ordnerbasierte Skill-Struktur
- Bestehend aus
skills/-Verzeichnis, SKILL.md, Skripten und Beispieldateien
- Um Context-Window-Bloat zu vermeiden, wird der vollständige Inhalt nur bei Bedarf gelesen
- Beispiel: ein Playwright-basierter Skill zum Testen von Web-Apps
SKILL.md enthält Metadaten und Nutzungshinweise
- Skripte werden direkt ausgeführt, ohne dass das LLM den Code unnötig in den Kontext laden muss
- Grundlage ist Allzweckzugriff auf den Computer, wobei universellen Tools mehr vertraut wird als Spezialwerkzeugen
Ausblick
- Agent Skills setzen das Ideal früher Plugins in die Praxis um
- Modelle sind inzwischen intelligent genug, um Aufgaben nur mit allgemeinen Tools und Anweisungen auszuführen
- Agenten werden nicht mehr als bloße LLM-Schleife verstanden, sondern als mit dem Computer verbundene ausführende Instanz neu definiert
- Beispiele wie Claude Code und Zo Computer verbinden LLM und Computer direkt
- Ab 2026 dürften sich LLM-Anwendungen als computerintegrierte Agentenarchitektur verbreiten
- Insgesamt ist es gut möglich, dass natürlichsprachliche Erweiterung statt komplexer Protokolle wie MCP wieder ins Zentrum rückt
1 Kommentare
Hacker-News-Kommentare
Ich halte natürliche Sprache für zu mehrdeutig, um sie effizient zu einer Programmiersprache zu erweitern.
Genau deshalb hat die Mathematik ihre eigene domänenspezifische Sprache: um Eindeutigkeit zu gewährleisten.
Auf Englisch ist das lästig, aber mit etwas Übung kann man Mehrdeutigkeiten reduzieren.
Das zugehörige Konzept ist in diesem Dokument gut zusammengefasst.
Ich denke, Skills sind das Konzept, das den Traum der ChatGPT Plugins Wirklichkeit werden lässt.
Die Modelle sind jetzt wohl klug genug, dass es tatsächlich funktionieren kann.
Simon Willison hat in diesem Beitrag auch argumentiert, dass Skills eine größere Veränderung als MCP seien, aber wegen der Trägheit rund um MCP scheint das bisher weniger Aufmerksamkeit zu bekommen.
Dass sie das komplexe Scaffolding beseitigen, das MCP verlangt, ist aber von deutlich größerer Bedeutung.
Zum Beispiel musste ich für die Verarbeitung von Transkripten aus einem Fathom-Konto nur ein CLI-Skript erstellen und
SKILL.mdschreiben.Das Testen einer Client-API habe ich auf dieselbe Weise gelöst.
Dieser Ansatz ist allerdings weniger flashy und bietet weniger Raum für groß angelegtes Tooling, weshalb er wohl weniger Beachtung findet.
Außerdem setzen Skills Agenten voraus, die beliebigen Code ausführen können, was die Einstiegshürde erhöht.
Ich habe Claude Code schon früher gesagt: „Lies X und mach Y“, und ich frage mich, worin genau der Unterschied zu Skills besteht.
Dass man die Arbeit über I/O und
print-Anweisungen nachverfolgen muss, ist frustrierend.MCP ist für den Systemaufbau gedacht, Skills sind Claude-spezifisch und bedeuten daher starken Lock-in.
Dass Skills sich weder gegenseitig referenzieren noch kombinieren lassen, ist ebenfalls eine große Einschränkung.
Wenn man am Ende Probleme wie Erweiterbarkeit, Wiederverwendbarkeit oder Remote-Nutzung lösen will, landet man vermutlich wieder bei MCP.
Falls Skills sich aber als eine andere Sicht auf MCP etablieren, könnte es später vielleicht auch einen Skill→MCP-Konverter geben.
Ich verstehe nicht, was die Behauptung, dass sich die Modelle verbessert haben, mit der Bitter Lesson zu tun haben soll.
Es ist immer noch eine Struktur, in der menschliche Expertise eingespeist wird, um die Grenzen der Modelle auszugleichen.
Eine echte Bitter Lesson wäre es, wenn man ohne menschliches Eingreifen allein durch mehr Rechenressourcen bessere Ergebnisse erzielen würde.
Custom GPTs sind zwar ein altes Konzept, aber ich habe dafür kürzlich einen praktischen Einsatz gefunden.
Ich habe ein Custom GPT gebaut, das über die Notion API die Besprechungsnotizen und To-dos meiner Frau verwaltet, und innerhalb weniger Stunden war es schon ziemlich nützlich.
Ich wollte es mit der Reminders-App verbinden, musste wegen API-Beschränkungen und UI-Berechtigungsproblemen am Ende aber selbst einen MCP-Server bauen.
Ich habe auf einem alten MacBook Pro Amphetamine laufen lassen und es über Tailnet und einen Cloudflare-Tunnel verbunden, damit ChatGPT darauf zugreifen konnte.
Es ist kompliziert, aber einen AI-Agenten als zentrales Hub zu haben, war ziemlich wertvoll.
Die zugehörige Umsetzung ist in diesem Blog beschrieben.
Auch ChatGPT 5.1 halluziniert weiterhin APIs, die es nicht gibt, aber es wird trotzdem allmählich besser.
Jedes Mal, wenn Menschen ihre Fähigkeit zur Informationsverarbeitung verbessert haben, hat sich die Welt verändert; selbst wenn LLMs nur die Wahrscheinlichkeit richtiger Antworten erhöhen, wird sich die Welt erneut verändern.
Ich kann die Aussage nachvollziehen, dass man „MCP shorten“ möchte.
MCP ist schwer zu handhaben, aber es gibt viele Aufgaben in der Welt, die sichere Schnittstellen brauchen.
Dass das ursprüngliche Design so komplex war, lag daran, dass es die Realität der Verarbeitung gestreamter Tokens direkt offengelegt hat.
Es ist kompliziert, liegt aber meiner Meinung nach immer noch an der Grenze eines einfachen Systems, das tatsächlich funktioniert.
Vollständig ersetzt werden kann es wohl nicht, und solange Modelle nicht sauber mit Agentenumgebungen umgehen können, wird man Strukturen wie MCP noch eine Weile brauchen.
Heutige Modelle können oft schon allein mit einer einfachen API-Beschreibung ausreichend interagieren.
Wenn es bereits eine API gibt, gibt es weniger Gründe, extra noch einen MCP-Server zu bauen.
Die Implementierung ist im Grunde nur JSON-RPC + API.
Das Hello-World-Beispiel von Python FastMCP ist fast identisch mit der Flask-Version.
Skills sind als Gegenreaktion darauf entstanden, und künftig dürfte es sich in Richtung einer selbstassemblierenden Struktur aus LLM-Raum und Code-Raum entwickeln.
Auch Skills.md wird am Ende vermutlich wie MCP unter aufgeblähtem Kontext leiden.
Stattdessen würde ich lieber einfach nur Skripte ohne Beschreibung dort ablegen und das LLM darauf trainieren, im Ordner selbst nach dem Nötigen zu suchen.
Man könnte zum Beispiel einen leichtgewichtigen Subagenten einsetzen, der Skills liest und auswählt.
Die diesen Monat angekündigten ChatGPT Apps fühlen sich fast genauso an wie die ChatGPT Plugins von vor drei Jahren.
Der Unterschied liegt nur in der Art, wie Plugins aufgerufen werden — früher hat man sie aus einem Dropdown gewählt, jetzt schreibt man einfach den Namen in den Prompt.
Aus Sicht der Nutzer wirkt das nicht wie ein großer Unterschied.
Ich betrachte Prompts als probabilistische Programme und denke, dass man dafür eine dedizierte Shell braucht, die sie aufruft.
Coding-Agenten wie Claude Code oder Codex sind Beispiele dafür.
Ich forsche daran, solche Funktionen vom IDE zu entkoppeln und zu einer eigenständigen Shell wie llm-do weiterzuentwickeln.
Der eigentliche Kern der LLM-Erweiterung ist die Shell-Integration.
Ein mit der Shell verbundenes LLM kann im Grunde fast alles tun.