Warum Dateisysteme Aufmerksamkeit bekommen

(madalitso.me)

36 Punkte von GN⁺ 2026-03-09 | 1 Kommentare | Auf WhatsApp teilen

Im Ökosystem der AI Agents rücken Dateisysteme zuletzt wieder in den Fokus und treten als Mittel zur Verwaltung persistenter Kontexte neben Datenbanken hervor
Das Kontextfenster eines LLM ist eher ein Whiteboard, das ständig gelöscht wird, als ein persistentes Gedächtnis; ein Dateisystem ist das einfachste Mittel für persistente Speicherung, um dieses Problem zu lösen
Claude Code, Cursor usw. implementieren Langzeitgedächtnis über dateibasierte Kontextspeicherung; Dateien wie CLAUDE.md und aboutme.md enthalten dabei die Identität des Agents und Informationen über seine Umgebung
Kontextmanagement auf Basis des Dateisystems entwickelt sich zum zentralen Thema; große Unternehmen wie LlamaIndex, LangChain, Oracle und Archil veröffentlichen dazu fortlaufend Beiträge und Produkte
Während Agent-Kontextdateien wie CLAUDE.md, AGENTS.md und .cursorrules stark zunehmen, wird das Agent Skills-Format (SKILL.md) von Anthropic von Microsoft, OpenAI, GitHub und Cursor übernommen und schafft so Interoperabilität
Laut Forschung der ETH Zürich können Kontextdateien paradoxerweise sogar die Erfolgsrate bei Tasks senken und die Inferenzkosten um mehr als 20 % erhöhen; daher sollten nur minimale Anforderungen beschrieben werden
Dateien sind nicht an eine bestimmte App gebunden und etablieren sich im Zeitalter der AI Agents als offene Schnittstelle, die Werkzeugwechsel, die Kombination von Workflows und den Erhalt von Kontinuität ermöglicht

Everyone is talking about files : Überall spricht man über Dateien

LlamaIndex veröffentlichte "Files Are All You Need", und LangChain behandelte wie Agents Dateisysteme für Context Engineering nutzen können
Oracle (ja, genau dieses Oracle!) veröffentlichte einen Beitrag zum Vergleich von Dateisystemen und Datenbanken für effektives AI-Agent-Memory-Management, und Dan Abramov schlug ein soziales Dateisystem auf Basis des AT Protocol vor
Archil baut Cloud-Volumes, weil Agents ein POSIX-Dateisystem wollen
Jerry Liu von LlamaIndex argumentiert, dass statt "eines Agents mit Hunderten von Tools" ein Agent mit einem Dateisystem und 5 bis 10 Tools allgemeiner einsetzbar sein könne als ein Agent mit mehr als 100 MCP-Tools
Karpathy weist darauf hin, dass Claude Code deshalb funktioniert, weil es direkt auf dem Computer, in der Umgebung, mit den Daten und im Kontext des Nutzers läuft, und bewertet den Fokus von OpenAI auf Cloud-Container-Deployments als Fehlrichtung
Derzeit machen Coding Agents den Großteil der praktischen AI-Anwendungsfälle aus, und Anthropic nähert sich der Profitabilität, wobei das CLI-Tool Claude Code einen erheblichen Teil des Umsatzes antreibt

Das Kontextfenster ist kein Gedächtnis

Das menschliche Gedächtnis umfasst Langzeitspeicherung, selektiven Abruf und das Vergessen unnötiger Informationen; das Kontextfenster eines LLM ähnelt dagegen eher einem Whiteboard, das ständig gelöscht wird
Wenn bei der Nutzung von Claude Code der Hinweis "context left until auto-compact" erscheint, wird der vom Agent angesammelte Kontext zu Codebasis, Präferenzen und Entscheidungen komprimiert oder geht verloren
Das Dateisystem löst dieses Problem auf die einfachste Weise: Es schreibt Aufzeichnungen in Dateien und liest sie bei Bedarf wieder ein
- CLAUDE.md liefert persistenten Kontext für ein Projekt
- Cursor speichert frühere Chatverläufe als durchsuchbare Dateien
- Die Datei aboutme.md fungiert als portable Identitätsbeschreibung mit Präferenzen, Fähigkeiten und Arbeitsstil und kann ohne API-Orchestrierung zwischen Apps bewegt werden

Forschung der ETH Zürich: das Paradox der Kontextdateien

Eine aktuelle Arbeit der ETH Zürich untersucht, ob Kontextdateien auf Repository-Ebene die Erledigung von Tasks durch Coding Agents tatsächlich unterstützen
Das Ergebnis ist kontraintuitiv: Über mehrere Agents und Modelle hinweg senken Kontextdateien sogar die Erfolgsrate bei Tasks, während die Inferenzkosten um mehr als 20 % steigen
- Agents mit Kontextdateien erkundeten breiter, führten mehr Tests aus und durchliefen mehr Dateien, kamen aber später zu dem Code, der tatsächlich geändert werden musste
- Die Dateien wirken wie eine Checkliste, der der Agent übermäßig ernsthaft folgt
Das Fazit der Arbeit lautet nicht "Verwendet keine Kontextdateien", sondern: Unnötige Anforderungen machen Tasks schwieriger, und Kontextdateien sollten nur minimale Anforderungen beschreiben
Das Problem ist nicht die persistente Schicht des Dateisystems selbst, sondern die Praxis, CLAUDE.md wie ein 2.000 Wörter langes Onboarding-Dokument zu schreiben

Dateiformate sind die API — aber welche Datei?

Derzeit existieren CLAUDE.md, AGENTS.md, copilot-instructions.md und .cursorrules nebeneinander; man ist sich einig, dass Agents persistenten dateisystembasierten Kontext brauchen, über Dateinamen und Inhaltsformat besteht jedoch kein Konsens
Zentrales Design in Dan Abramovs Text zum sozialen Dateisystem: Das AT Protocol behandelt Nutzerdaten als Dateien innerhalb persönlicher Repositories, und Apps vermeiden Kollisionen über Namespaces auf Basis von Domainnamen, ohne sich darauf einigen zu müssen, was ein "Post" ist
- Die Datenbank jeder App wird zu abgeleiteten Daten, also zu einer zwischengespeicherten materialisierten Sicht aller Benutzerordner
Anthropic veröffentlichte Agent Skills als offenen Standard: Das Format SKILL.md wird von Microsoft, OpenAI, Atlassian, GitHub und Cursor übernommen
- Ein für Claude Code geschriebener Skill funktioniert auch in Codex und Copilot — das Dateiformat ist die API
NanoClaw ist ein leichtgewichtiges Framework für persönliche AI-Assistenten und setzt auf ein Modell von "Skills statt Features"
- Wenn Telegram-Unterstützung benötigt wird, lehrt nicht ein Telegram-Modul, sondern der Skill /add-telegram (eine Markdown-Datei) Claude Code, wie die Integration erfolgt
- Skills sind Dateien und damit portabel, auditierbar und kombinierbar — ein MCP-Server oder Plugin-Marktplatz ist nicht nötig
Das ist Interoperabilität ohne Koordination: Wenn zwei Apps Markdown lesen können, können sie Kontext teilen; wenn sie das Format SKILL.md verstehen, können sie Funktionen teilen; ohne Partnerschaftsverträge oder Treffen von Standardisierungsgremien übernimmt das Dateiformat selbst die Koordination

Die Verlagerung des Engpasses

Traditionelle Datenarchitekturen wurden unter der Annahme entworfen, dass Storage der Engpass ist; als die Verarbeitungskapazität die Storage-I/O überholte, kam es zum Paradigmenwechsel hin zur Trennung von Storage und Compute (S3 + temporäre Compute-Cluster)
Bei AI Agents zeigt sich ein ähnliches Phänomen: Der Engpass liegt nicht bei Modellleistung oder Compute, sondern beim Kontext
- Die Modelle sind intelligent genug, aber vergesslich
- Das Dateisystem ist genau an dem Ort, an dem der Agent läuft (auf der Maschine des Entwicklers, in einer Umgebung, in der Daten bereits vorhanden sind), die effektivste Methode zur Verwaltung persistenter Kontexte

Das Dateisystem ist bereits ein Graph

Auf Twitter wurde angemerkt, dass Menschen, die sagen, man brauche bei Agents keinen Graphen, weil man ein Dateisystem nutzt, bestreiten, dass sie bereits einen Graphen verwenden
- Ein Dateisystem ist eine Baumstruktur aus Verzeichnissen, Unterverzeichnissen und Dateien, also ein gerichteter azyklischer Graph (DAG)
- Wenn ein Agent ls, grep, das Lesen von Dateien und das Verfolgen von Referenzen nutzt, traversiert er bereits einen Graphen
Richmond in Oracles Beitrag formuliert die schärfste Unterscheidung: Dateisysteme gewinnen als Interface, Datenbanken gewinnen als Basisschicht
- Sobald gleichzeitiger Zugriff, semantische Suche in großem Maßstab, Deduplizierung oder Gewichtung nach Aktualität nötig werden, baut man letztlich eigene Indizes — faktisch also eine Datenbank
Die Datei-Schnittstelle ist mächtig, weil sie universell ist und von LLMs bereits verstanden wird; die datenbankbasierte Schicht ist mächtig, weil sie die für den realen Betrieb nötigen Garantien bietet
Die Zukunft ist nicht Datei gegen Datenbank, sondern eine Struktur, in der Dateien die Schnittstelle sind, mit der Menschen und Agents interagieren, während darunter eine zum jeweiligen Use Case passende Basisschicht liegt

Das ist eine Neudefinition des Personal Computing

Dateisysteme könnten im AI-Zeitalter die Bedeutung von Personal Computing neu definieren
- Daten, Kontext, Präferenzen, Skills und Erinnerungen existieren in einem Format, das dem Nutzer gehört, von jedem Agent gelesen werden kann und nicht in einer bestimmten Anwendung eingeschlossen ist
- aboutme.md funktioniert heute in OpenClaw/NanoClaw und morgen auch in neuen Tools
- Skill-Dateien sind portabel, und Projektkontext bleibt über Tools hinweg erhalten
Das entspricht dem, worauf Personal Computing ursprünglich ausgerichtet war, bevor alles in geschlossene SaaS-Apps und proprietäre Datenbanken verschoben wurde
- Dateien sind das ursprüngliche offene Protokoll, und da AI Agents zur zentralen Schnittstelle des Computings werden, fungieren sie als Interoperabilitätsschicht, die Werkzeugwechsel, die Kombination von Workflows und die Wahrung von Kontinuität zwischen Anwendungen ohne Erlaubnis von irgendwem ermöglicht
Allerdings gibt es auch eine idealistische Seite: Die Geschichte offener Formate ist voller Standards, die auf dem Papier gewannen und in der Praxis scheiterten
- Unternehmen haben starke Anreize, ihre eigenen Kontextdateien subtil anders zu gestalten, um Wechselkosten aufrechtzuerhalten
- Dass CLAUDE.md, AGENTS.md und .cursorrules nicht in einem universellen Format aufgehen, sondern koexistieren, zeigt bereits, dass Fragmentierung der Standardzustand ist
- Die Arbeit der ETH Zürich erinnert daran, dass selbst bei vorhandenem Format gute Kontextdateien schwer zu schreiben sind und schlechte Kontextdateien schlimmer sein können als gar keine
Die Kernbotschaft von Dan Abramov:

Unsere Erinnerungen, Gedanken und Designs sollten länger überleben als die Software, die sie hervorgebracht hat
- Das ist kein technisches Argument, sondern eine Frage der Werte, und Dateisysteme eignen sich für diese Rolle nicht deshalb, weil sie die beste Technologie sind, sondern weil sie die einzige Technologie sind, die den Nutzern bereits gehört

1 Kommentare

GN⁺ 2026-03-09

Hacker-News-Kommentare

Dateien sind eine grundlegende Form von Freiheit, weil sie es Nutzern ermöglichen, Daten direkt zu besitzen
Das schafft Souveränität über Vertraulichkeit, Integrität und Verfügbarkeit
Als zentrale Säule digitaler Freiheit sollte das auf einer Stufe mit FOSS-Lizenzen gesehen werden
- Dank der Schlussfolgerungsfähigkeit von LLMs muss man sich heute nicht mehr so viele Gedanken über Dateistrukturen machen
  Natürliche Sprache existiert direkt in der Datei, und Lesbarkeit wird zur Spezifikation
  Jeder, der gut lesbaren Text schreiben kann, kann in Dateien schreiben, und sie lassen sich wie ein REPL sofort ausführen
- Deshalb finde ich die Versuche großer Tech-Unternehmen wie Apple unangenehm, das Konzept von Dateien abzuschaffen
  Daten werden an Apps gebunden und können nicht mehr unabhängig existieren, außerdem wird Import/Export erschwert
  Um dieses Problem zu lösen, baue ich ein Tool, das Daten aus Backups auf feingranularer Dateiebene extrahiert und in eine persönliche digitale Bibliothek überführt
  Unveränderliche Daten lassen sich archivieren, aber die größte Herausforderung ist, veränderbare Daten wieder in eine „lebendige“ Form zu bringen, sodass sie in Apps bearbeitbar bleiben
- Konfigurationsdateien sind meiner Meinung nach viel besser als ein zentraler Speicher wie die Windows Registry
  Temporäre Änderungen und das Teilen sind einfach, und die Bedeutung der Konfiguration ist klar definiert
  Mir gefällt nicht, dass Windows Dateien wie Bürger dritter Klasse behandelt
Ich sehe das aus SaaS-Perspektive genauso
Je flüchtiger und domänenspezifischer der Code ist, desto mehr sollten Daten (Dateien) standardisiert und fast schon langweilig stabil sein
Formate, die nur eine bestimmte App lesen kann, sind technische Schulden und ruinieren am Ende Projekte
Dass man selbst eine JPEG-Datei von 1995 noch öffnen kann, liegt daran, dass sie nicht von einer bestimmten Software abhängt
- Mein Fotoverwaltungssystem, das ich seit mehr als 10 Jahren nutze, behandelt Dateisystem und EXIF als Single Source of Truth
  Das ist ein mehrfach bestätigter, richtiger Ansatz
  Abstraktionsschichten wie Google Photos oder Immich dienen nur der Bequemlichkeit, der Kern sind die Dateien
  Auch bei der Arbeit verwalte ich Recherche und Dokumentation mit Markdown- und CSV-Dateien
  Link zum elodie-Projekt
- Das Problem heutiger Fotoverwaltung ist, dass Bearbeitungen, Tags und Albuminformationen komplett als externe Metadaten gespeichert werden
  Wechselt man die Plattform, geht der gesamte Bearbeitungsverlauf verloren
  Rückgängig-Funktionen sind praktisch, aber ich wünschte, solche Änderungen würden so standardisiert, dass sie portabel sind
Ich möchte Plan 9 von Bell Labs erwähnen
Plan 9 from Bell Labs
- Ich entwickle einen Agent-Orchestrator namens agenc
  Ich habe Claude nach Vorarbeiten gefragt, und es hat Plan 9 genannt — genau dieses Konzept brauchen wir heute
  Die Philosophie minimaler Agent-Berechtigungen entspricht exakt dem Sicherheitsmodell von Unternehmen
  Plan 9 kam nur einfach zu früh
- Als neues Dateisystem könnte sich ein Blick auf GeFS lohnen
Mir wird wieder klar, dass Plan 9 und UNIX recht hatten
Die mächtigste Schnittstelle sind Textdateien auf einem Dateisystem
Es ist Zeit, 9p2026 neu zu bauen
Allerdings ist ein Teil der Grundannahmen im Artikel falsch — Dateisysteme sind keine Bäume, sondern zyklische Graphen
- Ich frage mich, was die Kernfunktionen von Plan 9 sind, ob man sie mit FUSE anbinden kann oder ob es dafür tiefere Magie braucht
Auch für mich ist das eine Geschichte, mit der ich mich stark identifizieren kann
Im letzten Jahr habe ich persönliche Daten aus über zehn SaaS-Diensten in eine einzige Verzeichnisstruktur überführt
Ein gut organisiertes Dateisystem reicht für einen einzelnen Nutzer aus und beseitigt die Fragmentierung der Daten
Ich glaube, als Nächstes werden neue Datenbanken auftauchen, die sicheres Schreiben durch mehrere Nutzer unterstützen, ohne das Dateisystem undurchsichtig zu machen
Das fühlt sich ähnlich an wie die Rolle von QMD für die Suche
Der Einsatz von AI befindet sich im Moment noch in einem unausgereiften Stadium
Produktionssysteme werden auf konsistenten und skalierbaren Datenstrukturen laufen, aber die Agenten, die sie bauen, werden auf dateisystembasierten Technologien aufsetzen
Die UI wird sich vom Desktop weg zu Sprach- und visuellen Interfaces entwickeln
Etwa indem in Videoanrufen Mimik und Sprechweise gelesen werden, um mehr Kontext zu gewinnen
- In diesem kürzlich gesehenen AI-Demovideo wird Kontext aus Sprache und Gesten extrahiert, in Text umgewandelt und dann in ein LLM eingespeist
  Nicht vollständig multimodal, aber sehr interessant
- Trotzdem wird Texteingabe wohl nicht verschwinden
  Schreiben hilft, Gedanken zu ordnen, und ist weniger spontan als Sprechen
  Egal wie gut Spracherkennung (STT) wird, menschliche Intelligenz arbeitet weiterhin stark schreibzentriert
Dateien sind nur nützlich, wenn man sie finden kann
Das heißt: Suche und Indexierung sind unverzichtbar, aber bei wachsender Größe beginnen sie zu zerbrechen
Deshalb ist die entscheidende Frage die „Größe der Wissensbasis, mit der ein Agent arbeiten kann“
Ich habe das Thema in meinem Artikel „a good agentic KB“ aus First-Principles-Perspektive analysiert
In mehreren gut organisierten Dateien wie in einer Codebasis finden Coding Agents Informationen gut
Bei chaotischen Daten ist die Strukturierung über das Dateisystem aber deutlich schwieriger
Das ist komplexer als semantische Suche in einer Vektor-DB
Codebasen behalten dank des DRY-Prinzips von Natur aus eine Graphstruktur, bei Nicht-Code-Daten ist das nicht so
Deshalb stimme ich zu, dass das Dateisystem langfristig eine gute Kontextstruktur ist, aber die Suche noch nicht vollständig ersetzen kann
Ich halte Dateisysteme für eine miserable Abstraktion
Dateien an eine bewusste Struktur aus Verzeichnisbäumen zu hängen, ist ineffizient
Ein relationales Modell oder eine Struktur auf Basis eindeutiger Identifikatoren erscheint mir besser
- Der Vorteil von Dateisystemen ist die Wahrung der Lokalität von Änderungen
  Änderungen in einem Zweig beeinflussen andere Zweige nicht
  Datenbanken hingegen können mit UPDATE oder DELETE Auswirkungen auf das Gesamtsystem haben und sind daher riskanter
  Deshalb wäre ein Kompromiss ideal, wie in modernen Betriebssystemen: eine Baumstruktur mit DB-Indizes darüber
- NTFS verwendet intern eine MFT-Datenbank
  Dateinamen werden mit einem b+tree indiziert, und die Dateidaten werden ebenfalls in der MFT gespeichert
  Verzeichnisse sind nur Zeilen mit dem Attribut „directory=true“
  Ein vollständig relationaler Ansatz wie WinFS ist an Performance-Problemen gescheitert, und Skydrive hat später diesen Platz eingenommen
- In den meisten Dateisystemen werden Dateien über inodes eindeutig identifiziert und können über mehrere Links referenziert werden
  Das wird anscheinend oft vergessen
- UUIDs sind für Menschen intransparent, für Agenten aber perfekt unterscheidbare Identifikatoren
  Am Ende wird es wohl in Richtung S3-artiger Blob-Speicher mit guten Indizes gehen, bei denen Verzeichnisse bei Bedarf on demand erzeugt werden
  Dann bleibt von Verzeichnissen nur noch die Gruppierungsfunktion übrig, etwa im Sinne von „Materialien zu Q3 liegen in diesem Verzeichnis“

Warum Dateisysteme Aufmerksamkeit bekommen

Everyone is talking about files : Überall spricht man über Dateien

Das Kontextfenster ist kein Gedächtnis

Forschung der ETH Zürich: das Paradox der Kontextdateien

Dateiformate sind die API — aber welche Datei?

Die Verlagerung des Engpasses

Das Dateisystem ist bereits ein Graph

Das ist eine Neudefinition des Personal Computing

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare