36 Punkte von GN⁺ 2026-03-09 | 1 Kommentare | Auf WhatsApp teilen
  • Im Ökosystem der AI Agents rücken Dateisysteme zuletzt wieder in den Fokus und treten als Mittel zur Verwaltung persistenter Kontexte neben Datenbanken hervor
  • Das Kontextfenster eines LLM ist eher ein Whiteboard, das ständig gelöscht wird, als ein persistentes Gedächtnis; ein Dateisystem ist das einfachste Mittel für persistente Speicherung, um dieses Problem zu lösen
  • Claude Code, Cursor usw. implementieren Langzeitgedächtnis über dateibasierte Kontextspeicherung; Dateien wie CLAUDE.md und aboutme.md enthalten dabei die Identität des Agents und Informationen über seine Umgebung
  • Kontextmanagement auf Basis des Dateisystems entwickelt sich zum zentralen Thema; große Unternehmen wie LlamaIndex, LangChain, Oracle und Archil veröffentlichen dazu fortlaufend Beiträge und Produkte
  • Während Agent-Kontextdateien wie CLAUDE.md, AGENTS.md und .cursorrules stark zunehmen, wird das Agent Skills-Format (SKILL.md) von Anthropic von Microsoft, OpenAI, GitHub und Cursor übernommen und schafft so Interoperabilität
  • Laut Forschung der ETH Zürich können Kontextdateien paradoxerweise sogar die Erfolgsrate bei Tasks senken und die Inferenzkosten um mehr als 20 % erhöhen; daher sollten nur minimale Anforderungen beschrieben werden
  • Dateien sind nicht an eine bestimmte App gebunden und etablieren sich im Zeitalter der AI Agents als offene Schnittstelle, die Werkzeugwechsel, die Kombination von Workflows und den Erhalt von Kontinuität ermöglicht

Everyone is talking about files : Überall spricht man über Dateien

Das Kontextfenster ist kein Gedächtnis

  • Das menschliche Gedächtnis umfasst Langzeitspeicherung, selektiven Abruf und das Vergessen unnötiger Informationen; das Kontextfenster eines LLM ähnelt dagegen eher einem Whiteboard, das ständig gelöscht wird
  • Wenn bei der Nutzung von Claude Code der Hinweis "context left until auto-compact" erscheint, wird der vom Agent angesammelte Kontext zu Codebasis, Präferenzen und Entscheidungen komprimiert oder geht verloren
  • Das Dateisystem löst dieses Problem auf die einfachste Weise: Es schreibt Aufzeichnungen in Dateien und liest sie bei Bedarf wieder ein
    • CLAUDE.md liefert persistenten Kontext für ein Projekt
    • Cursor speichert frühere Chatverläufe als durchsuchbare Dateien
    • Die Datei aboutme.md fungiert als portable Identitätsbeschreibung mit Präferenzen, Fähigkeiten und Arbeitsstil und kann ohne API-Orchestrierung zwischen Apps bewegt werden

Forschung der ETH Zürich: das Paradox der Kontextdateien

  • Eine aktuelle Arbeit der ETH Zürich untersucht, ob Kontextdateien auf Repository-Ebene die Erledigung von Tasks durch Coding Agents tatsächlich unterstützen
  • Das Ergebnis ist kontraintuitiv: Über mehrere Agents und Modelle hinweg senken Kontextdateien sogar die Erfolgsrate bei Tasks, während die Inferenzkosten um mehr als 20 % steigen
    • Agents mit Kontextdateien erkundeten breiter, führten mehr Tests aus und durchliefen mehr Dateien, kamen aber später zu dem Code, der tatsächlich geändert werden musste
    • Die Dateien wirken wie eine Checkliste, der der Agent übermäßig ernsthaft folgt
  • Das Fazit der Arbeit lautet nicht "Verwendet keine Kontextdateien", sondern: Unnötige Anforderungen machen Tasks schwieriger, und Kontextdateien sollten nur minimale Anforderungen beschreiben
  • Das Problem ist nicht die persistente Schicht des Dateisystems selbst, sondern die Praxis, CLAUDE.md wie ein 2.000 Wörter langes Onboarding-Dokument zu schreiben

Dateiformate sind die API — aber welche Datei?

  • Derzeit existieren CLAUDE.md, AGENTS.md, copilot-instructions.md und .cursorrules nebeneinander; man ist sich einig, dass Agents persistenten dateisystembasierten Kontext brauchen, über Dateinamen und Inhaltsformat besteht jedoch kein Konsens
  • Zentrales Design in Dan Abramovs Text zum sozialen Dateisystem: Das AT Protocol behandelt Nutzerdaten als Dateien innerhalb persönlicher Repositories, und Apps vermeiden Kollisionen über Namespaces auf Basis von Domainnamen, ohne sich darauf einigen zu müssen, was ein "Post" ist
    • Die Datenbank jeder App wird zu abgeleiteten Daten, also zu einer zwischengespeicherten materialisierten Sicht aller Benutzerordner
  • Anthropic veröffentlichte Agent Skills als offenen Standard: Das Format SKILL.md wird von Microsoft, OpenAI, Atlassian, GitHub und Cursor übernommen
    • Ein für Claude Code geschriebener Skill funktioniert auch in Codex und Copilot — das Dateiformat ist die API
  • NanoClaw ist ein leichtgewichtiges Framework für persönliche AI-Assistenten und setzt auf ein Modell von "Skills statt Features"
    • Wenn Telegram-Unterstützung benötigt wird, lehrt nicht ein Telegram-Modul, sondern der Skill /add-telegram (eine Markdown-Datei) Claude Code, wie die Integration erfolgt
    • Skills sind Dateien und damit portabel, auditierbar und kombinierbar — ein MCP-Server oder Plugin-Marktplatz ist nicht nötig
  • Das ist Interoperabilität ohne Koordination: Wenn zwei Apps Markdown lesen können, können sie Kontext teilen; wenn sie das Format SKILL.md verstehen, können sie Funktionen teilen; ohne Partnerschaftsverträge oder Treffen von Standardisierungsgremien übernimmt das Dateiformat selbst die Koordination

Die Verlagerung des Engpasses

  • Traditionelle Datenarchitekturen wurden unter der Annahme entworfen, dass Storage der Engpass ist; als die Verarbeitungskapazität die Storage-I/O überholte, kam es zum Paradigmenwechsel hin zur Trennung von Storage und Compute (S3 + temporäre Compute-Cluster)
  • Bei AI Agents zeigt sich ein ähnliches Phänomen: Der Engpass liegt nicht bei Modellleistung oder Compute, sondern beim Kontext
    • Die Modelle sind intelligent genug, aber vergesslich
    • Das Dateisystem ist genau an dem Ort, an dem der Agent läuft (auf der Maschine des Entwicklers, in einer Umgebung, in der Daten bereits vorhanden sind), die effektivste Methode zur Verwaltung persistenter Kontexte

Das Dateisystem ist bereits ein Graph

  • Auf Twitter wurde angemerkt, dass Menschen, die sagen, man brauche bei Agents keinen Graphen, weil man ein Dateisystem nutzt, bestreiten, dass sie bereits einen Graphen verwenden
    • Ein Dateisystem ist eine Baumstruktur aus Verzeichnissen, Unterverzeichnissen und Dateien, also ein gerichteter azyklischer Graph (DAG)
    • Wenn ein Agent ls, grep, das Lesen von Dateien und das Verfolgen von Referenzen nutzt, traversiert er bereits einen Graphen
  • Richmond in Oracles Beitrag formuliert die schärfste Unterscheidung: Dateisysteme gewinnen als Interface, Datenbanken gewinnen als Basisschicht
    • Sobald gleichzeitiger Zugriff, semantische Suche in großem Maßstab, Deduplizierung oder Gewichtung nach Aktualität nötig werden, baut man letztlich eigene Indizes — faktisch also eine Datenbank
  • Die Datei-Schnittstelle ist mächtig, weil sie universell ist und von LLMs bereits verstanden wird; die datenbankbasierte Schicht ist mächtig, weil sie die für den realen Betrieb nötigen Garantien bietet
  • Die Zukunft ist nicht Datei gegen Datenbank, sondern eine Struktur, in der Dateien die Schnittstelle sind, mit der Menschen und Agents interagieren, während darunter eine zum jeweiligen Use Case passende Basisschicht liegt

Das ist eine Neudefinition des Personal Computing

  • Dateisysteme könnten im AI-Zeitalter die Bedeutung von Personal Computing neu definieren
    • Daten, Kontext, Präferenzen, Skills und Erinnerungen existieren in einem Format, das dem Nutzer gehört, von jedem Agent gelesen werden kann und nicht in einer bestimmten Anwendung eingeschlossen ist
    • aboutme.md funktioniert heute in OpenClaw/NanoClaw und morgen auch in neuen Tools
    • Skill-Dateien sind portabel, und Projektkontext bleibt über Tools hinweg erhalten
  • Das entspricht dem, worauf Personal Computing ursprünglich ausgerichtet war, bevor alles in geschlossene SaaS-Apps und proprietäre Datenbanken verschoben wurde
    • Dateien sind das ursprüngliche offene Protokoll, und da AI Agents zur zentralen Schnittstelle des Computings werden, fungieren sie als Interoperabilitätsschicht, die Werkzeugwechsel, die Kombination von Workflows und die Wahrung von Kontinuität zwischen Anwendungen ohne Erlaubnis von irgendwem ermöglicht
  • Allerdings gibt es auch eine idealistische Seite: Die Geschichte offener Formate ist voller Standards, die auf dem Papier gewannen und in der Praxis scheiterten
    • Unternehmen haben starke Anreize, ihre eigenen Kontextdateien subtil anders zu gestalten, um Wechselkosten aufrechtzuerhalten
    • Dass CLAUDE.md, AGENTS.md und .cursorrules nicht in einem universellen Format aufgehen, sondern koexistieren, zeigt bereits, dass Fragmentierung der Standardzustand ist
    • Die Arbeit der ETH Zürich erinnert daran, dass selbst bei vorhandenem Format gute Kontextdateien schwer zu schreiben sind und schlechte Kontextdateien schlimmer sein können als gar keine
  • Die Kernbotschaft von Dan Abramov:

    Unsere Erinnerungen, Gedanken und Designs sollten länger überleben als die Software, die sie hervorgebracht hat

    • Das ist kein technisches Argument, sondern eine Frage der Werte, und Dateisysteme eignen sich für diese Rolle nicht deshalb, weil sie die beste Technologie sind, sondern weil sie die einzige Technologie sind, die den Nutzern bereits gehört

1 Kommentare

 
GN⁺ 2026-03-09
Hacker-News-Kommentare
  • Dateien sind eine grundlegende Form von Freiheit, weil sie es Nutzern ermöglichen, Daten direkt zu besitzen
    Das schafft Souveränität über Vertraulichkeit, Integrität und Verfügbarkeit
    Als zentrale Säule digitaler Freiheit sollte das auf einer Stufe mit FOSS-Lizenzen gesehen werden

    • Dank der Schlussfolgerungsfähigkeit von LLMs muss man sich heute nicht mehr so viele Gedanken über Dateistrukturen machen
      Natürliche Sprache existiert direkt in der Datei, und Lesbarkeit wird zur Spezifikation
      Jeder, der gut lesbaren Text schreiben kann, kann in Dateien schreiben, und sie lassen sich wie ein REPL sofort ausführen
    • Deshalb finde ich die Versuche großer Tech-Unternehmen wie Apple unangenehm, das Konzept von Dateien abzuschaffen
      Daten werden an Apps gebunden und können nicht mehr unabhängig existieren, außerdem wird Import/Export erschwert
      Um dieses Problem zu lösen, baue ich ein Tool, das Daten aus Backups auf feingranularer Dateiebene extrahiert und in eine persönliche digitale Bibliothek überführt
      Unveränderliche Daten lassen sich archivieren, aber die größte Herausforderung ist, veränderbare Daten wieder in eine „lebendige“ Form zu bringen, sodass sie in Apps bearbeitbar bleiben
    • Konfigurationsdateien sind meiner Meinung nach viel besser als ein zentraler Speicher wie die Windows Registry
      Temporäre Änderungen und das Teilen sind einfach, und die Bedeutung der Konfiguration ist klar definiert
      Mir gefällt nicht, dass Windows Dateien wie Bürger dritter Klasse behandelt
  • Ich sehe das aus SaaS-Perspektive genauso
    Je flüchtiger und domänenspezifischer der Code ist, desto mehr sollten Daten (Dateien) standardisiert und fast schon langweilig stabil sein
    Formate, die nur eine bestimmte App lesen kann, sind technische Schulden und ruinieren am Ende Projekte
    Dass man selbst eine JPEG-Datei von 1995 noch öffnen kann, liegt daran, dass sie nicht von einer bestimmten Software abhängt

    • Mein Fotoverwaltungssystem, das ich seit mehr als 10 Jahren nutze, behandelt Dateisystem und EXIF als Single Source of Truth
      Das ist ein mehrfach bestätigter, richtiger Ansatz
      Abstraktionsschichten wie Google Photos oder Immich dienen nur der Bequemlichkeit, der Kern sind die Dateien
      Auch bei der Arbeit verwalte ich Recherche und Dokumentation mit Markdown- und CSV-Dateien
      Link zum elodie-Projekt
    • Das Problem heutiger Fotoverwaltung ist, dass Bearbeitungen, Tags und Albuminformationen komplett als externe Metadaten gespeichert werden
      Wechselt man die Plattform, geht der gesamte Bearbeitungsverlauf verloren
      Rückgängig-Funktionen sind praktisch, aber ich wünschte, solche Änderungen würden so standardisiert, dass sie portabel sind
  • Ich möchte Plan 9 von Bell Labs erwähnen
    Plan 9 from Bell Labs

    • Ich entwickle einen Agent-Orchestrator namens agenc
      Ich habe Claude nach Vorarbeiten gefragt, und es hat Plan 9 genannt — genau dieses Konzept brauchen wir heute
      Die Philosophie minimaler Agent-Berechtigungen entspricht exakt dem Sicherheitsmodell von Unternehmen
      Plan 9 kam nur einfach zu früh
    • Als neues Dateisystem könnte sich ein Blick auf GeFS lohnen
  • Mir wird wieder klar, dass Plan 9 und UNIX recht hatten
    Die mächtigste Schnittstelle sind Textdateien auf einem Dateisystem
    Es ist Zeit, 9p2026 neu zu bauen
    Allerdings ist ein Teil der Grundannahmen im Artikel falsch — Dateisysteme sind keine Bäume, sondern zyklische Graphen

    • Ich frage mich, was die Kernfunktionen von Plan 9 sind, ob man sie mit FUSE anbinden kann oder ob es dafür tiefere Magie braucht
  • Auch für mich ist das eine Geschichte, mit der ich mich stark identifizieren kann
    Im letzten Jahr habe ich persönliche Daten aus über zehn SaaS-Diensten in eine einzige Verzeichnisstruktur überführt
    Ein gut organisiertes Dateisystem reicht für einen einzelnen Nutzer aus und beseitigt die Fragmentierung der Daten
    Ich glaube, als Nächstes werden neue Datenbanken auftauchen, die sicheres Schreiben durch mehrere Nutzer unterstützen, ohne das Dateisystem undurchsichtig zu machen
    Das fühlt sich ähnlich an wie die Rolle von QMD für die Suche

  • Der Einsatz von AI befindet sich im Moment noch in einem unausgereiften Stadium
    Produktionssysteme werden auf konsistenten und skalierbaren Datenstrukturen laufen, aber die Agenten, die sie bauen, werden auf dateisystembasierten Technologien aufsetzen
    Die UI wird sich vom Desktop weg zu Sprach- und visuellen Interfaces entwickeln
    Etwa indem in Videoanrufen Mimik und Sprechweise gelesen werden, um mehr Kontext zu gewinnen

    • In diesem kürzlich gesehenen AI-Demovideo wird Kontext aus Sprache und Gesten extrahiert, in Text umgewandelt und dann in ein LLM eingespeist
      Nicht vollständig multimodal, aber sehr interessant
    • Trotzdem wird Texteingabe wohl nicht verschwinden
      Schreiben hilft, Gedanken zu ordnen, und ist weniger spontan als Sprechen
      Egal wie gut Spracherkennung (STT) wird, menschliche Intelligenz arbeitet weiterhin stark schreibzentriert
  • Dateien sind nur nützlich, wenn man sie finden kann
    Das heißt: Suche und Indexierung sind unverzichtbar, aber bei wachsender Größe beginnen sie zu zerbrechen
    Deshalb ist die entscheidende Frage die „Größe der Wissensbasis, mit der ein Agent arbeiten kann“
    Ich habe das Thema in meinem Artikel „a good agentic KB“ aus First-Principles-Perspektive analysiert

  • In mehreren gut organisierten Dateien wie in einer Codebasis finden Coding Agents Informationen gut
    Bei chaotischen Daten ist die Strukturierung über das Dateisystem aber deutlich schwieriger
    Das ist komplexer als semantische Suche in einer Vektor-DB
    Codebasen behalten dank des DRY-Prinzips von Natur aus eine Graphstruktur, bei Nicht-Code-Daten ist das nicht so
    Deshalb stimme ich zu, dass das Dateisystem langfristig eine gute Kontextstruktur ist, aber die Suche noch nicht vollständig ersetzen kann

  • Ich halte Dateisysteme für eine miserable Abstraktion
    Dateien an eine bewusste Struktur aus Verzeichnisbäumen zu hängen, ist ineffizient
    Ein relationales Modell oder eine Struktur auf Basis eindeutiger Identifikatoren erscheint mir besser

    • Der Vorteil von Dateisystemen ist die Wahrung der Lokalität von Änderungen
      Änderungen in einem Zweig beeinflussen andere Zweige nicht
      Datenbanken hingegen können mit UPDATE oder DELETE Auswirkungen auf das Gesamtsystem haben und sind daher riskanter
      Deshalb wäre ein Kompromiss ideal, wie in modernen Betriebssystemen: eine Baumstruktur mit DB-Indizes darüber
    • NTFS verwendet intern eine MFT-Datenbank
      Dateinamen werden mit einem b+tree indiziert, und die Dateidaten werden ebenfalls in der MFT gespeichert
      Verzeichnisse sind nur Zeilen mit dem Attribut „directory=true“
      Ein vollständig relationaler Ansatz wie WinFS ist an Performance-Problemen gescheitert, und Skydrive hat später diesen Platz eingenommen
    • In den meisten Dateisystemen werden Dateien über inodes eindeutig identifiziert und können über mehrere Links referenziert werden
      Das wird anscheinend oft vergessen
    • UUIDs sind für Menschen intransparent, für Agenten aber perfekt unterscheidbare Identifikatoren
      Am Ende wird es wohl in Richtung S3-artiger Blob-Speicher mit guten Indizes gehen, bei denen Verzeichnisse bei Bedarf on demand erzeugt werden
      Dann bleibt von Verzeichnissen nur noch die Gruppierungsfunktion übrig, etwa im Sinne von „Materialien zu Q3 liegen in diesem Verzeichnis“