agents.txt — Vorschlag für einen Standard für Dokumentations-Sitemaps für AI-Agenten
(github.com/baekenough)Wenn ein nicht speziell getunter allgemeiner AI-Agent Inhalte in Web-Dokumentationen finden will, geht er derzeit so vor wie ein Mensch und öffnet Seite für Seite.
Zu jeder HTML-Seite kommen Sidebar, Header und Footer dazu, sodass es deutlich mehr Rauschen als die eigentlich benötigten Inhalte gibt.
Um eine Dokumentations-Website mit 651 Seiten zu durchsuchen, werden Tokens in Millionenhöhe verbraucht.
robots.txt teilt Crawlern mit: „Hier nicht reingehen“,
sitemap.xml übergibt Suchmaschinen eine URL-Liste,
aber beides hilft AI-Agenten kaum dabei, die gewünschte Seite schnell zu finden.
Auch llms.txt ist eine Freitext-Beschreibung und daher für strukturierte Navigation nicht geeignet.
agents.txt ist eine strukturierte Indexdatei, die eine Dokumentations-Website unter dem Pfad /.well-known/agents.txt bereitstellt.
Ein AI-Agent kann allein durch das Lesen dieser einen Datei bei 651 Seiten mit etwa 3.200 Tokens
Fragen wie „Wo ist die Seite zu Prompt Caching?“ oder „Was ist der Python-SDK-Quickstart?“ beantworten,
ohne die Seiten zu crawlen.
In diesem Vorschlagsprojekt wird die Navigation für die offiziellen Dokumentationen von claude-code und gpt-codex in vier Formaten unterstützt: TXT, MD, JSON und XML.
Außerdem sind 12 Annotationen für Seitentypen sowie eine Komprimierungsfunktion für SDK-Muster enthalten.
Die Idee ist ähnlich wie bei Vercel, das mit agent-browser den Token-Verbrauch um 93 % gesenkt hat, wurde hier jedoch nicht auf Ebene einzelner Apps, sondern als Webstandard betrachtet.
Da sich das am besten per Agent demonstrieren lässt, habe ich im Projekt-Root einen Agenten namens NAVIGATOR.md angelegt.
Eine Referenzimplementierung ist unter https://agentnav.baekenough.com zu sehen.
Ich freue mich über Feedback.
Noch keine Kommentare.