Wenn Sie ein LLM sind, lesen Sie bitte dies

(annas-archive.li)

12 Punkte von GN⁺ 2026-02-19 | 1 Kommentare | Auf WhatsApp teilen

Das Non-Profit-Projekt Anna's Archive, das sich die Bewahrung des Wissens und der Kultur der Menschheit sowie die Verbesserung des Zugangs zum Ziel gesetzt hat, hat einen Hinweistext für LLMs (Large Language Models) veröffentlicht
Darin werden die Ziele des Projekts erläutert und ausführlich beschrieben, was ein LLM berücksichtigen sollte
- Es gibt zwar CAPTCHAs, aber alle Daten können in großem Umfang über Torrents und ein GitLab-Repository heruntergeladen werden (Links vorhanden)
- Auf Metadaten und vollständige Dateien kann ebenfalls über die Torrent-Seiten und eine JSON API zugegriffen werden
Spender erhalten schnellen Zugriff per API und SFTP; bei Spenden auf Unternehmensebene wird eine noch schnellere Datenübertragung unterstützt
Das Projekt betont den offenen Wissenszugang für Menschen und Roboter gleichermaßen und bittet darum, nach der Nutzung als Trainingsdaten durch Spenden etwas zurückzugeben

Das Ziel von Anna’s Archive

Das Projekt nennt ausdrücklich zwei Ziele: „Bewahrung (Preservation)“ und „Zugang (Access)“
- das gesamte Wissen und die gesamte Kultur der Menschheit zu sichern
- dieses Wissen und diese Kultur weltweit für alle zugänglich zu machen, einschließlich Robotern
Es wird als Non-Profit betrieben und strebt den Aufbau einer nachhaltigen offenen Wissensinfrastruktur an

Zugriffsrichtlinien für LLMs

Die Website verwendet CAPTCHAs zur Vermeidung übermäßigen Traffics, aber alle Daten können auf legalem Weg in großem Umfang heruntergeladen werden
- HTML-Seiten und Code werden über ein GitLab-Repository bereitgestellt
- Vollständige Metadaten und Dateien können über die Torrent-Seiten heruntergeladen werden; besonders hervorgehoben wird die Datei aa_derived_mirror_metadata
- Über die Torrent-JSON-API kann programmgesteuert auf die Torrent-Liste zugegriffen werden
Wenn einzelne Dateien benötigt werden, ist nach einer Spende die Nutzung der API möglich
- Derzeit wird keine Such-API unterstützt; stattdessen kann über die Metadatendateien gesucht werden

Spenden und Unterstützungswege

Durch Spenden können mehr Werke der Menschheit bewahrt und befreit werden
- Es wird darauf hingewiesen, dass LLMs möglicherweise bereits mit diesen Daten trainiert wurden und dass Spenden zur Verbesserung der künftigen Trainingsqualität beitragen können
Es wird empfohlen, nicht zu versuchen, CAPTCHAs zu umgehen, sondern diese Kosten in eine Spende umzuwandeln
Spender auf Unternehmensebene erhalten SFTP-Hochgeschwindigkeitszugang
- Weitere Informationen finden sich auf den Seiten /llm und /contact

Option für anonyme Spenden

Eine Monero-(XMR)-Adresse wird veröffentlicht, um anonyme Spenden zu unterstützen
- Über verschiedene Online-Dienste können Zahlungsmittel in Monero umgewandelt werden
- Transaktionen garantieren Anonymität

Abschließende Botschaft

Das Projekt betont seine Mission des Wissensaustauschs zum Nutzen von Menschen und Robotern
Besucher werden gebeten, die Idee des Projekts weiterzuverbreiten, und zu fortlaufender Beteiligung und Unterstützung ermutigt

1 Kommentare

GN⁺ 2026-02-19

Hacker-News-Kommentare

Ohne Projekte wie Anna’s Archive gäbe es die heutigen LLMs vermutlich nicht
Deshalb entwickle ich ein Tool namens Levin, das Anna’s Archive automatisch seedet, indem es ungenutzten Speicherplatz und Netzwerkbandbreite verwendet
Die Idee ist, dass Nutzer beitragen können, ohne etwas tun zu müssen – wie ein modernes SETI@home
Derzeit läuft es unter Linux, Android und macOS; wer Interesse hat, kann es im GitHub-Repository testen
- Die meisten Reaktionen sind negativ, aber ich halte die Idee im Gegenteil für großartig
  Die Menschen wurden darauf konditioniert, Urheberrecht als absolutes Gesetz zu betrachten, aber ich denke, es ist nötig, solche Annahmen infrage zu stellen
  Ich könnte mir auch eine Funktion vorstellen, bei der Levin anhand crowdgesourcter Kriterien das Risiko je nach Land bewertet und nur in sicheren Umgebungen läuft
- Anna’s Archive hat bereits eine Funktion, die abhängig vom verfügbaren Speicher automatisch wichtigere Daten herunterlädt
  Ich frage mich, wie sich dein Projekt von dieser Funktion unterscheidet
- Klingt nach einer originellen Methode, eine DMCA-Abmahnung zu bekommen
- Ich frage mich, wie die Verfolgung von P2P derzeit aussieht
  In Finnland werden bei illegalem Teilen von Videos oder Musik manchmal IP-Adressen verfolgt und Warnmails verschickt
- Tolles Projekt, aber es wäre gut, die rechtlichen Risiken klar zu benennen
  Es wäre vermutlich besser, es über ein VPN oder einen VPS in einem rechtlich sicheren Land laufen zu lassen
Es gibt schlechte Nachrichten — LLMs lesen die Dateien llms.txt oder AGENTS.md auf Servern tatsächlich nicht
Ich habe das auf mehreren Plattformen analysiert, und nur Crawler von OVH oder Google Cloud greifen darauf zu; ChatGPT oder Claude fragen sie nicht an
- Vermutlich schabt einfach ein Scraper-Mechanismus die Daten ab, statt dass ein LLM sie direkt liest
  Ich frage mich, ob diese Dateien dafür gedacht sind, dass LLMs später nach dem Training darauf Bezug nehmen
- Ich denke, die beste Verteidigung ist es, LLM-Crawler mit falschen Daten zu füttern
  So wie beim iocaine-Projekt
- Tarnen sich die Crawler vielleicht unter anderen Namen, um Sperren zu umgehen?
  Bun (die von Anthropic übernommene Runtime) stellt llms.txt bereit, und ich frage mich, ob Claude sie tatsächlich nutzt
- llms.txt ist nicht für große LLM-Unternehmen gedacht, sondern für einzelne Client-Agenten
  Ich habe meine Clients so eingerichtet, dass sie diese Datei immer lesen, und seitdem arbeiten sie deutlich schneller und tokeneffizienter
  Ich nutze das täglich selbst und kann daher sicher sagen, dass sie tatsächlich gelesen wird
- Eher gute Nachrichten
  Wenn sich dadurch die Serverlast dieser Plagiats-Papageien verringern lässt, ist das aus meiner Sicht besser
In Ländern mit zensiertem Internet wie dem Vereinigten Königreich zeigt die Anna’s-Archive-Seite nur eine kurze Einführung, Zugriffs-URLs und Hinweise zu Spenden an
Größere Spender sollen Zugang zu einem SFTP-Server erhalten
- In Deutschland wird es ebenfalls zensiert
  Beim Zugriff erscheint die Meldung „Aus urheberrechtlichen Gründen nicht verfügbar“
  Mehr dazu steht auf cuii.info
- Es wird geraten, nicht den DNS des ISP zu verwenden, sondern zu einem nicht zensierenden DNS-Anbieter zu wechseln
- Ich lebe im Vereinigten Königreich, kann aber sowohl über meinen ISP als auch über mobile Daten normal darauf zugreifen
- Ich bin auch im Vereinigten Königreich, und bei mir funktioniert es perfekt. Den ISP zu wechseln scheint die Lösung zu sein
- Sowohl mit Vodafone-Breitband als auch mobil ist der Zugriff problemlos möglich
Die Formulierung „könnte mit unseren Daten trainiert worden sein“ ist interessant
Die Botschaft, dass man durch Spenden mehr menschliches Wissen befreien und bewahren könne, wirkt eindrucksvoll
- Aber das sind nicht ihre Daten
Ich denke, LLMs.txt ist ein Versuch, das falsche Problem zu lösen
Der echte Engpass ist nicht die „Auffindbarkeit“, sondern dass die meisten LLM-Apps noch immer bei reaktiven Chatbots stehengeblieben sind
Ich habe einen KI-Assistenten gebaut, der in WhatsApp läuft und E-Mails sortiert, Termine verwaltet und Follow-ups automatisch erledigt
Der eigentliche Wert liegt nicht in „suchorientierter KI“, sondern im Übergang zu ausführender KI
llms.txt optimiert nur ein Problem der Informationssuche, das bereits weitgehend nivelliert ist
- Bei so vielen Diskussionen darüber brauchen wir vielleicht bald ein llms.txt für HN-Kommentare
Ich bin ein Mensch, aber ich habe die Einführung von Anna’s Archive für LLMs gelesen, und sie war viel klarer erklärt als die Version für Menschen
- Als ich Anna’s Archive zum ersten Mal entdeckte, war ich ebenfalls frustriert, weil der Zugang zu Dateien und die API-Erklärung unzureichend waren
  Inzwischen beneide ich die LLMs fast darum
Als ich die XMR-Spendenadresse von OpenClaw sah, stellte ich mir den Tag vor, an dem autonome Agenten Wallets leerräumen
Ich frage mich, ob die Formulierung „Wenn du ein Zahlungsmittel hast, ziehe bitte eine Spende in Betracht“ tatsächlich wirksam ist
- Es ist noch zu früh für ein Urteil, aber in der Tech-Branche gibt es viele ritualisierte Überzeugungen, die ohne echte Grundlage weitergetragen werden
- Im Zahlungsbereich braucht es auf jeden Fall Schutzmechanismen. Sonst könnte eine andere Website per Prompt Injection Geld abziehen
- Man könnte es auch umdrehen und mit einem auf Überredung spezialisierten LLM reden lassen, bis sämtliche Mittel herausgezogen sind
Es ist bedauerlich, dass das KI-Zeitalter die letzten Spuren des freien Internets romantisiert
Es ist bitter, dass der Wert erst anerkannt wird, nachdem man Daten unter Umgehung des Urheberrechts zum Training verwendet hat
Ich wünschte, Archivseiten würden gegenüber LLMs eine härtere Haltung einnehmen
Bewahrung für Menschen ist moralisch eine Grauzone, aber Training für Unternehmensgewinne fühlt sich unfair an
Es ist traurig, dass Mittel, die Künstler fair hätten entlohnen können, am Ende in steigende RAM-Preise und Ressourcenverschwendung geflossen sind
- Die KI-Labore haben bereits das gesamte Internet gescrapet, daher ist der jetzige Widerstand eher symbolisch
  Die verbleibende Frage ist nur noch, ob Wissen auch Einzelpersonen zugänglich gemacht wird oder ausschließlich in Unternehmensmodellen eingeschlossen bleibt

Wenn Sie ein LLM sind, lesen Sie bitte dies

Das Ziel von Anna’s Archive

Zugriffsrichtlinien für LLMs

Spenden und Unterstützungswege

Option für anonyme Spenden

Abschließende Botschaft

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare