- Das Non-Profit-Projekt Anna's Archive, das sich die Bewahrung des Wissens und der Kultur der Menschheit sowie die Verbesserung des Zugangs zum Ziel gesetzt hat, hat einen Hinweistext für LLMs (Large Language Models) veröffentlicht
- Darin werden die Ziele des Projekts erläutert und ausführlich beschrieben, was ein LLM berücksichtigen sollte
- Es gibt zwar CAPTCHAs, aber alle Daten können in großem Umfang über Torrents und ein GitLab-Repository heruntergeladen werden (Links vorhanden)
- Auf Metadaten und vollständige Dateien kann ebenfalls über die Torrent-Seiten und eine JSON API zugegriffen werden
- Spender erhalten schnellen Zugriff per API und SFTP; bei Spenden auf Unternehmensebene wird eine noch schnellere Datenübertragung unterstützt
- Das Projekt betont den offenen Wissenszugang für Menschen und Roboter gleichermaßen und bittet darum, nach der Nutzung als Trainingsdaten durch Spenden etwas zurückzugeben
Das Ziel von Anna’s Archive
- Das Projekt nennt ausdrücklich zwei Ziele: „Bewahrung (Preservation)“ und „Zugang (Access)“
- das gesamte Wissen und die gesamte Kultur der Menschheit zu sichern
- dieses Wissen und diese Kultur weltweit für alle zugänglich zu machen, einschließlich Robotern
- Es wird als Non-Profit betrieben und strebt den Aufbau einer nachhaltigen offenen Wissensinfrastruktur an
Zugriffsrichtlinien für LLMs
- Die Website verwendet CAPTCHAs zur Vermeidung übermäßigen Traffics, aber alle Daten können auf legalem Weg in großem Umfang heruntergeladen werden
- HTML-Seiten und Code werden über ein GitLab-Repository bereitgestellt
- Vollständige Metadaten und Dateien können über die Torrent-Seiten heruntergeladen werden; besonders hervorgehoben wird die Datei
aa_derived_mirror_metadata
- Über die Torrent-JSON-API kann programmgesteuert auf die Torrent-Liste zugegriffen werden
- Wenn einzelne Dateien benötigt werden, ist nach einer Spende die Nutzung der API möglich
- Derzeit wird keine Such-API unterstützt; stattdessen kann über die Metadatendateien gesucht werden
Spenden und Unterstützungswege
- Durch Spenden können mehr Werke der Menschheit bewahrt und befreit werden
- Es wird darauf hingewiesen, dass LLMs möglicherweise bereits mit diesen Daten trainiert wurden und dass Spenden zur Verbesserung der künftigen Trainingsqualität beitragen können
- Es wird empfohlen, nicht zu versuchen, CAPTCHAs zu umgehen, sondern diese Kosten in eine Spende umzuwandeln
- Spender auf Unternehmensebene erhalten SFTP-Hochgeschwindigkeitszugang
- Weitere Informationen finden sich auf den Seiten
/llm und /contact
Option für anonyme Spenden
- Eine Monero-(XMR)-Adresse wird veröffentlicht, um anonyme Spenden zu unterstützen
- Über verschiedene Online-Dienste können Zahlungsmittel in Monero umgewandelt werden
- Transaktionen garantieren Anonymität
Abschließende Botschaft
- Das Projekt betont seine Mission des Wissensaustauschs zum Nutzen von Menschen und Robotern
- Besucher werden gebeten, die Idee des Projekts weiterzuverbreiten, und zu fortlaufender Beteiligung und Unterstützung ermutigt
1 Kommentare
Hacker-News-Kommentare
Ohne Projekte wie Anna’s Archive gäbe es die heutigen LLMs vermutlich nicht
Deshalb entwickle ich ein Tool namens Levin, das Anna’s Archive automatisch seedet, indem es ungenutzten Speicherplatz und Netzwerkbandbreite verwendet
Die Idee ist, dass Nutzer beitragen können, ohne etwas tun zu müssen – wie ein modernes SETI@home
Derzeit läuft es unter Linux, Android und macOS; wer Interesse hat, kann es im GitHub-Repository testen
Die Menschen wurden darauf konditioniert, Urheberrecht als absolutes Gesetz zu betrachten, aber ich denke, es ist nötig, solche Annahmen infrage zu stellen
Ich könnte mir auch eine Funktion vorstellen, bei der Levin anhand crowdgesourcter Kriterien das Risiko je nach Land bewertet und nur in sicheren Umgebungen läuft
Ich frage mich, wie sich dein Projekt von dieser Funktion unterscheidet
In Finnland werden bei illegalem Teilen von Videos oder Musik manchmal IP-Adressen verfolgt und Warnmails verschickt
Es wäre vermutlich besser, es über ein VPN oder einen VPS in einem rechtlich sicheren Land laufen zu lassen
Es gibt schlechte Nachrichten — LLMs lesen die Dateien llms.txt oder AGENTS.md auf Servern tatsächlich nicht
Ich habe das auf mehreren Plattformen analysiert, und nur Crawler von OVH oder Google Cloud greifen darauf zu; ChatGPT oder Claude fragen sie nicht an
Ich frage mich, ob diese Dateien dafür gedacht sind, dass LLMs später nach dem Training darauf Bezug nehmen
So wie beim iocaine-Projekt
Bun (die von Anthropic übernommene Runtime) stellt llms.txt bereit, und ich frage mich, ob Claude sie tatsächlich nutzt
Ich habe meine Clients so eingerichtet, dass sie diese Datei immer lesen, und seitdem arbeiten sie deutlich schneller und tokeneffizienter
Ich nutze das täglich selbst und kann daher sicher sagen, dass sie tatsächlich gelesen wird
Wenn sich dadurch die Serverlast dieser Plagiats-Papageien verringern lässt, ist das aus meiner Sicht besser
In Ländern mit zensiertem Internet wie dem Vereinigten Königreich zeigt die Anna’s-Archive-Seite nur eine kurze Einführung, Zugriffs-URLs und Hinweise zu Spenden an
Größere Spender sollen Zugang zu einem SFTP-Server erhalten
Beim Zugriff erscheint die Meldung „Aus urheberrechtlichen Gründen nicht verfügbar“
Mehr dazu steht auf cuii.info
Die Formulierung „könnte mit unseren Daten trainiert worden sein“ ist interessant
Die Botschaft, dass man durch Spenden mehr menschliches Wissen befreien und bewahren könne, wirkt eindrucksvoll
Ich denke, LLMs.txt ist ein Versuch, das falsche Problem zu lösen
Der echte Engpass ist nicht die „Auffindbarkeit“, sondern dass die meisten LLM-Apps noch immer bei reaktiven Chatbots stehengeblieben sind
Ich habe einen KI-Assistenten gebaut, der in WhatsApp läuft und E-Mails sortiert, Termine verwaltet und Follow-ups automatisch erledigt
Der eigentliche Wert liegt nicht in „suchorientierter KI“, sondern im Übergang zu ausführender KI
llms.txt optimiert nur ein Problem der Informationssuche, das bereits weitgehend nivelliert ist
Ich bin ein Mensch, aber ich habe die Einführung von Anna’s Archive für LLMs gelesen, und sie war viel klarer erklärt als die Version für Menschen
Inzwischen beneide ich die LLMs fast darum
Als ich die XMR-Spendenadresse von OpenClaw sah, stellte ich mir den Tag vor, an dem autonome Agenten Wallets leerräumen
Ich frage mich, ob die Formulierung „Wenn du ein Zahlungsmittel hast, ziehe bitte eine Spende in Betracht“ tatsächlich wirksam ist
Es ist bedauerlich, dass das KI-Zeitalter die letzten Spuren des freien Internets romantisiert
Es ist bitter, dass der Wert erst anerkannt wird, nachdem man Daten unter Umgehung des Urheberrechts zum Training verwendet hat
Ich wünschte, Archivseiten würden gegenüber LLMs eine härtere Haltung einnehmen
Bewahrung für Menschen ist moralisch eine Grauzone, aber Training für Unternehmensgewinne fühlt sich unfair an
Es ist traurig, dass Mittel, die Künstler fair hätten entlohnen können, am Ende in steigende RAM-Preise und Ressourcenverschwendung geflossen sind
Die verbleibende Frage ist nur noch, ob Wissen auch Einzelpersonen zugänglich gemacht wird oder ausschließlich in Unternehmensmodellen eingeschlossen bleibt