LLM-Wiki – Mit LLM ein persönliches Wissensarchiv aufbauen
(gist.github.com/karpathy)- Andrej Karpathy sagte kürzlich, dass er inzwischen mehr Tokens für den Aufbau eines persönlichen Wissensarchivs als für Code verwendet, und veröffentlichte eine Ideen-/Guide-Datei zum Erstellen dieses LLM-basierten Wikis
- Gibt man diese Datei an einen Agenten weiter, erstellt dieser selbstständig das Wiki und erklärt die Nutzung
- Statt bei jeder Anfrage Informationen erneut aus den Originalquellen zu extrahieren wie bei RAG, schreibt und verwaltet das LLM das Wiki direkt und baut so ein persistentes Wiki (persistent wiki) auf, in dem sich Wissen schrittweise ansammelt
- Das Wiki wird in Tools wie Obsidian geöffnet gehalten, während das LLM die Markdown-Dateien in Echtzeit bearbeitet und aktualisiert; der Nutzer konzentriert sich auf Quellensammlung und Fragen
- Beim Hinzufügen neuer Quellen liest das LLM den Inhalt, integriert ihn ins bestehende Wiki und setzt Querverweise; bei einer einzelnen Quelle können 10–15 Wiki-Seiten aktualisiert werden
- Einsetzbar für persönliche Gesundheit und Zielverfolgung, Forschung, Lese-Notizen, interne Team-Wikis und alle Bereiche, in denen sich Wissen über die Zeit ansammelt
- Indem das LLM die Bookkeeping-Kosten für die Wiki-Pflege nahezu auf null senkt, löst es ein zentrales Problem, an dem viele bei der Wiki-Verwaltung bisher gescheitert sind
Kernidee
- Die meisten Verfahren, mit denen LLMs Dokumente nutzen, basieren auf RAG (Retrieval-Augmented Generation): Man lädt eine Sammlung von Dateien hoch, und das LLM sucht bei einer Anfrage passende Chunks heraus, um daraus eine Antwort zu erzeugen
- NotebookLM, Datei-Uploads in ChatGPT und die meisten RAG-Systeme arbeiten so
- Wissen wird jedes Mal neu extrahiert; es gibt keine kumulative Anreicherung
- Der Ansatz von LLM-Wiki ist anders: Statt direkt in den Originalquellen zu suchen, baut und pflegt das LLM schrittweise ein persistentes Wiki
- Wird eine neue Quelle hinzugefügt, liest das LLM sie, extrahiert Schlüsselinformationen und integriert sie in das bestehende Wiki
- Es aktualisiert Entity-Seiten, überarbeitet Themenzusammenfassungen, markiert Widersprüche zwischen neuen Daten und bisherigen Aussagen und verbessert die Synthese
- Das Wiki ist ein persistentes, sich kumulativ verzinsendes Artefakt (persistent, compounding artifact): Querverweise sind bereits vorhanden, Widersprüche bereits markiert und Synthesen bereits eingearbeitet
- Praktisches Nutzungsszenario: Auf einem Bildschirm läuft der LLM-Agent, auf dem anderen ist Obsidian geöffnet, sodass man die Bearbeitungen des LLM in Echtzeit verfolgen kann
- Obsidian = IDE, LLM = Programmierer, Wiki = Codebasis
Einsatzgebiete
- Persönlich: Ziele, Gesundheit, Psyche, Selbstentwicklung nachverfolgen — aus Journalen, Artikeln und Podcast-Notizen entsteht eine strukturierte Aufzeichnung des eigenen Selbst
- Forschung: Über Wochen bis Monate beim Lesen von Papers, Artikeln und Berichten ein umfassendes Wiki aufbauen, das eine sich entwickelnde These festhält
- Lesen: Kapitelweise zusammenfassen und Seiten zu Figuren, Themen und Handlungssträngen anlegen — ähnlich wie bei Tolkien Gateway kann ein einzelner Leser Tausende verknüpfte Seiten aufbauen
- Business/Team: Aus Slack-Threads, Meeting-Transkripten, Projektdokumenten und Kundengesprächen ein internes Wiki erstellen, das vom LLM gepflegt wird
- Außerdem für Wettbewerbsanalysen, Due Diligence, Reiseplanung, Vorlesungsnotizen, tiefgehende Hobbys und alle anderen Bereiche, in denen Wissen akkumuliert
Architektur (3 Ebenen)
- Originalquellen (Raw sources): Eine kuratierte Sammlung von Quelldokumenten — Artikel, Papers, Bilder, Datendateien
- Unveränderlich (immutable); das LLM liest nur und verändert sie nicht
- Diese Ebene ist die Source of Truth
- Das Wiki (The wiki): Ein Verzeichnis von Markdown-Dateien, das vom LLM erzeugt wird — Zusammenfassungen, Entity-Seiten, Konzeptseiten, Vergleiche, Übersichten, Synthesen
- Das LLM besitzt diese Ebene vollständig: Es erstellt Seiten, aktualisiert sie bei neuen Quellen und pflegt Querverweise
- Der Nutzer liest nur; das LLM schreibt
- Das Schema (The schema): Ein Konfigurationsdokument, das dem LLM Struktur, Konventionen und Workflows des Wikis erklärt (bei Claude Code
CLAUDE.md, bei CodexAGENTS.md)- Die zentrale Datei, die aus dem LLM keinen allgemeinen Chatbot, sondern einen systematischen Wiki-Manager macht
- Sie wird von Nutzer und LLM gemeinsam über die Zeit weiterentwickelt
Zentrale Operationen
- Ingest: Neue Quellen zur Originalsammlung hinzufügen und das LLM mit der Verarbeitung beauftragen
- Das LLM liest die Quelle → bespricht den Kerninhalt → schreibt eine Zusammenfassungsseite ins Wiki → aktualisiert den Index → aktualisiert relevante Entity- und Konzeptseiten → fügt einen Log-Eintrag hinzu
- Eine einzelne Quelle kann 10–15 Wiki-Seiten beeinflussen
- Man kann Quelle für Quelle eng begleiten oder mit weniger Aufsicht im Batch arbeiten
- Query: Fragt man das Wiki etwas, findet das LLM relevante Seiten und synthetisiert daraus eine Antwort mit Zitaten
- Antworten können als Markdown-Seite, Vergleichstabelle, Slide-Deck (Marp), Diagramm (matplotlib), Canvas usw. ausgegeben werden
- Gute Antworten lassen sich wieder als neue Seiten im Wiki speichern — schon die Exploration selbst erweitert die Wissensbasis
- Lint: Dem LLM regelmäßig eine Prüfung des Wiki-Zustands auftragen
- Geprüft werden: Widersprüche zwischen Seiten, veraltete Aussagen, die durch neuere Quellen ersetzt wurden, verwaiste Seiten ohne eingehende Links, wichtige Konzepte ohne eigene Seite, fehlende Querverweise und Datenlücken, die sich per Websuche schließen ließen
Indexierung und Logging
- index.md: Die inhaltszentrierte Datei — katalogisiert alle Seiten des Wikis mit Link, Ein-Zeilen-Zusammenfassung und Metadaten
- Das LLM liest bei Anfragen zuerst den Index und navigiert dann zu relevanten Seiten
- Funktioniert auch bei ~100 Quellen und Hunderten von Seiten gut, ganz ohne Embedding-basierte RAG-Infrastruktur
- log.md: Chronologisches Protokoll — erfasst Ingest-, Query- und Lint-Durchläufe in zeitlicher Reihenfolge
- Wenn die Präfixe der Einträge konsistent sind, lassen sie sich mit Unix-Tools parsen
- Beispiel:
## [2026-04-02] ingest | Article Title→ Mitgrep "^## \\[" log.md | tail -5lassen sich die letzten fünf Einträge anzeigen
- Beispiel:
- Wenn die Präfixe der Einträge konsistent sind, lassen sie sich mit Unix-Tools parsen
Optionale CLI-Tools
- Wenn das Wiki wächst, kann man kleine Tools bauen, damit das LLM effizienter arbeiten kann
- qmd: Eine lokale Suchmaschine für Markdown-Dateien — hybride BM25-/Vektor-Suche mit LLM-Reranking, alles on-device
- Unterstützt eine CLI (auf die das LLM per Shell zugreifen kann) sowie einen MCP-Server (den das LLM als natives Tool nutzen kann)
- In kleineren Setups reicht die Index-Datei oft aus; bei Bedarf kann man sich mit Hilfe des LLM auch einfache Suchskripte selbst erstellen
Tipps und praktische Tool-Nutzung
- Obsidian Web Clipper: Browser-Erweiterung, die Webartikel in Markdown umwandelt — nützlich, um Quellen schnell zur Originalsammlung hinzuzufügen
- Lokales Speichern von Bildern: In Obsidian unter Settings → Files and links den Pfad für den Anhangsordner festlegen; Bilder können dann per Shortcut lokal gespeichert werden
- Da ein LLM Markdown mit eingebetteten Bildern nicht auf einmal lesen kann, wird zuerst der Text gelesen und die Bilder anschließend separat betrachtet
- Obsidian Graph View: Ideal, um die Gesamtstruktur des Wikis zu erfassen — Beziehungen, Hub-Seiten und verwaiste Seiten lassen sich gut erkennen
- Marp: Markdown-basiertes Slide-Deck-Format — mit Obsidian-Plugin verfügbar; Präsentationen lassen sich direkt aus Wiki-Inhalten erzeugen
- Dataview: Obsidian-Plugin für Abfragen über Frontmatter in Seiten — ergänzt das LLM YAML-Frontmatter (Tags, Datum, Anzahl der Quellen), lassen sich dynamische Tabellen und Listen erzeugen
- Das Wiki ist ein git-Repository aus Markdown-Dateien — Versionshistorie, Branching und Zusammenarbeit sind damit kostenlos enthalten
Wie es funktioniert
- Die größte Hürde beim Pflegen einer Wissensbasis ist nicht Lesen oder Denken, sondern Bookkeeping: Querverweise aktualisieren, Zusammenfassungen auf dem neuesten Stand halten, Widersprüche markieren und Konsistenz über Dutzende Seiten hinweg bewahren
- Menschen geben Wikis oft auf, weil der Pflegeaufwand schneller steigt als der Nutzen
- LLMs kennen keine Langeweile, vergessen Querverweis-Updates nicht und können 15 Dateien auf einmal bearbeiten → die Pflegekosten nähern sich nahezu null
- Die Idee steht in geistiger Verbindung zu Vannevar Bushs Memex (1945): ein persönliches, aktiv kuratiertes Wissensarchiv, in dem Verbindungen zwischen Dokumenten genauso wertvoll sind wie die Dokumente selbst
- Das Problem „Wer übernimmt die Pflege?“, das Bush nicht lösen konnte, übernimmt hier das LLM
Charakter dieses Dokuments
- Dieses Dokument ist bewusst abstrakt gehalten — es soll die Idee selbst vermitteln, nicht eine konkrete Implementierung
- Details wie Verzeichnisstruktur, Schema-Konventionen, Seitenformate oder Tools unterscheiden sich je nach Domäne, Präferenz und LLM
- Alle Bausteine sind optional und modular — nutzen, was hilfreich ist, ignorieren, was nicht gebraucht wird
- Empfohlen wird die Nutzung durch das Teilen mit einem LLM-Agenten und das anschließende gemeinsame Ausarbeiten einer zu den eigenen Bedürfnissen passenden Version
15 Kommentare
Das hier wurde dafür verwendet: Farzapedia: eine persönliche Wikipedia aus 2.500 Tagebucheinträgen, Notizen und Nachrichten
index.mddient als Einstiegspunkt, und bei Anfragen navigiert der Agent selbstständig zu den benötigten SeitenKarpathys vier Vorteile personalisierter Nutzung auf Basis eines LLM-Wikis
Danke fürs Teilen. Ich habe es ausprobiert, und es ist beeindruckend.
Ich erwarte, dass die Community weiterhin noch bessere Methoden hervorbringen wird.
Ich habe das auch umgesetzt. Wenn mehrere Hardware-Geräte im Einsatz sind, habe ich ein wenig ergänzt, damit sich der Obsidian-Vault mit einem GitHub-Backup verknüpfen lässt. Außerdem habe ich Parser für Codex und Gemini erstellt und hinzugefügt. https://github.com/hang-in/seCall
Sieht ordentlich aus.
Wow, selbst nachdem ich den Haupttext gelesen hatte, war ich noch ratlos, aber mit Verweis auf dieses Git-Repo sehe ich jetzt einen Weg. Vielen Dank!
Da BM25 bei der Suche auf Koreanisch schwach ist, habe ich zusätzlich Guardrails eingebaut, die auch Koreanisch gut durchsuchen können.
Hacker-News-Kommentare
Dieser Ansatz scheint letztlich zu Model Collapse zu führen
Laut diesem Nature-Paper verschlechtert sich die Qualität kumulativ, je mehr LLMs Dokumente verfassen, indem sie bestehende korrekte Informationen immer weniger prägnant umschreiben
Es überrascht, dass Karpathy dieses Problem nicht sieht. AI-Extremisten scheinen irgendwie ihren „gesunden Menschenverstand“ zu verlieren
Wenn man stärker die „Geheimsoße, die ich selbst geschrieben habe“ betonen will als die Ergebnisse eines LLM, sollte man sich fragen, warum das so ist
Dass er so reagiert hat, ist enttäuschend. Das erinnert an den Satz: „Wenn man nicht menschlich sprechen kann, sollte man lieber gar nichts sagen.“
Viele kluge Leute scheinen im „Ghost in the Machine“ etwas zu sehen und dabei ihr menschliches Gespür zu verlieren
Ezra Kleins Text „I Saw Something New in San Francisco” beschreibt dieses Phänomen gut
claude.mdsauber pflegen. Ein ganzes Wiki ist erst recht unmöglichIch baue etwas Ähnliches mit einem verwaltungszentrierten Ansatz
Dabei wird das Gedächtnis über den gesamten Workspace hinweg mit Tasks oder Projekten verknüpft und über eine SPA-Oberfläche in Echtzeit gesteuert
Siehe das Projekt hmem
Ich habe versucht, das Modell in einen Forschungsmodus zu versetzen, damit es sein internes Wissen ordnet, aber am Ende wurde es eher zu einer LLM-Suppe
Bei Coding-Projekten waren klare Anforderungen, iterative Verbesserungen und gut dokumentierter Code am effektivsten. Wenn zu viel Memory dazukommt, nehmen die Fehler eher zu
Das wirkt letztlich wie ein Aufschieben des Problems
Um das Wiki zu pflegen, müsste das LLM jedes Mal wieder das Wiki statt der Originalquellen lesen, und dabei häufen sich sekundäre Fehler an
Wenn stattdessen Modelle der nächsten Generation mit 10M Kontext oder 1000 tps kommen, wird dieser Ansatz vermutlich bedeutungslos
Diese Zwischenschicht ist sehr nützlich, um die Designabsicht zu erfassen und die Diskrepanz zur tatsächlichen Implementierung zu erkennen
Vollständig autonome, selbstreferenzielle Systeme halte ich für wertlos. Der eigentliche Wert liegt in einer Struktur, in die Menschen eingreifen können, um zu sagen: „So sollte das funktionieren.“
Solche Experimente sind am Ende zwar interessant, aber praktisch bedeutungslos. Die Anbieter großer Modelle entwickeln sich viel schneller weiter, daher ist es derzeit wohl besser, einfach eine schlichte Basiskonfiguration zu nutzen
Die Idee erinnert an Lickliders Essay „Man-Computer Symbiosis“ aus dem Jahr 1960
Es geht um Intelligence Amplification: Menschen setzen die Ziele, Computer wandeln Hypothesen in Modelle um, prüfen sie und übernehmen iterative Berechnungen
Der Originaltext ist hier zu finden
Eine Liste von Systemen, die verwandte Ideen umsetzen, gibt es hier
Ich betreibe eine LLM-basierte Wissensdatenbank namens commonplace
Das System ist so entworfen, dass das LLM die Theorie selbst lesen und ausführen kann, sodass die Theorie selbst zur Runtime wird
Es ist noch rau, aber für mich funktioniert diese Herangehensweise gut
Ich habe ein ähnliches Tool speziell für Codebases gebaut
llmdoc erkennt Dateiänderungen per Hash und cached Zusammenfassungen als einzelne Assets, die jeweils eine Datei beschreiben
Zugriff ist per CLI möglich, und die Geschwindigkeit bei der Code-Erkundung steigt deutlich
Das ist im Grunde eine RAG-Struktur
Es gibt zwar keine Vector-DB, aber durch semantische Verknüpfungsindizes und eine hierarchische Struktur zur Unterstützung der Suche ist es im Prinzip dasselbe
Ich baue das Projekt atomic, eine AI-Wissensdatenbank, die ähnliche Ideen wie Wiki-Synthese anwendet
grep-Suche umsetzenDocMason ist ein Beispiel: Es extrahiert Diagramme aus PPT oder Excel, damit Agenten wie Codex sie analysieren können
Das ist eher Wissenssynthese als Retrieval. Es fühlt sich an, als würde ein LLM seinen eigenen Zettelkasten verwalten
Das Projekt wirkt spannend, ich werde es mir auf jeden Fall ansehen
Ich denke schon lange über das Konzept eines LLM-WIKI nach, und OP scheint deutlich tiefer eingestiegen zu sein. Ich hoffe, dass es sich zu einem echten zweiten Gehirn entwickelt
Wie in der Doku zu
copilot-instructions.mdist es eine Struktur mit Anweisungen, auf die das LLM Bezug nehmen kannIch habe in einem Firmenprojekt etwas Ähnliches ausprobiert
Als meine Konzentration durch Burnout und die Pflege von Angehörigen nachließ, habe ich viel an einen Multi-Agent-Workflow delegiert
Das lief rund um ein Obsidian-basiertes Markdown-Wiki, führte letztlich aber zu einer neuen Form technischer Schulden — als ob ein Teil des Gehirns leer wäre
Trotzdem macht dieser Wiki-Workflow so abhängig, dass man nur schwer wieder davon loskommt
Selbst wenn ein LLM gute Resultate liefert, ist in einem persönlichen Wiki dieser Prozess wichtiger
Ich gehe ohne Handy spazieren oder schwimmen, um den Kopf frei zu bekommen. Körperliche und mentale Erschöpfung sind unterschiedliche Arten von Müdigkeit, und das hilft
Es freut mich, dass solche Ansätze Aufmerksamkeit bekommen
Aber wenn man Dokumente mit strukturierten Daten wie Arbeitspunkten oder ADRs mischt, wird das Abfragen allein mit Markdown schwierig
Der AGENTS.md-Ansatz löst das, indem er dem LLM Ordnerkonventionen beibringt, aber bei komplexeren Daten stößt das an Grenzen
Deshalb entwickle ich Binder
Dabei werden Daten in einer strukturierten DB gespeichert, aber als bidirektional synchronisiertes Markdown gerendert
Ein LSP bietet Autovervollständigung und Validierung, und Agenten oder Skripte greifen per CLI oder MCP auf dieselben Daten zu
Ich habe AS Notes für VS Code gebaut
Auf asnotes.io kann man es ansehen
Es integriert Funktionen eines persönlichen Wissensmanagementsystems in VS Code, sodass sich Markdown und Wiki-Links leicht schreiben, verknüpfen und aktualisieren lassen
Mermaid- und LaTeX-Rendering werden ebenfalls unterstützt
So lassen sich die Ergebnisse von AI-Konversationen dauerhaft in Markdown bewahren, was sich wertvoller anfühlt als ein einfacher Copilot
Nachdem ich die grundlegende Vault-Initialisierung vorgenommen und diese eine Datei einlesen ließ, sagte ich, dass ich diese Idee konkretisieren möchte. Mit der Brainstorming-Funktion von superpowers wurde dann der gesamte Rahmen ausgearbeitet, und sogar
CLAUDE.mdsowie die Einstellungen des Obsidian-Plugins wurden fertig eingerichtet.Die Idee selbst, das Ganze wie einen persönlichen Wissensspeicher zu nutzen, finde ich auch interessant.
Allerdings bin ich mir noch nicht sicher, ob eine KI mit dem Wiki-Kontext klarkommt, der sich immer weiter ansammelt.
Im großen Kontext geht es um das Durchsuchen vergangener Gespräche; wenn man nur die Frage der Strukturierung gut ordnet, scheint es eine gute Idee zu sein. Tatsächlich fand ich, dass es mir auch sehr bei der Organisation von Projekten geholfen hat.
In openclaw ist das aufgetaucht, was ich implementieren wollte. Das werde ich einfach übernehmen.
Endlich ist auch dieses Thema hier angekommen. Ich habe dazu lange an meinem eigenen Garten gearbeitet und Harnesses gebaut, deshalb freut mich das sehr. Die praktischen Erfahrungen von Professor Karpathy sind spannend. Bei PKM scheint es weniger um den technischen Schwierigkeitsgrad zu gehen als darum, dass Menschen über lange Zeit Wissen ansammeln, strukturieren und mit einer außerirdischen Intelligenz teilen und dabei ein Modell der gegenseitigen Koevolution selbst in die Hand nehmen. Anders gesagt: Kommt die Frage nun wieder zum Menschen zurück? Sind die Menschen bereit, mit uns zusammenzuleben? Eine eindeutige richtige Antwort gibt es nicht; jeder wird es mit seinen eigenen Fragen aufbauen müssen. Ich bin gespannt. Danke an GeekNews für diese Nachricht.
Man sollte zwar keine Vorurteile haben, aber ... wenn ich solche Kommentare sehe, fühlt sich das irgendwie seltsam an.
Warum kommentierst du mit einem Bot?
Ist das ein Bot? Eine außerirdische Intelligenz (???)