ExoPriors’ „Alignment Scry“: 600-GB-Index aus Hacker News, arXiv und mehr mit Claude Code abfragen
(exopriors.com)- Alignment Scry von ExoPriors ist eine Plattform, mit der sich 60 Mio. Dokumente und 22 Mio. Embeddings, gesammelt aus arXiv, Hacker News, LessWrong u. a., über Claude Code per SQL und Vektoroperationen durchsuchen lassen
- Es stellt einen öffentlichen API-Schlüssel bereit und unterstützt sowohl BM25-basierte Textsuche als auch semantische Suche auf Basis der pgvector-Kosinusdistanz
- Mit den Funktionen
alignment.search()undalignment.search_exhaustive()lassen sich schnelle Stichprobensuchen und vollständige Suchen getrennt ausführen - In Claude Web oder Claude Code lässt sich die API mit wenig Aufwand einrichten; außerdem gibt es persönliche Handles (
@handle) und Funktionen zum Speichern von Embeddings - Die Plattform ist für Forschende kostenlos zugänglich und wichtig als experimentelle Umgebung für großskalige Datenabfragen zur KI-Forschung und zur Automatisierung von Informationsrecherche
Überblick
- Alignment Scry ist ein Suchsystem, das SQL- und Vektoralgebra-Operationen auf einem Dokumentenindex rund um die Intelligenzexplosion ausführen kann
- Zu den wichtigsten Datenquellen zählen arXiv, Hacker News, LessWrong, community-archive.org u. a.
- Nutzer können die Daten über Claude Code mit natürlichsprachlichen Anfragen oder SQL-Befehlen erkunden
- Das System befindet sich in einer experimentellen Alpha-Phase und umfasst auch Lens Studio, ein auf LessWrong fokussiertes Explorationswerkzeug
Claude-Integration und Zugriffsmodell
- In Claude Code oder Claude Web sofort nutzbar, wenn der API-Zugriff eingerichtet ist
- Code-Ausführung, Dateierstellung und Netzwerkzugriff erlauben und
api.exopriors.comzur Domain-Whitelist hinzufügen
- Code-Ausführung, Dateierstellung und Netzwerkzugriff erlauben und
- Über den öffentlichen API-Schlüssel
exopriors_public_readonly_v1_2025ist der Zugriff ohne Login möglich - Damit das Claude-Modell nicht bei jedem API-Aufruf eine Nutzerfreigabe einholen muss, kann die Option
--dangerously-skip-permissionsverwendet werden (mit entsprechenden Risiken) - Empfohlen werden Modelle ab Opus 4.5; zugleich wird ausdrücklich auf das Risiko von Prompt-Injection-Angriffen hingewiesen
Hauptfunktionen
- Query: SQL-Abfragen über 60 Mio. Dokumente
- Embed: Embeddings für semantische Suche speichern und wiederverwenden
- Timeout: Automatische Anpassung auf etwa 20–120 Sekunden je nach Last
- Suchziele: verschiedene Dokumenttypen wie post, comment, paper, tweet usw.
- Lexical Search: BM25-basierte Schlüsselwortsuche mit Phrasensuche und Fuzzy Matching
- Semantic Search: semantische Ähnlichkeitssuche mit pgvector-Kosinusdistanz (
<=>)
Abfragen und Performance-Management
alignment.search()gibt nur die Top-100-BM25-Ergebnisse zurück und eignet sich für schnelle explorative Stichprobenalignment.search_exhaustive()führt eine vollständige Suche aus und unterstützt Paginierung- Performance-Richtlinien
- Einfache Suche: 1–5 Sekunden
- Embedding-Joins (bis 500.000 Zeilen): 5–20 Sekunden
- Komplexe Aggregationen (bis 2 Mio. Zeilen): 20–60 Sekunden
- Große Scans (über 5 Mio. Zeilen): unter Last sind Timeouts möglich
- Zur Vermeidung von Überlastung zeigt das System vor der Ausführung einer Abfrage eine Zusammenfassung an und verlangt eine Bestätigung
- Schwere Abfragen werden automatisch anhand von Kriterien wie LIMIT, estimated_rows und Join-Größe erkannt
Datenstruktur und Views
- Im Schema
alignmentwerden materialized views bereitgestellt- Beispiele:
mv_hackernews_posts,mv_arxiv_papers,mv_lesswrong_commentsusw. - Wichtige Spalten:
entity_id,uri,source,kind,original_author,title,score,embeddingusw.
- Beispiele:
- Durch Joins mit der Tabelle
alignment.entitiesist Zugriff auf Metadaten möglich - Mit der Funktion
alignment.author_topics()lassen sich Querschnittsanalysen zwischen bestimmten Themen und Autoren durchführen
Vektoroperationen und Kombinationsfunktionen
<=>: pgvector-Operator für Kosinusdistanz (je näher an 0, desto ähnlicher)@handle: Referenz auf gespeicherte Vektoren- Vektormischung: konzeptgewichtete Kombinationen wie
scale(@rigor,.6) - scale(@hype,.3) - Bias-Entfernung: Mit
debias_vector(@axis, @topic)lässt sich der Einfluss eines bestimmten Themas reduzieren - Durch Berechnung von Zentroid-Vektoren lassen sich durchschnittliche Bedeutungsräume von Autoren oder Zeiträumen darstellen
- Mit zeitlichen Deltas (temporal delta) lassen sich ideelle Verschiebungen nachvollziehen
Hybridsuche und Beispiele
- Unterstützt wird auch kombinierte Lexical- und Semantic-Suche
- Beispiel: Texttreffer lassen sich in einer Form wie
WITH hits AS (search(...)) <=> @qmit semantischen Vektoren neu ranken
- Beispiel: Texttreffer lassen sich in einer Form wie
- BM25-Beispiele
alignment.search('corrigibility')alignment.search('"inner alignment"')
- SQL-Beispiele
- Berechnung von Listen der wichtigsten Autoren zu einem bestimmten Thema
- Paginierung großer Ergebnismengen mit
alignment.search_exhaustive()
Systemgröße und Bereitstellungsbedingungen
- 65 Mio.+ Dokumente, 22 Mio.+ Embeddings, 600 GB+ Indexe
- Kostenlos für Forschende, inklusive 1,5 Mio. Embedding-Token
- Bei Kontoerstellung gibt es einen persönlichen Handle-Namespace, längere Timeouts (bis zu 10 Minuten) und erweiterte Query-Limits
Zusammenfassung
- Alignment Scry ist eine großskalige Datenabfrageplattform für KI-Forschung in Kombination mit Claude und unterstützt Hybridsuche aus SQL und Vektoroperationen
- Über die öffentliche API und klare Query-Richtlinien bietet sie experimentellen Datenzugang für KI-Forschende und Entwickler
- Auf Basis eines 600-GB-Indexbestands und von mehr als 60 Mio. Dokumenten entsteht eine Umgebung, die Recherchen zu AI Alignment und Intelligenzforschung automatisieren kann
1 Kommentare
Hacker-News-Kommentare
Mir gefällt an diesem Projekt, dass es nicht einfach nur ein Blackbox-Chatbot ist, sondern SQL generiert
Ich denke, der richtige Weg ist, LLMs nicht als Datenbank zu verwenden, sondern als Werkzeug, das natürliche Sprache in eine strukturierte Abfragesprache übersetzt
Ich frage mich allerdings, ob es Timeouts oder Sandboxing gibt, damit die API nicht missbraucht werden kann
Außerdem würde mich interessieren, ob es semantic bleeding zwischen unterschiedlichen Datensätzen gibt — zum Beispiel kann „optimization“ auf ArXiv, LessWrong und HN jeweils anders verwendet werden
SQL-Query-Planer sind beim Umgang mit zahlreichen Views und Indizes weiterhin sehr mächtig
Wir haben auch viel Wert auf Sicherheit und Rate-Limits gelegt und blockieren gefährliche Joins per AST-Parsing
Claude kann zentroidbasierte Kombinationen nutzen, um Bedeutungsunterschiede zwischen verschiedenen Domänen zu verringern
Man kann zum Beispiel das LessWrong-Embedding und das ArXiv-Embedding des Wortes „optimization“ mitteln und Vergleichsexperimente durchführen
Den Umsetzungsprozess habe ich in einem Blogbeitrag festgehalten
Derzeit ist es ein macOS-Client, aber eine Engine für Linux ist in Vorbereitung
Der Anwendungsbereich von natürlicher Sprachinterpretation und Übersetzung ist enorm breit
Am Ende werden sich Investitionen wohl ebenfalls in solche praktischen Werkzeuge verlagern
Je größer das Modell, desto besser kann es unterschiedliche Bedeutungen desselben Wortes auseinanderhalten
Wirklich ein großartiges Projekt. Ich werde es sofort in meiner laufenden Stringtheorie-Forschung einsetzen, um Calabi–Yau-Mannigfaltigkeiten zu finden
Bei der gemeinsamen Recherche mit Claude wurden zwei Arbeiten zu Flux-Vacua mit genetischen Algorithmen gefunden, und die Kombination aus SQL + BM25 ermöglichte eine sehr präzise Suche
Allerdings ist das Escaping von Anführungszeichen in bash umständlich, und wegen des 100er-Limits von alignment.search() musste ich search_exhaustive() verwenden, um vollständige Ergebnisse zu erhalten
Claude hat den ExoPriors-Korpus analysiert und die wichtigsten Arbeiten und Resultate zusammengefasst; dabei deutete sich an, dass die DESI-Ergebnisse die Suchrichtung in der Stringtheorie verändern könnten
Besonders das Paper arXiv:2511.23463 erklärt das „phantom crossing“ der Dunklen Energie durch Axion-Dilaton-Mischung
Künftig plane ich, die Forschung zu erweitern, indem ich die Parameter (w₀, wₐ) in die Fit-Funktion aufnehme und Axion-Dynamik ergänze
Verwandter Artikel: BBC-Bericht
Es ist riskant, das Flag „dangerously-skip-permissions“ zusammen mit unsicherem Text zu verwenden
In Eingaben aus dem Internet kann Prompt Injection stecken, daher sollte man das unbedingt in einer Sandbox-Umgebung ausführen
Ich suche nach einer Möglichkeit, in biowissenschaftlichen Arbeiten Informationen über Gene und Proteine im Supplementary Material abzufragen
Derzeit ist die Indizierung sehr uneinheitlich, sodass Erkenntnisse aus 15 Jahren Genomforschung vergraben bleiben
Mit Open-Access-Daten könnte dieser Ansatz funktionieren
Es nutzt OpenAlex zur Erkundung des Zitationsgraphen und analysiert Open-Access-PDFs
Ich habe es verwendet, um Kryoprotektiva (cryoprotective agents) nach Temperatur zu finden, aber es dürfte sich auch auf dein Problem ausweiten lassen
Ausdrücke wie „intelligence explosion“ und „ARBITRARY SQL + VECTOR ALGEBRA“ klingen für mich wie übertriebener Tech-Jargon
Dank Opus 4.5 und GPT-5.2-Codex-xhigh hat sich die Entwicklungsgeschwindigkeit explosionsartig erhöht
Scry ist das einzige Tool, mit dem man beliebiges SQL auf großen Korpora ausführen und frei mit Vektorkombinationen experimentieren kann
Die Kombination aus Prompts und externen Datensätzen ist derzeit der einfachste und leistungsstärkste Explorationskanal
Man kann damit schnell experimentieren, fast wie mit „curl | bash“
Es wurde als „state-of-the-art“-Forschungstool bezeichnet, aber ich frage mich, was daran konkret so hochmodern ist
Zum Beispiel wurden auch Gemma-Modelle als „state-of-the-art“ bezeichnet, obwohl ihre Leistung unter der der Konkurrenz lag
Juicero war bei seiner Einführung ebenfalls state of the art, aber am Ende war Auspressen per Hand besser
Ich entwickle derzeit ein autonomes wissenschaftliches Forschungssystem und plane, dieses Projekt zu integrieren
Im Moment nutze ich die Edison Scientific API und benutzerdefinierte Prompts; mich würde interessieren, ob es Pläne für Open Source gibt
Verwandtes Projekt: gia-agentic-short
Sobald ich 5.000 $ zusammenhabe, könnte ich es wahrscheinlich sofort offenlegen