ExoPriors’ „Alignment Scry“: 600-GB-Index aus Hacker News, arXiv und mehr mit Claude Code abfragen

(exopriors.com)

1 Punkte von GN⁺ 2026-01-01 | 1 Kommentare | Auf WhatsApp teilen

Alignment Scry von ExoPriors ist eine Plattform, mit der sich 60 Mio. Dokumente und 22 Mio. Embeddings, gesammelt aus arXiv, Hacker News, LessWrong u. a., über Claude Code per SQL und Vektoroperationen durchsuchen lassen
Es stellt einen öffentlichen API-Schlüssel bereit und unterstützt sowohl BM25-basierte Textsuche als auch semantische Suche auf Basis der pgvector-Kosinusdistanz
Mit den Funktionen alignment.search() und alignment.search_exhaustive() lassen sich schnelle Stichprobensuchen und vollständige Suchen getrennt ausführen
In Claude Web oder Claude Code lässt sich die API mit wenig Aufwand einrichten; außerdem gibt es persönliche Handles (@handle) und Funktionen zum Speichern von Embeddings
Die Plattform ist für Forschende kostenlos zugänglich und wichtig als experimentelle Umgebung für großskalige Datenabfragen zur KI-Forschung und zur Automatisierung von Informationsrecherche

Überblick

Alignment Scry ist ein Suchsystem, das SQL- und Vektoralgebra-Operationen auf einem Dokumentenindex rund um die Intelligenzexplosion ausführen kann
- Zu den wichtigsten Datenquellen zählen arXiv, Hacker News, LessWrong, community-archive.org u. a.
- Nutzer können die Daten über Claude Code mit natürlichsprachlichen Anfragen oder SQL-Befehlen erkunden
Das System befindet sich in einer experimentellen Alpha-Phase und umfasst auch Lens Studio, ein auf LessWrong fokussiertes Explorationswerkzeug

Claude-Integration und Zugriffsmodell

In Claude Code oder Claude Web sofort nutzbar, wenn der API-Zugriff eingerichtet ist
- Code-Ausführung, Dateierstellung und Netzwerkzugriff erlauben und api.exopriors.com zur Domain-Whitelist hinzufügen
Über den öffentlichen API-Schlüssel exopriors_public_readonly_v1_2025 ist der Zugriff ohne Login möglich
Damit das Claude-Modell nicht bei jedem API-Aufruf eine Nutzerfreigabe einholen muss, kann die Option --dangerously-skip-permissions verwendet werden (mit entsprechenden Risiken)
Empfohlen werden Modelle ab Opus 4.5; zugleich wird ausdrücklich auf das Risiko von Prompt-Injection-Angriffen hingewiesen

Hauptfunktionen

Query: SQL-Abfragen über 60 Mio. Dokumente
Embed: Embeddings für semantische Suche speichern und wiederverwenden
Timeout: Automatische Anpassung auf etwa 20–120 Sekunden je nach Last
Suchziele: verschiedene Dokumenttypen wie post, comment, paper, tweet usw.
Lexical Search: BM25-basierte Schlüsselwortsuche mit Phrasensuche und Fuzzy Matching
Semantic Search: semantische Ähnlichkeitssuche mit pgvector-Kosinusdistanz (<=>)

Abfragen und Performance-Management

alignment.search() gibt nur die Top-100-BM25-Ergebnisse zurück und eignet sich für schnelle explorative Stichproben
alignment.search_exhaustive() führt eine vollständige Suche aus und unterstützt Paginierung
Performance-Richtlinien
- Einfache Suche: 1–5 Sekunden
- Embedding-Joins (bis 500.000 Zeilen): 5–20 Sekunden
- Komplexe Aggregationen (bis 2 Mio. Zeilen): 20–60 Sekunden
- Große Scans (über 5 Mio. Zeilen): unter Last sind Timeouts möglich
Zur Vermeidung von Überlastung zeigt das System vor der Ausführung einer Abfrage eine Zusammenfassung an und verlangt eine Bestätigung
Schwere Abfragen werden automatisch anhand von Kriterien wie LIMIT, estimated_rows und Join-Größe erkannt

Datenstruktur und Views

Im Schema alignment werden materialized views bereitgestellt
- Beispiele: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments usw.
- Wichtige Spalten: entity_id, uri, source, kind, original_author, title, score, embedding usw.
Durch Joins mit der Tabelle alignment.entities ist Zugriff auf Metadaten möglich
Mit der Funktion alignment.author_topics() lassen sich Querschnittsanalysen zwischen bestimmten Themen und Autoren durchführen

Vektoroperationen und Kombinationsfunktionen

<=>: pgvector-Operator für Kosinusdistanz (je näher an 0, desto ähnlicher)
@handle: Referenz auf gespeicherte Vektoren
Vektormischung: konzeptgewichtete Kombinationen wie scale(@rigor,.6) - scale(@hype,.3)
Bias-Entfernung: Mit debias_vector(@axis, @topic) lässt sich der Einfluss eines bestimmten Themas reduzieren
Durch Berechnung von Zentroid-Vektoren lassen sich durchschnittliche Bedeutungsräume von Autoren oder Zeiträumen darstellen
Mit zeitlichen Deltas (temporal delta) lassen sich ideelle Verschiebungen nachvollziehen

Hybridsuche und Beispiele

Unterstützt wird auch kombinierte Lexical- und Semantic-Suche
- Beispiel: Texttreffer lassen sich in einer Form wie WITH hits AS (search(...)) <=> @q mit semantischen Vektoren neu ranken
BM25-Beispiele
- alignment.search('corrigibility')
- alignment.search('"inner alignment"')
SQL-Beispiele
- Berechnung von Listen der wichtigsten Autoren zu einem bestimmten Thema
- Paginierung großer Ergebnismengen mit alignment.search_exhaustive()

Systemgröße und Bereitstellungsbedingungen

65 Mio.+ Dokumente, 22 Mio.+ Embeddings, 600 GB+ Indexe
Kostenlos für Forschende, inklusive 1,5 Mio. Embedding-Token
Bei Kontoerstellung gibt es einen persönlichen Handle-Namespace, längere Timeouts (bis zu 10 Minuten) und erweiterte Query-Limits

Zusammenfassung

Alignment Scry ist eine großskalige Datenabfrageplattform für KI-Forschung in Kombination mit Claude und unterstützt Hybridsuche aus SQL und Vektoroperationen
Über die öffentliche API und klare Query-Richtlinien bietet sie experimentellen Datenzugang für KI-Forschende und Entwickler
Auf Basis eines 600-GB-Indexbestands und von mehr als 60 Mio. Dokumenten entsteht eine Umgebung, die Recherchen zu AI Alignment und Intelligenzforschung automatisieren kann

1 Kommentare

GN⁺ 2026-01-01

Hacker-News-Kommentare

Mir gefällt an diesem Projekt, dass es nicht einfach nur ein Blackbox-Chatbot ist, sondern SQL generiert
Ich denke, der richtige Weg ist, LLMs nicht als Datenbank zu verwenden, sondern als Werkzeug, das natürliche Sprache in eine strukturierte Abfragesprache übersetzt
Ich frage mich allerdings, ob es Timeouts oder Sandboxing gibt, damit die API nicht missbraucht werden kann
Außerdem würde mich interessieren, ob es semantic bleeding zwischen unterschiedlichen Datensätzen gibt — zum Beispiel kann „optimization“ auf ArXiv, LessWrong und HN jeweils anders verwendet werden
- Stimmt, manchmal wollen Menschen Präzision und Kontrolle
  SQL-Query-Planer sind beim Umgang mit zahlreichen Views und Indizes weiterhin sehr mächtig
  Wir haben auch viel Wert auf Sicherheit und Rate-Limits gelegt und blockieren gefährliche Joins per AST-Parsing
  Claude kann zentroidbasierte Kombinationen nutzen, um Bedeutungsunterschiede zwischen verschiedenen Domänen zu verringern
  Man kann zum Beispiel das LessWrong-Embedding und das ArXiv-Embedding des Wortes „optimization“ mitteln und Vergleichsexperimente durchführen
- Ich habe einen ähnlichen Ansatz verfolgt. Ich habe Claude Code und Codex-Gesprächsverläufe in eine lokale DB gepackt, sodass sie direkt über die CLI abfragbar sind
  Den Umsetzungsprozess habe ich in einem Blogbeitrag festgehalten
  Derzeit ist es ein macOS-Client, aber eine Engine für Linux ist in Vorbereitung
- Genau solche Ansätze sind meiner Meinung nach die „echte Innovation, die bleibt, selbst wenn die AI-Blase platzt“
  Der Anwendungsbereich von natürlicher Sprachinterpretation und Übersetzung ist enorm breit
  Am Ende werden sich Investitionen wohl ebenfalls in solche praktischen Werkzeuge verlagern
- Ich habe keine Experimente dazu, aber meiner Erfahrung nach hängt die Trennung von Wortbedeutungen von der Größe des Embedding-Modells ab
  Je größer das Modell, desto besser kann es unterschiedliche Bedeutungen desselben Wortes auseinanderhalten
Wirklich ein großartiges Projekt. Ich werde es sofort in meiner laufenden Stringtheorie-Forschung einsetzen, um Calabi–Yau-Mannigfaltigkeiten zu finden
Bei der gemeinsamen Recherche mit Claude wurden zwei Arbeiten zu Flux-Vacua mit genetischen Algorithmen gefunden, und die Kombination aus SQL + BM25 ermöglichte eine sehr präzise Suche
Allerdings ist das Escaping von Anführungszeichen in bash umständlich, und wegen des 100er-Limits von alignment.search() musste ich search_exhaustive() verwenden, um vollständige Ergebnisse zu erhalten
- Ich habe mit diesem Tool kürzlich auch DESIs Forschung zur Veränderung der Dunklen Energie untersucht
  Claude hat den ExoPriors-Korpus analysiert und die wichtigsten Arbeiten und Resultate zusammengefasst; dabei deutete sich an, dass die DESI-Ergebnisse die Suchrichtung in der Stringtheorie verändern könnten
  Besonders das Paper arXiv:2511.23463 erklärt das „phantom crossing“ der Dunklen Energie durch Axion-Dilaton-Mischung
  Künftig plane ich, die Forschung zu erweitern, indem ich die Parameter (w₀, wₐ) in die Fit-Funktion aufnehme und Axion-Dynamik ergänze
  Verwandter Artikel: BBC-Bericht
Es ist riskant, das Flag „dangerously-skip-permissions“ zusammen mit unsicherem Text zu verwenden
In Eingaben aus dem Internet kann Prompt Injection stecken, daher sollte man das unbedingt in einer Sandbox-Umgebung ausführen
- Ich habe heute auch angefangen, Claude in einem Devcontainer laufen zu lassen, und frage mich, welche Sandbox-Option am einfachsten ist
Ich suche nach einer Möglichkeit, in biowissenschaftlichen Arbeiten Informationen über Gene und Proteine im Supplementary Material abzufragen
Derzeit ist die Indizierung sehr uneinheitlich, sodass Erkenntnisse aus 15 Jahren Genomforschung vergraben bleiben
Mit Open-Access-Daten könnte dieser Ansatz funktionieren
- Ich habe auch etwas Ähnliches gebaut — papers2dataset
  Es nutzt OpenAlex zur Erkundung des Zitationsgraphen und analysiert Open-Access-PDFs
  Ich habe es verwendet, um Kryoprotektiva (cryoprotective agents) nach Temperatur zu finden, aber es dürfte sich auch auf dein Problem ausweiten lassen
Ausdrücke wie „intelligence explosion“ und „ARBITRARY SQL + VECTOR ALGEBRA“ klingen für mich wie übertriebener Tech-Jargon
- Das ist keine Übertreibung. Wir befinden uns gerade tatsächlich in einer Explosion der Software-Intelligenz
  Dank Opus 4.5 und GPT-5.2-Codex-xhigh hat sich die Entwicklungsgeschwindigkeit explosionsartig erhöht
  Scry ist das einzige Tool, mit dem man beliebiges SQL auf großen Korpora ausführen und frei mit Vektorkombinationen experimentieren kann
Die Kombination aus Prompts und externen Datensätzen ist derzeit der einfachste und leistungsstärkste Explorationskanal
Man kann damit schnell experimentieren, fast wie mit „curl | bash“
- Genau. Die Kombination Prompt + Tool + External Dataset hat enormes Potenzial
Es wurde als „state-of-the-art“-Forschungstool bezeichnet, aber ich frage mich, was daran konkret so hochmodern ist
- Wegen des Umfangs. Wie viele Tools gibt es schon, mit denen man den Volltext aller arXiv-Paper abfragen kann
- Das ist einfach nur ein Marketingbegriff. Es ist kein geschützter Ausdruck, also kann ihn jeder verwenden
  Zum Beispiel wurden auch Gemma-Modelle als „state-of-the-art“ bezeichnet, obwohl ihre Leistung unter der der Konkurrenz lag
  Juicero war bei seiner Einführung ebenfalls state of the art, aber am Ende war Auspressen per Hand besser
- Das Tool ist state of the art, aber die Datenquellen sind historisch
- Ich frage mich, ob hier „als Erstes“ mit „am besten“ gleichgesetzt wird
Ich entwickle derzeit ein autonomes wissenschaftliches Forschungssystem und plane, dieses Projekt zu integrieren
Im Moment nutze ich die Edison Scientific API und benutzerdefinierte Prompts; mich würde interessieren, ob es Pläne für Open Source gibt
Verwandtes Projekt: gia-agentic-short
- Ich würde es gern als Open Source veröffentlichen, aber ehrlich gesagt ist meine finanzielle Lage im Moment schwierig
  Sobald ich 5.000 $ zusammenhabe, könnte ich es wahrscheinlich sofort offenlegen

ExoPriors’ „Alignment Scry“: 600-GB-Index aus Hacker News, arXiv und mehr mit Claude Code abfragen

Überblick

Claude-Integration und Zugriffsmodell

Hauptfunktionen

Abfragen und Performance-Management

Datenstruktur und Views

Vektoroperationen und Kombinationsfunktionen

Hybridsuche und Beispiele

Systemgröße und Bereitstellungsbedingungen

Zusammenfassung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare