1 Punkte von GN⁺ 2026-01-01 | 1 Kommentare | Auf WhatsApp teilen
  • Alignment Scry von ExoPriors ist eine Plattform, mit der sich 60 Mio. Dokumente und 22 Mio. Embeddings, gesammelt aus arXiv, Hacker News, LessWrong u. a., über Claude Code per SQL und Vektoroperationen durchsuchen lassen
  • Es stellt einen öffentlichen API-Schlüssel bereit und unterstützt sowohl BM25-basierte Textsuche als auch semantische Suche auf Basis der pgvector-Kosinusdistanz
  • Mit den Funktionen alignment.search() und alignment.search_exhaustive() lassen sich schnelle Stichprobensuchen und vollständige Suchen getrennt ausführen
  • In Claude Web oder Claude Code lässt sich die API mit wenig Aufwand einrichten; außerdem gibt es persönliche Handles (@handle) und Funktionen zum Speichern von Embeddings
  • Die Plattform ist für Forschende kostenlos zugänglich und wichtig als experimentelle Umgebung für großskalige Datenabfragen zur KI-Forschung und zur Automatisierung von Informationsrecherche

Überblick

  • Alignment Scry ist ein Suchsystem, das SQL- und Vektoralgebra-Operationen auf einem Dokumentenindex rund um die Intelligenzexplosion ausführen kann
    • Zu den wichtigsten Datenquellen zählen arXiv, Hacker News, LessWrong, community-archive.org u. a.
    • Nutzer können die Daten über Claude Code mit natürlichsprachlichen Anfragen oder SQL-Befehlen erkunden
  • Das System befindet sich in einer experimentellen Alpha-Phase und umfasst auch Lens Studio, ein auf LessWrong fokussiertes Explorationswerkzeug

Claude-Integration und Zugriffsmodell

  • In Claude Code oder Claude Web sofort nutzbar, wenn der API-Zugriff eingerichtet ist
    • Code-Ausführung, Dateierstellung und Netzwerkzugriff erlauben und api.exopriors.com zur Domain-Whitelist hinzufügen
  • Über den öffentlichen API-Schlüssel exopriors_public_readonly_v1_2025 ist der Zugriff ohne Login möglich
  • Damit das Claude-Modell nicht bei jedem API-Aufruf eine Nutzerfreigabe einholen muss, kann die Option --dangerously-skip-permissions verwendet werden (mit entsprechenden Risiken)
  • Empfohlen werden Modelle ab Opus 4.5; zugleich wird ausdrücklich auf das Risiko von Prompt-Injection-Angriffen hingewiesen

Hauptfunktionen

  • Query: SQL-Abfragen über 60 Mio. Dokumente
  • Embed: Embeddings für semantische Suche speichern und wiederverwenden
  • Timeout: Automatische Anpassung auf etwa 20–120 Sekunden je nach Last
  • Suchziele: verschiedene Dokumenttypen wie post, comment, paper, tweet usw.
  • Lexical Search: BM25-basierte Schlüsselwortsuche mit Phrasensuche und Fuzzy Matching
  • Semantic Search: semantische Ähnlichkeitssuche mit pgvector-Kosinusdistanz (<=>)

Abfragen und Performance-Management

  • alignment.search() gibt nur die Top-100-BM25-Ergebnisse zurück und eignet sich für schnelle explorative Stichproben
  • alignment.search_exhaustive() führt eine vollständige Suche aus und unterstützt Paginierung
  • Performance-Richtlinien
    • Einfache Suche: 1–5 Sekunden
    • Embedding-Joins (bis 500.000 Zeilen): 5–20 Sekunden
    • Komplexe Aggregationen (bis 2 Mio. Zeilen): 20–60 Sekunden
    • Große Scans (über 5 Mio. Zeilen): unter Last sind Timeouts möglich
  • Zur Vermeidung von Überlastung zeigt das System vor der Ausführung einer Abfrage eine Zusammenfassung an und verlangt eine Bestätigung
  • Schwere Abfragen werden automatisch anhand von Kriterien wie LIMIT, estimated_rows und Join-Größe erkannt

Datenstruktur und Views

  • Im Schema alignment werden materialized views bereitgestellt
    • Beispiele: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments usw.
    • Wichtige Spalten: entity_id, uri, source, kind, original_author, title, score, embedding usw.
  • Durch Joins mit der Tabelle alignment.entities ist Zugriff auf Metadaten möglich
  • Mit der Funktion alignment.author_topics() lassen sich Querschnittsanalysen zwischen bestimmten Themen und Autoren durchführen

Vektoroperationen und Kombinationsfunktionen

  • <=>: pgvector-Operator für Kosinusdistanz (je näher an 0, desto ähnlicher)
  • @handle: Referenz auf gespeicherte Vektoren
  • Vektormischung: konzeptgewichtete Kombinationen wie scale(@rigor,.6) - scale(@hype,.3)
  • Bias-Entfernung: Mit debias_vector(@axis, @topic) lässt sich der Einfluss eines bestimmten Themas reduzieren
  • Durch Berechnung von Zentroid-Vektoren lassen sich durchschnittliche Bedeutungsräume von Autoren oder Zeiträumen darstellen
  • Mit zeitlichen Deltas (temporal delta) lassen sich ideelle Verschiebungen nachvollziehen

Hybridsuche und Beispiele

  • Unterstützt wird auch kombinierte Lexical- und Semantic-Suche
    • Beispiel: Texttreffer lassen sich in einer Form wie WITH hits AS (search(...)) <=> @q mit semantischen Vektoren neu ranken
  • BM25-Beispiele
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • SQL-Beispiele
    • Berechnung von Listen der wichtigsten Autoren zu einem bestimmten Thema
    • Paginierung großer Ergebnismengen mit alignment.search_exhaustive()

Systemgröße und Bereitstellungsbedingungen

  • 65 Mio.+ Dokumente, 22 Mio.+ Embeddings, 600 GB+ Indexe
  • Kostenlos für Forschende, inklusive 1,5 Mio. Embedding-Token
  • Bei Kontoerstellung gibt es einen persönlichen Handle-Namespace, längere Timeouts (bis zu 10 Minuten) und erweiterte Query-Limits

Zusammenfassung

  • Alignment Scry ist eine großskalige Datenabfrageplattform für KI-Forschung in Kombination mit Claude und unterstützt Hybridsuche aus SQL und Vektoroperationen
  • Über die öffentliche API und klare Query-Richtlinien bietet sie experimentellen Datenzugang für KI-Forschende und Entwickler
  • Auf Basis eines 600-GB-Indexbestands und von mehr als 60 Mio. Dokumenten entsteht eine Umgebung, die Recherchen zu AI Alignment und Intelligenzforschung automatisieren kann

1 Kommentare

 
GN⁺ 2026-01-01
Hacker-News-Kommentare
  • Mir gefällt an diesem Projekt, dass es nicht einfach nur ein Blackbox-Chatbot ist, sondern SQL generiert
    Ich denke, der richtige Weg ist, LLMs nicht als Datenbank zu verwenden, sondern als Werkzeug, das natürliche Sprache in eine strukturierte Abfragesprache übersetzt
    Ich frage mich allerdings, ob es Timeouts oder Sandboxing gibt, damit die API nicht missbraucht werden kann
    Außerdem würde mich interessieren, ob es semantic bleeding zwischen unterschiedlichen Datensätzen gibt — zum Beispiel kann „optimization“ auf ArXiv, LessWrong und HN jeweils anders verwendet werden

    • Stimmt, manchmal wollen Menschen Präzision und Kontrolle
      SQL-Query-Planer sind beim Umgang mit zahlreichen Views und Indizes weiterhin sehr mächtig
      Wir haben auch viel Wert auf Sicherheit und Rate-Limits gelegt und blockieren gefährliche Joins per AST-Parsing
      Claude kann zentroidbasierte Kombinationen nutzen, um Bedeutungsunterschiede zwischen verschiedenen Domänen zu verringern
      Man kann zum Beispiel das LessWrong-Embedding und das ArXiv-Embedding des Wortes „optimization“ mitteln und Vergleichsexperimente durchführen
    • Ich habe einen ähnlichen Ansatz verfolgt. Ich habe Claude Code und Codex-Gesprächsverläufe in eine lokale DB gepackt, sodass sie direkt über die CLI abfragbar sind
      Den Umsetzungsprozess habe ich in einem Blogbeitrag festgehalten
      Derzeit ist es ein macOS-Client, aber eine Engine für Linux ist in Vorbereitung
    • Genau solche Ansätze sind meiner Meinung nach die „echte Innovation, die bleibt, selbst wenn die AI-Blase platzt“
      Der Anwendungsbereich von natürlicher Sprachinterpretation und Übersetzung ist enorm breit
      Am Ende werden sich Investitionen wohl ebenfalls in solche praktischen Werkzeuge verlagern
    • Ich habe keine Experimente dazu, aber meiner Erfahrung nach hängt die Trennung von Wortbedeutungen von der Größe des Embedding-Modells ab
      Je größer das Modell, desto besser kann es unterschiedliche Bedeutungen desselben Wortes auseinanderhalten
  • Wirklich ein großartiges Projekt. Ich werde es sofort in meiner laufenden Stringtheorie-Forschung einsetzen, um Calabi–Yau-Mannigfaltigkeiten zu finden
    Bei der gemeinsamen Recherche mit Claude wurden zwei Arbeiten zu Flux-Vacua mit genetischen Algorithmen gefunden, und die Kombination aus SQL + BM25 ermöglichte eine sehr präzise Suche
    Allerdings ist das Escaping von Anführungszeichen in bash umständlich, und wegen des 100er-Limits von alignment.search() musste ich search_exhaustive() verwenden, um vollständige Ergebnisse zu erhalten

    • Ich habe mit diesem Tool kürzlich auch DESIs Forschung zur Veränderung der Dunklen Energie untersucht
      Claude hat den ExoPriors-Korpus analysiert und die wichtigsten Arbeiten und Resultate zusammengefasst; dabei deutete sich an, dass die DESI-Ergebnisse die Suchrichtung in der Stringtheorie verändern könnten
      Besonders das Paper arXiv:2511.23463 erklärt das „phantom crossing“ der Dunklen Energie durch Axion-Dilaton-Mischung
      Künftig plane ich, die Forschung zu erweitern, indem ich die Parameter (w₀, wₐ) in die Fit-Funktion aufnehme und Axion-Dynamik ergänze
      Verwandter Artikel: BBC-Bericht
  • Es ist riskant, das Flag „dangerously-skip-permissions“ zusammen mit unsicherem Text zu verwenden
    In Eingaben aus dem Internet kann Prompt Injection stecken, daher sollte man das unbedingt in einer Sandbox-Umgebung ausführen

    • Ich habe heute auch angefangen, Claude in einem Devcontainer laufen zu lassen, und frage mich, welche Sandbox-Option am einfachsten ist
  • Ich suche nach einer Möglichkeit, in biowissenschaftlichen Arbeiten Informationen über Gene und Proteine im Supplementary Material abzufragen
    Derzeit ist die Indizierung sehr uneinheitlich, sodass Erkenntnisse aus 15 Jahren Genomforschung vergraben bleiben
    Mit Open-Access-Daten könnte dieser Ansatz funktionieren

    • Ich habe auch etwas Ähnliches gebaut — papers2dataset
      Es nutzt OpenAlex zur Erkundung des Zitationsgraphen und analysiert Open-Access-PDFs
      Ich habe es verwendet, um Kryoprotektiva (cryoprotective agents) nach Temperatur zu finden, aber es dürfte sich auch auf dein Problem ausweiten lassen
  • Ausdrücke wie „intelligence explosion“ und „ARBITRARY SQL + VECTOR ALGEBRA“ klingen für mich wie übertriebener Tech-Jargon

    • Das ist keine Übertreibung. Wir befinden uns gerade tatsächlich in einer Explosion der Software-Intelligenz
      Dank Opus 4.5 und GPT-5.2-Codex-xhigh hat sich die Entwicklungsgeschwindigkeit explosionsartig erhöht
      Scry ist das einzige Tool, mit dem man beliebiges SQL auf großen Korpora ausführen und frei mit Vektorkombinationen experimentieren kann
  • Die Kombination aus Prompts und externen Datensätzen ist derzeit der einfachste und leistungsstärkste Explorationskanal
    Man kann damit schnell experimentieren, fast wie mit „curl | bash“

    • Genau. Die Kombination Prompt + Tool + External Dataset hat enormes Potenzial
  • Es wurde als „state-of-the-art“-Forschungstool bezeichnet, aber ich frage mich, was daran konkret so hochmodern ist

    • Wegen des Umfangs. Wie viele Tools gibt es schon, mit denen man den Volltext aller arXiv-Paper abfragen kann
    • Das ist einfach nur ein Marketingbegriff. Es ist kein geschützter Ausdruck, also kann ihn jeder verwenden
      Zum Beispiel wurden auch Gemma-Modelle als „state-of-the-art“ bezeichnet, obwohl ihre Leistung unter der der Konkurrenz lag
      Juicero war bei seiner Einführung ebenfalls state of the art, aber am Ende war Auspressen per Hand besser
    • Das Tool ist state of the art, aber die Datenquellen sind historisch
    • Ich frage mich, ob hier „als Erstes“ mit „am besten“ gleichgesetzt wird
  • Ich entwickle derzeit ein autonomes wissenschaftliches Forschungssystem und plane, dieses Projekt zu integrieren
    Im Moment nutze ich die Edison Scientific API und benutzerdefinierte Prompts; mich würde interessieren, ob es Pläne für Open Source gibt
    Verwandtes Projekt: gia-agentic-short

    • Ich würde es gern als Open Source veröffentlichen, aber ehrlich gesagt ist meine finanzielle Lage im Moment schwierig
      Sobald ich 5.000 $ zusammenhabe, könnte ich es wahrscheinlich sofort offenlegen