- Alignment Scry von ExoPriors ist eine Plattform, mit der sich 60 Mio. Dokumente und 22 Mio. Embeddings, gesammelt aus arXiv, Hacker News, LessWrong u. a., über Claude Code per SQL und Vektoroperationen durchsuchen lassen
- Es stellt einen öffentlichen API-Schlüssel bereit und unterstützt sowohl BM25-basierte Textsuche als auch semantische Suche auf Basis der pgvector-Kosinusdistanz
- Mit den Funktionen
alignment.search() und alignment.search_exhaustive() lassen sich schnelle Stichprobensuchen und vollständige Suchen getrennt ausführen
- In Claude Web oder Claude Code lässt sich die API mit wenig Aufwand einrichten; außerdem gibt es persönliche Handles (
@handle) und Funktionen zum Speichern von Embeddings
- Die Plattform ist für Forschende kostenlos zugänglich und wichtig als experimentelle Umgebung für großskalige Datenabfragen zur KI-Forschung und zur Automatisierung von Informationsrecherche
Überblick
- Alignment Scry ist ein Suchsystem, das SQL- und Vektoralgebra-Operationen auf einem Dokumentenindex rund um die Intelligenzexplosion ausführen kann
- Zu den wichtigsten Datenquellen zählen arXiv, Hacker News, LessWrong, community-archive.org u. a.
- Nutzer können die Daten über Claude Code mit natürlichsprachlichen Anfragen oder SQL-Befehlen erkunden
- Das System befindet sich in einer experimentellen Alpha-Phase und umfasst auch Lens Studio, ein auf LessWrong fokussiertes Explorationswerkzeug
Claude-Integration und Zugriffsmodell
- In Claude Code oder Claude Web sofort nutzbar, wenn der API-Zugriff eingerichtet ist
- Code-Ausführung, Dateierstellung und Netzwerkzugriff erlauben und
api.exopriors.com zur Domain-Whitelist hinzufügen
- Über den öffentlichen API-Schlüssel
exopriors_public_readonly_v1_2025 ist der Zugriff ohne Login möglich
- Damit das Claude-Modell nicht bei jedem API-Aufruf eine Nutzerfreigabe einholen muss, kann die Option
--dangerously-skip-permissions verwendet werden (mit entsprechenden Risiken)
- Empfohlen werden Modelle ab Opus 4.5; zugleich wird ausdrücklich auf das Risiko von Prompt-Injection-Angriffen hingewiesen
Hauptfunktionen
- Query: SQL-Abfragen über 60 Mio. Dokumente
- Embed: Embeddings für semantische Suche speichern und wiederverwenden
- Timeout: Automatische Anpassung auf etwa 20–120 Sekunden je nach Last
- Suchziele: verschiedene Dokumenttypen wie post, comment, paper, tweet usw.
- Lexical Search: BM25-basierte Schlüsselwortsuche mit Phrasensuche und Fuzzy Matching
- Semantic Search: semantische Ähnlichkeitssuche mit pgvector-Kosinusdistanz (
<=>)
Abfragen und Performance-Management
alignment.search() gibt nur die Top-100-BM25-Ergebnisse zurück und eignet sich für schnelle explorative Stichproben
alignment.search_exhaustive() führt eine vollständige Suche aus und unterstützt Paginierung
- Performance-Richtlinien
- Einfache Suche: 1–5 Sekunden
- Embedding-Joins (bis 500.000 Zeilen): 5–20 Sekunden
- Komplexe Aggregationen (bis 2 Mio. Zeilen): 20–60 Sekunden
- Große Scans (über 5 Mio. Zeilen): unter Last sind Timeouts möglich
- Zur Vermeidung von Überlastung zeigt das System vor der Ausführung einer Abfrage eine Zusammenfassung an und verlangt eine Bestätigung
- Schwere Abfragen werden automatisch anhand von Kriterien wie LIMIT, estimated_rows und Join-Größe erkannt
Datenstruktur und Views
- Im Schema
alignment werden materialized views bereitgestellt
- Beispiele:
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments usw.
- Wichtige Spalten:
entity_id, uri, source, kind, original_author, title, score, embedding usw.
- Durch Joins mit der Tabelle
alignment.entities ist Zugriff auf Metadaten möglich
- Mit der Funktion
alignment.author_topics() lassen sich Querschnittsanalysen zwischen bestimmten Themen und Autoren durchführen
Vektoroperationen und Kombinationsfunktionen
<=>: pgvector-Operator für Kosinusdistanz (je näher an 0, desto ähnlicher)
@handle: Referenz auf gespeicherte Vektoren
- Vektormischung: konzeptgewichtete Kombinationen wie
scale(@rigor,.6) - scale(@hype,.3)
- Bias-Entfernung: Mit
debias_vector(@axis, @topic) lässt sich der Einfluss eines bestimmten Themas reduzieren
- Durch Berechnung von Zentroid-Vektoren lassen sich durchschnittliche Bedeutungsräume von Autoren oder Zeiträumen darstellen
- Mit zeitlichen Deltas (temporal delta) lassen sich ideelle Verschiebungen nachvollziehen
Hybridsuche und Beispiele
- Unterstützt wird auch kombinierte Lexical- und Semantic-Suche
- Beispiel: Texttreffer lassen sich in einer Form wie
WITH hits AS (search(...)) <=> @q mit semantischen Vektoren neu ranken
- BM25-Beispiele
alignment.search('corrigibility')
alignment.search('"inner alignment"')
- SQL-Beispiele
- Berechnung von Listen der wichtigsten Autoren zu einem bestimmten Thema
- Paginierung großer Ergebnismengen mit
alignment.search_exhaustive()
Systemgröße und Bereitstellungsbedingungen
- 65 Mio.+ Dokumente, 22 Mio.+ Embeddings, 600 GB+ Indexe
- Kostenlos für Forschende, inklusive 1,5 Mio. Embedding-Token
- Bei Kontoerstellung gibt es einen persönlichen Handle-Namespace, längere Timeouts (bis zu 10 Minuten) und erweiterte Query-Limits
Zusammenfassung
- Alignment Scry ist eine großskalige Datenabfrageplattform für KI-Forschung in Kombination mit Claude und unterstützt Hybridsuche aus SQL und Vektoroperationen
- Über die öffentliche API und klare Query-Richtlinien bietet sie experimentellen Datenzugang für KI-Forschende und Entwickler
- Auf Basis eines 600-GB-Indexbestands und von mehr als 60 Mio. Dokumenten entsteht eine Umgebung, die Recherchen zu AI Alignment und Intelligenzforschung automatisieren kann
Noch keine Kommentare.