bigset - Was wäre, wenn man alle Daten der Welt hätte?
(github.com/tinyfish-io)- Open-Source-Tool, das mit einem natürlichsprachlichen Satz strukturierte Datensätze aus dem Live-Web erzeugt und sie in einem festgelegten Intervall automatisch aktualisiert
- Beispiel: "Liste der YC-Unternehmen, die derzeit Engineers einstellen, mit Finanzierungsphase, Standort und Anzahl offener Stellen"
- Automatische Ableitung des Schemas aus dem Eingabesatz – bestimmt Spaltennamen, Typen, Primärschlüssel und sogar, wo die Informationen im Web zu finden sind
- Ein autonomer Agent untersucht das Live-Web, gleicht die Ergebnisse mit realen Quellen ab, verifiziert sie und entfernt Duplikate, bevor sie als Tabelle zurückgegeben werden
- Wenn der Orchestrator-Agent Entitäten entdeckt, werden Sub-Agenten parallel verteilt, um jede Entität zu untersuchen und zu verifizieren
- Ergebnisse können als CSV / XLSX heruntergeladen und in der UI durchsucht werden
- Wenn ein Aktualisierungsintervall (30 Minuten, 6 Stunden, 12 Stunden, täglich, wöchentlich) festgelegt wird, führen die Agenten den Prozess nach Zeitplan erneut aus und aktualisieren den Datensatz fortlaufend
- Ob Mensch oder AI-Agent: Jede Interaktion mit dem Web läuft letztlich auf Daten hinaus (Preise, Unternehmen, Stellenangebote, Forschung, Verfügbarkeit, Bestand usw.)
- Diese Daten sind über viele Seiten verstreut, und das Tool übernimmt kategorieübergreifende Datenerfassung, die bestehende Scraping-/Search-API-/LeadGen-Tools nicht leisten
— Man muss nicht jedes Mal Suche, Extraktion, Schema-Design, Deduplizierung, Verifizierung und Cron-Jobs selbst erledigen oder zu einer Gesamtpipeline integrieren
- Diese Daten sind über viele Seiten verstreut, und das Tool übernimmt kategorieübergreifende Datenerfassung, die bestehende Scraping-/Search-API-/LeadGen-Tools nicht leisten
- Datensätze lassen sich auch über das Terminal per CLI erstellen und exportieren
bigset create "..." --rows 30 --wait --csv
- Allerdings befindet sich das Projekt noch im experimentellen Stadium, daher ist die Schema-Ableitung noch nicht immer perfekt. Nur für öffentliche Daten geeignet
- Technologie-Stack
- Frontend: Next.js 16, React 19, Tailwind 4
- Backend: Fastify, TypeScript (Agent Runner)
- Authentifizierung: lokale Authentifizierung (Entwicklung), Clerk (Cloud)
- Datenbank: Convex (self-hosted)
- Datenerfassung: TinyFish API (Search, Fetch, Browser)
- AI-Orchestrierung: Mastra-Workflow + Vercel AI SDK + OpenRouter → Claude Sonnet (Schema-Ableitung + Populate-Agent)
- Tabellenansicht: TanStack Table + react-window-Virtualisierung
- Export: CSV (integriert) + XLSX (SheetJS, dynamischer Import)
- Analyse: PostHog — Events, Session-Replay, Fehlerverfolgung (optional)
- AGPL-3.0-Lizenz
Noch keine Kommentare.