bigset - Was wäre, wenn man alle Daten der Welt hätte?

xguru · 2026-06-23T09:31:01+09:00

Open-Source-Tool, das mit einem natürlichsprachlichen Satz strukturierte Datensätze aus dem Live-Web erzeugt und sie in einem festgelegten Intervall automatisch aktualisiert Beispiel: "Liste der YC-Unternehmen, die derzeit Engineers einstellen, mit Finanzierungsphase, Standort und Anzahl offener Stellen" Automatische Ableitung des Schemas aus dem Eingabesatz – bestimmt Spaltennamen, Typen, Primärschlüssel und sogar, wo die Informationen im Web zu finden sind Ein autonomer Agent untersucht das Live-Web, gleicht die Ergebnisse mit realen Quellen ab, verifiziert sie und entfernt Duplikate, bevor sie als Tabelle zurückgegeben werden Wenn der Orchestrator-Agent Entitäten entdeckt, werden Sub-Agenten parallel verteilt, um jede Entität zu untersuchen und zu verifizieren Ergebnisse können als CSV / XLSX heruntergeladen und in der UI durchsucht werden Wenn ein Aktualisierungsintervall (30 Minuten, 6 Stunden, 12 Stunden, täglich, wöchentlich) festgelegt wird, führen die Agenten den Prozess nach Zeitplan erneut aus und aktualisieren den Datensatz fortlaufend Ob Mensch oder AI-Agent: Jede Interaktion mit dem Web läuft letztlich auf Daten hinaus (Preise, Unternehmen, Stellenangebote, Forschung, Verfügbarkeit, Bestand usw.) Diese Daten sind über viele Seiten verstreut, und das Tool übernimmt kategorieübergreifende Datenerfassung, die bestehende Scraping-/Search-API-/LeadGen-Tools nicht leisten — Man muss nicht jedes Mal Suche, Extraktion, Schema-Design, Deduplizierung, Verifizierung und Cron-Jobs selbst erledigen oder zu einer Gesamtpipeline integrieren Datensätze lassen sich auch über das Terminal per CLI erstellen und exportieren bigset create "..." --rows 30 --wait --csv Allerdings befindet sich das Projekt noch im experimentellen Stadium, daher ist die Schema-Ableitung noch nicht immer perfekt. Nur für öffentliche Daten geeignet Technologie-Stack Frontend: Next.js 16, React 19, Tailwind 4 Backend: Fastify, TypeScript (Agent Runner) Authentifizierung: lokale Authentifizierung (Entwicklung), Clerk (Cloud) Datenbank: Convex (self-hosted) Datenerfassung: TinyFish API (Search, Fetch, Browser) AI-Orchestrierung: Mastra-Workflow + Vercel AI SDK + OpenRouter → Claude Sonnet (Schema-Ableitung + Populate-Agent) Tabellenansicht: TanStack Table + react-window-Virtualisierung Export: CSV (integriert) + XLSX (SheetJS, dynamischer Import) Analyse: PostHog — Events, Session-Replay, Fehlerverfolgung (optional) AGPL-3.0-Lizenz

(github.com/tinyfish-io)

8 Punkte von xguru 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Open-Source-Tool, das mit einem natürlichsprachlichen Satz strukturierte Datensätze aus dem Live-Web erzeugt und sie in einem festgelegten Intervall automatisch aktualisiert
- Beispiel: "Liste der YC-Unternehmen, die derzeit Engineers einstellen, mit Finanzierungsphase, Standort und Anzahl offener Stellen"
Automatische Ableitung des Schemas aus dem Eingabesatz – bestimmt Spaltennamen, Typen, Primärschlüssel und sogar, wo die Informationen im Web zu finden sind
Ein autonomer Agent untersucht das Live-Web, gleicht die Ergebnisse mit realen Quellen ab, verifiziert sie und entfernt Duplikate, bevor sie als Tabelle zurückgegeben werden
- Wenn der Orchestrator-Agent Entitäten entdeckt, werden Sub-Agenten parallel verteilt, um jede Entität zu untersuchen und zu verifizieren
Ergebnisse können als CSV / XLSX heruntergeladen und in der UI durchsucht werden
Wenn ein Aktualisierungsintervall (30 Minuten, 6 Stunden, 12 Stunden, täglich, wöchentlich) festgelegt wird, führen die Agenten den Prozess nach Zeitplan erneut aus und aktualisieren den Datensatz fortlaufend
Ob Mensch oder AI-Agent: Jede Interaktion mit dem Web läuft letztlich auf Daten hinaus (Preise, Unternehmen, Stellenangebote, Forschung, Verfügbarkeit, Bestand usw.)
- Diese Daten sind über viele Seiten verstreut, und das Tool übernimmt kategorieübergreifende Datenerfassung, die bestehende Scraping-/Search-API-/LeadGen-Tools nicht leisten
  — Man muss nicht jedes Mal Suche, Extraktion, Schema-Design, Deduplizierung, Verifizierung und Cron-Jobs selbst erledigen oder zu einer Gesamtpipeline integrieren
Datensätze lassen sich auch über das Terminal per CLI erstellen und exportieren
- bigset create "..." --rows 30 --wait --csv
Allerdings befindet sich das Projekt noch im experimentellen Stadium, daher ist die Schema-Ableitung noch nicht immer perfekt. Nur für öffentliche Daten geeignet
Technologie-Stack
- Frontend: Next.js 16, React 19, Tailwind 4
- Backend: Fastify, TypeScript (Agent Runner)
- Authentifizierung: lokale Authentifizierung (Entwicklung), Clerk (Cloud)
- Datenbank: Convex (self-hosted)
- Datenerfassung: TinyFish API (Search, Fetch, Browser)
- AI-Orchestrierung: Mastra-Workflow + Vercel AI SDK + OpenRouter → Claude Sonnet (Schema-Ableitung + Populate-Agent)
- Tabellenansicht: TanStack Table + react-window-Virtualisierung
- Export: CSV (integriert) + XLSX (SheetJS, dynamischer Import)
- Analyse: PostHog — Events, Session-Replay, Fehlerverfolgung (optional)
AGPL-3.0-Lizenz

bigset - Was wäre, wenn man alle Daten der Welt hätte?

Verwandte Beiträge

Noch keine Kommentare.