8 Punkte von xguru 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Open-Source-Tool, das mit einem natürlichsprachlichen Satz strukturierte Datensätze aus dem Live-Web erzeugt und sie in einem festgelegten Intervall automatisch aktualisiert
    • Beispiel: "Liste der YC-Unternehmen, die derzeit Engineers einstellen, mit Finanzierungsphase, Standort und Anzahl offener Stellen"
  • Automatische Ableitung des Schemas aus dem Eingabesatz – bestimmt Spaltennamen, Typen, Primärschlüssel und sogar, wo die Informationen im Web zu finden sind
  • Ein autonomer Agent untersucht das Live-Web, gleicht die Ergebnisse mit realen Quellen ab, verifiziert sie und entfernt Duplikate, bevor sie als Tabelle zurückgegeben werden
    • Wenn der Orchestrator-Agent Entitäten entdeckt, werden Sub-Agenten parallel verteilt, um jede Entität zu untersuchen und zu verifizieren
  • Ergebnisse können als CSV / XLSX heruntergeladen und in der UI durchsucht werden
  • Wenn ein Aktualisierungsintervall (30 Minuten, 6 Stunden, 12 Stunden, täglich, wöchentlich) festgelegt wird, führen die Agenten den Prozess nach Zeitplan erneut aus und aktualisieren den Datensatz fortlaufend
  • Ob Mensch oder AI-Agent: Jede Interaktion mit dem Web läuft letztlich auf Daten hinaus (Preise, Unternehmen, Stellenangebote, Forschung, Verfügbarkeit, Bestand usw.)
    • Diese Daten sind über viele Seiten verstreut, und das Tool übernimmt kategorieübergreifende Datenerfassung, die bestehende Scraping-/Search-API-/LeadGen-Tools nicht leisten
      — Man muss nicht jedes Mal Suche, Extraktion, Schema-Design, Deduplizierung, Verifizierung und Cron-Jobs selbst erledigen oder zu einer Gesamtpipeline integrieren
  • Datensätze lassen sich auch über das Terminal per CLI erstellen und exportieren
    • bigset create "..." --rows 30 --wait --csv
  • Allerdings befindet sich das Projekt noch im experimentellen Stadium, daher ist die Schema-Ableitung noch nicht immer perfekt. Nur für öffentliche Daten geeignet
  • Technologie-Stack
    • Frontend: Next.js 16, React 19, Tailwind 4
    • Backend: Fastify, TypeScript (Agent Runner)
    • Authentifizierung: lokale Authentifizierung (Entwicklung), Clerk (Cloud)
    • Datenbank: Convex (self-hosted)
    • Datenerfassung: TinyFish API (Search, Fetch, Browser)
    • AI-Orchestrierung: Mastra-Workflow + Vercel AI SDK + OpenRouter → Claude Sonnet (Schema-Ableitung + Populate-Agent)
    • Tabellenansicht: TanStack Table + react-window-Virtualisierung
    • Export: CSV (integriert) + XLSX (SheetJS, dynamischer Import)
    • Analyse: PostHog — Events, Session-Replay, Fehlerverfolgung (optional)
  • AGPL-3.0-Lizenz

Noch keine Kommentare.

Noch keine Kommentare.