22 Punkte von xguru 2024-05-26 | 1 Kommentare | Auf WhatsApp teilen
  • NL-to-SQL-Engine für Abfragen strukturierter Daten in natürlicher Sprache
  • Die gesamte Codebasis wurde auf Open Source umgestellt: einschließlich Core-Engine, Clients (Authentifizierung/RBAC) usw.
  • Jetzt kann jede:r eine eigene Text-to-SQL-Lösung innerhalb des eigenen Produkts aufbauen
  • Die Core-NL-to-SQL-Engine von Dataherald ist ein LLM-basierter Agent, der CoT-(Chain-of-Thought-)Schlussfolgerung und verschiedene Tools nutzt, um aus dem gegebenen User-Prompt hochpräzises SQL zu erzeugen
  • Insgesamt sind 4 Services enthalten
    • Engine: LLM-Agent, Vector Store und DB-Connectoren
    • Admin-Konsole: NextJS-Frontend zur Konfiguration der Engine und Verwaltung der Observability
    • Enterprise-Backend: Umhüllt die Core-Engine und ergänzt Authentifizierung/Caching/API usw.
    • Slack-Bot: Fügt Dataherald zu Slack-Workflows hinzu

1 Kommentare

 
xguru 2024-05-26

Dataherald - Natural-Language-to-SQL-Engine
Das wurde bereits vor 8 Monaten geteilt, und jetzt haben sie das komplette Projekt als Open Source veröffentlicht.

Hacker-News-Kommentare

  • Dieses Tool sieht wirklich großartig aus. Andere Tools funktionieren bei einfachen Queries gut, haben aber Schwierigkeiten mit komplexen Schemas und Joins. Ich frage mich, ob DataHerald dieses Problem gelöst hat.
  • Ich habe letztes Jahr ein Text-to-SQL-Produkt als Open Source veröffentlicht. So ein Business aufzubauen ist sehr schwierig. Es ist sinnvoller, auf Open Source zu setzen und es mit kostenlosen Deployment-Tools wie Snowflake/PowerBI zu kombinieren.
  • Ich frage mich, warum sie das komplette Produkt als Open Source veröffentlicht haben. Vielleicht wechseln sie zu einem Open-Core-Modell. Ich wäre dankbar, wenn sie ihre Gründe teilen würden.
  • Danke für diesen historischen Beitrag. Viele Unternehmen „unterhalten“ sich derzeit mit ihren Daten. Vermutlich arbeiten viele Teams an ähnlichen Dingen.
  • Das ist einer der funktionsreicheren KI-Analyseassistenten. Großer Respekt dafür, dass er als Open Source veröffentlicht wurde. Es gibt erfolgreiche Beispiele wie Metabase, Airbyte und dbt.
  • Ich frage mich, wer die Zielgruppe dieses Tools ist. Auf der Website heißt es, dass es Datenfragen ohne den Umweg über Analysten beantworten kann, aber Analysten sind die Experten für Modelle und Daten. Data Warehouses können viele verschiedene Probleme haben. Ich frage mich, ob ein LLM damit konsistent umgehen kann.
  • Dieses Tool funktioniert besser als ein durchschnittliches LLM, weil es anhand der Datenbankstruktur trainiert werden kann. Allerdings kann sich die Datenbankstruktur häufig ändern, sodass möglicherweise ein erneutes Training nötig ist. Ich frage mich, ob nach PR-Änderungen automatisch neu trainiert wird.
  • Ich frage mich, ob dieses Tool komplexe Joins beherrscht. Auf der Website konnte ich keine Beispiele finden.
  • Ich verstehe nicht, warum ein NLP+ORM-System besser sein soll. Man müsste zwar eine feste Syntax verwenden, hätte dafür aber 100 % Genauigkeit.
  • Ich habe NL-to-SQL kürzlich in einem Prototyp ausprobiert. Das Problem war, wie man verhindert, dass Fehler oder böswillige Akteure die Datenbank beeinflussen. Falls jemand auch über andere Aspekte dazu sprechen möchte, kann er mich gerne kontaktieren.