- Ein auf Datenarbeit spezialisierter KI-Code-Editor auf Basis von VS Code, der direkt mit BigQuery/Snowflake/Postgres verbunden ist und automatische Codegenerierung passend zum Datenschema sowie Qualitätsprüfungen bietet
- Während bestehende LLM-basierte Tools SQL automatisch vervollständigen, ohne das Datenschema zu erkennen, erzeugt nao mit RAG-basiertem AI-Tab und Agent-Tools präzisen SQL-/Python-/YAML-Code
- SQL-Pipelines können in einer einzigen Oberfläche geschrieben, ausgeführt und visualisiert werden
- Python-Pipelines werden in derselben Umgebung ebenfalls unterstützt, ebenso dbt-Workflows
- Unterschiede in den Ergebnisdaten vor und nach Codeänderungen sowie Probleme mit der Datenqualität lassen sich auf einen Blick erkennen, sodass schnelle Deployments ohne Tests oder die Vermeidung von Fehlern möglich sind
- Wichtige Einsatzbereiche
- Aufbau von Datenpipelines (SQL, dbt usw.)
- Erkennung von fehlenden Werten/Dubletten/Ausreißern
- Vergleich von Entwicklungs- und Produktionsdaten
- Ausführung und Zusammenfassung vordefinierter Tests
- Durch die Integration mit dbt, BI-Tools und Data Warehouses bietet es eine IDE-Umgebung, die für Data Engineers, Analysten und Data Scientists gleichermaßen geeignet ist
- Unterstützt BigQuery, Snowflake und Postgres; Unterstützung für Databricks, Iceberg und Redshift ist in Kürze geplant
- Integration mit Looker, Power BI, Metabase, Tableau ebenfalls geplant
- Derzeit nur als Mac-Version verfügbar, Windows und Linux sind ebenfalls geplant
- Unterschiede zu Cursor und MCPs
- Cursor benötigt mehrere MCP-Aufrufe, um Datenkontext zu erhalten; bei Nao ist dieser über ein einzelnes RAG jederzeit verfügbar
- MCPs funktionieren innerhalb von Cursor nur eingeschränkt, zudem ist die UI weniger anpassungsfähig
- Nao ist vorkonfiguriert und paketiert; Einrichtung, Installation von Erweiterungen, Authentifizierung und Aufbau von CI/CD entfallen, was auch Nicht-Spezialisten ein besseres Entwicklungserlebnis ermöglicht
FAQ
- Für wen ist nao gedacht?
- SQL-Autoren, dbt Analytics Engineers, Data Scientists, Data Engineers und damit für alle Mitglieder eines Datenteams
- Worin unterscheidet es sich von Cursor?
- Eine IDE, die für Datenkontext optimiert ist, mit schemaerkennungsbasierter Codegenerierung, automatischen Datenqualitätsprüfungen und Vorhersage der Auswirkungen von Änderungen
- Welche Sprachen werden unterstützt?
- Alle Sprachen werden unterstützt, besonders für SQL optimiert
- Wie hilft es bei dbt-Workflows?
- Es versteht dbt-Modelle, Sources, Dokumentation, Tests und spaltenbasierte Lineage und bietet Autovervollständigung sowie Visualisierung
- Wie steht es um die Datensicherheit?
- Daten werden nur lokal verarbeitet und vor der Übertragung an ein LLM ist die Zustimmung des Nutzers erforderlich
- Code oder Schema werden nicht gespeichert, es werden ausschließlich Embeddings verwendet
1 Kommentare
Hacker-News-Kommentare
Es wird darauf hingewiesen, dass viele LLM-basierte Datenprojekte zwar flexibel und hilfreich sind, sich aber schwer reproduzieren lassen und es ihnen an Interaktivität fehlt; Nao setze dieses Konzept sehr gut um. Buckaroo, das ich gebaut habe, ist eine Daten-Tabellen-UI für Jupyter und Pandas/Polars, mit der man Daten sofort über aktuelle Tabellen, Histogramme und zusammenfassende Statistiken betrachten kann. Gestern habe ich in Buckaroo eine Auto-Cleaning-Funktion veröffentlicht, die heuristisch eine Bereinigungsmethode für die Daten auswählt und den bestätigten Code bereitstellt. Sie ist mit unter 500 ms sehr schnell, man kann mehrere Bereinigungsstrategien ausprobieren und die passendste wählen, und einfache Probleme müssen gar nicht erst durch ein LLM. Es ist Open Source und sehr gut erweiterbar
Ich entwickle auch gerade etwas sehr Ähnliches. Es ist noch nicht so ausgereift wie Buckaroo, aber ich finde eine eingebettete App im Notebook ziemlich nützlich
Die Ansicht zur Visualisierung von Data Profiling gefällt mir sehr, ich halte das für einen entscheidenden Kernpunkt beim Verständnis von Daten
Ich halte das für eine wirklich großartige Idee. Ich frage mich, wie ihr das Tab-Modell trainiert habt, ob es auf Fill in the middle oder auf der Edit-History basiert. Gestern hat jemand einen Blogbeitrag zu Cursor-Tab-Autovervollständigung geteilt, den ich mit Interesse gelesen habe
Nachdem ich es einige Wochen lang weiter genutzt habe, habe ich gemerkt, dass es den Workflow tatsächlich stark verbessert. Ich greife inzwischen häufiger dazu als zu VSCode plus Erweiterungen. Chat, Worksheets und Spalten-Lineage für explorative Datenanalyse haben die dbt-Entwicklung für mich wirklich verändert. Diese Funktionen wirken sorgfältig auf meine tatsächliche Arbeitsweise abgestimmt, und Claire und Christophe reagieren sofort auf Feedback und fügen Funktionen schnell hinzu oder verbessern sie. Das Produkt entwickelt sich rasch in die richtige Richtung
Das wirkt wirklich attraktiv. Ich habe mir das YouTube-Video mehrmals angesehen, und ich war sehr beeindruckt davon, wie sehr es den Feedback-Zyklus verkürzt. Wirklich cool
Ich frage mich, ob das nur mit raw SQL funktioniert. In meinem Projekt schreibe ich Abfragen in Postgres + TypeScript mit einem Query Builder wie Kysely, und ich frage mich, ob ich das sofort einsetzen könnte
Ich frage mich, wie viele meiner Daten/Prompts an das Modell weitergegeben werden. Mit meinem Schema hätte ich kein Problem, aber Warehouse-Daten sind meistens sensible Daten. Ich nehme an, es gibt einen Enterprise-Plan, aber ich würde gern im Voraus wissen, ob neben dem eigentlichen Code auch Daten/Ergebnisse an den Server gesendet werden oder nur der Code
Gibt es jemanden, der Empfehlungen oder Links zu LLM-basierten Tools für Data Engineering und Data Science geben kann
Die vorhandenen Funktionen gefallen mir, und ich frage mich, ob ihr künftig auch SQLite unterstützen wollt
Ich frage mich, wie ihr mit transitiven Joins umgeht, wenn über mehrere Tabellen hinweg keine FK/PKs vorhanden sind. Außerdem scheint mir eine Analyse/Umschreibung bereits existierender ineffizienter Abfragen ebenfalls ein Killer-Feature zu sein