18 Punkte von GN⁺ 2025-01-02 | 3 Kommentare | Auf WhatsApp teilen

Andy Pavlo (Professor an der CMU) gibt einen Gesamtüberblick über die Datenbankbranche im Jahr 2024

Meine Datenbank, meine Wunschlizenz!

  • Das Dilemma von Datenbanken und Open Source:
    • Open-Source-DBMS werden oft von profitablen, durch VC finanzierten Unternehmen entwickelt.
    • Cloud-Anbieter stellen populäre DBMS als Service bereit und erzielen damit teils höhere Gewinne als die entwickelnden Unternehmen.
    • MongoDB wechselte 2018 zur SSPL (Server Side Public License), um dieses Problem anzugehen.
  • Lizenzänderung bei Redis:
    • Redis Ltd. bereitete 2024 einen IPO vor und wechselte von der BSD-3-Lizenz zu SSPL sowie zur eigenen Redis Source Available License.
    • Im März 2024 wurde mit der Übernahme von Speedb, einem Fork von RocksDB, die Lizenzänderung bekanntgegeben.
    • Widerstand aus der Community:
      • In derselben Woche wurden die Fork-Projekte Valkey und Redict angekündigt.
      • Valkey wurde von Amazon angestoßen, mit Beteiligung von Google, Oracle und anderen, und in die Linux Foundation integriert.
    • Mögliche Rückkehr des Redis-Gründers:
      • Im Dezember 2024 wurde bekanntgegeben, dass der Gründer von Redis gemeinsam mit Redis Ltd. eine Wiedervereinigung der Community anstrebt.
  • Elasticsearch kehrt bei der Lizenz zurück:
    • Elastic N.V. wechselte 2021 zu SSPL und Elastic License und geriet danach in Konflikt mit Amazon.
    • Amazon reagierte mit dem Fork OpenSearch.
    • Im August 2024 wechselte Elastic N.V. wieder zur AGPL und zitierte dabei einen Song von Kendrick Lamar.
    • Im September 2024 übergab Amazon das OpenSearch-Projekt an die Linux Foundation.
  • Andys Einschätzung:
    • Kritik an Redis:
      • Er bemängelt die geringe Performance, Schein-Transaktionen und eine ineffiziente Query-Sprache.
      • Da es viele Alternativen zu Redis gibt, kann das Unternehmen Widerstand aus der Community nur schwer aushalten.
    • Ein ähnliches Muster wie bei Elasticsearch:
      • Lizenzänderung → Fork-Projekt entsteht → Rückkehr zu einer Open-Source-Lizenz.
    • Warum Redis und Elasticsearch stärkeren Gegenwind bekommen:
      • Bei Redis stammen die Gründer nicht von den ursprünglichen Erstellern, und bei einem System mit vielen externen Beiträgen gibt es Debatten über eine „fehlende Legitimität“.
      • Das ähnelt der Reaktion auf die Lizenzänderung von Terraform durch HashiCorp im Jahr 2023.
    • Der Einfluss der Cloud-Anbieter:
      • Cloud-Anbieter integrieren Protokolle von Open-Source-DBMS in bestehende DBMS oder schwächen über eigene Services die Erlösbasis von ISVs.
      • Beispiel: AWS ergänzte beim Timestream-DBMS das InfluxDB-v2-Protokoll und kündigte einen Valkey-kompatiblen Service an, der 30 % günstiger ist als der Redis-kompatible Dienst.
  • Weitere Updates:
    • AWS bietet gemeinsam mit Influx Data einen Managed Service für das InfluxDB-v2-DBMS an.
    • ScyllaDB stellte im Dezember 2024 die Open-Source-Version unter AGPL ein und wechselte bei der Enterprise-Version zu „Source Available“.

Der endlose Wettbewerb zwischen Databricks und Snowflake

  • Wettbewerb bei offenen LLMs:
    • Databricks:
      • Im März 2024 wurde das Open-Source-LLM DBRX vorgestellt.
      • Es hat 132 Milliarden Parameter, wurde vom Mosaic-Team entwickelt, das 2023 für 1,3 Milliarden Dollar übernommen wurde.
      • In die Entwicklung des Modells wurden 10 Millionen Dollar investiert.
    • Snowflake:
      • Im April 2024 wurde das Open-Source-LLM Arctic vorgestellt.
      • Mit 480 Milliarden Parametern soll es bei „Enterprise“-Aufgaben wie SQL-Generierung besser sein als DBRX.
      • In die Entwicklung des Modells wurden 2 Millionen Dollar investiert.
      • Die Ankündigung von Snowflake konzentrierte sich im Vergleich zu anderen LLMs vor allem auf DBRX und machte die Konkurrenzsituation deutlich.
  • Krieg der Metadatenkataloge:
    • HCatalog von Hive etablierte sich in den 2010er Jahren als Standard für Data Lakes.
    • Iceberg von Netflix und Hudi von Uber erschienen in der zweiten Hälfte der 2010er Jahre und wuchsen zu Apache-Projekten heran.
    • Databricks:
      • Bietet die DeltaLake-Plattform und den proprietären Katalogdienst Unity an.
      • Im Juni 2024, am selben Tag, an dem der Snowflake-CEO den Katalogdienst Polaris ankündigte, übernahm Databricks das Iceberg-Unternehmen Tabular für 2 Milliarden Dollar.
      • In der folgenden Woche wurde angekündigt, dass der Unity-Katalog Open Source wird.
    • Snowflake:
      • Hatte seit der Ankündigung der Iceberg-Unterstützung im Jahr 2022 die Unterstützung schrittweise ausgebaut.
      • Wurde bei den Übernahmegesprächen zu Tabular von Databricks ausgestochen.
  • Andys Einschätzung:
    • Unterschied zu klassischer Konkurrenz:
      • Anders als beim früheren Performance-Wettstreit zwischen Oracle und Informix dreht sich der Konflikt zwischen Snowflake und Databricks um Ökosysteme und Werkzeuge für Datenmanagement.
      • Vektorisierte Execution Engines gelten inzwischen als Basistechnologie.
      • Heute zählen vor allem Zusatzqualitäten wie einfache Bedienung, Tool-Kompatibilität und Integration von AI/LLMs.
    • Vorteil für die Nutzer:
      • Der harte Wettbewerb bedeutet bessere Produkte und Technologie.
      • Polaris von Snowflake wird zu einem Apache-Projekt und verbessert damit den Zugang zu besserer Technologie.
      • Am Ende sind technischer Fortschritt und sinkende Preise zu erwarten.
    • Positiver Vergleich:
      • Anders als die bloßen Ego-Kämpfe zwischen den CEOs von Oracle und Salesforce führt der Wettstreit zwischen Snowflake und Databricks zu echter Innovation und stärkerer Wettbewerbsfähigkeit.

Die Bemühungen, DuckDB überall zu integrieren

  • Das Wachstum von DuckDB:
    • DuckDB hat sich für analytische Datenabfragen als neue Standardwahl etabliert.
    • Früher nahm Pandas diese Rolle ein, doch DuckDB hat sie dank hervorragender Portabilität und Performance übernommen.
    • Immer mehr DBMS versuchen, DuckDB zu integrieren, um die Unterstützung für OLAP-Workloads zu stärken.
    • 2024 wurden vier neue Erweiterungen angekündigt, die Postgres und DuckDB integrieren.
  • Ankündigungen zu Postgres-DuckDB-Erweiterungen:
    • Mai 2024 - Crunchy Data:
      • Ankündigung einer proprietären Bridge, die OLAP-Abfragen aus Postgres an DuckDB weiterleitet.
      • Außerdem wurde eine Erweiterung hinzugefügt, die PostGIS-Abfragen mithilfe der Geodatenanalyse von DuckDB beschleunigt.
    • Juni 2024 - ParadeDB:
      • Vorstellung der Open-Source-Erweiterung pg_analytics.
      • Zuvor wurde das auf DataFusion basierende pg_lakehouse verwendet, dann erfolgte der Wechsel zu DuckDB.
    • August 2024 - pg_duck:
      • Eine von DuckDB Labs auf GitHub offiziell unterstützte DuckDB-Erweiterung.
      • Das Projekt begann als Zusammenarbeit zwischen MotherDuck, Hydra, Microsoft und Neon, doch Microsoft und Neon schieden wegen eines Streits um die Entwicklungskontrolle aus.
      • Derzeit wird es gemeinsam von MotherDuck und Hydra gepflegt.
    • November 2024 - pg_mooncake:
      • Ankündigung einer Erweiterung, die über Postgres Daten in Iceberg-Tabellen schreiben und Transaktionen unterstützen kann.
  • Andys Einschätzung:
    • Vorteile von DuckDB:
      • Die meisten OLAP-Abfragen scannen weniger als 100 MB Daten, was DuckDB in einer einzelnen Instanz problemlos verarbeiten kann.
      • Dank der hervorragenden Portabilität und Bequemlichkeit verbreitet es sich schnell in der Postgres-Community.
      • Unterschiedliche Datenökosysteme einschließlich Iceberg- und S3-Zugriff werden in einer einzigen Erweiterung zusammengeführt.
      • Es liefert High-Performance-Analytics und kann teure Data Warehouses ersetzen.
    • Die Erweiterbarkeit von Postgres:
      • Postgres wurde bereits bei seiner Entwicklung in den 1980er Jahren auf Erweiterbarkeit und Flexibilität ausgerichtet.
      • Durch die 2006 eingeführte „hook“-API verfügt Postgres über das breiteste und vielfältigste Erweiterungsökosystem.
      • Allerdings besteht auch das Risiko, dass Erweiterungen sich gegenseitig stören oder Fehlverhalten verursachen.
    • DuckDB-Integration in Postgres:
      • Bisherige Postgres-Erweiterungen wie Citus und Timescale boten nur spaltenbasierte Speicherung und lösten das Problem daher nur teilweise.
      • DuckDB bietet sowohl spaltenbasierte Speicherung als auch vektorisierte Query-Verarbeitung.
    • Bildhafte Bemerkung:
      • Es wird die Möglichkeit eines turducken-Witzes über den „Postgres-Elefanten und DuckDB“ erwähnt, aber weggelassen, um universitäre Disziplinarmaßnahmen zu vermeiden.

Random Happenings in the Database World

Wichtige Releases:

  • Amazon Aurora DSQL:
    • AWS stellte ein neues „Spanner-like“ DBMS vor.
    • Es basiert auf einem verteilten Log-Service und Timestamp-Ordnung (Time Sync).
    • Der Name Aurora wurde genutzt, aber es gibt keinen gemeinsam genutzten Code mit dem bestehenden Aurora Postgres RDS.
  • CedarDB:
    • Ein kommerzialisiertes DBMS, das den Code von Umbra geforkt hat.
    • Der Umbra-Gründer Thomas Neumann konzentriert sich weiterhin auf Forschung und bleibt an der Spitze der Clickbench-Bestenliste.
  • Google Bigtable:
    • Bigtable, ein Pionier im NoSQL-Bereich, erhielt 2024 Unterstützung für SQL.
  • Limbo:
    • Turso kündigte ein Projekt an, das SQLite vollständig in Rust neu schreibt.
    • Die Stärke von SQLite liegt nicht nur im Code, sondern auch in der Test-Engineering-Arbeit, die sicherstellt, dass es in jeder Umgebung exakt läuft.
    • Gemeinsam mit ehemaligen Engineers von FoundationDB wurden deterministische Tests eingeführt.
  • Microsoft Garnet:
    • Ein Redis-kompatibler Key-Value-Store und der Nachfolger von FASTER.
    • Bietet Query-Parallelität, Unterstützung für Over-Memory-Datenbanken und echte Transaktionen.
  • MySQL v9:
    • Eine neue Version, veröffentlicht nach sechs Jahren.
    • Es tritt ein Problem auf, bei dem die Datenbank abstürzt, wenn sie mehr als 8.000 Tabellen enthält.
    • Es fehlen wichtige Funktionen, und Oracle konzentriert sich stärker auf den Dienst MySQL Heatwave.
  • Prometheus v3:
    • Das erste große Update seit sieben Jahren.
    • Da es viele austauschbare Alternativen gibt, sinkt die Bedeutung des ursprünglichen Prometheus.

Wichtige Übernahmen:

  • Alteryx → Private Equity: Wird selten genutzt, keine besondere Meinung.
  • MariaDB → Private Equity: Hoffnung auf Behebung von Managementproblemen.
  • OrioleDB → Supabase: Verbessert die veraltete Storage-Architektur von Postgres.
  • PeerDB → ClickHouse: Ein Tool für ETL-Übertragungen von Postgres-Daten nach ClickHouse.
  • PopSQL → Timescale: Übernahme einer fortgeschrittenen SQL-Editor-UI.
  • Speedb → Redis Ltd.: Ein RocksDB-Fork, der möglicherweise Datenpersistenz auf Disk hinzufügt.
  • Rockset → OpenAI: Einstellung des DBaaS-Dienstes im September 2024.
  • Tabular → Databricks: Übernahme zur Stärkung des Iceberg-Ökosystems.
  • Verta.ai → Cloudera: Cloudera lebt immer noch.
  • Warpstream → Confluent: Kafka in golang neu geschrieben und mit S3 integriert.

Wichtige Finanzierungen:

  • Databricks: 1 Milliarde Dollar Series J.
  • DBOS: 8,5 Millionen Dollar Seed-Runde.
  • LanceDB: 8 Millionen Dollar Seed-Runde.
  • SDF: 9 Millionen Dollar Seed-Runde.
  • SpiceDB: 12 Millionen Dollar Series A.
  • TigerBeetle: 24 Millionen Dollar Series A.

Bedeutende Enden:

  • Amazon QLDB: Nicht einmal Amazon konnte daraus ein profitables Geschäft machen.
  • OtterTune: Ende einer zehnjährigen Forschungs- und Startup-Reise. Wegen Problemen mit einem bestimmten Unternehmen dürfen keine CMU-DB-Studierenden mehr eingestellt werden.

Andys Einschätzung:

  • Databricks und die massive Finanzierung:
    • Mit einer Series-J-Finanzierung über 1 Milliarde Dollar stellte das Unternehmen 2024 einen neuen Rekord für die Datenbankbranche auf.
    • Das Geld wurde für den Rückkauf von Mitarbeiteraktien verwendet, um den Unmut der Beschäftigten über den verschobenen IPO zu mildern.
    • Nach einem Databricks-IPO könnten sich auch mehrere andere Datenbank-Startups auf einen Börsengang vorbereiten.
  • Ausblick auf nächstes Jahr:
    • Sinkende Zinsen könnten Unternehmen mit bereits großer Finanzierung wie CockroachDB, Starburst und Imply weitere Chancen auf Kapitalaufnahme eröffnen.
    • dbtLabs gilt bereits als erfolgreich etabliert.

Larry Ellison stoppt nicht: Überraschende Schritte im Jahr 2024

  • Larry EIlisons wichtigste Leistungen im Jahr 2024:
    • Zu seinem 80. Geburtstag bleibt er weiterhin mutig und aktiv.
    • Durch den Anstieg der Oracle-Aktie wurde er zum drittreichsten Menschen der Welt.
      • Im März 2024 verdiente er durch den Kurssprung der Oracle-Aktie an nur einem Tag 15 Milliarden Dollar.
    • Im Juli kaufte er für seinen Sohn (aus der Ehe mit seiner dritten Frau) die Paramount Studios für 6 Milliarden Dollar als Geschenk.
    • Er übernahm ein Resort in Palm Beach für 277 Millionen Dollar und fügte damit einen weiteren Luxuswert hinzu.
  • Unterstützung für das Football-Team der University of Michigan:
    • Im November 2024 spendete er 12 Millionen Dollar für eine Förderkampagne des Football-Programms der University of Michigan.
      • Diese Spende spielte eine entscheidende Rolle bei der Verpflichtung eines Top-Quarterbacks, der von LSU nach Michigan wechselte.
      • In der Pressemitteilung der Universität wurde der Beitrag von „Larry und seiner Frau Jolin“ erwähnt.
    • Für Larry, der keinen Hochschulabschluss hat, war dies die bislang stärkste Verbindung zur University of Michigan.
  • Wer ist „Jolin“?:
    • Medienberichte enthüllten, dass Larrys neue Frau Jolin (Cullen) Zhu ist.
      • Larry wurde beim Besuch eines Tennisspiels gesehen, und Jolin trug dabei eine Michigan-Kappe.
      • Zwei Wochen später bestätigte ein Nachrichtenbeitrag um 5 Uhr morgens durch die Hochzeitsmeldung ihre Identität.
  • Andys Sichtweise:
    • Larrys Unterstützung für die University of Michigan hat eine besondere Bedeutung.
      • Ein früherer CMU-DB-Student von Andy ist heute Professor in der Datenbankgruppe der University of Michigan.
    • Er gratuliert Larry zu seiner neuen Liebe und Ehe und betont, wie schwierig es in der heutigen Gesellschaft ist, Liebe zu finden.
      • Trotz früherer Scheidungen würdigt er Larrys Resilienz und positive Haltung, erneut Liebe gefunden zu haben.
  • Larrys sechste Ehe:
    • Nach Melanie Craft (Scheidung 2010) und Nikita Kahn (Scheidung 2020) überraschte er alle mit einer weiteren Heirat.
    • Die Ehe mit Jolin Zhu belegt erneut seinen Willen, dem Glück nachzujagen.

Fazit

  • Neujahrspläne und aktuelle Lage:
    • Zum ersten Mal seit drei Jahren wollte er gesund ins neue Jahr starten, verbrachte den Jahreswechsel jedoch krank im Bett, nachdem er sich bei seiner Tochter mit COVID angesteckt hatte.
    • Dank Booster-Impfung im September 2024 und Behandlung mit Paxlovid erholt er sich ohne größere Probleme.
  • Das Ende von OtterTune:
    • Er ist enttäuscht, dass das OtterTune-Projekt beendet wurde.
    • Er hat mit vielen großartigen Menschen zusammengearbeitet und dabei viel gelernt.
    • Er dankt Intel Capital und Race Capital für ihre Unterstützung bis zum Schluss.
    • Er denkt bereits über ein neues Startup nach (Hinweis: wieder rund um Datenbanken).
  • Neuanfang an der CMU:
    • Er ist an die Carnegie Mellon University (CMU) zurückgekehrt und nimmt seine Forschung wieder in Vollzeit auf.
    • Gemeinsam mit Jignesh Patel bereitet er spannende Forschungsprojekte vor.
    • In diesem Semester wird er eine neue Vorlesung zur Query-Optimierung anbieten.
    • Nachdem Wikipedia im September 2024 seinen Artikel gelöscht hat, überlegt er, wie sich die Zahl der Zitationen seiner Forschungspublikationen erhöhen lässt.
  • Unterstützung für DJ Mooshoo:
    • Er unterstützt weiterhin DJ Mooshoo, der im Cook County inhaftiert ist.
    • Er hofft auf dessen Freilassung im Jahr 2025.
  • Erwähnung von ByteBase:
    • Er bedankt sich für den ByteBase-Artikel zum Jahresrückblick auf Datenbank-Tools 2024 (Database Tools in 2024: A Year in Review).
    • Früher hatte ByteBase um Erlaubnis gebeten, seinen Jahresendartikel zu Datenbanken ins Chinesische zu übersetzen, dieses Jahr wartete das Unternehmen jedoch nicht und veröffentlichte einen eigenen Artikel mit ähnlichem Thema und Titel.

3 Kommentare

 
daumkakao 2025-01-04

Vielen Dank für den guten Artikel.

 
xguru 2025-01-02

2023 habe ich ausgelassen. Damals war es ein OtterTune-Link, aber da der Dienst eingestellt wurde, habe ich es jetzt in meinen persönlichen Blog verschoben.

Review der Datenbanken 2022
Review der Datenbanken 2021

 
GN⁺ 2025-01-02
Hacker-News-Kommentare
  • Es gibt die Ansicht, dass Andys Video die Kritik an der Redis-Befehls-API zu schwach behandelt. Kritik an der Redis-API sei zwar möglich, brauche aber stärkere Argumente. Zudem wird betont, dass man die Nutzung und Vorteile von Redis verstehen müsse.

  • Als der Code von Greenplum geschlossen wurde, erstellten die ursprünglichen Entwickler einen Open-Source-Fork namens Cloudberry, der in ein Apache-Projekt aufgenommen wurde. Cloudberry wurde mit Postgres 14 synchronisiert, während Greenplum weiterhin bei Postgres 12 geblieben ist.

  • Es gibt auch persönliche Kritik an Redis. Redis sei langsam, habe Pseudo-Transaktionen, und die Query-Syntax sei kompliziert. Zudem wird erwähnt, dass Dragonfly an der CMU eine bessere Performance gezeigt habe.

  • DuckDB sei ein hervorragendes Tool. Besonders eindrucksvoll sei ein Vortrag des DuckDB-Gründers an der CMU gewesen, in dem erklärt wurde, warum Data Scientists keine RDBMS verwenden.

  • Es wird als merkwürdig empfunden, dass SQL Server und Azure-Varianten nicht erwähnt wurden. In bestimmten Bereichen seien sie marktbeherrschend und würden bei DBEngines als die drittbeliebtesten eingestuft.

  • Die Unzufriedenheit mit Elastic und Redis unterscheide sich von der mit MongoDB wegen der Lizenz und der Größe der Contributor-Community. Restriktive Lizenzen wie AGPL erschwerten eingebettete Nutzung, und ohne Contributor-Community seien Forks schwierig.

  • Dass es keine Fork-Versuche nach den Lizenzänderungen bei MongoDB, Neo4j, Kafka und CockroachDB gab, liege laut einer Meinung daran, dass den Leuten diese Projekte nicht besonders wichtig gewesen seien.

  • Amazon könne zwar Datenbanken als Service anbieten, aber viele wollten keine von AWS verwalteten Services. Viele Teams bevorzugten k8s-basierte Lösungen, und es gebe eine Tendenz zum Wechsel auf Mainstream-OSS-Implementierungen.

  • Auf die Aussage, noch nie jemanden getroffen zu haben, der Alteryx benutzt, wird erklärt, dass Alteryx ein grafisches ELT+Analytics-Tool ist, das fast keinen Code erfordert und durch seine hohe Kompatibilität zusammen mit anderen Datenbanken oder Dateien eingesetzt werden kann.

  • Es wird Überraschung darüber geäußert, dass ein Datenbank-Startup, das 12M eingesammelt hatte, nach drei Jahren scheiterte. Das zeige, wie schwierig Erfolg für Datenbank-Startups ist. Trotz einer Idee zur Verbesserung der DB-Performance mit AI sei es seltsam, dass keine weiteren Investoren gefunden wurden.