3 Punkte von GN⁺ 2023-08-09 | 1 Kommentare | Auf WhatsApp teilen
  • Dieser Artikel stellt WarpStream vor, eine direkt auf S3 aufgebaute Daten-Streaming-Plattform mit Kafka-Protokollkompatibilität.
  • WarpStream wird als einzelnes, zustandsloses Go-Binary bereitgestellt und macht damit die Verwaltung lokaler Datenträger, das Rebalancing von Brokern und den Betrieb von ZooKeeper überflüssig.
  • Durch das direkte Streamen von Daten nach S3 senkt die Plattform die Infrastrukturkosten erheblich und ist in der Cloud 5- bis 10-mal günstiger als Kafka.
  • Der Artikel kritisiert die Eignung von Kafka für moderne Workloads und hebt insbesondere die hohen Inter-AZ-Bandbreitenkosten und den operativen Overhead hervor.
  • Die Architektur von WarpStream unterscheidet sich von Kafka. Statt Brokern gibt es zustandslose „Agents“, die als „Leader“ für beliebige Topics fungieren, Offsets für beliebige Consumer-Gruppen committen oder als Koordinatoren des Clusters arbeiten können.
  • In WarpStream wird sämtlicher Speicher an Objektspeicher wie S3 ausgelagert, was einfache Skalierung und schnelle Wiederherstellung nach Ausfällen ermöglicht.
  • WarpStream trennt Daten und Metadaten und speichert die Metadaten aller „virtuellen Cluster“ in einer benutzerdefinierten Metadaten-Datenbank.
  • Die Plattform senkt die Gesamtkosten der meisten Kafka-Workloads um das 5- bis 10-Fache, hat dafür aber eine höhere Latenz mit einem P99 von etwa 400 ms für Produce-Requests und rund 1 Sekunde vom Producer bis zum Consumer.
  • WarpStream befindet sich derzeit in der Developer Preview und ist noch nicht für den produktiven Einsatz bereit.
  • Die Entwickler von WarpStream sehen ein Problem in der Developer-UX von Kafka und nennen insbesondere die Low-Level-Abstraktion von Partitionen als Schwachstelle. Sie planen, dies in künftigen Updates von WarpStream zu beheben.
  • Der Artikel endet mit der Einladung an die Leser, WarpStream auszuprobieren und Feedback zu geben.

1 Kommentare

 
GN⁺ 2023-08-09
Hacker-News-Kommentare
  • Ein Artikel über den zwiespältigen Charakter von Kafka als Datenstreaming-Technologie
  • Eine Debatte darüber, ob die meisten Technologieunternehmen Kafka verwenden
  • Die Kosteneffizienz, jede Nachricht direkt an S3 zu pushen, und die Probleme beim Betrieb eines Kafka-Clusters in jeder AZ
  • Eine Vorstellung durch Ryan Worl, Mitgründer und CTO von WarpStream, eines Kafka-Protokoll-kompatiblen Streaming-Systems, das direkt auf S3 aufbaut
  • Hervorgehoben werden die Kosteneffizienz von WarpStream, der Wegfall des Betriebs zustandsbehafteter Disks/Knoten, kein Bedarf an Daten-Rebalancing oder ZooKeeper sowie geringere Cross-AZ-Bandbreitengebühren
  • Kritik an den Kosten des Betriebs von Kafka auf separaten VMs bei Cloud-Anbietern
  • Eine Diskussion über den Einsatz von Storage-Adaptern in korrekt entworfenen Hadoop-/Kafka-Cloud-Managed-Services, um die Redundanz der Anbieter zu nutzen
  • Beschwerden einiger Nutzer über die Behauptung des Artikels, Kafka erfordere ein Spezialistenteam und ein großes Budget
  • Hervorgehoben wird, dass sich die Anzahl der Partitionen in Kafka ändern lässt
  • Eine Debatte über die Behauptung des Artikels, der Betrieb von Kafka erfordere ein großes Engineering-Team
  • Fragen dazu, wie WarpStream den Dienst verwaltet, ob Cloud-Anbieter oder Bare Metal genutzt werden und ob FoundationDB für den Metadaten-Store verwendet wird
  • Eine Diskussion über das Potenzial der Kafka-API und die Möglichkeit, die Komplexität des Cluster-Managements zu abstrahieren
  • Kosteneinsparungen durch die Verlagerung umfangreichen ML-Traffics auf S3; ein Nutzer berichtet von rund 90 % geringeren Kosten
  • Ein Vorschlag, den Titel des Artikels in „Kafka ist tot. Es lebe WarpStream.“ zu ändern, um die Einführung neuer Technologien widerzuspiegeln