1 Punkte von GN⁺ 2024-05-28 | 1 Kommentare | Auf WhatsApp teilen

Big Data ist tot

Wer ich bin und warum ich diesen Artikel schreibe

  • Ich habe mehr als 10 Jahre lang die Bedeutung von Big Data betont.
  • Als Gründungsingenieur von Google BigQuery habe ich Technologien zur Verarbeitung von Big Data propagiert.
  • Durch Gespräche mit Kunden und Produktanalysen wurde mir klar, dass die meisten Menschen in Wirklichkeit gar nicht mit Big Data arbeiten.

Die obligatorische Einführungsfolie

  • Viele Präsentationen zu Big-Data-Produkten vermitteln die Botschaft: „Big Data kommt“.
  • In der Realität müssen die meisten Anwendungen jedoch keine Daten in großem Umfang verarbeiten.
  • Traditionelle Datenbanksysteme gewinnen wieder an Beliebtheit.

Die meisten Menschen haben gar nicht so viele Daten

  • Die meisten Kunden verfügen über weniger als 1 TB an Daten.
  • Selbst Kunden mit großen Datenmengen nutzen tatsächlich nur einen kleinen Teil davon.
  • Die Datengröße folgt dem Pareto-Prinzip, und der Großteil der Daten konzentriert sich auf eine kleine Zahl von Kunden.

Storage-Bias bei der Trennung von Storage und Computing

  • Moderne Cloud-Datenplattformen trennen Storage und Computing.
  • Der Storage wächst schnell, während sich der Bedarf an Computing kaum verändert.
  • Für die Verarbeitung großer Datensätze ist verteilte Verarbeitung möglicherweise nicht erforderlich.

Die Größe der Aufgaben ist kleiner als die Gesamtgröße der Daten

  • Die meisten Analyseaufgaben verarbeiten kleine Datensätze.
  • Abfragen, die große Datenmengen verarbeiten, sind selten und werden hauptsächlich zur Erstellung von Berichten verwendet.
  • Um die Kosten der Datenverarbeitung zu senken, werden kleinere Abfragen bevorzugt.

Die meisten Daten werden fast nie abgefragt

  • Die meisten Daten werden nur innerhalb von 24 Stunden nach ihrer Erzeugung häufig abgefragt.
  • Ältere Daten werden kaum noch abgefragt und belegen nur Speicherplatz.

Die Grenze von Big Data verschiebt sich ständig

  • Die Definition von „Big Data“ verändert sich im Laufe der Zeit.
  • Moderne Hardware kann heute deutlich größere Datenmengen verarbeiten als früher.

Daten sind eine Verantwortung

  • Die Kosten für die Aufbewahrung von Daten gehen über reine Storage-Kosten hinaus.
  • Regulatorische Compliance und rechtliche Verantwortung müssen berücksichtigt werden.
  • Alte Daten sind schwer zu pflegen.

Gehören Sie zu den 1 % von Big Data?

  • Die meisten Menschen müssen sich nicht mit Big Data befassen.
  • Man sollte prüfen, ob die Daten wirklich groß sind und ob sie sich zusammenfassen lassen.

Meinung von GN⁺

  • Die Bedeutung von Datenmanagement: Wichtiger als die Datengröße sind Datenqualität und Datenmanagement. Es ist effizienter, unnötige Daten zu entfernen und sich auf wichtige Daten zu konzentrieren.
  • Ein realistischer Ansatz: Die meisten Unternehmen benötigen keine Big-Data-Technologien. Wichtig ist, Werkzeuge zu wählen, die zur tatsächlichen Datengröße und zum realen Bedarf passen.
  • Kostensenkung: In Cloud-Umgebungen lassen sich Kosten senken, indem Storage und Computing getrennt werden. Es ist wirtschaftlicher, unnötige Datenverarbeitung zu reduzieren.
  • Rechtliche Verantwortung: Die Aufbewahrung von Daten bringt rechtliche Verantwortung mit sich. Auf regulatorische Compliance und Datensicherheit muss geachtet werden.
  • Technologischer Fortschritt: Durch Fortschritte bei Hardware und Software ist Datenverarbeitung möglich geworden, die früher unmöglich war. Mit modernen Technologien lässt sich die Effizienz steigern.

1 Kommentare

 
GN⁺ 2024-05-28
Hacker-News-Kommentare
  • Erfahrungen bei der Einstellung von Data Scientists: Bei der Frage nach einer Architektur für 6 TiB an Daten war der Bewerber am beeindruckendsten, der verstand, dass sich das mit einem Smartphone oder einer günstigen HDD lösen lässt.

  • Vergleich von MongoDB und PostgreSQL: MongoDB bietet nichts, was es besser macht als PostgreSQL, und Big-Data-Lösungen setzen meist auf spaltenorientierte Datenbanken, Map/Reduce, Cassandra usw.

  • Planen für den Erfolg: Die meisten Unternehmen werden kein Unicorn, aber man muss dieses Ziel anpeilen, und dafür braucht es von Anfang an eine Architektur, die Skalierbarkeit berücksichtigt.

  • Datengröße und Abfragehäufigkeit: Die meisten Datenmengen sind nicht groß, und die meisten Abfragen haben kleinen Umfang. Am Anfang ist vor allem Arbeit nötig, um Daten zu reduzieren.

  • Big Data und Regulierungskosten: Die Kosten für Daten steigen aufgrund von Regulierung.

  • Erfahrungen mit Big-Data-Analyse: Aus der Erfahrung am Large Hadron Collider zeigte sich, dass schneller lokaler Storage besser war als ein globales Supercomputer-Netzwerk.

  • Das Paradox von Big Data: Es gab die Tendenz, grundlegende Software-Optimierungen zu vermeiden, um mit den Hardware-Anforderungen anzugeben.

  • Informationsgehalt von Daten: Daten wachsen exponentiell, ihr Informationsgehalt aber nicht. Im Finanzbereich sind die meisten Daten redundant, daher ist Dimensionsreduktion nötig.

  • Definition von Big Data: Big Data ist nicht einfach ein Problem von Speicherkapazität oder Verarbeitungsgeschwindigkeit, sondern eines der kognitiven Fähigkeit, Daten zu integrieren und zu verstehen.

  • Overengineering bei Big-Data-Tools: In vielen Fällen reichen Data Warehouses und Data Lakes im Gigabyte- oder Terabyte-Bereich aus, und eine einfache Architektur liefert bessere Performance.

  • Der Hype um Big Data: Der Big-Data-Hype ist vorbei, was in modeanfälligen Branchen ein häufiges Ergebnis ist.

  • Big Data und das Ego von Gründern: Ein zentraler Treiber von Big Data war das Ego von Gründern; am Anfang reicht oft eine einzelne SQLite-DB aus.

  • Das Verarbeitungsproblem von Big Data: Big Data ist eher ein Verarbeitungs- als ein Speicherproblem, und die meisten Abfragen betreffen nur aktuelle Daten. Wenn die Verarbeitung aller Daten einfacher wäre, stellt sich die Frage, warum die meisten Unternehmen trotzdem weiterhin nur kleine Datenmengen abfragen.