Das Scheitern eines 1.600 Tage laufenden Data-Science-Projekts

(lellep.xyz)

7 Punkte von GN⁺ 2024-12-11 | 1 Kommentare | Auf WhatsApp teilen

Ein 1.600 Tage lang betriebenes Data-Science-Projekt endete mit einem Fehlschlag, als das Interesse daran verloren ging
Um eine neue Herausforderung im Umgang mit Textdaten anzugehen, wurde das Projekt „Sammlung und Analyse von Newsticker-Daten“ durchgeführt
- Als Datenquelle wurde im März 2020 der Newsticker von Tagesschau ausgewählt, der COVID-19-bezogene Nachrichten auf der öffentlichen deutschen Nachrichtenseite bereitstellt
- Im 3. Quartal 2022, als COVID-19 an Bedeutung verlor, wurde auf Newsticker zum Ukraine-Russland-Krieg ausgeweitet
- Es wurden Metamuster der Daten (z. B. Veröffentlichungsfrequenz) sowie semantische Analysen nach Themen durchgeführt
Es wurden nur kurzfristige Datenexplorationen durchgeführt, eine substanziellere Analyse blieb unvollendet
Im 3. Quartal 2024 wurde das Projekt wegen nachlassenden Interesses und Zeitmangels eingestellt

Datenerfassung und Systemdesign

Von 2020 bis 2024 wurden über 1.600 Tage hinweg täglich die URLs der Nachrichtendaten gesammelt und die Rohdaten heruntergeladen
- Tagesschau verfügt jeden Tag über eine Liste kurzer News-Storys, wobei jede Story einen Zeitstempel, eine Überschrift, Fließtext und Multimedia-Elemente enthält
Mit manueller Arbeit und einer auf Python basierenden halbautomatisierten Datenpipeline wurden unstrukturierte Daten in strukturierte News-Snippets umgewandelt
- Da sich die URL-Sammlung nur schwer automatisieren ließ, wurde täglich die Website besucht und Links manuell gesammelt. Grund dafür war das unstrukturierte URL-Schema von Tagesschau
- Alle 4–8 Wochen wurden die HTML-Seiten per Python stapelweise verarbeitet und als Rohdaten gespeichert
- Mit BeautifulSoup4 wurde das HTML geparst und in einer SQLite-Datenbank gespeichert
- Viele Teile des Projekts wurden automatisiert, aber die manuelle ETL-Pipeline und die eigentliche Analyse wurden nicht automatisiert
- Die Aufbewahrung der Roh-HTML-Daten wurde betont, um auf Änderungen der DOM-Struktur vorbereitet zu sein

Lehren aus dem Scheitern des Projekts

Storytelling mitdenken:
- Schon zu Beginn des Projekts Storytelling einplanen, damit sich Ergebnisse leicht teilen lassen
Schnell zu Ergebnissen kommen:
- Nicht nur Daten sammeln, sondern mit kleinen Datensätzen früh erste Analysen durchführen
- Ergebnisse veröffentlichen und so die Arbeitsmotivation aufrechterhalten (mit dem „Show Your Work“-Ansatz)
Automatisierung:
- Datenerfassung und ETL-Pipeline so weit wie möglich automatisieren, um wiederkehrende Arbeit zu minimieren
- Heute würde man dafür LLM-basierte AI-Agenten einsetzen
Frequenz der Datenerfassung bewerten:
- Den Erfassungszyklus vorab festlegen (z. B. täglich vs. alle 30 Sekunden)
- Eine Frequenz für die Datenerfassung wählen, die sich automatisieren lässt
Rohdaten speichern:
- Rohdaten speichern, um künftig auf geänderte Parsing-Logik reagieren zu können
Cloud nutzen:
- Eine einfache und zuverlässige Infrastruktur aufbauen und dabei Gelegenheit gewinnen, praktische technische Fähigkeiten zu erlernen

Fazit: Durch Scheitern wachsen

Auch ein gescheitertes Projekt wird zu einer Lernerfahrung und hilft dabei, „besser in der praktischen Datenarbeit“ zu werden
Das Scheitern von Data-Science-Projekten ist eine wertvolle Lernerfahrung und eine Gelegenheit, sich „battle scars“ zuzulegen
Bedauerlich ist, dass die Automatisierungsmöglichkeiten durch Natural Language Processing nicht genutzt wurden
Ebenfalls sehr bedauerlich ist die verpasste Chance, rund 100.000 News-Snippets zu analysieren
Da weiterhin neue Newsticker entstehen, etwa zur US-Wahl 2024, können andere das Projekt übernehmen
- Es wird gehofft, dass Interessierte das Projekt fortführen, und es besteht Bereitschaft, alle Daten zu teilen

„Go out and build something!“

1 Kommentare

GN⁺ 2024-12-11

Hacker-News-Kommentare

Ich würde dieses Projekt eher nicht als Fehlschlag bezeichnen, sondern als einen aus Neugier begonnenen und dann abgebrochenen Versuch. Allein schon einen Blogbeitrag veröffentlicht zu haben und auf HN vorgestellt worden zu sein, ist meiner Meinung nach ein Erfolg
- Hätte man das Projekt abgeschlossen, hätte man wahrscheinlich mit Python einen Datensatz veröffentlicht, der sich für verschiedene Analysen nutzen ließe
- Man kann auch den Rohdatensatz veröffentlichen und das als Erfolg ansehen
- Durch die Fortschritte bei LLMs würde man jetzt eher Basismodelle in Betracht ziehen, die als AI-Agenten verpackt sind
Web Scraping ist weiterhin schwierig, und viele Websites unternehmen große Anstrengungen, um Scraping zu verhindern
Es gab einen manuellen Prozess, bei dem täglich die Tagesschau-Website besucht wurde, um Links zu sammeln. Das war kein guter Plan
Ich hatte ein Data-Science-Hobbyprojekt zu COVID, habe aber nach sechs Monaten das Interesse verloren. Der Scraper läuft in der Cloud immer noch weiter
Statt manueller Arbeit hätte man RSS-Feeds zur Automatisierung nutzen sollen
Es ist wichtig, schon früh im Projekt Feedback zu bekommen. Das bietet die Chance, die Richtung des Projekts anzupassen und das Interesse wiederzubeleben
Mir gefällt die Dynamik von Projekten, die verschiedene Interessen zusammenbringen. Ich nutze das, was ich in unterschiedlichen Projekten gelernt habe, um auf neue Ideen zu kommen
Der Titel kann irreführend sein. Das reine Scrapen eines News-Feeds lässt sich in wenigen Tagen aufsetzen
Viele Menschen haben Schwierigkeiten, persönliche Projekte zu Ende zu bringen. Data Science ist eine explorative Arbeit, bei der man Erkenntnisse aus Datensätzen gewinnt
Im Datenerfassungsprozess war wegen des unstrukturierten URL-Schemas der Tagesschau-Website manuelle Arbeit nötig. Es braucht eine stabile Datenquelle
Website-Entwickler berücksichtigen Scraper nicht. Wenn man einen einzigartigen Datensatz sammeln will, sollte man Webentwickler bitten, eine öffentliche API bereitzustellen

Das Scheitern eines 1.600 Tage laufenden Data-Science-Projekts

Datenerfassung und Systemdesign

Lehren aus dem Scheitern des Projekts

Fazit: Durch Scheitern wachsen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare