- Ein 1.600 Tage lang betriebenes Data-Science-Projekt endete mit einem Fehlschlag, als das Interesse daran verloren ging
- Um eine neue Herausforderung im Umgang mit Textdaten anzugehen, wurde das Projekt „Sammlung und Analyse von Newsticker-Daten“ durchgeführt
- Als Datenquelle wurde im März 2020 der Newsticker von Tagesschau ausgewählt, der COVID-19-bezogene Nachrichten auf der öffentlichen deutschen Nachrichtenseite bereitstellt
- Im 3. Quartal 2022, als COVID-19 an Bedeutung verlor, wurde auf Newsticker zum Ukraine-Russland-Krieg ausgeweitet
- Es wurden Metamuster der Daten (z. B. Veröffentlichungsfrequenz) sowie semantische Analysen nach Themen durchgeführt
- Es wurden nur kurzfristige Datenexplorationen durchgeführt, eine substanziellere Analyse blieb unvollendet
- Im 3. Quartal 2024 wurde das Projekt wegen nachlassenden Interesses und Zeitmangels eingestellt
Datenerfassung und Systemdesign
- Von 2020 bis 2024 wurden über 1.600 Tage hinweg täglich die URLs der Nachrichtendaten gesammelt und die Rohdaten heruntergeladen
- Tagesschau verfügt jeden Tag über eine Liste kurzer News-Storys, wobei jede Story einen Zeitstempel, eine Überschrift, Fließtext und Multimedia-Elemente enthält
- Mit manueller Arbeit und einer auf Python basierenden halbautomatisierten Datenpipeline wurden unstrukturierte Daten in strukturierte News-Snippets umgewandelt
- Da sich die URL-Sammlung nur schwer automatisieren ließ, wurde täglich die Website besucht und Links manuell gesammelt. Grund dafür war das unstrukturierte URL-Schema von Tagesschau
- Alle 4–8 Wochen wurden die HTML-Seiten per Python stapelweise verarbeitet und als Rohdaten gespeichert
- Mit BeautifulSoup4 wurde das HTML geparst und in einer SQLite-Datenbank gespeichert
- Viele Teile des Projekts wurden automatisiert, aber die manuelle ETL-Pipeline und die eigentliche Analyse wurden nicht automatisiert
- Die Aufbewahrung der Roh-HTML-Daten wurde betont, um auf Änderungen der DOM-Struktur vorbereitet zu sein
Lehren aus dem Scheitern des Projekts
- Storytelling mitdenken:
- Schon zu Beginn des Projekts Storytelling einplanen, damit sich Ergebnisse leicht teilen lassen
- Schnell zu Ergebnissen kommen:
- Nicht nur Daten sammeln, sondern mit kleinen Datensätzen früh erste Analysen durchführen
- Ergebnisse veröffentlichen und so die Arbeitsmotivation aufrechterhalten (mit dem „Show Your Work“-Ansatz)
- Automatisierung:
- Datenerfassung und ETL-Pipeline so weit wie möglich automatisieren, um wiederkehrende Arbeit zu minimieren
- Heute würde man dafür LLM-basierte AI-Agenten einsetzen
- Frequenz der Datenerfassung bewerten:
- Den Erfassungszyklus vorab festlegen (z. B. täglich vs. alle 30 Sekunden)
- Eine Frequenz für die Datenerfassung wählen, die sich automatisieren lässt
- Rohdaten speichern:
- Rohdaten speichern, um künftig auf geänderte Parsing-Logik reagieren zu können
- Cloud nutzen:
- Eine einfache und zuverlässige Infrastruktur aufbauen und dabei Gelegenheit gewinnen, praktische technische Fähigkeiten zu erlernen
Fazit: Durch Scheitern wachsen
- Auch ein gescheitertes Projekt wird zu einer Lernerfahrung und hilft dabei, „besser in der praktischen Datenarbeit“ zu werden
- Das Scheitern von Data-Science-Projekten ist eine wertvolle Lernerfahrung und eine Gelegenheit, sich „battle scars“ zuzulegen
- Bedauerlich ist, dass die Automatisierungsmöglichkeiten durch Natural Language Processing nicht genutzt wurden
- Ebenfalls sehr bedauerlich ist die verpasste Chance, rund 100.000 News-Snippets zu analysieren
- Da weiterhin neue Newsticker entstehen, etwa zur US-Wahl 2024, können andere das Projekt übernehmen
- Es wird gehofft, dass Interessierte das Projekt fortführen, und es besteht Bereitschaft, alle Daten zu teilen
„Go out and build something!“
1 Kommentare
Hacker-News-Kommentare
Ich würde dieses Projekt eher nicht als Fehlschlag bezeichnen, sondern als einen aus Neugier begonnenen und dann abgebrochenen Versuch. Allein schon einen Blogbeitrag veröffentlicht zu haben und auf HN vorgestellt worden zu sein, ist meiner Meinung nach ein Erfolg
Web Scraping ist weiterhin schwierig, und viele Websites unternehmen große Anstrengungen, um Scraping zu verhindern
Es gab einen manuellen Prozess, bei dem täglich die Tagesschau-Website besucht wurde, um Links zu sammeln. Das war kein guter Plan
Ich hatte ein Data-Science-Hobbyprojekt zu COVID, habe aber nach sechs Monaten das Interesse verloren. Der Scraper läuft in der Cloud immer noch weiter
Statt manueller Arbeit hätte man RSS-Feeds zur Automatisierung nutzen sollen
Es ist wichtig, schon früh im Projekt Feedback zu bekommen. Das bietet die Chance, die Richtung des Projekts anzupassen und das Interesse wiederzubeleben
Mir gefällt die Dynamik von Projekten, die verschiedene Interessen zusammenbringen. Ich nutze das, was ich in unterschiedlichen Projekten gelernt habe, um auf neue Ideen zu kommen
Der Titel kann irreführend sein. Das reine Scrapen eines News-Feeds lässt sich in wenigen Tagen aufsetzen
Viele Menschen haben Schwierigkeiten, persönliche Projekte zu Ende zu bringen. Data Science ist eine explorative Arbeit, bei der man Erkenntnisse aus Datensätzen gewinnt
Im Datenerfassungsprozess war wegen des unstrukturierten URL-Schemas der Tagesschau-Website manuelle Arbeit nötig. Es braucht eine stabile Datenquelle
Website-Entwickler berücksichtigen Scraper nicht. Wenn man einen einzigartigen Datensatz sammeln will, sollte man Webentwickler bitten, eine öffentliche API bereitzustellen