Zehn Jahre Lehren aus Data Science für das Gemeinwohl

xguru · 2025-01-23T09:46:01+09:00

Als DrivenData 2014 startete, befand sich der Einsatz von Data Science für das Gemeinwohl noch in einem frühen Stadium Damals wurden Data-Science-Techniken vor allem von Unternehmen wie Netflix und Amazon für Marketing und Content-Empfehlungen genutzt; Beispiele für den Einsatz bei Non-Profits, NGOs, Sozialunternehmen und staatlichen Diensten gab es kaum Frühe Ziele und Hintergrund Data-Science-Talente waren äußerst knapp und die Einstellungskosten hoch; diese Lücke war bei Organisationen, die sich mit gesellschaftlichen Problemen befassen, noch gravierender Ausgehend vom Harvard Innovation Lab wollte man die technologische Lücke bei Data Science für gesellschaftliche Probleme schließen Ziel war es, modernste Technologien aus Data Science und Crowdsourcing zu nutzen, um zentrale gesellschaftliche Herausforderungen weltweit anzugehen Zwei Zitate, die die damalige Sichtweise widerspiegeln "Big Data für humanitäre Entscheidungen nutzbar zu machen, ist die zentrale Herausforderung und Chance des Netzwerkzeitalters." – UN OCHA "Die klügsten Köpfe meiner Generation verschwenden ihre Gedanken daran, Menschen dazu zu bringen, auf Werbung zu klicken … Das ist wirklich frustrierend." – Jeff Hammerbacher, ehemaliger Data-Manager bei Facebook Veränderungen in den vergangenen 10 Jahren Es gab vielfältige Versuche, Data Science und AI auf gesellschaftliche Wirkung anzuwenden Mehr als 150 Projekte, Zusammenarbeit mit über 80 Partnern (Weltbank, Bill & Melinda Gates Foundation, NASA usw.) Mehr als 75 Data-Science-Wettbewerbe veranstaltet und Preisgelder von über 4,7 Millionen US-Dollar vergeben DrivenData hat in den vergangenen 10 Jahren mit dem Einsatz von Data Science für das Gemeinwohl Best Practices und Erkenntnisse gesammelt Jetzt ist ein guter Zeitpunkt, gemeinsam darüber nachzudenken, was funktioniert hat, was weiterhin schwierig ist und welche Richtung zu einer besseren Zukunft führen kann Vorschau auf 10 zentrale Erkenntnisse Fälle, in denen Data Science gut funktioniert hat Data Science hat einen bedeutenden Einfluss auf gesellschaftliche Probleme Gute Daten führen zu guten Lösungen Am erfolgreichsten sind Bemühungen, wenn sie sich auf konkrete Probleme und menschliche Bedürfnisse konzentrieren Am wirksamsten ist die Kombination der Stärken von Mensch und Maschine Interdisziplinäre Perspektiven und Flexibilität bringen Organisationen Vorteile Punkte, die weiterhin herausfordernd sind Data Science ist eine iterative R&D-Tätigkeit, doch im gesellschaftlichen Sektor wird dafür zu wenig investiert Es ist schwierig, Data Scientists einzustellen und gut zu unterstützen Im Open Source-Bereich fehlen Lösungen für Nicht-Entwickler Technologischer Hype erhält übermäßig viel Aufmerksamkeit Data Science und AI haben große ethische Implikationen, doch Tools und Praktiken für einen ethischen Einsatz hinken hinterher Die Zeiten ändern sich In den vergangenen 10 Jahren war die Entwicklung von Daten- und AI-Technologien erstaunlich schnell. Zu den wichtigsten Innovationen, die dies ermöglicht haben, gehören: Computing und Speicher Durch den Ausbau von Cloud-Computing und Speicher sind die benötigten Ressourcen günstiger und leichter verfügbar geworden Von GPU-basierten Experimenten bis zur skalierbaren Cluster-Bereitstellung für die Ausführung von Modellen in Echtzeit wurden die Einstiegskosten gesenkt Deep Learning Deep Learning hat die Data Science grundlegend verändert Die Zahl wirkungsvoller Architekturen wie Generative Adversarial Networks (GANs), Transformer, Variational Autoencoders und Graph Neural Networks ist explosionsartig gestiegen Rund um PyTorch und TensorFlow hat sich ein Ökosystem entwickelt; Tools, Bibliotheken und vortrainierte Modelle haben das Innovationstempo beschleunigt Demokratisierung des Technologiezugangs Data Science wurde als der "sexiest job of the 21st century" bezeichnet, und die Lernmöglichkeiten nahmen explosionsartig zu Durch MOOCs, Bootcamps und Datenwettbewerbe haben mehr Menschen grundlegende Fähigkeiten in Data Science erworben Generative AI Mit dem Aufkommen großer Sprachmodelle (LLMs) verändert sich die Art zu arbeiten Sie verkürzt den Zeitaufwand für komplexe Aufgaben und eröffnet neue Möglichkeiten Ob Generative AI nur ein vorübergehender Trend oder eine echte Innovation ist, wird noch geprüft; klar ist jedoch, dass AI dauerhaft genutzt werden wird Trotz dieser technologischen Veränderungen lassen sich über einzelne Technologien hinaus mehrere gemeinsame Muster beobachten. Dieser Beitrag konzentriert sich darauf, was in den vergangenen 10 Jahren gut funktioniert hat und was weiterhin eine Herausforderung darstellt. Fälle, in denen Data Science gut funktioniert hat Data Science hat einen bedeutenden Einfluss auf gesellschaftliche Probleme Die Situation vor 10 Jahren Das Potenzial von Data-Science-Tools war zwar klar, doch ihre Anwendung für gesellschaftliche Wirkung war begrenzt Die damalige Diskussion beschränkte sich auf einige wenige Beispiele und war vor allem von Ideen über zukünftige Möglichkeiten geprägt Heutige Fortschritte Machine-Learning-Modelle beeinflussen Entscheidungen in vielen Bereichen wie Gesundheitswesen und Management natürlicher Ressourcen Data Science hilft, Probleme wie schädliche Algenblüten, nicht nachhaltige Fischerei und klimabedingte Naturkatastrophen zu bewältigen und trägt zu finanzieller Inklusion und zum Schutz von Wildtieren bei Im öffentlichen Bereich haben sich Datenvisualisierungen als zentrales Medium für Berichterstattung und Kommunikation etabliert Beispiel: Kampagnen zur Eindämmung von COVID-19, WHO-Dashboard Konkretes Beispiel mit Satellitenbildern Im Jemen wurden Satellitenbilder genutzt, um Anbaukulturen und Klimarisiken zu analysieren und das Ernährungssicherheitsprogramm der Weltbank mit Informationen zu versorgen Beitrag von AI zum wissenschaftlichen Fortschritt AlphaFold: ein Modell zur Vorhersage von Proteinstrukturen, das Aufgaben, die früher Jahre dauerten, in wenigen Stunden erledigt und Wissenschaftlern alle Proteinstrukturen kostenlos bereitstellt Transformer-Modelle: eingesetzt zur Erkennung von Hassrede in multimodalen Memes Technologien zur Individuenerkennung: verbessern das Tracking bedrohter Arten (etwa Wale) und werden auf verschiedene Spezies ausgeweitet Veränderungen im gesellschaftlichen Sektor Mitte der 2010er Jahre konzentrierten sich Diskussionen über Datennutzung vor allem auf die "Wirkungsmessung" Heute liegt der Schwerpunkt darauf, wie Data-Science-Tools die Arbeitsweise von Organisationen verändern und ihnen neue Fähigkeiten verleihen können Die aktuelle Diskussion richtet sich darauf, was Data Science und AI über das Messbare hinaus tatsächlich "tun können" Gute Daten führen zu guten Lösungen, und der Zugang zu Daten hat sich stark verbessert Die alltägliche Rolle von Daten nimmt zu Bei jeder Aktivität entstehen Daten, ob beim Einkaufen, bei der Nutzung von Notdiensten oder bei Krankenhausbesuchen Haushaltsgeräte, Wearables, Fahrzeuge, Mobiltelefone und Anwendungen sammeln Nutzungsdaten Fortschritte bei Sensor- und Kameratechnologien haben den Einsatz von Bild- und Videodaten verstärkt Zwei Stufen der Datennutzung Daten werden digital erfasst und beobachtbar gemacht Die Nutzung entwickelt sich weiter hin zu Lernen aus Daten und dem Erkennen von Mustern AI und Machine Learning basieren auf Daten Größere Datenmengen und höhere Datenqualität unterstützen die Erkennung neuer Muster und die Entwicklung von Algorithmen Beispiele: Krebserkennung, der Empfehlungsalgorithmus von Spotify, Trainingsdaten für ChatGPT Monica Rogatis Data-Science-Hierarchie Fortgeschrittene Funktionen der Data Science benötigen ein starkes Datenfundament Kluges Investment in Dateninfrastruktur bildet die Grundlage für die Umsetzung höherer Funktionen Datennutzung für gesellschaftlichen Mehrwert Regierungen und große Institutionen bauen die Veröffentlichung öffentlicher Daten aus Von DrivenData genutzte Datentypen: Wetterdaten, Verkehrsdaten, OpenStreetMap-Daten: für Flugverkehrsplanung und zur Unterstützung der Katastrophenresilienz Satellitenbilder: zur Kartierung von Überschwemmungsgebieten und zur Schätzung von Waldbiomasse Mobile Transaktionsdaten: zur Analyse von Finanzverhalten und Einstellungen Umfragedaten: für groß angelegte Erkenntnisse zu Meinungen und Verhalten Audioaufnahmen: zur Klassifizierung des Lese- und Schreibniveaus von Kindern Hochauflösende Bilder: zur Vorhersage der Wahrscheinlichkeit eines Melanomrezidivs Textdaten: zur automatischen Analyse klinischer Konzepte in ärztlichen Stellungnahmen Die Bedeutung von Datenzugang und Nutzbarkeit Es reicht nicht aus, Daten einfach nur offenzulegen Liegen maschinenlesbare Formate, klare Dokumentation und Anwendungsfälle vor, steigen Beteiligung und Nutzung Viele Organisationen investieren in Datenerhebung, vernachlässigen aber zusätzliche Investitionen in deren Nutzung Daten dokumentation und Anwendungsbeispiele spielen eine ebenso wichtige Rolle wie Preisgelder für Challenges Am erfolgreichsten sind Bemühungen, wenn sie sich auf konkrete Probleme und menschliche Bedürfnisse konzentrieren Die Fallstricke eines technologiezentrierten Ansatzes Organisationen mit sozialer Wirkung versuchen oft, mit den neuesten Technologietrends Schritt zu halten "Big Data" und AI-Tools wirken wie Allzwecklösungen, sind in der Praxis jedoch dann wirksam, wenn sie auf die Lösung konkreter Probleme ausgerichtet werden Kernelemente erfolgreicher Projektgestaltung Bestimmte Nutzer und Probleme definieren und messbare Ziele festlegen, mit denen sie sich lösen lassen Human-Centered-Design-Tools nutzen, um herauszufinden, was Menschen "wollen", und Lösungen entwickeln, die über das technisch "Mögliche" hinausgehen Konkrete Beispiele Erkennung von Algenblüten (CyFi) In Zusammenarbeit mit der NASA wurden schädliche Cyanobakterien-Algenblüten mithilfe von Satellitenbildern erkannt Unterstützt Wasserverwalter dabei, den Zustand von Algenblüten präzise zu bewerten und Ressourcen effizient zuzuweisen Identifizierung von Wildtieren (Zamba) In Zusammenarbeit mit dem Max-Planck-Institut wurde ein Tool zur automatischen Tiererkennung auf Basis von Kamerafallen-Daten entwickelt Mit Zamba Cloud wurde die Benutzerfreundlichkeit erhöht, indem auf Basis von Feedback von Forschenden die UI verbessert wurde Die Bedeutung der Nutzerperspektive Problemdefinition Durch Nutzerinterviews und das Einholen von Rückmeldungen Probleme und Anforderungen klar verstehen Die menschliche Perspektive hinter den Datenpunkten berücksichtigen Bereitstellung der Lösung UI/UX-Tests und klare Kommunikation sind nötig, damit Nutzer die Lösung wirksam einsetzen und ihre Vorteile verstehen können Nutzer dabei unterstützen, die Stärken und Grenzen des Modells intuitiv zu erfassen, und anhand realer Beispiele erklären, wie es eingesetzt werden kann Fazit Die Rolle von Data Scientists besteht darin, technische Fähigkeiten und gesellschaftliche Bedürfnisse miteinander zu verbinden Am wirksamsten sind Projekte, die sich nicht in der neuesten Technologie verlieren, sondern auf Problemlösung und konkrete Ergebnisse fokussiert sind Lösungen sind am wirksamsten, wenn die Stärken von Maschine und Mensch kombiniert werden Die Gefahr überzogener Erwartungen an AI Data-Science-Modelle und AI sind nicht allmächtig, und jedes Modell hat in gewissem Maß Grenzen Die bloße Einführung von AI garantiert keinen Erfolg Die besten Lösungen entstehen in Systemen, die die Stärken von Maschine und Mensch kombinieren Beispiel des Zamba-Tools Zamba sagt mit Wahrscheinlichkeiten voraus, ob sich in Wildtier-Kamerafallenaufnahmen Tiere befinden Das Modell kann sich zwar gelegentlich irren, doch die ausgegebenen Wahrscheinlichkeiten ermöglichen effiziente Prüfstrategien Zum Beispiel können zuerst Aufnahmen geprüft werden, in denen mit hoher Wahrscheinlichkeit Schimpansen vorkommen, oder es kann ein Wahrscheinlichkeitsschwellenwert festgelegt werden, ab dem Aufnahmen als leer gelten Dadurch lassen sich 85 % der Schimpansen-Aufnahmen identifizieren, während weniger als 5 % aller Aufnahmen überprüft werden müssen Ergebnisse der Zusammenarbeit von Maschine und Mensch Beispiel AI-Screening bei Brustkrebs: Wenn Radiologen und AI zusammenarbeiten, erreichen sie eine höhere Genauigkeit als jeweils allein Es wird die Interpretierbarkeit und Erklärbarkeit von AI betont: Menschen müssen Informationen erhalten, mit denen sie AI-Ergebnisse bewerten und in den Kontext einordnen können Beispiel: In einem Wettbewerb zur Walerkennung stellte das Modell Visualisierungen der Merkmale bereit, mit denen einzelne Wale einander zugeordnet wurden Ähnliches Muster bei generativer AI Menschliches Feedback ist für die Entwicklung nützlicher Tools wie ChatGPT unverzichtbar Über Feedback-Daten können Modelle so verbessert werden, dass sie nach und nach schwierigere Fälle lernen Bewertung von Fehlerkosten und Verbesserungsmöglichkeiten Das Systemdesign lässt sich mit zwei Fragen verbessern: "Wie würden wir ein perfektes Modell einsetzen?" "Wie würden wir damit umgehen, wenn dieses Modell sich gelegentlich irrt?" So lassen sich die Fehlertoleranz des Systems und die Bereiche bestimmen, in denen menschliche Prüfung nötig ist Lehren für Organisationen Beispiel Niederlande 2021: Durch einen ungeeigneten Algorithmus wurden 26.000 Haushalte fälschlich des Sozialleistungsbetrugs beschuldigt Sich ohne angemessene menschliche Prüfung auf Algorithmen zu verlassen, verursacht hohe gesellschaftliche Kosten Umgekehrt lassen sich Effizienz und Wirksamkeit maximieren, wenn Algorithmen und menschliche Stärken kombiniert werden Interdisziplinäre Perspektiven und Flexibilität helfen Organisationen Projekterfahrung über verschiedene Fachbereiche hinweg Durch die Arbeit in Bereichen wie finanzielle Inklusion, Klimaschutz und Gesundheitswesen wurden die Vorteile einer interdisziplinären Perspektive deutlich Muster des Machine Learning aus einem bestimmten Kontext lassen sich auf andere Bereiche übertragen Beispiel: Anwendungen zwischen Computer-Vision-Modellen zum Schutz von Kelpwäldern und Modellen zur Erkennung von Läsionen in Zervixbiopsien Flexibilität des Ansatzes So unterschiedliche Probleme wie die Früherkennung von Pflanzenschädlingen und die Extraktion von Skills aus Lebensläufen basieren beide auf Named Entity Recognition (NER) Lehren und Erfahrungen aus bestehenden Ansätzen können genutzt werden, um sie mit geringeren Kosten auf andere Probleme anzuwenden Konkretes Beispiel Ein Natural-Language-Processing-Ansatz zur Erkennung von Nutzpflanzen, Schädlingen, Krankheiten und Chemikalien in WhatsApp-Nachrichten Unterstützt Kleinbauern dabei, neue Trends zu erkennen und wissenschaftlich fundierte Empfehlungen zu verbessern Balance zwischen Fachwissen und Nutzerperspektive Die Zusammenarbeit mit Domain-Experten stellt sicher, dass der passende Kontext für das Problem berücksichtigt wird Durch die Einbeziehung der Nutzerperspektive in den Data-Science-Prozess lassen sich geeignete Lösungen entwerfen Erkennen, welche Arbeit "es wert ist, getan zu werden" Technische Expertise allein reicht nicht aus; erforderlich sind auch Empathie, Kommunikation, Neugier und Flexibilität Es gilt gemeinsam zu überlegen, in welchen Bereichen Machine Learning Mehrwert schaffen kann, und genau zu verstehen, für wen der Ansatz gedacht ist und wie er genutzt werden soll Den vielfältigen Anforderungen von Organisationen gerecht werden Die Anforderungen unterscheiden sich je nach Organisation von explorativer Forschung über Prototyping bis hin zur Produktionsphase Es wird mit sehr unterschiedlichen Partnern zusammengearbeitet, von großen datenbereitstellenden Organisationen (Candid, NASA usw.) bis hin zu Organisationen, die gerade erst Datensysteme aufbauen Wichtig ist, die Eignung der Technologie zu bewahren und zugleich aus umfangreicher Erfahrung Flexibilität abzuleiten Was weiterhin herausfordernd bleibt Data Science ist iterativ, und der soziale Sektor investiert zu wenig in R&D Wesen und Wert von R&D Forschung und Entwicklung ist ein Lernprozess, der Kapitalinvestitionen, Experimente, Reflexion und die Bereitschaft erfordert, Fehlschläge in Kauf zu nehmen Verlässliche Methoden und kurzfristige Ansätze stoßen an Grenzen, wenn es darum geht, die Bandbreite der Probleme im sozialen Sektor zu lösen Langfristige Investitionen und nichtlineare Innovationen führen zu den wichtigsten Ergebnissen Zu geringe R&D-Investitionen im sozialen Sektor Laut einer NSF-Erhebung aus dem Jahr 2022 betreiben 94 % der großen Non-Profit-Organisationen überhaupt keine R&D-Aktivitäten Obwohl Data Science weitgehend eine R&D-Tätigkeit ist, wird in diesen Bereich zu wenig investiert Der iterative Charakter von Data Science Data Science nutzt iterative Lern- und Feedback-Schleifen, um optimale Ergebnisse zu erzielen und die Effizienz von Services zu verbessern Es werden Frameworks genutzt, die Iteration betonen, etwa Harvard-Data-Science-Kurse und CRISP-DM (Cross-Industry Standard Process for Data Mining) Die Bedeutung menschenzentrierter Data Science Der Lernprozess konzentriert sich auf die Gestaltung wirksamer Lösungen und wird mit wiederholbaren Innovations-Frameworks verbunden Human-Centered Design stärkt die Verbindung zwischen tatsächlichen Bedürfnissen und Lösungen Erfolgsbeispiele für R&D in Privatunternehmen Privatunternehmen erkennen durch R&D-Prozesse den Wert der Datennutzung klarer Beispiele jüngerer AI-Innovationen wären ohne kontinuierliche R&D-Investitionen nicht möglich gewesen Fazit Die ersten Ergebnisse datenbezogener R&D-Projekte sind zwar unsicher, doch der Prozess selbst, aus Daten Wert zu schaffen, ist eine bewährte Methodik Kontinuierliche und langfristige Investitionen in R&D sind unverzichtbar, um Innovation zu beschleunigen und die Herausforderungen des sozialen Sektors zu bewältigen Data Scientists einzustellen und zu unterstützen ist schwierig, und allein arbeitende Data Scientists sind weniger zufrieden Schwierigkeiten aus Sicht der Organisation Einstellung Es ist schwierig, geeignete Kandidaten zu identifizieren und zu bewerten, wenn noch keine bestehenden Data Scientists vorhanden sind Der Begriff „Data Scientist“ ist unscharf definiert, da er viele unterschiedliche Fähigkeiten und Erfahrungen umfasst Gewinnung und Bindung von Talenten Die hohe Nachfrage nach Data Scientists führt zu einem umkämpften Arbeitsmarkt Neben dem motivierenden Faktor, gesellschaftliche Probleme zu lösen, müssen auch interessante technische Aufgaben, wettbewerbsfähige Gehälter und Möglichkeiten zur fachlichen Weiterentwicklung geboten werden In frühen Einstellungsphasen ist es noch schwieriger, diese Faktoren bereitzustellen Management und Unterstützung Damit Data Scientists produktiv bleiben, müssen Problemumfang klar definiert sowie Richtung, Infrastruktur und Daten bereitgestellt werden Ohne technischen Hintergrund ist es leicht, den Schwierigkeitsgrad der Arbeit zu unter- oder zu überschätzen Schwierigkeiten aus Sicht der Entwickler Lernen und Wachstum Data Science ist ein sich schnell entwickelndes Feld, daher sind Möglichkeiten zum Lernen und Wachsen im Team wichtig In Umgebungen, in denen Code-Reviews, Modell-Feedback und die Verteilung der Arbeitslast schwierig sind, sind die Entwicklungsmöglichkeiten eingeschränkt Mangel an Orientierung und Unterstützung Wenn die Arbeit nicht angemessen unterstützt wird, sinken Zufriedenheit und Produktivität von Data Scientists Freude an der Arbeit Der Prozess, Probleme mit Kollegen zu besprechen und zu lösen, erhöht die Arbeitszufriedenheit Dies kann zwar auch über externe Netzwerke gelöst werden, aber Zusammenarbeit innerhalb der Organisation ist effizienter Anzeichen für Veränderungen In letzter Zeit gibt es mehr Beispiele dafür, dass Organisationen im sozialen Sektor eigene Datenteams aufbauen DrivenData beteiligt sich als Partner, der frühe Einstellungen von Data Scientists und Ingenieuren sowie Onboarding und Aufgabenübergänge unterstützt Die Zusammenarbeit mit externen spezialisierten Data-Science-Teams, um flexible Kapazitäten bereitzustellen, ist sowohl für Organisationen als auch für Data Scientists vorteilhaft Ausblick Einige Organisationen beginnen erfolgreich mit dem Aufbau von Datenteams, doch die Nachfrage nach Data-Science-Kompetenzen bleibt hoch Es ist zu erwarten, dass die Herausforderung, Datenteams von Grund auf aufzubauen, bestehen bleibt Open Source entwickelt nicht ausreichend Lösungen für Nicht-Entwickler Grenzen von Open Source Open-Source-Software entwickelt sich oft besonders effektiv, weil die Entwickler-Community häufig mit den Nutzern identisch ist Mitwirkende sind motiviert, die Werkzeuge zu verbessern, die sie selbst verwenden Bei Werkzeugen für Nicht-Entwickler oder Nicht-Fachleute greift diese Motivation jedoch nicht Herausforderungen bei Werkzeugen für Nicht-Fachleute In Data-Science-Projekten werden häufig Methoden und Werkzeuge für Nicht-Entwickler entwickelt Selbst wenn sie als Open Source veröffentlicht werden, geraten Projekte ins Stocken oder werden eingestellt, wenn keine kontinuierlichen Investitionen und keine Weiterentwicklung erfolgen Um sich praktisch zu erfolgreichen Lösungen zu entwickeln, sind nach der Prototyp-Phase zusätzliche Entwicklung und realistische Pilot-Tests erforderlich Konkretes Beispiel: Concept to Clinic 2017–18 wurde eine offene Anwendung entwickelt, die mithilfe von AI Radiologen bei der Auswertung von CT-Scans unterstützt Um Beiträge zu fördern, wurde ein strukturiertes Anreizsystem mit Punkten und finanziellen Belohnungen für Mitwirkende eingeführt Ohne diesen Ansatz wäre die Entwicklung des Projekts wahrscheinlich nicht möglich gewesen Voraussetzungen für nachhaltigen Open-Source-Erfolg Die bloße Veröffentlichung als Open Source garantiert keine langfristige Wirkung Um sich vom Prototyp zu einer Lösung für Endnutzer zu entwickeln, braucht es eine klare Roadmap und kontinuierliche Finanzierung Bei der Entwicklung wichtiger Anwendungen ist Open Source nur ein Teil des Weges und sollte nicht zum Endziel werden Der Technologie-Hype (hype wave) erhält zu viel Aufmerksamkeit Sozialer Sektor und technologische Innovation Der soziale Sektor war in den vergangenen zehn Jahren eng mit Wellen neuer technologischer Innovationen verbunden Organisationen geraten in Versuchung, neue Technologien einzuführen, um mit begrenzten Ressourcen effizienter zu werden Der Druck, nicht zurückzufallen, wenn man den neuesten Technologietrends nicht folgt, führt häufig zu strategischen Kurswechseln Probleme überhöhter Technologieeinführung Es ist schwierig, aus dem Technologie-Hype die wirklich zentralen Innovationselemente herauszufiltern Die Einführung von Technologien führt oft zu überhöhten Erwartungen und mangelhafter Umsetzung Beispiele: Blockchain: Trotz hoher Erwartungen war der praktische Nutzen für den sozialen Sektor gering Mobile Apps: Auch wenn sie nicht unbedingt nötig waren, führte der Druck, sie als „unverzichtbar“ zu betrachten, zu ineffizienten Ausgaben Bedeutung spezialisierter Technologieorganisationen Organisationen mit technischen Experten, die mit Technologie-Hype effizient umgehen können, erzielen die besten Ergebnisse DrivenData arbeitet mit DataKind, DSSG Fellowship, Delta Analytics und anderen zusammen und nutzt deren technische Expertise Doch selbst solchen Expertengruppen fällt es schwer, Lehren aus früherem Technologie-Hype systematisch zu sammeln Notwendige Veränderung: ein „Wellenbrecher“ gegen Technologie-Hype Es braucht die Fähigkeit, echte Innovation von überzogenen Erwartungen zu trennen und wesentliche Entwicklungen zu identifizieren Unverzichtbar ist technologische Führung, die sowohl Spitzenwissen über modernste Technologien als auch tiefes Verständnis des sozialen Sektors vereint An solcher Führung und einem entsprechenden Ökosystem mangelt es derzeit; sie werden benötigt, um einen nachhaltigen und ausgereiften Ansatz aufzubauen Strategischer Ansatz für aktuelle Technologien wie AI Das Potenzial von AI ist enorm, verlangt aber nicht bloße Begeisterung, sondern eine vorsichtige Strategie und tiefes Fachwissen Ohne den Aufbau einer soliden datenbasierten Grundlage besteht das Risiko, dass sich der ineffiziente Zyklus technologischer Hypes wiederholt Ohne grundlegende Investitionen und Planung ist es unwahrscheinlich, dass technologische Innovation im sozialen Sektor echte Ergebnisse erzielt Data Science und AI haben große ethische Implikationen, doch die rasche Einführung überholt die Werkzeuge und Praktiken zu ihrer Unterstützung Ausweitung von Data Science und AI und ihre ethische Bedeutung Data Science und Machine Learning werden in verschiedenste Bereiche integriert, darunter Gesundheitswesen, Katastrophenhilfe und strafrechtliche Urteile Die Risiken falscher Nutzung sind deutlich größer als früher Die Realität unzureichender ethischer Berücksichtigung Data Scientists haben eine besondere Perspektive, um die ethischen Implikationen von Modellen und Pipelines zu verstehen Diese Perspektive wird jedoch häufig nicht in den Lebenszyklus von Data-Science-Projekten integriert Entwicklung einer Open-Source-Checkliste für den Umgang mit ethischen Trade-offs Sie wird in den Data-Science-Workflow integriert, damit ethische Trade-offs diskutiert werden können Zentrale Prinzipien: Ethische Entscheidungen sollten die jeweils wichtigsten Trade-offs in einem bestimmten Kontext erkennen und auf verantwortungsvolles Vorgehen sowie Schadensminimierung abzielen Ethische Probleme entstehen in allen Phasen eines Projekts, von Datenerhebung, Speicherung und Analyse bis zu Modellierung und Bereitstellung Ethische Diskussionen werden durch enge Zeitpläne und Anforderungen oft aus der Prioritätenliste gedrängt Um dies zu verhindern, müssen ethische Fragen in andere Aspekte des Workflows integriert und bewusst Zeit dafür eingeplant werden Algorithmische Fairness und Bias-Minderung Modelle, die mit verzerrten Daten trainiert werden, reproduzieren Ungleichheit; deshalb werden Techniken entwickelt, um dies zu erkennen und zu mindern Beispiel: In Zusammenarbeit mit dem Wellcome Trust wurde ein Beispiel für Bias-Minderung unter Berücksichtigung von Fairness in einem Modell zur Vorhersage psychischer Belastung erstellt Quantifizierte Fairness-Metriken wurden genutzt, um Verzerrungen zu analysieren und Methoden zu ihrer Minderung bereitzustellen Bedeutung ethischer Überlegungen im AI-Zeitalter Während AI sich schnell verbreitet, lösen Unternehmen aus Kostengründen zugleich Teams für verantwortungsvolle AI auf Im sozialen Sektor ist die Verantwortung gegenüber Begünstigten besonders hoch, daher sind die Kosten ethischen Versagens größer Werden ethische Praktiken nicht gestärkt, besteht das Risiko, dass die Einführung von AI noch größere Probleme verursacht Fazit Der Aufbau ethischer Werkzeuge und Praktiken zur Unterstützung der Einführung von AI ist wichtiger denn je Durch einen verantwortungsvollen Einsatz der Technologie müssen Vertrauen und Nachhaltigkeit im sozialen Sektor gesichert werden Ausblick Wandel und Chancen der Data Science In den vergangenen zehn Jahren hat Data Science im sozialen Sektor wichtige Veränderungen vorangetrieben und dabei zugleich Erfolge und Herausforderungen erlebt. Das Bewusstsein für das Potenzial von Daten und KI ist gewachsen, doch weiterhin bestehen große offene Fragen: Wie lassen sich kontinuierliche technologische Fortschritte konkret auf die größten gesellschaftlichen Probleme anwenden? Wie lässt sich sicherstellen, dass sich die Vorteile nicht nur bei wenigen Großunternehmen konzentrieren? Wie kann ein verantwortungsvoller Einsatz von Technologie für Natur und Menschheit verwirklicht werden? Die Bedeutung von Lehren aus Erfahrungen Bemühungen, die auf Lehren aus vergangenen Erfahrungen aufbauen, erzielen die größten Erfolge. DrivenData ist stolz darauf, Teil einer Community aus Partnern, Kunden und Entwicklern zu sein, die Daten und KI für das Gemeinwohl einsetzen. Wer sich für ähnliche Themen interessiert oder weitere Ideen hat, ist herzlich eingeladen, diese zu teilen. Erwartungen an die Zukunft So beeindruckend die vergangenen zehn Jahre auch waren, die kommenden zehn Jahre werden voraussichtlich noch größere Veränderungen bringen. Es gibt viel zu tun, und noch mehr zu lernen. Angesichts dieser Herausforderungen besteht Vorfreude auf eine Zukunft, die neue Möglichkeiten erkundet und einen besseren gesellschaftlichen Einfluss schafft.

(drivendata.co)

13 Punkte von xguru 2025-01-23 | 1 Kommentare | Auf WhatsApp teilen

Als DrivenData 2014 startete, befand sich der Einsatz von Data Science für das Gemeinwohl noch in einem frühen Stadium
Damals wurden Data-Science-Techniken vor allem von Unternehmen wie Netflix und Amazon für Marketing und Content-Empfehlungen genutzt; Beispiele für den Einsatz bei Non-Profits, NGOs, Sozialunternehmen und staatlichen Diensten gab es kaum
Frühe Ziele und Hintergrund
- Data-Science-Talente waren äußerst knapp und die Einstellungskosten hoch; diese Lücke war bei Organisationen, die sich mit gesellschaftlichen Problemen befassen, noch gravierender
- Ausgehend vom Harvard Innovation Lab wollte man die technologische Lücke bei Data Science für gesellschaftliche Probleme schließen
- Ziel war es, modernste Technologien aus Data Science und Crowdsourcing zu nutzen, um zentrale gesellschaftliche Herausforderungen weltweit anzugehen
Zwei Zitate, die die damalige Sichtweise widerspiegeln
- "Big Data für humanitäre Entscheidungen nutzbar zu machen, ist die zentrale Herausforderung und Chance des Netzwerkzeitalters." – UN OCHA
- "Die klügsten Köpfe meiner Generation verschwenden ihre Gedanken daran, Menschen dazu zu bringen, auf Werbung zu klicken … Das ist wirklich frustrierend." – Jeff Hammerbacher, ehemaliger Data-Manager bei Facebook
Veränderungen in den vergangenen 10 Jahren
- Es gab vielfältige Versuche, Data Science und AI auf gesellschaftliche Wirkung anzuwenden
- Mehr als 150 Projekte, Zusammenarbeit mit über 80 Partnern (Weltbank, Bill & Melinda Gates Foundation, NASA usw.)
- Mehr als 75 Data-Science-Wettbewerbe veranstaltet und Preisgelder von über 4,7 Millionen US-Dollar vergeben
DrivenData hat in den vergangenen 10 Jahren mit dem Einsatz von Data Science für das Gemeinwohl Best Practices und Erkenntnisse gesammelt
Jetzt ist ein guter Zeitpunkt, gemeinsam darüber nachzudenken, was funktioniert hat, was weiterhin schwierig ist und welche Richtung zu einer besseren Zukunft führen kann

Vorschau auf 10 zentrale Erkenntnisse

Fälle, in denen Data Science gut funktioniert hat

Data Science hat einen bedeutenden Einfluss auf gesellschaftliche Probleme
Gute Daten führen zu guten Lösungen
Am erfolgreichsten sind Bemühungen, wenn sie sich auf konkrete Probleme und menschliche Bedürfnisse konzentrieren
Am wirksamsten ist die Kombination der Stärken von Mensch und Maschine
Interdisziplinäre Perspektiven und Flexibilität bringen Organisationen Vorteile

Punkte, die weiterhin herausfordernd sind

Data Science ist eine iterative R&D-Tätigkeit, doch im gesellschaftlichen Sektor wird dafür zu wenig investiert
Es ist schwierig, Data Scientists einzustellen und gut zu unterstützen
Im Open Source-Bereich fehlen Lösungen für Nicht-Entwickler
Technologischer Hype erhält übermäßig viel Aufmerksamkeit
Data Science und AI haben große ethische Implikationen, doch Tools und Praktiken für einen ethischen Einsatz hinken hinterher

Die Zeiten ändern sich

In den vergangenen 10 Jahren war die Entwicklung von Daten- und AI-Technologien erstaunlich schnell. Zu den wichtigsten Innovationen, die dies ermöglicht haben, gehören:

Computing und Speicher
- Durch den Ausbau von Cloud-Computing und Speicher sind die benötigten Ressourcen günstiger und leichter verfügbar geworden
- Von GPU-basierten Experimenten bis zur skalierbaren Cluster-Bereitstellung für die Ausführung von Modellen in Echtzeit wurden die Einstiegskosten gesenkt
Deep Learning
- Deep Learning hat die Data Science grundlegend verändert
- Die Zahl wirkungsvoller Architekturen wie Generative Adversarial Networks (GANs), Transformer, Variational Autoencoders und Graph Neural Networks ist explosionsartig gestiegen
- Rund um PyTorch und TensorFlow hat sich ein Ökosystem entwickelt; Tools, Bibliotheken und vortrainierte Modelle haben das Innovationstempo beschleunigt
Demokratisierung des Technologiezugangs
- Data Science wurde als der "sexiest job of the 21st century" bezeichnet, und die Lernmöglichkeiten nahmen explosionsartig zu
- Durch MOOCs, Bootcamps und Datenwettbewerbe haben mehr Menschen grundlegende Fähigkeiten in Data Science erworben
Generative AI
- Mit dem Aufkommen großer Sprachmodelle (LLMs) verändert sich die Art zu arbeiten
- Sie verkürzt den Zeitaufwand für komplexe Aufgaben und eröffnet neue Möglichkeiten
- Ob Generative AI nur ein vorübergehender Trend oder eine echte Innovation ist, wird noch geprüft; klar ist jedoch, dass AI dauerhaft genutzt werden wird

Trotz dieser technologischen Veränderungen lassen sich über einzelne Technologien hinaus mehrere gemeinsame Muster beobachten. Dieser Beitrag konzentriert sich darauf, was in den vergangenen 10 Jahren gut funktioniert hat und was weiterhin eine Herausforderung darstellt.

Fälle, in denen Data Science gut funktioniert hat

Data Science hat einen bedeutenden Einfluss auf gesellschaftliche Probleme

Die Situation vor 10 Jahren
- Das Potenzial von Data-Science-Tools war zwar klar, doch ihre Anwendung für gesellschaftliche Wirkung war begrenzt
- Die damalige Diskussion beschränkte sich auf einige wenige Beispiele und war vor allem von Ideen über zukünftige Möglichkeiten geprägt
Heutige Fortschritte
- Machine-Learning-Modelle beeinflussen Entscheidungen in vielen Bereichen wie Gesundheitswesen und Management natürlicher Ressourcen
- Data Science hilft, Probleme wie schädliche Algenblüten, nicht nachhaltige Fischerei und klimabedingte Naturkatastrophen zu bewältigen und trägt zu finanzieller Inklusion und zum Schutz von Wildtieren bei
- Im öffentlichen Bereich haben sich Datenvisualisierungen als zentrales Medium für Berichterstattung und Kommunikation etabliert
  - Beispiel: Kampagnen zur Eindämmung von COVID-19, WHO-Dashboard
Konkretes Beispiel mit Satellitenbildern
- Im Jemen wurden Satellitenbilder genutzt, um Anbaukulturen und Klimarisiken zu analysieren und das Ernährungssicherheitsprogramm der Weltbank mit Informationen zu versorgen
Beitrag von AI zum wissenschaftlichen Fortschritt
- AlphaFold: ein Modell zur Vorhersage von Proteinstrukturen, das Aufgaben, die früher Jahre dauerten, in wenigen Stunden erledigt und Wissenschaftlern alle Proteinstrukturen kostenlos bereitstellt
- Transformer-Modelle: eingesetzt zur Erkennung von Hassrede in multimodalen Memes
- Technologien zur Individuenerkennung: verbessern das Tracking bedrohter Arten (etwa Wale) und werden auf verschiedene Spezies ausgeweitet
Veränderungen im gesellschaftlichen Sektor
- Mitte der 2010er Jahre konzentrierten sich Diskussionen über Datennutzung vor allem auf die "Wirkungsmessung"
- Heute liegt der Schwerpunkt darauf, wie Data-Science-Tools die Arbeitsweise von Organisationen verändern und ihnen neue Fähigkeiten verleihen können
- Die aktuelle Diskussion richtet sich darauf, was Data Science und AI über das Messbare hinaus tatsächlich "tun können"

Gute Daten führen zu guten Lösungen, und der Zugang zu Daten hat sich stark verbessert

Die alltägliche Rolle von Daten nimmt zu
- Bei jeder Aktivität entstehen Daten, ob beim Einkaufen, bei der Nutzung von Notdiensten oder bei Krankenhausbesuchen
- Haushaltsgeräte, Wearables, Fahrzeuge, Mobiltelefone und Anwendungen sammeln Nutzungsdaten
- Fortschritte bei Sensor- und Kameratechnologien haben den Einsatz von Bild- und Videodaten verstärkt
Zwei Stufen der Datennutzung
1. Daten werden digital erfasst und beobachtbar gemacht
2. Die Nutzung entwickelt sich weiter hin zu Lernen aus Daten und dem Erkennen von Mustern
AI und Machine Learning basieren auf Daten
- Größere Datenmengen und höhere Datenqualität unterstützen die Erkennung neuer Muster und die Entwicklung von Algorithmen
- Beispiele: Krebserkennung, der Empfehlungsalgorithmus von Spotify, Trainingsdaten für ChatGPT
Monica Rogatis Data-Science-Hierarchie
- Fortgeschrittene Funktionen der Data Science benötigen ein starkes Datenfundament
- Kluges Investment in Dateninfrastruktur bildet die Grundlage für die Umsetzung höherer Funktionen
Datennutzung für gesellschaftlichen Mehrwert
- Regierungen und große Institutionen bauen die Veröffentlichung öffentlicher Daten aus
- Von DrivenData genutzte Datentypen:
  - Wetterdaten, Verkehrsdaten, OpenStreetMap-Daten: für Flugverkehrsplanung und zur Unterstützung der Katastrophenresilienz
  - Satellitenbilder: zur Kartierung von Überschwemmungsgebieten und zur Schätzung von Waldbiomasse
  - Mobile Transaktionsdaten: zur Analyse von Finanzverhalten und Einstellungen
  - Umfragedaten: für groß angelegte Erkenntnisse zu Meinungen und Verhalten
  - Audioaufnahmen: zur Klassifizierung des Lese- und Schreibniveaus von Kindern
  - Hochauflösende Bilder: zur Vorhersage der Wahrscheinlichkeit eines Melanomrezidivs
  - Textdaten: zur automatischen Analyse klinischer Konzepte in ärztlichen Stellungnahmen
Die Bedeutung von Datenzugang und Nutzbarkeit
- Es reicht nicht aus, Daten einfach nur offenzulegen
- Liegen maschinenlesbare Formate, klare Dokumentation und Anwendungsfälle vor, steigen Beteiligung und Nutzung
- Viele Organisationen investieren in Datenerhebung, vernachlässigen aber zusätzliche Investitionen in deren Nutzung
- Datendokumentation und Anwendungsbeispiele spielen eine ebenso wichtige Rolle wie Preisgelder für Challenges

Am erfolgreichsten sind Bemühungen, wenn sie sich auf konkrete Probleme und menschliche Bedürfnisse konzentrieren

Die Fallstricke eines technologiezentrierten Ansatzes
- Organisationen mit sozialer Wirkung versuchen oft, mit den neuesten Technologietrends Schritt zu halten
- "Big Data" und AI-Tools wirken wie Allzwecklösungen, sind in der Praxis jedoch dann wirksam, wenn sie auf die Lösung konkreter Probleme ausgerichtet werden
Kernelemente erfolgreicher Projektgestaltung
- Bestimmte Nutzer und Probleme definieren und messbare Ziele festlegen, mit denen sie sich lösen lassen
- Human-Centered-Design-Tools nutzen, um herauszufinden, was Menschen "wollen", und Lösungen entwickeln, die über das technisch "Mögliche" hinausgehen
Konkrete Beispiele
- Erkennung von Algenblüten (CyFi)
  - In Zusammenarbeit mit der NASA wurden schädliche Cyanobakterien-Algenblüten mithilfe von Satellitenbildern erkannt
  - Unterstützt Wasserverwalter dabei, den Zustand von Algenblüten präzise zu bewerten und Ressourcen effizient zuzuweisen
- Identifizierung von Wildtieren (Zamba)
  - In Zusammenarbeit mit dem Max-Planck-Institut wurde ein Tool zur automatischen Tiererkennung auf Basis von Kamerafallen-Daten entwickelt
  - Mit Zamba Cloud wurde die Benutzerfreundlichkeit erhöht, indem auf Basis von Feedback von Forschenden die UI verbessert wurde
Die Bedeutung der Nutzerperspektive
- Problemdefinition
  - Durch Nutzerinterviews und das Einholen von Rückmeldungen Probleme und Anforderungen klar verstehen
  - Die menschliche Perspektive hinter den Datenpunkten berücksichtigen
- Bereitstellung der Lösung
  - UI/UX-Tests und klare Kommunikation sind nötig, damit Nutzer die Lösung wirksam einsetzen und ihre Vorteile verstehen können
  - Nutzer dabei unterstützen, die Stärken und Grenzen des Modells intuitiv zu erfassen, und anhand realer Beispiele erklären, wie es eingesetzt werden kann
Fazit
- Die Rolle von Data Scientists besteht darin, technische Fähigkeiten und gesellschaftliche Bedürfnisse miteinander zu verbinden
- Am wirksamsten sind Projekte, die sich nicht in der neuesten Technologie verlieren, sondern auf Problemlösung und konkrete Ergebnisse fokussiert sind

Lösungen sind am wirksamsten, wenn die Stärken von Maschine und Mensch kombiniert werden

Die Gefahr überzogener Erwartungen an AI
- Data-Science-Modelle und AI sind nicht allmächtig, und jedes Modell hat in gewissem Maß Grenzen
- Die bloße Einführung von AI garantiert keinen Erfolg
- Die besten Lösungen entstehen in Systemen, die die Stärken von Maschine und Mensch kombinieren
Beispiel des Zamba-Tools
- Zamba sagt mit Wahrscheinlichkeiten voraus, ob sich in Wildtier-Kamerafallenaufnahmen Tiere befinden
- Das Modell kann sich zwar gelegentlich irren, doch die ausgegebenen Wahrscheinlichkeiten ermöglichen effiziente Prüfstrategien
  - Zum Beispiel können zuerst Aufnahmen geprüft werden, in denen mit hoher Wahrscheinlichkeit Schimpansen vorkommen, oder es kann ein Wahrscheinlichkeitsschwellenwert festgelegt werden, ab dem Aufnahmen als leer gelten
  - Dadurch lassen sich 85 % der Schimpansen-Aufnahmen identifizieren, während weniger als 5 % aller Aufnahmen überprüft werden müssen
Ergebnisse der Zusammenarbeit von Maschine und Mensch
- Beispiel AI-Screening bei Brustkrebs: Wenn Radiologen und AI zusammenarbeiten, erreichen sie eine höhere Genauigkeit als jeweils allein
- Es wird die Interpretierbarkeit und Erklärbarkeit von AI betont: Menschen müssen Informationen erhalten, mit denen sie AI-Ergebnisse bewerten und in den Kontext einordnen können
  - Beispiel: In einem Wettbewerb zur Walerkennung stellte das Modell Visualisierungen der Merkmale bereit, mit denen einzelne Wale einander zugeordnet wurden
Ähnliches Muster bei generativer AI
- Menschliches Feedback ist für die Entwicklung nützlicher Tools wie ChatGPT unverzichtbar
- Über Feedback-Daten können Modelle so verbessert werden, dass sie nach und nach schwierigere Fälle lernen
Bewertung von Fehlerkosten und Verbesserungsmöglichkeiten
- Das Systemdesign lässt sich mit zwei Fragen verbessern:
  1. "Wie würden wir ein perfektes Modell einsetzen?"
  2. "Wie würden wir damit umgehen, wenn dieses Modell sich gelegentlich irrt?"
- So lassen sich die Fehlertoleranz des Systems und die Bereiche bestimmen, in denen menschliche Prüfung nötig ist
Lehren für Organisationen
- Beispiel Niederlande 2021: Durch einen ungeeigneten Algorithmus wurden 26.000 Haushalte fälschlich des Sozialleistungsbetrugs beschuldigt
- Sich ohne angemessene menschliche Prüfung auf Algorithmen zu verlassen, verursacht hohe gesellschaftliche Kosten
- Umgekehrt lassen sich Effizienz und Wirksamkeit maximieren, wenn Algorithmen und menschliche Stärken kombiniert werden

Interdisziplinäre Perspektiven und Flexibilität helfen Organisationen

Projekterfahrung über verschiedene Fachbereiche hinweg
- Durch die Arbeit in Bereichen wie finanzielle Inklusion, Klimaschutz und Gesundheitswesen wurden die Vorteile einer interdisziplinären Perspektive deutlich
- Muster des Machine Learning aus einem bestimmten Kontext lassen sich auf andere Bereiche übertragen
  - Beispiel: Anwendungen zwischen Computer-Vision-Modellen zum Schutz von Kelpwäldern und Modellen zur Erkennung von Läsionen in Zervixbiopsien
Flexibilität des Ansatzes
- So unterschiedliche Probleme wie die Früherkennung von Pflanzenschädlingen und die Extraktion von Skills aus Lebensläufen basieren beide auf Named Entity Recognition (NER)
- Lehren und Erfahrungen aus bestehenden Ansätzen können genutzt werden, um sie mit geringeren Kosten auf andere Probleme anzuwenden
Konkretes Beispiel
- Ein Natural-Language-Processing-Ansatz zur Erkennung von Nutzpflanzen, Schädlingen, Krankheiten und Chemikalien in WhatsApp-Nachrichten
- Unterstützt Kleinbauern dabei, neue Trends zu erkennen und wissenschaftlich fundierte Empfehlungen zu verbessern
Balance zwischen Fachwissen und Nutzerperspektive
- Die Zusammenarbeit mit Domain-Experten stellt sicher, dass der passende Kontext für das Problem berücksichtigt wird
- Durch die Einbeziehung der Nutzerperspektive in den Data-Science-Prozess lassen sich geeignete Lösungen entwerfen
Erkennen, welche Arbeit "es wert ist, getan zu werden"
- Technische Expertise allein reicht nicht aus; erforderlich sind auch Empathie, Kommunikation, Neugier und Flexibilität
- Es gilt gemeinsam zu überlegen, in welchen Bereichen Machine Learning Mehrwert schaffen kann, und genau zu verstehen, für wen der Ansatz gedacht ist und wie er genutzt werden soll
Den vielfältigen Anforderungen von Organisationen gerecht werden
- Die Anforderungen unterscheiden sich je nach Organisation von explorativer Forschung über Prototyping bis hin zur Produktionsphase
- Es wird mit sehr unterschiedlichen Partnern zusammengearbeitet, von großen datenbereitstellenden Organisationen (Candid, NASA usw.) bis hin zu Organisationen, die gerade erst Datensysteme aufbauen
- Wichtig ist, die Eignung der Technologie zu bewahren und zugleich aus umfangreicher Erfahrung Flexibilität abzuleiten

Was weiterhin herausfordernd bleibt

Data Science ist iterativ, und der soziale Sektor investiert zu wenig in R&D

Wesen und Wert von R&D
- Forschung und Entwicklung ist ein Lernprozess, der Kapitalinvestitionen, Experimente, Reflexion und die Bereitschaft erfordert, Fehlschläge in Kauf zu nehmen
- Verlässliche Methoden und kurzfristige Ansätze stoßen an Grenzen, wenn es darum geht, die Bandbreite der Probleme im sozialen Sektor zu lösen
- Langfristige Investitionen und nichtlineare Innovationen führen zu den wichtigsten Ergebnissen
Zu geringe R&D-Investitionen im sozialen Sektor
- Laut einer NSF-Erhebung aus dem Jahr 2022 betreiben 94 % der großen Non-Profit-Organisationen überhaupt keine R&D-Aktivitäten
- Obwohl Data Science weitgehend eine R&D-Tätigkeit ist, wird in diesen Bereich zu wenig investiert
Der iterative Charakter von Data Science
- Data Science nutzt iterative Lern- und Feedback-Schleifen, um optimale Ergebnisse zu erzielen und die Effizienz von Services zu verbessern
- Es werden Frameworks genutzt, die Iteration betonen, etwa Harvard-Data-Science-Kurse und CRISP-DM (Cross-Industry Standard Process for Data Mining)
Die Bedeutung menschenzentrierter Data Science
- Der Lernprozess konzentriert sich auf die Gestaltung wirksamer Lösungen und wird mit wiederholbaren Innovations-Frameworks verbunden
- Human-Centered Design stärkt die Verbindung zwischen tatsächlichen Bedürfnissen und Lösungen
Erfolgsbeispiele für R&D in Privatunternehmen
- Privatunternehmen erkennen durch R&D-Prozesse den Wert der Datennutzung klarer
- Beispiele jüngerer AI-Innovationen wären ohne kontinuierliche R&D-Investitionen nicht möglich gewesen
Fazit
- Die ersten Ergebnisse datenbezogener R&D-Projekte sind zwar unsicher, doch der Prozess selbst, aus Daten Wert zu schaffen, ist eine bewährte Methodik
- Kontinuierliche und langfristige Investitionen in R&D sind unverzichtbar, um Innovation zu beschleunigen und die Herausforderungen des sozialen Sektors zu bewältigen

Data Scientists einzustellen und zu unterstützen ist schwierig, und allein arbeitende Data Scientists sind weniger zufrieden

Schwierigkeiten aus Sicht der Organisation
- Einstellung
  - Es ist schwierig, geeignete Kandidaten zu identifizieren und zu bewerten, wenn noch keine bestehenden Data Scientists vorhanden sind
  - Der Begriff „Data Scientist“ ist unscharf definiert, da er viele unterschiedliche Fähigkeiten und Erfahrungen umfasst
- Gewinnung und Bindung von Talenten
  - Die hohe Nachfrage nach Data Scientists führt zu einem umkämpften Arbeitsmarkt
  - Neben dem motivierenden Faktor, gesellschaftliche Probleme zu lösen, müssen auch interessante technische Aufgaben, wettbewerbsfähige Gehälter und Möglichkeiten zur fachlichen Weiterentwicklung geboten werden
  - In frühen Einstellungsphasen ist es noch schwieriger, diese Faktoren bereitzustellen
- Management und Unterstützung
  - Damit Data Scientists produktiv bleiben, müssen Problemumfang klar definiert sowie Richtung, Infrastruktur und Daten bereitgestellt werden
  - Ohne technischen Hintergrund ist es leicht, den Schwierigkeitsgrad der Arbeit zu unter- oder zu überschätzen
Schwierigkeiten aus Sicht der Entwickler
- Lernen und Wachstum
  - Data Science ist ein sich schnell entwickelndes Feld, daher sind Möglichkeiten zum Lernen und Wachsen im Team wichtig
  - In Umgebungen, in denen Code-Reviews, Modell-Feedback und die Verteilung der Arbeitslast schwierig sind, sind die Entwicklungsmöglichkeiten eingeschränkt
- Mangel an Orientierung und Unterstützung
  - Wenn die Arbeit nicht angemessen unterstützt wird, sinken Zufriedenheit und Produktivität von Data Scientists
- Freude an der Arbeit
  - Der Prozess, Probleme mit Kollegen zu besprechen und zu lösen, erhöht die Arbeitszufriedenheit
  - Dies kann zwar auch über externe Netzwerke gelöst werden, aber Zusammenarbeit innerhalb der Organisation ist effizienter
Anzeichen für Veränderungen
- In letzter Zeit gibt es mehr Beispiele dafür, dass Organisationen im sozialen Sektor eigene Datenteams aufbauen
- DrivenData beteiligt sich als Partner, der frühe Einstellungen von Data Scientists und Ingenieuren sowie Onboarding und Aufgabenübergänge unterstützt
- Die Zusammenarbeit mit externen spezialisierten Data-Science-Teams, um flexible Kapazitäten bereitzustellen, ist sowohl für Organisationen als auch für Data Scientists vorteilhaft
Ausblick
- Einige Organisationen beginnen erfolgreich mit dem Aufbau von Datenteams, doch die Nachfrage nach Data-Science-Kompetenzen bleibt hoch
- Es ist zu erwarten, dass die Herausforderung, Datenteams von Grund auf aufzubauen, bestehen bleibt

Open Source entwickelt nicht ausreichend Lösungen für Nicht-Entwickler

Grenzen von Open Source
- Open-Source-Software entwickelt sich oft besonders effektiv, weil die Entwickler-Community häufig mit den Nutzern identisch ist
- Mitwirkende sind motiviert, die Werkzeuge zu verbessern, die sie selbst verwenden
- Bei Werkzeugen für Nicht-Entwickler oder Nicht-Fachleute greift diese Motivation jedoch nicht
Herausforderungen bei Werkzeugen für Nicht-Fachleute
- In Data-Science-Projekten werden häufig Methoden und Werkzeuge für Nicht-Entwickler entwickelt
- Selbst wenn sie als Open Source veröffentlicht werden, geraten Projekte ins Stocken oder werden eingestellt, wenn keine kontinuierlichen Investitionen und keine Weiterentwicklung erfolgen
- Um sich praktisch zu erfolgreichen Lösungen zu entwickeln, sind nach der Prototyp-Phase zusätzliche Entwicklung und realistische Pilot-Tests erforderlich
Konkretes Beispiel: Concept to Clinic
- 2017–18 wurde eine offene Anwendung entwickelt, die mithilfe von AI Radiologen bei der Auswertung von CT-Scans unterstützt
- Um Beiträge zu fördern, wurde ein strukturiertes Anreizsystem mit Punkten und finanziellen Belohnungen für Mitwirkende eingeführt
- Ohne diesen Ansatz wäre die Entwicklung des Projekts wahrscheinlich nicht möglich gewesen
Voraussetzungen für nachhaltigen Open-Source-Erfolg
- Die bloße Veröffentlichung als Open Source garantiert keine langfristige Wirkung
- Um sich vom Prototyp zu einer Lösung für Endnutzer zu entwickeln, braucht es eine klare Roadmap und kontinuierliche Finanzierung
- Bei der Entwicklung wichtiger Anwendungen ist Open Source nur ein Teil des Weges und sollte nicht zum Endziel werden

Der Technologie-Hype (hype wave) erhält zu viel Aufmerksamkeit

Sozialer Sektor und technologische Innovation
- Der soziale Sektor war in den vergangenen zehn Jahren eng mit Wellen neuer technologischer Innovationen verbunden
- Organisationen geraten in Versuchung, neue Technologien einzuführen, um mit begrenzten Ressourcen effizienter zu werden
- Der Druck, nicht zurückzufallen, wenn man den neuesten Technologietrends nicht folgt, führt häufig zu strategischen Kurswechseln
Probleme überhöhter Technologieeinführung
- Es ist schwierig, aus dem Technologie-Hype die wirklich zentralen Innovationselemente herauszufiltern
- Die Einführung von Technologien führt oft zu überhöhten Erwartungen und mangelhafter Umsetzung
- Beispiele:
  - Blockchain: Trotz hoher Erwartungen war der praktische Nutzen für den sozialen Sektor gering
  - Mobile Apps: Auch wenn sie nicht unbedingt nötig waren, führte der Druck, sie als „unverzichtbar“ zu betrachten, zu ineffizienten Ausgaben
Bedeutung spezialisierter Technologieorganisationen
- Organisationen mit technischen Experten, die mit Technologie-Hype effizient umgehen können, erzielen die besten Ergebnisse
- DrivenData arbeitet mit DataKind, DSSG Fellowship, Delta Analytics und anderen zusammen und nutzt deren technische Expertise
- Doch selbst solchen Expertengruppen fällt es schwer, Lehren aus früherem Technologie-Hype systematisch zu sammeln
Notwendige Veränderung: ein „Wellenbrecher“ gegen Technologie-Hype
- Es braucht die Fähigkeit, echte Innovation von überzogenen Erwartungen zu trennen und wesentliche Entwicklungen zu identifizieren
- Unverzichtbar ist technologische Führung, die sowohl Spitzenwissen über modernste Technologien als auch tiefes Verständnis des sozialen Sektors vereint
- An solcher Führung und einem entsprechenden Ökosystem mangelt es derzeit; sie werden benötigt, um einen nachhaltigen und ausgereiften Ansatz aufzubauen
Strategischer Ansatz für aktuelle Technologien wie AI
- Das Potenzial von AI ist enorm, verlangt aber nicht bloße Begeisterung, sondern eine vorsichtige Strategie und tiefes Fachwissen
- Ohne den Aufbau einer soliden datenbasierten Grundlage besteht das Risiko, dass sich der ineffiziente Zyklus technologischer Hypes wiederholt
- Ohne grundlegende Investitionen und Planung ist es unwahrscheinlich, dass technologische Innovation im sozialen Sektor echte Ergebnisse erzielt

Data Science und AI haben große ethische Implikationen, doch die rasche Einführung überholt die Werkzeuge und Praktiken zu ihrer Unterstützung

Ausweitung von Data Science und AI und ihre ethische Bedeutung
- Data Science und Machine Learning werden in verschiedenste Bereiche integriert, darunter Gesundheitswesen, Katastrophenhilfe und strafrechtliche Urteile
- Die Risiken falscher Nutzung sind deutlich größer als früher
Die Realität unzureichender ethischer Berücksichtigung
- Data Scientists haben eine besondere Perspektive, um die ethischen Implikationen von Modellen und Pipelines zu verstehen
- Diese Perspektive wird jedoch häufig nicht in den Lebenszyklus von Data-Science-Projekten integriert
Entwicklung einer Open-Source-Checkliste für den Umgang mit ethischen Trade-offs
- Sie wird in den Data-Science-Workflow integriert, damit ethische Trade-offs diskutiert werden können
- Zentrale Prinzipien:
  - Ethische Entscheidungen sollten die jeweils wichtigsten Trade-offs in einem bestimmten Kontext erkennen und auf verantwortungsvolles Vorgehen sowie Schadensminimierung abzielen
  - Ethische Probleme entstehen in allen Phasen eines Projekts, von Datenerhebung, Speicherung und Analyse bis zu Modellierung und Bereitstellung
  - Ethische Diskussionen werden durch enge Zeitpläne und Anforderungen oft aus der Prioritätenliste gedrängt
  - Um dies zu verhindern, müssen ethische Fragen in andere Aspekte des Workflows integriert und bewusst Zeit dafür eingeplant werden
Algorithmische Fairness und Bias-Minderung
- Modelle, die mit verzerrten Daten trainiert werden, reproduzieren Ungleichheit; deshalb werden Techniken entwickelt, um dies zu erkennen und zu mindern
- Beispiel: In Zusammenarbeit mit dem Wellcome Trust wurde ein Beispiel für Bias-Minderung unter Berücksichtigung von Fairness in einem Modell zur Vorhersage psychischer Belastung erstellt
  - Quantifizierte Fairness-Metriken wurden genutzt, um Verzerrungen zu analysieren und Methoden zu ihrer Minderung bereitzustellen
Bedeutung ethischer Überlegungen im AI-Zeitalter
- Während AI sich schnell verbreitet, lösen Unternehmen aus Kostengründen zugleich Teams für verantwortungsvolle AI auf
- Im sozialen Sektor ist die Verantwortung gegenüber Begünstigten besonders hoch, daher sind die Kosten ethischen Versagens größer
- Werden ethische Praktiken nicht gestärkt, besteht das Risiko, dass die Einführung von AI noch größere Probleme verursacht
Fazit
- Der Aufbau ethischer Werkzeuge und Praktiken zur Unterstützung der Einführung von AI ist wichtiger denn je
- Durch einen verantwortungsvollen Einsatz der Technologie müssen Vertrauen und Nachhaltigkeit im sozialen Sektor gesichert werden

Ausblick

Wandel und Chancen der Data Science
- In den vergangenen zehn Jahren hat Data Science im sozialen Sektor wichtige Veränderungen vorangetrieben und dabei zugleich Erfolge und Herausforderungen erlebt.
- Das Bewusstsein für das Potenzial von Daten und KI ist gewachsen, doch weiterhin bestehen große offene Fragen:
  - Wie lassen sich kontinuierliche technologische Fortschritte konkret auf die größten gesellschaftlichen Probleme anwenden?
  - Wie lässt sich sicherstellen, dass sich die Vorteile nicht nur bei wenigen Großunternehmen konzentrieren?
  - Wie kann ein verantwortungsvoller Einsatz von Technologie für Natur und Menschheit verwirklicht werden?
Die Bedeutung von Lehren aus Erfahrungen
- Bemühungen, die auf Lehren aus vergangenen Erfahrungen aufbauen, erzielen die größten Erfolge.
- DrivenData ist stolz darauf, Teil einer Community aus Partnern, Kunden und Entwicklern zu sein, die Daten und KI für das Gemeinwohl einsetzen.
- Wer sich für ähnliche Themen interessiert oder weitere Ideen hat, ist herzlich eingeladen, diese zu teilen.
Erwartungen an die Zukunft
- So beeindruckend die vergangenen zehn Jahre auch waren, die kommenden zehn Jahre werden voraussichtlich noch größere Veränderungen bringen.
- Es gibt viel zu tun, und noch mehr zu lernen.
- Angesichts dieser Herausforderungen besteht Vorfreude auf eine Zukunft, die neue Möglichkeiten erkundet und einen besseren gesellschaftlichen Einfluss schafft.

1 Kommentare

halfenif 2025-01-23

„Die besten Köpfe meiner Generation verschwenden ihre Gedanken damit, Menschen zum Klicken auf Werbung zu bringen … wirklich frustrierend.“

Wenn man wirklich darüber nachdenkt, stimmt das wohl.

Zehn Jahre Lehren aus Data Science für das Gemeinwohl

Vorschau auf 10 zentrale Erkenntnisse

Fälle, in denen Data Science gut funktioniert hat

Punkte, die weiterhin herausfordernd sind

Die Zeiten ändern sich

Fälle, in denen Data Science gut funktioniert hat

Data Science hat einen bedeutenden Einfluss auf gesellschaftliche Probleme

Gute Daten führen zu guten Lösungen, und der Zugang zu Daten hat sich stark verbessert

Am erfolgreichsten sind Bemühungen, wenn sie sich auf konkrete Probleme und menschliche Bedürfnisse konzentrieren

Lösungen sind am wirksamsten, wenn die Stärken von Maschine und Mensch kombiniert werden

Interdisziplinäre Perspektiven und Flexibilität helfen Organisationen

Was weiterhin herausfordernd bleibt

Data Science ist iterativ, und der soziale Sektor investiert zu wenig in R&D

Data Scientists einzustellen und zu unterstützen ist schwierig, und allein arbeitende Data Scientists sind weniger zufrieden

Open Source entwickelt nicht ausreichend Lösungen für Nicht-Entwickler

Der Technologie-Hype (hype wave) erhält zu viel Aufmerksamkeit

Data Science und AI haben große ethische Implikationen, doch die rasche Einführung überholt die Werkzeuge und Praktiken zu ihrer Unterstützung

Ausblick

Verwandte Beiträge

1 Kommentare