Strategien zur Datengewinnung für AI-Startups im Jahr 2024

(press.airstreet.com)

31 Punkte von xguru 2024-04-29 | 1 Kommentare | Auf WhatsApp teilen

[ #1 Große generative Modelle (Large Generative Models) ]

Erzeugung synthetischer Daten mit LLMs und LMMs

Large Language Models (LLMs) erzeugen Textausgaben, während Large Multi-Modal Models (LMMs) synthetische Daten in verschiedenen Formen wie Text, Code und Bildern erzeugen können
Sie werden besonders häufig in Bereichen eingesetzt, in denen reale Daten knapp sind, der Datenschutz sensibel ist oder die Kosten für Erhebung und Labeling hoch sind (z. B. NLP, Computer Vision, Entwicklung autonomer Fahrsysteme)
Synthetische Daten werden in der Regel zur Ergänzung realer Daten oder für Fine-Tuning verwendet, nicht als vollständiger Ersatz
So ausgefeilt sie auch sein mögen, sie können nur Annäherungen an den Problembereich erzeugen; bei übermäßiger Abhängigkeit besteht das Risiko, dass Modelle auf Eigenschaften des Prozesses der synthetischen Datenerzeugung überfitten
Methoden zur Erzeugung synthetischer Daten
1. Selbstverbesserung (Self-improvement): Das Modell erzeugt Anweisungen, Eingabekontext und Antworten; ungültige oder bestehenden Daten zu ähnliche Beispiele werden herausgefiltert, und die verbleibenden Daten werden zum Fine-Tuning des ursprünglichen Modells verwendet
2. Distillation: Ein Prozess, bei dem das Wissen eines leistungsfähigeren Teacher-Modells auf ein weniger leistungsfähiges, aber effizienteres Student-Modell übertragen wird. Auch wenn synthetische Daten oft ungenau sind, können sie wirksam zum Instruction-Tuning beitragen
Microsoft hat eine Reihe kleiner Modelle namens Phi veröffentlicht, die hauptsächlich mit synthetischen Daten trainiert wurden, die von anderen LLMs erzeugt wurden, und die besser abschneiden als die meisten Frontier-Modelle
Hugging Face hat Cosmopedia entwickelt, um dies zu reproduzieren, als Reaktion auf den Mangel an Informationen über die Kuratierung des von Microsoft verwendeten synthetischen Trainingsdatensatzes

Daten-Labeling und Datensatzintegration mit LLMs

Moderne LLMs können Textdatensätze auf einem Niveau labeln, das menschlichen Annotatoren entspricht oder darüber liegt
Anders als menschliche Annotatoren können LLMs ohne Ermüdung oder Verzerrung dieselben Annotationsstandards konsistent auf große Datensätze anwenden
Große generative Modelle, die auf großen Datensätzen wie Segment Anything trainiert wurden, zeigen bei Aufgaben wie der semantischen Segmentierung oft bessere Zero-Shot-Leistungen als spezialisierte, nicht-generative Computer-Vision-Modelle, die traditionell für solche Aufgaben eingesetzt werden
LLMs können auch dazu verwendet werden, den verfügbaren Pool realer Daten durch Dataset Stitching zu erweitern, bei dem verschiedene Datenquellen zu einem integrierten Datensatz zusammengeführt werden

LLMs als Grader

Reinforcement Learning from Human Feedback (RLHF) war die zentrale Fine-Tuning-Technik, die GPT-3 zu einem bahnbrechenden System machte, das für interaktive Dialoge mit Nutzern über Chat optimiert ist
Inzwischen ist ein Ansatz namens Reinforcement Learning from AI Feedback (RLAIF) entstanden, bei dem statt Menschen LLMs zur Bereitstellung von Feedback verwendet werden
Der Hauptvorteil von RLAIF liegt in Skalierbarkeit und Kostensenkung, da Menschen durch Maschinen ersetzt werden

[ #2 Daten-Labeling-Plattformen ]

In der Anfangsphase wurden Crowdsourcing- und Task-Outsourcing-Plattformen wie Amazon Mechanical Turk genutzt, um Daten-Labeling oder Bereinigung durch günstige Online-Arbeitskräfte durchführen zu lassen
In jüngerer Zeit haben sich Plattformen wie V7 und Scale AI weiterentwickelt und an Popularität gewonnen, die automatisierte Funktionen für Daten-Labeling und -Management bereitstellen
Solche Plattformen ermöglichen es Unternehmen mit großem Datenbedarf, mit Compliance- und Qualitätssicherungsmaßnahmen effizienter zu skalieren und ein höheres Maß an Konsistenz zu erreichen

Merkmale der einzelnen Plattformen und neue Player

V7 konzentriert sich tendenziell auf Aufgaben mit hohem Spezialisierungsgrad wie medizinische Bildgebung, während Scale im Bereich autonomes Fahren gewachsen ist und in den Verteidigungssektor expandiert hat
Neue Player wie Invisible bedienen die Nachfrage nach spezialisiertem Personal für LLM-spezifische Workflows (z. B. überwachtes Fine-Tuning, RLHF, menschliche Bewertung, Red Teaming)
Zu den beliebten Daten-Labeling-Services gehören CVAT, Dataloop, Invisible, Labelbox, Scale AI und V7

Verbesserung der Qualität menschlich annotierter Daten

Viele Plattformen sind weiterhin bis zu einem gewissen Grad auf menschliche Annotatoren angewiesen, weshalb bei der Ausweitung von AI-Anwendungen auf komplexe, subjektive und sozial relevante Bereiche mehr Aufwand in die Bewertung der Ausgabequalität investiert werden muss
Mithilfe von Mehrheitsentscheidungen, Übereinstimmungsraten, probabilistischen Modellierungsansätzen usw. lassen sich aus den Eingaben mehrerer Bewerter wahre Labels schätzen und unzuverlässige „Spammer“-Bewerter identifizieren
Es gibt Techniken, um systematische Unterschiede zwischen Bewertern zu erfassen und zur Verbesserung des Trainings zu nutzen (z. B. Disagreement Deconvolution, Multi-Annotator-Modellierung)
Falsch gelabelte Datenpunkte lassen sich mithilfe von Influence Functions oder durch Verfolgung von Vorhersageänderungen während des Trainings erkennen

[ #3 Offene Datensätze ]

Seit 2016 ist die Zahl offener Datensätze stark gestiegen, angetrieben durch die Open-Data-Bewegung und das wachsende Bewusstsein für den Wert des Datenaustauschs zwischen Industrie, Wissenschaft und Staat
Offene Datensätze existieren in den meisten Bereichen, sind aber besonders gut zugänglich in Computer Vision, NLP, Sprach-/Audioverarbeitung, Robotiksteuerung und Navigation
Diese Entwicklung wurde durch die Kombination aus Community-Bemühungen (z. B. Hugging Face, PyTorch, TensorFlow, Kaggle) und der Veröffentlichung großer Datensätze durch große Unternehmen vorangetrieben

Aspekte, die bei der Nutzung offener Datensätze zu beachten sind

Sie sind kostenlos und hilfreich für Benchmarking, bringen aber bestimmte Aspekte mit sich, die berücksichtigt werden sollten
In sensiblen oder stark regulierten Bereichen sind offene Datensätze tendenziell seltener, älter und kleiner
Qualität und Aktualität offener Daten können stark variieren, wodurch in sich schnell wandelnden Bereichen Relevanzprobleme entstehen können
Übermäßige Nutzung birgt das Risiko von Overfitting auf populäre Datensätze, sodass Modelle in Benchmarks gut abschneiden, in realen Anwendungen jedoch schlechter performen

Nützliche Ressourcen für offene Datensätze

Große Unternehmen wie Amazon, Google und Microsoft verfügen über verschiedene Open-Data-Hubs und Suchmaschinen
Hugging Face hat einen einsatzbereiten Datasets Hub zusammen mit passenden Tools geschaffen
Die Funktion Datensatzsuche von Kaggle
VisualData: Hub für Computer-Vision-Datensätze
V7 hat eine Liste mit über 500 offenen Datensätzen veröffentlicht

[ #4 Simulationsumgebungen ]

Simulationsumgebungen ermöglichen es AI-Modellen oder -Agenten, in kontrollierten Umgebungen zu lernen, synthetische Daten zu erzeugen und Systeme vor dem realen Einsatz zu testen
Sie sind besonders hilfreich, um reale Daten zu ergänzen und Edge Cases zu erkunden, die in der Wirklichkeit schwer anzutreffen oder kostspielig sind
Besonders beliebt sind sie in Bereichen wie Robotik oder autonome Fahrzeuge, in denen Systeme sicher trainiert werden müssen und zahlreiche Variablen der realen Welt berücksichtigt werden müssen

Aspekte beim Aufbau von Simulationsumgebungen

Der Aufbau und die Validierung einer 3D-Simulation mit umfangreicher und präziser physikalischer Modellierung von Grund auf kann erhebliche Ressourcen und Infrastruktur erfordern
NVIDIA hat mit ISAAC eine leistungsstarke GPU-beschleunigte Robotikplattform geschaffen, die Simulationsumgebungen auf Basis von Omniverse, einer integrierten Plattform für 3D-Grafik- und physikbasierte Workflows, umfasst
Zur Senkung der Kosten können Open-Source-Simulationsumgebungen genutzt werden
Die Unreal Engine von Epic Games hat sich dank hochgradig realistischer Grafik, realistischer Physiksimulation und flexibler Programmierschnittstellen als starkes Werkzeug für den Aufbau von Simulationsumgebungen etabliert

Anwendungsfälle und Open-Source-Umgebungen

Applied Intuition: bietet Simulations- und Validierungslösungen für Entwickler autonomer Fahrsysteme
Sereact: entwickelt Software auf Basis von Simulationsumgebungen, damit räumliche und physische Nuancen für Pick-and-Pack-Automatisierung in Lagerhäusern verstanden werden können
Wayve: britisches Startup für autonomes Fahren, das mehrere 4D-Simulationsumgebungen entwickelt hat
Im Bereich autonomes Fahren: CARLA, LG SVL Simulator, AirSim
Im Bereich Robotik: Gazebo, CoppeliaSim, PyBullet, MuJoCo

[ #5 Scraping von Web, Büchern und anderen Materialien ]

Das großflächige Scraping von Text, Audio und Video war ein Kernelement bei der Entwicklung von Foundation Models
Während große Unternehmen eigene proprietäre Systeme einsetzen, können Startups auf verschiedene Standard- und Open-Source-Tools zurückgreifen
Verteilte Crawling-Frameworks wie Apache Nutch, Headless Browser wie Puppeteer oder Selenium, Parsing-Bibliotheken wie Beautiful Soup, Proxy- und IP-Management-Services wie Luminati sowie kostengünstige und effektive OCR-Technologien haben sich weiterentwickelt

Trade-off zwischen Datenqualität und Datenmenge

Je nach Domäne und Anwendung fällt der Trade-off zwischen Datenqualität und Datenmenge unterschiedlich aus
Sprachmodelle können bei ausreichender Datenmenge auch mit relativ rauschbehafteten und unkuratierten Daten effektiv lernen
Im Gegensatz dazu lassen sich in Computer Vision gute Ergebnisse mit kleinen, hochwertigen Datensätzen erzielen, die durch Bildtransformationen (z. B. Zuschneiden, Drehen, Hinzufügen von Rauschen) erweitert werden

Curriculum Learning und Datensatzkuratierung

Curriculum Learning ist eine Lernstrategie, bei der dem Modell Daten in einer sinnvollen Reihenfolge präsentiert werden, indem von einfachen zu komplexen Beispielen übergegangen wird
Es ahmt die menschliche Lernweise nach und steigert die Effizienz, indem das Modell gute Anfangsparameter lernt, bevor es sich schwierigeren Beispielen stellt

Beispiele

DBRX, das aktuelle SOTA Open LLM von Databricks, hat dies genutzt, um die Modellqualität deutlich zu verbessern
Sync Labs hat mit großen Mengen relativ minderwertiger Videos ein Modell trainiert, das Lippenbewegungen in Videos mit neuer Audiospur resynchronisieren kann
Metalware hat einen Copilot für Firmware-Ingenieure entwickelt, indem es einen relativ kleinen Satz aus Fachlehrbüchern gescannter Bilder mit GPT-2 kombiniert hat

[ #6 Urheberrechtsfragen und Möglichkeiten der Lizenzierung ]

Die Reifung des AI-Ökosystems seit 2016 hatte positive Auswirkungen auf Gründer, brachte aber auch zusätzliche Komplexität mit sich
Aufgrund des massenhaften Web-Scrapings durch Anbieter von Foundation Models haben Medienunternehmen, Autoren und Künstler verschiedene Urheberrechtsklagen eingereicht
Diese Verfahren laufen derzeit vor Gerichten in Europa und den USA und richten sich gegen große Unternehmen (z. B. Meta, OpenAI) oder zunehmend etablierte Labs (z. B. Midjourney, Stability)
Das unterstreicht, dass Startups bei ihren Methoden der Datenerhebung vorsichtig sein müssen
Sollten diese Unternehmen verlieren, könnten sie urheberrechtlich geschütztes Material in ihren Trainingsdaten identifizieren und Urheber entschädigen oder solche Ergebnisse vernichten und von vorn beginnen müssen
Deshalb verfolgen einige Unternehmen proaktiv creator-freundliche Strategien zur Datenerhebung, etwa durch Partnerschaften mit Medienorganisationen oder direkte Vergütung von Künstlern für die Nutzung von Inhalten oder Stimmen

Entstehung von Zertifizierungssystemen für ethische Datenbeschaffung

Zertifizierungssysteme für ethisch beschaffte Trainingsdaten entstehen, angeführt unter anderem von ehemaligen Stability-Führungskräften
Diese Zertifizierungssysteme stehen zwar noch am Anfang, sind aber ein interessanter Ansatz und es wert, beobachtet zu werden

Beispiele

ElevenLabs: Auszahlungen an Sprecher und Partnerschaften für Sprachdaten
Google: Abschluss eines Vertrags zur Nutzung von Reddit-Daten für das Training von Gemini
OpenAI: Partnerschaft zur Nutzung der Bibliothek aus Bildern, Videos, Musik und Metadaten von Shutterstock für das Training von DALL-E sowie Lizenzvertrag für das Nachrichtenarchiv von Associate Press

[ #7 Sinkender Bedarf an groß angelegten gelabelten Datensätzen ]

Seit 2016 haben sich unüberwachtes und semi-supervised Lernen stark weiterentwickelt, sodass Startups leistungsfähige Modelle auch ohne große gelabelte Datensätze aufbauen können, die traditionell als unverzichtbar galten
Diese Ansätze waren Forschern zwar bereits vor 2016 bekannt, doch Zugänglichkeit, Ausgereiftheit und Praxistauglichkeit haben sich in den letzten Jahren stark verbessert
Unüberwachtes Lernen konzentriert sich darauf, statistische Muster und Strukturen in Daten zu erlernen; traditionell war es nützlich zur Erkundung großer Datensätze (z. B. unüberwachtes Clustering) und ist heute zentral für das Pretraining von LLMs
Semi-supervised Learning nutzt große Mengen ungelabelter Daten zusammen mit kleinen Mengen gelabelter Daten und ist besonders wirksam, um die Modellleistung zu verbessern und weiterzuentwickeln
Diese Ansätze lassen sich durch Techniken wie Contrastive Learning und Few-shot Learning weiter stärken
- Contrastive Learning ermöglicht es dem Modell, reichhaltige Repräsentationen zu lernen, indem ähnliche und unähnliche Datenpunkte unterschieden werden, und ist für Computer-Vision-Aufgaben nützlich (z. B. OpenAIs CLIP)
- Few-shot Learning ermöglicht es Modellen, sich mit sehr wenigen Beispielen an neue Aufgaben anzupassen
Das ursprüngliche Paper zu den Scaling Laws zeigte, dass größere Modelle in Few-shot Learning versierter sind
Zwar erfordert unüberwachtes Pretraining größere Mengen ungelabelter Daten, doch verleiht dieser Schritt die Fähigkeit, Downstream-Aufgaben mit weniger gelabelten Beispielen zu lösen als kleinere nicht-generative Modelle

Grenzen und zu beachtende Aspekte

Modelle, die ungelabelte Daten nutzen, erfordern oft komplexere Architekturen
Das bedeutet, dass Kosten für Labeling gegen Rechenkosten eingetauscht werden
Sie sind nicht nur schwerer zu implementieren und zu skalieren, sondern auch weniger interpretierbar, was in sensiblen Bereichen, in denen das Verständnis von Entscheidungsprozessen wichtig ist, ein Nachteil sein kann
Diese Komplexität erfordert mehr Rechenressourcen und führt häufig zu einer niedrigeren Leistungsobergrenze als bei Supervised-Learning-Methoden

[ #8 Dinge, für die es noch zu früh ist ]

Datenmarktplätze

Seit 2016 sind einige Datenmarktplätze entstanden, da das Sammeln, Speichern, Verarbeiten und Teilen von Daten einfacher und günstiger geworden ist, doch dieser Bereich ist nicht stark in Fahrt gekommen
Marktplätze und Plattformen wie Datarade, Dawex, AWS Data Exchange und Snowflake haben es erleichtert, Bild-, Text-, Audio- und Videodaten für verschiedene allgemeine Anwendungsfälle zu finden, dienten jedoch vor allem dazu, zusätzlichen Mehrwert dafür zu bieten, dass Kunden ihre Daten dort hosten
Neben diesen Marktplätzen gibt es Unternehmen wie Appen, Scale AI, Invisible und Surge, die über qualifizierte ausgelagerte Arbeitskräfte die Erstellung und das Labeling maßgeschneiderter Datensätze anbieten
Dennoch gelten die Vorbehalte hinsichtlich Spezialisierung und dem Wettbewerbsvorteil proprietärer Daten weiterhin, und es gibt kaum Hinweise darauf, dass AI-Startups in großem Maß auf diese Marktplätze angewiesen sind
Anfangs mag das bequem sein, doch Bereinigung, Anpassung, Filterung und Subsampling erfordern weiterhin erheblichen Aufwand
Viele Startups ziehen es vor, von Beginn an eigene proprietäre Datensätze aufzubauen und diese als Wettbewerbsvorteil zu nutzen

Gamification

Gamification wurde von verschiedenen Unternehmen und Organisationen als Strategie zur Datenerhebung im Kontext von Crowdsourcing- und Citizen-Science-Initiativen erprobt (z. B. Folding@Home)
Abgesehen von wenigen Fällen ist Gamification jedoch ein relativ nischiges Feld geblieben
Sie spricht nur eine bestimmte Teilmenge von Nutzern an, die durch spielähnlichen Wettbewerb motiviert sind und über freie Zeit verfügen, weshalb das Potenzial bei der Zahl der Beitragenden relativ begrenzt ist
Selbst unter motivierten Personen bleiben Qualität und Genauigkeit der beigesteuerten Daten problematisch, insbesondere beim Umgang mit Edge Cases, sodass zusätzliche Validierungs- und Kontrollmaßnahmen erforderlich sind

Federated Learning

Federated Learning (FL), 2016 von Google eingeführt, versprach, Modelle über mehrere verteilte Server oder mobile Geräte hinweg trainieren zu können, während die Daten lokal verbleiben
Theoretisch könnte dies Startups in sensiblen Bereichen wie Gesundheitswesen oder Finanzwesen über Partnerschaften Zugang zu wichtigen Trainingsdaten verschaffen, ohne traditionelle Datenschutzprobleme auszulösen
In der Praxis wurde die Einführung von FL in den sensiblen Bereichen, für die es gedacht war, jedoch durch Fragen der Verantwortung, Datenhoheit und grenzüberschreitenden Datenübertragung gebremst; zudem wurden mit der wachsenden Komplexität von Modellen und Datensätzen der Rechen- und Kommunikations-Overhead für verteiltes Training und Aggregation zu erheblichen Engpässen, und es blieb die Wahrnehmung, dass Dateninhaber eine recht komplexe Technologie akzeptieren müssten, deren Nutzenversprechen erst noch gesichert werden muss

[ ## Fazit ]

Trotz erheblicher Fortschritte seit 2016 bleibt die Datenerhebung für Startups weiterhin ein Schmerzpunkt
Weder Community noch Markt scheinen dieses Problem zu lösen
Die meisten AI-Startups werden bei ihrer Gründung weiterhin mit den Schwierigkeiten der Datenerhebung konfrontiert sein, doch genau darin kann eine Chance zur Differenzierung liegen
Kreativ die richtigen Grundlagen zu schaffen, ist weiterhin eine sehr konkrete Quelle für Wettbewerbsvorteile
Daten selbst können niemals ein Burggraben (Moat) sein
Mit der Zeit werden Wettbewerber entweder eigene Daten beschaffen oder effizientere Techniken finden, um dieselben Ergebnisse zu erzielen
Das zeigt sich deutlich in LLM-Evaluierungen des vergangenen Jahres, in denen sich die Leistungslücke zwischen kleinen und großen Modellen schrittweise verringert hat
Exzellente Datenerhebung ist letztlich notwendig, aber nicht hinreichend
Sie ist neben einem Killerprodukt und echtem Kundenverständnis nur ein Baustein für den Erfolg

1 Kommentare

thfvkfk 2024-04-29

Vielen Dank, das sind unglaublich viele Informationen~

Strategien zur Datengewinnung für AI-Startups im Jahr 2024

[ #1 Große generative Modelle (Large Generative Models) ]

Erzeugung synthetischer Daten mit LLMs und LMMs

Daten-Labeling und Datensatzintegration mit LLMs

LLMs als Grader

[ #2 Daten-Labeling-Plattformen ]

Merkmale der einzelnen Plattformen und neue Player

Verbesserung der Qualität menschlich annotierter Daten

[ #3 Offene Datensätze ]

Aspekte, die bei der Nutzung offener Datensätze zu beachten sind

Nützliche Ressourcen für offene Datensätze

[ #4 Simulationsumgebungen ]

Aspekte beim Aufbau von Simulationsumgebungen

Anwendungsfälle und Open-Source-Umgebungen

[ #5 Scraping von Web, Büchern und anderen Materialien ]

Trade-off zwischen Datenqualität und Datenmenge

Curriculum Learning und Datensatzkuratierung

Beispiele

[ #6 Urheberrechtsfragen und Möglichkeiten der Lizenzierung ]

Entstehung von Zertifizierungssystemen für ethische Datenbeschaffung

Beispiele

[ #7 Sinkender Bedarf an groß angelegten gelabelten Datensätzen ]

Grenzen und zu beachtende Aspekte

[ #8 Dinge, für die es noch zu früh ist ]

Datenmarktplätze

Gamification

Federated Learning

[ ## Fazit ]

Verwandte Beiträge

1 Kommentare