31 Punkte von xguru 2024-04-29 | 1 Kommentare | Auf WhatsApp teilen

[ #1 Große generative Modelle (Large Generative Models) ]

Erzeugung synthetischer Daten mit LLMs und LMMs

  • Large Language Models (LLMs) erzeugen Textausgaben, während Large Multi-Modal Models (LMMs) synthetische Daten in verschiedenen Formen wie Text, Code und Bildern erzeugen können
  • Sie werden besonders häufig in Bereichen eingesetzt, in denen reale Daten knapp sind, der Datenschutz sensibel ist oder die Kosten für Erhebung und Labeling hoch sind (z. B. NLP, Computer Vision, Entwicklung autonomer Fahrsysteme)
  • Synthetische Daten werden in der Regel zur Ergänzung realer Daten oder für Fine-Tuning verwendet, nicht als vollständiger Ersatz
  • So ausgefeilt sie auch sein mögen, sie können nur Annäherungen an den Problembereich erzeugen; bei übermäßiger Abhängigkeit besteht das Risiko, dass Modelle auf Eigenschaften des Prozesses der synthetischen Datenerzeugung überfitten
  • Methoden zur Erzeugung synthetischer Daten
    1. Selbstverbesserung (Self-improvement): Das Modell erzeugt Anweisungen, Eingabekontext und Antworten; ungültige oder bestehenden Daten zu ähnliche Beispiele werden herausgefiltert, und die verbleibenden Daten werden zum Fine-Tuning des ursprünglichen Modells verwendet
    2. Distillation: Ein Prozess, bei dem das Wissen eines leistungsfähigeren Teacher-Modells auf ein weniger leistungsfähiges, aber effizienteres Student-Modell übertragen wird. Auch wenn synthetische Daten oft ungenau sind, können sie wirksam zum Instruction-Tuning beitragen
  • Microsoft hat eine Reihe kleiner Modelle namens Phi veröffentlicht, die hauptsächlich mit synthetischen Daten trainiert wurden, die von anderen LLMs erzeugt wurden, und die besser abschneiden als die meisten Frontier-Modelle
  • Hugging Face hat Cosmopedia entwickelt, um dies zu reproduzieren, als Reaktion auf den Mangel an Informationen über die Kuratierung des von Microsoft verwendeten synthetischen Trainingsdatensatzes

Daten-Labeling und Datensatzintegration mit LLMs

  • Moderne LLMs können Textdatensätze auf einem Niveau labeln, das menschlichen Annotatoren entspricht oder darüber liegt
  • Anders als menschliche Annotatoren können LLMs ohne Ermüdung oder Verzerrung dieselben Annotationsstandards konsistent auf große Datensätze anwenden
  • Große generative Modelle, die auf großen Datensätzen wie Segment Anything trainiert wurden, zeigen bei Aufgaben wie der semantischen Segmentierung oft bessere Zero-Shot-Leistungen als spezialisierte, nicht-generative Computer-Vision-Modelle, die traditionell für solche Aufgaben eingesetzt werden
  • LLMs können auch dazu verwendet werden, den verfügbaren Pool realer Daten durch Dataset Stitching zu erweitern, bei dem verschiedene Datenquellen zu einem integrierten Datensatz zusammengeführt werden

LLMs als Grader

  • Reinforcement Learning from Human Feedback (RLHF) war die zentrale Fine-Tuning-Technik, die GPT-3 zu einem bahnbrechenden System machte, das für interaktive Dialoge mit Nutzern über Chat optimiert ist
  • Inzwischen ist ein Ansatz namens Reinforcement Learning from AI Feedback (RLAIF) entstanden, bei dem statt Menschen LLMs zur Bereitstellung von Feedback verwendet werden
  • Der Hauptvorteil von RLAIF liegt in Skalierbarkeit und Kostensenkung, da Menschen durch Maschinen ersetzt werden

[ #2 Daten-Labeling-Plattformen ]

  • In der Anfangsphase wurden Crowdsourcing- und Task-Outsourcing-Plattformen wie Amazon Mechanical Turk genutzt, um Daten-Labeling oder Bereinigung durch günstige Online-Arbeitskräfte durchführen zu lassen
  • In jüngerer Zeit haben sich Plattformen wie V7 und Scale AI weiterentwickelt und an Popularität gewonnen, die automatisierte Funktionen für Daten-Labeling und -Management bereitstellen
  • Solche Plattformen ermöglichen es Unternehmen mit großem Datenbedarf, mit Compliance- und Qualitätssicherungsmaßnahmen effizienter zu skalieren und ein höheres Maß an Konsistenz zu erreichen

Merkmale der einzelnen Plattformen und neue Player

  • V7 konzentriert sich tendenziell auf Aufgaben mit hohem Spezialisierungsgrad wie medizinische Bildgebung, während Scale im Bereich autonomes Fahren gewachsen ist und in den Verteidigungssektor expandiert hat
  • Neue Player wie Invisible bedienen die Nachfrage nach spezialisiertem Personal für LLM-spezifische Workflows (z. B. überwachtes Fine-Tuning, RLHF, menschliche Bewertung, Red Teaming)
  • Zu den beliebten Daten-Labeling-Services gehören CVAT, Dataloop, Invisible, Labelbox, Scale AI und V7

Verbesserung der Qualität menschlich annotierter Daten

  • Viele Plattformen sind weiterhin bis zu einem gewissen Grad auf menschliche Annotatoren angewiesen, weshalb bei der Ausweitung von AI-Anwendungen auf komplexe, subjektive und sozial relevante Bereiche mehr Aufwand in die Bewertung der Ausgabequalität investiert werden muss
  • Mithilfe von Mehrheitsentscheidungen, Übereinstimmungsraten, probabilistischen Modellierungsansätzen usw. lassen sich aus den Eingaben mehrerer Bewerter wahre Labels schätzen und unzuverlässige „Spammer“-Bewerter identifizieren
  • Es gibt Techniken, um systematische Unterschiede zwischen Bewertern zu erfassen und zur Verbesserung des Trainings zu nutzen (z. B. Disagreement Deconvolution, Multi-Annotator-Modellierung)
  • Falsch gelabelte Datenpunkte lassen sich mithilfe von Influence Functions oder durch Verfolgung von Vorhersageänderungen während des Trainings erkennen

[ #3 Offene Datensätze ]

  • Seit 2016 ist die Zahl offener Datensätze stark gestiegen, angetrieben durch die Open-Data-Bewegung und das wachsende Bewusstsein für den Wert des Datenaustauschs zwischen Industrie, Wissenschaft und Staat
  • Offene Datensätze existieren in den meisten Bereichen, sind aber besonders gut zugänglich in Computer Vision, NLP, Sprach-/Audioverarbeitung, Robotiksteuerung und Navigation
  • Diese Entwicklung wurde durch die Kombination aus Community-Bemühungen (z. B. Hugging Face, PyTorch, TensorFlow, Kaggle) und der Veröffentlichung großer Datensätze durch große Unternehmen vorangetrieben

Aspekte, die bei der Nutzung offener Datensätze zu beachten sind

  • Sie sind kostenlos und hilfreich für Benchmarking, bringen aber bestimmte Aspekte mit sich, die berücksichtigt werden sollten
  • In sensiblen oder stark regulierten Bereichen sind offene Datensätze tendenziell seltener, älter und kleiner
  • Qualität und Aktualität offener Daten können stark variieren, wodurch in sich schnell wandelnden Bereichen Relevanzprobleme entstehen können
  • Übermäßige Nutzung birgt das Risiko von Overfitting auf populäre Datensätze, sodass Modelle in Benchmarks gut abschneiden, in realen Anwendungen jedoch schlechter performen

Nützliche Ressourcen für offene Datensätze

[ #4 Simulationsumgebungen ]

  • Simulationsumgebungen ermöglichen es AI-Modellen oder -Agenten, in kontrollierten Umgebungen zu lernen, synthetische Daten zu erzeugen und Systeme vor dem realen Einsatz zu testen
  • Sie sind besonders hilfreich, um reale Daten zu ergänzen und Edge Cases zu erkunden, die in der Wirklichkeit schwer anzutreffen oder kostspielig sind
  • Besonders beliebt sind sie in Bereichen wie Robotik oder autonome Fahrzeuge, in denen Systeme sicher trainiert werden müssen und zahlreiche Variablen der realen Welt berücksichtigt werden müssen

Aspekte beim Aufbau von Simulationsumgebungen

  • Der Aufbau und die Validierung einer 3D-Simulation mit umfangreicher und präziser physikalischer Modellierung von Grund auf kann erhebliche Ressourcen und Infrastruktur erfordern
  • NVIDIA hat mit ISAAC eine leistungsstarke GPU-beschleunigte Robotikplattform geschaffen, die Simulationsumgebungen auf Basis von Omniverse, einer integrierten Plattform für 3D-Grafik- und physikbasierte Workflows, umfasst
  • Zur Senkung der Kosten können Open-Source-Simulationsumgebungen genutzt werden
  • Die Unreal Engine von Epic Games hat sich dank hochgradig realistischer Grafik, realistischer Physiksimulation und flexibler Programmierschnittstellen als starkes Werkzeug für den Aufbau von Simulationsumgebungen etabliert

Anwendungsfälle und Open-Source-Umgebungen

  • Applied Intuition: bietet Simulations- und Validierungslösungen für Entwickler autonomer Fahrsysteme
  • Sereact: entwickelt Software auf Basis von Simulationsumgebungen, damit räumliche und physische Nuancen für Pick-and-Pack-Automatisierung in Lagerhäusern verstanden werden können
  • Wayve: britisches Startup für autonomes Fahren, das mehrere 4D-Simulationsumgebungen entwickelt hat
  • Im Bereich autonomes Fahren: CARLA, LG SVL Simulator, AirSim
  • Im Bereich Robotik: Gazebo, CoppeliaSim, PyBullet, MuJoCo

[ #5 Scraping von Web, Büchern und anderen Materialien ]

  • Das großflächige Scraping von Text, Audio und Video war ein Kernelement bei der Entwicklung von Foundation Models
  • Während große Unternehmen eigene proprietäre Systeme einsetzen, können Startups auf verschiedene Standard- und Open-Source-Tools zurückgreifen
  • Verteilte Crawling-Frameworks wie Apache Nutch, Headless Browser wie Puppeteer oder Selenium, Parsing-Bibliotheken wie Beautiful Soup, Proxy- und IP-Management-Services wie Luminati sowie kostengünstige und effektive OCR-Technologien haben sich weiterentwickelt

Trade-off zwischen Datenqualität und Datenmenge

  • Je nach Domäne und Anwendung fällt der Trade-off zwischen Datenqualität und Datenmenge unterschiedlich aus
  • Sprachmodelle können bei ausreichender Datenmenge auch mit relativ rauschbehafteten und unkuratierten Daten effektiv lernen
  • Im Gegensatz dazu lassen sich in Computer Vision gute Ergebnisse mit kleinen, hochwertigen Datensätzen erzielen, die durch Bildtransformationen (z. B. Zuschneiden, Drehen, Hinzufügen von Rauschen) erweitert werden

Curriculum Learning und Datensatzkuratierung

  • Curriculum Learning ist eine Lernstrategie, bei der dem Modell Daten in einer sinnvollen Reihenfolge präsentiert werden, indem von einfachen zu komplexen Beispielen übergegangen wird
  • Es ahmt die menschliche Lernweise nach und steigert die Effizienz, indem das Modell gute Anfangsparameter lernt, bevor es sich schwierigeren Beispielen stellt

Beispiele

  • DBRX, das aktuelle SOTA Open LLM von Databricks, hat dies genutzt, um die Modellqualität deutlich zu verbessern
  • Sync Labs hat mit großen Mengen relativ minderwertiger Videos ein Modell trainiert, das Lippenbewegungen in Videos mit neuer Audiospur resynchronisieren kann
  • Metalware hat einen Copilot für Firmware-Ingenieure entwickelt, indem es einen relativ kleinen Satz aus Fachlehrbüchern gescannter Bilder mit GPT-2 kombiniert hat

[ #6 Urheberrechtsfragen und Möglichkeiten der Lizenzierung ]

  • Die Reifung des AI-Ökosystems seit 2016 hatte positive Auswirkungen auf Gründer, brachte aber auch zusätzliche Komplexität mit sich
  • Aufgrund des massenhaften Web-Scrapings durch Anbieter von Foundation Models haben Medienunternehmen, Autoren und Künstler verschiedene Urheberrechtsklagen eingereicht
  • Diese Verfahren laufen derzeit vor Gerichten in Europa und den USA und richten sich gegen große Unternehmen (z. B. Meta, OpenAI) oder zunehmend etablierte Labs (z. B. Midjourney, Stability)
  • Das unterstreicht, dass Startups bei ihren Methoden der Datenerhebung vorsichtig sein müssen
  • Sollten diese Unternehmen verlieren, könnten sie urheberrechtlich geschütztes Material in ihren Trainingsdaten identifizieren und Urheber entschädigen oder solche Ergebnisse vernichten und von vorn beginnen müssen
  • Deshalb verfolgen einige Unternehmen proaktiv creator-freundliche Strategien zur Datenerhebung, etwa durch Partnerschaften mit Medienorganisationen oder direkte Vergütung von Künstlern für die Nutzung von Inhalten oder Stimmen

Entstehung von Zertifizierungssystemen für ethische Datenbeschaffung

  • Zertifizierungssysteme für ethisch beschaffte Trainingsdaten entstehen, angeführt unter anderem von ehemaligen Stability-Führungskräften
  • Diese Zertifizierungssysteme stehen zwar noch am Anfang, sind aber ein interessanter Ansatz und es wert, beobachtet zu werden

Beispiele

  • ElevenLabs: Auszahlungen an Sprecher und Partnerschaften für Sprachdaten
  • Google: Abschluss eines Vertrags zur Nutzung von Reddit-Daten für das Training von Gemini
  • OpenAI: Partnerschaft zur Nutzung der Bibliothek aus Bildern, Videos, Musik und Metadaten von Shutterstock für das Training von DALL-E sowie Lizenzvertrag für das Nachrichtenarchiv von Associate Press

[ #7 Sinkender Bedarf an groß angelegten gelabelten Datensätzen ]

  • Seit 2016 haben sich unüberwachtes und semi-supervised Lernen stark weiterentwickelt, sodass Startups leistungsfähige Modelle auch ohne große gelabelte Datensätze aufbauen können, die traditionell als unverzichtbar galten
  • Diese Ansätze waren Forschern zwar bereits vor 2016 bekannt, doch Zugänglichkeit, Ausgereiftheit und Praxistauglichkeit haben sich in den letzten Jahren stark verbessert
  • Unüberwachtes Lernen konzentriert sich darauf, statistische Muster und Strukturen in Daten zu erlernen; traditionell war es nützlich zur Erkundung großer Datensätze (z. B. unüberwachtes Clustering) und ist heute zentral für das Pretraining von LLMs
  • Semi-supervised Learning nutzt große Mengen ungelabelter Daten zusammen mit kleinen Mengen gelabelter Daten und ist besonders wirksam, um die Modellleistung zu verbessern und weiterzuentwickeln
  • Diese Ansätze lassen sich durch Techniken wie Contrastive Learning und Few-shot Learning weiter stärken
    • Contrastive Learning ermöglicht es dem Modell, reichhaltige Repräsentationen zu lernen, indem ähnliche und unähnliche Datenpunkte unterschieden werden, und ist für Computer-Vision-Aufgaben nützlich (z. B. OpenAIs CLIP)
    • Few-shot Learning ermöglicht es Modellen, sich mit sehr wenigen Beispielen an neue Aufgaben anzupassen
  • Das ursprüngliche Paper zu den Scaling Laws zeigte, dass größere Modelle in Few-shot Learning versierter sind
  • Zwar erfordert unüberwachtes Pretraining größere Mengen ungelabelter Daten, doch verleiht dieser Schritt die Fähigkeit, Downstream-Aufgaben mit weniger gelabelten Beispielen zu lösen als kleinere nicht-generative Modelle

Grenzen und zu beachtende Aspekte

  • Modelle, die ungelabelte Daten nutzen, erfordern oft komplexere Architekturen
  • Das bedeutet, dass Kosten für Labeling gegen Rechenkosten eingetauscht werden
  • Sie sind nicht nur schwerer zu implementieren und zu skalieren, sondern auch weniger interpretierbar, was in sensiblen Bereichen, in denen das Verständnis von Entscheidungsprozessen wichtig ist, ein Nachteil sein kann
  • Diese Komplexität erfordert mehr Rechenressourcen und führt häufig zu einer niedrigeren Leistungsobergrenze als bei Supervised-Learning-Methoden

[ #8 Dinge, für die es noch zu früh ist ]

Datenmarktplätze

  • Seit 2016 sind einige Datenmarktplätze entstanden, da das Sammeln, Speichern, Verarbeiten und Teilen von Daten einfacher und günstiger geworden ist, doch dieser Bereich ist nicht stark in Fahrt gekommen
  • Marktplätze und Plattformen wie Datarade, Dawex, AWS Data Exchange und Snowflake haben es erleichtert, Bild-, Text-, Audio- und Videodaten für verschiedene allgemeine Anwendungsfälle zu finden, dienten jedoch vor allem dazu, zusätzlichen Mehrwert dafür zu bieten, dass Kunden ihre Daten dort hosten
  • Neben diesen Marktplätzen gibt es Unternehmen wie Appen, Scale AI, Invisible und Surge, die über qualifizierte ausgelagerte Arbeitskräfte die Erstellung und das Labeling maßgeschneiderter Datensätze anbieten
  • Dennoch gelten die Vorbehalte hinsichtlich Spezialisierung und dem Wettbewerbsvorteil proprietärer Daten weiterhin, und es gibt kaum Hinweise darauf, dass AI-Startups in großem Maß auf diese Marktplätze angewiesen sind
  • Anfangs mag das bequem sein, doch Bereinigung, Anpassung, Filterung und Subsampling erfordern weiterhin erheblichen Aufwand
  • Viele Startups ziehen es vor, von Beginn an eigene proprietäre Datensätze aufzubauen und diese als Wettbewerbsvorteil zu nutzen

Gamification

  • Gamification wurde von verschiedenen Unternehmen und Organisationen als Strategie zur Datenerhebung im Kontext von Crowdsourcing- und Citizen-Science-Initiativen erprobt (z. B. Folding@Home)
  • Abgesehen von wenigen Fällen ist Gamification jedoch ein relativ nischiges Feld geblieben
  • Sie spricht nur eine bestimmte Teilmenge von Nutzern an, die durch spielähnlichen Wettbewerb motiviert sind und über freie Zeit verfügen, weshalb das Potenzial bei der Zahl der Beitragenden relativ begrenzt ist
  • Selbst unter motivierten Personen bleiben Qualität und Genauigkeit der beigesteuerten Daten problematisch, insbesondere beim Umgang mit Edge Cases, sodass zusätzliche Validierungs- und Kontrollmaßnahmen erforderlich sind

Federated Learning

  • Federated Learning (FL), 2016 von Google eingeführt, versprach, Modelle über mehrere verteilte Server oder mobile Geräte hinweg trainieren zu können, während die Daten lokal verbleiben
  • Theoretisch könnte dies Startups in sensiblen Bereichen wie Gesundheitswesen oder Finanzwesen über Partnerschaften Zugang zu wichtigen Trainingsdaten verschaffen, ohne traditionelle Datenschutzprobleme auszulösen
  • In der Praxis wurde die Einführung von FL in den sensiblen Bereichen, für die es gedacht war, jedoch durch Fragen der Verantwortung, Datenhoheit und grenzüberschreitenden Datenübertragung gebremst; zudem wurden mit der wachsenden Komplexität von Modellen und Datensätzen der Rechen- und Kommunikations-Overhead für verteiltes Training und Aggregation zu erheblichen Engpässen, und es blieb die Wahrnehmung, dass Dateninhaber eine recht komplexe Technologie akzeptieren müssten, deren Nutzenversprechen erst noch gesichert werden muss

[ ## Fazit ]

  • Trotz erheblicher Fortschritte seit 2016 bleibt die Datenerhebung für Startups weiterhin ein Schmerzpunkt
  • Weder Community noch Markt scheinen dieses Problem zu lösen
  • Die meisten AI-Startups werden bei ihrer Gründung weiterhin mit den Schwierigkeiten der Datenerhebung konfrontiert sein, doch genau darin kann eine Chance zur Differenzierung liegen
  • Kreativ die richtigen Grundlagen zu schaffen, ist weiterhin eine sehr konkrete Quelle für Wettbewerbsvorteile
  • Daten selbst können niemals ein Burggraben (Moat) sein
  • Mit der Zeit werden Wettbewerber entweder eigene Daten beschaffen oder effizientere Techniken finden, um dieselben Ergebnisse zu erzielen
  • Das zeigt sich deutlich in LLM-Evaluierungen des vergangenen Jahres, in denen sich die Leistungslücke zwischen kleinen und großen Modellen schrittweise verringert hat
  • Exzellente Datenerhebung ist letztlich notwendig, aber nicht hinreichend
  • Sie ist neben einem Killerprodukt und echtem Kundenverständnis nur ein Baustein für den Erfolg

1 Kommentare

 
thfvkfk 2024-04-29

Vielen Dank, das sind unglaublich viele Informationen~