- Früher wurden LLMs hauptsächlich mit Internetdaten trainiert, und größtenteils ist das auch heute noch so, aber es stimmt zunehmend weniger
- Das Konzept eines „Internet-Simulators“ ist nicht hilfreich, um das Verhalten von GPT-5 und darüber hinaus vorherzusagen
- Neue Modelle gehen bereits über diese Definition hinaus, und dieser Wandel hat gerade erst begonnen
Die Datenmauer (Data Wall)
- Das GPT-3-Paper von OpenAI aus dem Jahr 2020 beschrieb den Trainingsdatensatz detailliert, doch das ist inzwischen ein Relikt aus der Vergangenheit
- Seit 2022 wird beim LLM-Training zunehmend nutzerspezifisches Feedback eingesetzt, und OpenAI und andere sprechen nur noch zurückhaltend über ihre Trainingsdaten
- Womit GPT-4, Sora oder GPT-5 trainiert wurden, ist nicht bekannt, aber es sind nicht einfach nur Internetdaten
- LLM-Entwickler sind zuletzt auf eine „Datenmauer“ gestoßen
- OpenAI verfügt bereits über fast alle frei verfügbaren Webdaten; um bessere LLMs zu bauen, müssen daher nicht öffentliche Daten beschafft und erzeugt werden
- Für Labore mit ausreichend Geld ist die Beschaffung und Erzeugung nicht öffentlicher Daten die Lösung
- Anfangs lag der Fokus darauf, vorhandene Trainingsdaten nützlicher zu machen oder bestehende nicht öffentliche Daten dem Trainingspool hinzuzufügen
- Zum Beispiel
- Annotation und Filterung: Forschende versehen Trainingsdaten mit Annotationen, damit sich bessere Modelle auf hochwertige Daten konzentrieren können
- RLHF: Labore lassen Menschen die Ausgaben von Modellen bewerten und nutzen diese Daten zum Fine-Tuning sowie zur Förderung nützlichen Verhaltens
- Nutzungsdaten: ChatGPT soll pro Tag etwa 10 Milliarden Token an Daten erzeugen
- Datenbeschaffung: Viele Daten existieren nicht im Internet, etwa E-Mails, Chatprotokolle, proprietäre Handbücher, JIRA-Tickets, Telefonaufzeichnungen, interne Berichte und Verträge; Modellentwickler können sie den Trainingsdaten hinzufügen
- Diese Techniken lösen jedoch nicht vollständig das Problem, dass LLMs schwach darin sind, Ausgaben zu erzeugen, die sich von vorhandenen Daten unterscheiden
- LLMs haben Schwierigkeiten mit Aufgaben wie den folgenden (weil es online nicht viel Text gibt, der so etwas zeigt)
- Zweifel oder Unsicherheit in einer Antwort ausdrücken
- Lange Gespräche ohne sich wiederholende Formulierungen oder Schleifen aufrechterhalten
- Übergeordnete Pläne erstellen, die ein LLM-Agent verfolgen soll
- Wie ein Senior Engineer über große Legacy-Codebasen nachdenken
- Sehr langen oder komplexen Prompts zuverlässig folgen
- Verbesserte Architekturen und mehr Parameter können helfen, diese Grenzen zu überwinden, aber OpenAI, Meta, Google und Microsoft geben viel Geld dafür aus, die Lücke auf einfachere Weise zu schließen: durch Training mit neu erzeugten Beispielen
LLMs werden nun mit maßgeschneiderten Daten trainiert
- Der technische Bericht zu Microsofts Phi-3 (im April veröffentlicht) ist ein aktuelles Beispiel für den Anstieg maßgeschneiderter Daten
- phi-3-mini hat nur 3,8 Milliarden Parameter, zeigt aber eine Leistung, die mit größeren und schwereren Mixtral-Modellen konkurrieren kann
- Ein Teil dieser Verbesserung wird dadurch erklärt, dass hochwertige synthetische Daten, erzeugt von größeren LLMs, in die Trainingsdaten aufgenommen wurden
- Synthetische Daten können Lücken in internetbasierten Quelldaten schließen und die Modellleistung für eine gegebene Größe verbessern
- Synthetische Daten sind derzeit ein stark beachtetes Thema in der LLM-Forschung
- Es ist noch nicht klar, wie weit man LLMs mit ihren eigenen Ausgaben trainieren kann (es könnte zu einer Situation kommen wie bei einer riesigen neuronalen Schlange, die ihren eigenen Schwanz frisst)
- Aber zumindest können synthetische Daten helfen, die Lücken zu schließen, die dadurch entstehen, dass LLMs wie „Internet-Simulatoren“ funktionieren
- Wenn es zum Beispiel zu wenige Trainingsbeispiele für das Ausdrücken von Unsicherheit gibt oder die Daten nicht repräsentativ und dadurch verzerrt sind, können bessere Beispiele erzeugt werden
- Doch mit LLMs wirklich hochwertige synthetische Daten zu erzeugen, ist schwierig und wird Grenzen haben
- Deshalb tritt nun die letzte große Datenquelle außerhalb des Internets auf den Plan: der Mensch
Wie viele Daten lassen sich für 1 Milliarde Dollar pro Jahr erzeugen?
- Wenn man bezahlt, sind Menschen bereit, Daten zu erzeugen
- Scale.ai bezeichnet sich selbst als „Datenfabrik für KI“ und betreibt einen Service, bei dem Labore Menschen dafür bezahlen, Daten zu erzeugen
- KI-Unternehmen sollen bereits mehr als 1 Milliarde Dollar pro Jahr für die Dienste von Scale bezahlen
- Ein Teil davon fließt in Annotation und Bewertung von Daten aus dem Web oder aus LLMs, aber es werden auch völlig neue Trainingsdaten von Grund auf erstellt
- Scale konzentriert sich auf hochspezialisierte Arbeitskräfte wie promovierte Fachleute, Anwälte, Buchhalter, Dichter, Autoren und Menschen mit hoher Kompetenz in bestimmten Sprachen
- Diese trainieren und testen Modelle für Unternehmen wie OpenAI, Cohere, Anthropic und Google und erhalten dafür höhere Stundenlöhne
- Unternehmen wie OpenAI können Expertinnen und Experten dafür bezahlen, neue und hochwertige Daten zu erzeugen, die Lücken in internetbasierten Quelldaten füllen; diese Daten werden anschließend für das Modelltraining verwendet
- Datensätze wie „50.000 Beispiele für durchdachte Unsicherheitsäußerungen, wenn selbst ein Ph.D. die Antwort auf eine Frage nicht kennt“ könnten weit mehr wert sein als ihre Herstellungskosten
- LLMs wurden ursprünglich mit dem Internet trainiert, und viele ihrer frühen Schwächen lassen sich als Folge der bunt zusammengewürfelten Inhalte verstehen, die im Web veröffentlicht wurden
- Doch mit dem wachsenden Umfang und Einfluss maßgeschneiderter Trainingsdaten ist zu erwarten, dass LLMs die „Internet-Simulation“ deutlich hinter sich lassen werden
- Vor allem dort, wo Dinge nicht im Internet stehen, sich aber durch maßgeschneiderte Datenerzeugung im Wert von mehr als 1 Milliarde Dollar belegen lassen
- Anders gesagt: Dieser Zug wird noch eine ganze Weile weiterrollen
Meinung von GN⁺
- Bedeutung von Daten: Um die Leistung von LLMs zu steigern, werden Daten aus vielfältigen Quellen benötigt. Mit reinen Internetdaten stößt man an Grenzen.
- Kostenproblem: Die Erzeugung maßgeschneiderter Daten ist teuer. Für kleinere Labore oder Unternehmen kann das eine große Belastung sein.
- Grenzen synthetischer Daten: Synthetische Daten sind nützlich, können sich aber von tatsächlich von Menschen erzeugten Daten unterscheiden. Dadurch kann die Realitätsnähe des Modells begrenzt sein.
- Ausblick: Die Weiterentwicklung von LLMs mithilfe maßgeschneiderter und synthetischer Daten dürfte anhalten. Das könnte in vielen Bereichen Innovationen auslösen.
- Wettbewerbssituation: Große Unternehmen wie OpenAI, Google und Microsoft investieren in die Erzeugung maßgeschneiderter Daten, wodurch sich der Wettbewerb weiter verschärfen dürfte.
2 Kommentare
Die sogenannte Data Wall wird letztlich dann zum Problem, wenn ausreichend Compute vorhanden ist; betrachtet man jedoch Energieeffizienz und Versorgung, wird eher die Grenze des Compute-Wachstums – also die Frage der verfügbaren Strommenge – wichtiger.
Hacker-News-Kommentare