LLMs werden nicht mehr nur "mit dem Internet" trainiert

(allenpike.com)

20 Punkte von GN⁺ 2024-06-03 | 2 Kommentare | Auf WhatsApp teilen

Früher wurden LLMs hauptsächlich mit Internetdaten trainiert, und größtenteils ist das auch heute noch so, aber es stimmt zunehmend weniger
Das Konzept eines „Internet-Simulators“ ist nicht hilfreich, um das Verhalten von GPT-5 und darüber hinaus vorherzusagen
- Neue Modelle gehen bereits über diese Definition hinaus, und dieser Wandel hat gerade erst begonnen

Die Datenmauer (Data Wall)

Das GPT-3-Paper von OpenAI aus dem Jahr 2020 beschrieb den Trainingsdatensatz detailliert, doch das ist inzwischen ein Relikt aus der Vergangenheit
- Seit 2022 wird beim LLM-Training zunehmend nutzerspezifisches Feedback eingesetzt, und OpenAI und andere sprechen nur noch zurückhaltend über ihre Trainingsdaten
- Womit GPT-4, Sora oder GPT-5 trainiert wurden, ist nicht bekannt, aber es sind nicht einfach nur Internetdaten
LLM-Entwickler sind zuletzt auf eine „Datenmauer“ gestoßen
- OpenAI verfügt bereits über fast alle frei verfügbaren Webdaten; um bessere LLMs zu bauen, müssen daher nicht öffentliche Daten beschafft und erzeugt werden
Für Labore mit ausreichend Geld ist die Beschaffung und Erzeugung nicht öffentlicher Daten die Lösung
- Anfangs lag der Fokus darauf, vorhandene Trainingsdaten nützlicher zu machen oder bestehende nicht öffentliche Daten dem Trainingspool hinzuzufügen
- Zum Beispiel
  1. Annotation und Filterung: Forschende versehen Trainingsdaten mit Annotationen, damit sich bessere Modelle auf hochwertige Daten konzentrieren können
  2. RLHF: Labore lassen Menschen die Ausgaben von Modellen bewerten und nutzen diese Daten zum Fine-Tuning sowie zur Förderung nützlichen Verhaltens
  3. Nutzungsdaten: ChatGPT soll pro Tag etwa 10 Milliarden Token an Daten erzeugen
  4. Datenbeschaffung: Viele Daten existieren nicht im Internet, etwa E-Mails, Chatprotokolle, proprietäre Handbücher, JIRA-Tickets, Telefonaufzeichnungen, interne Berichte und Verträge; Modellentwickler können sie den Trainingsdaten hinzufügen
Diese Techniken lösen jedoch nicht vollständig das Problem, dass LLMs schwach darin sind, Ausgaben zu erzeugen, die sich von vorhandenen Daten unterscheiden
- LLMs haben Schwierigkeiten mit Aufgaben wie den folgenden (weil es online nicht viel Text gibt, der so etwas zeigt)
  1. Zweifel oder Unsicherheit in einer Antwort ausdrücken
  2. Lange Gespräche ohne sich wiederholende Formulierungen oder Schleifen aufrechterhalten
  3. Übergeordnete Pläne erstellen, die ein LLM-Agent verfolgen soll
  4. Wie ein Senior Engineer über große Legacy-Codebasen nachdenken
  5. Sehr langen oder komplexen Prompts zuverlässig folgen
Verbesserte Architekturen und mehr Parameter können helfen, diese Grenzen zu überwinden, aber OpenAI, Meta, Google und Microsoft geben viel Geld dafür aus, die Lücke auf einfachere Weise zu schließen: durch Training mit neu erzeugten Beispielen

LLMs werden nun mit maßgeschneiderten Daten trainiert

Der technische Bericht zu Microsofts Phi-3 (im April veröffentlicht) ist ein aktuelles Beispiel für den Anstieg maßgeschneiderter Daten
- phi-3-mini hat nur 3,8 Milliarden Parameter, zeigt aber eine Leistung, die mit größeren und schwereren Mixtral-Modellen konkurrieren kann
- Ein Teil dieser Verbesserung wird dadurch erklärt, dass hochwertige synthetische Daten, erzeugt von größeren LLMs, in die Trainingsdaten aufgenommen wurden
- Synthetische Daten können Lücken in internetbasierten Quelldaten schließen und die Modellleistung für eine gegebene Größe verbessern
Synthetische Daten sind derzeit ein stark beachtetes Thema in der LLM-Forschung
- Es ist noch nicht klar, wie weit man LLMs mit ihren eigenen Ausgaben trainieren kann (es könnte zu einer Situation kommen wie bei einer riesigen neuronalen Schlange, die ihren eigenen Schwanz frisst)
- Aber zumindest können synthetische Daten helfen, die Lücken zu schließen, die dadurch entstehen, dass LLMs wie „Internet-Simulatoren“ funktionieren
  - Wenn es zum Beispiel zu wenige Trainingsbeispiele für das Ausdrücken von Unsicherheit gibt oder die Daten nicht repräsentativ und dadurch verzerrt sind, können bessere Beispiele erzeugt werden
Doch mit LLMs wirklich hochwertige synthetische Daten zu erzeugen, ist schwierig und wird Grenzen haben
- Deshalb tritt nun die letzte große Datenquelle außerhalb des Internets auf den Plan: der Mensch

Wie viele Daten lassen sich für 1 Milliarde Dollar pro Jahr erzeugen?

Wenn man bezahlt, sind Menschen bereit, Daten zu erzeugen
- Scale.ai bezeichnet sich selbst als „Datenfabrik für KI“ und betreibt einen Service, bei dem Labore Menschen dafür bezahlen, Daten zu erzeugen
- KI-Unternehmen sollen bereits mehr als 1 Milliarde Dollar pro Jahr für die Dienste von Scale bezahlen
- Ein Teil davon fließt in Annotation und Bewertung von Daten aus dem Web oder aus LLMs, aber es werden auch völlig neue Trainingsdaten von Grund auf erstellt
- Scale konzentriert sich auf hochspezialisierte Arbeitskräfte wie promovierte Fachleute, Anwälte, Buchhalter, Dichter, Autoren und Menschen mit hoher Kompetenz in bestimmten Sprachen
- Diese trainieren und testen Modelle für Unternehmen wie OpenAI, Cohere, Anthropic und Google und erhalten dafür höhere Stundenlöhne
Unternehmen wie OpenAI können Expertinnen und Experten dafür bezahlen, neue und hochwertige Daten zu erzeugen, die Lücken in internetbasierten Quelldaten füllen; diese Daten werden anschließend für das Modelltraining verwendet
- Datensätze wie „50.000 Beispiele für durchdachte Unsicherheitsäußerungen, wenn selbst ein Ph.D. die Antwort auf eine Frage nicht kennt“ könnten weit mehr wert sein als ihre Herstellungskosten
LLMs wurden ursprünglich mit dem Internet trainiert, und viele ihrer frühen Schwächen lassen sich als Folge der bunt zusammengewürfelten Inhalte verstehen, die im Web veröffentlicht wurden
Doch mit dem wachsenden Umfang und Einfluss maßgeschneiderter Trainingsdaten ist zu erwarten, dass LLMs die „Internet-Simulation“ deutlich hinter sich lassen werden
- Vor allem dort, wo Dinge nicht im Internet stehen, sich aber durch maßgeschneiderte Datenerzeugung im Wert von mehr als 1 Milliarde Dollar belegen lassen
Anders gesagt: Dieser Zug wird noch eine ganze Weile weiterrollen

Meinung von GN⁺

Bedeutung von Daten: Um die Leistung von LLMs zu steigern, werden Daten aus vielfältigen Quellen benötigt. Mit reinen Internetdaten stößt man an Grenzen.
Kostenproblem: Die Erzeugung maßgeschneiderter Daten ist teuer. Für kleinere Labore oder Unternehmen kann das eine große Belastung sein.
Grenzen synthetischer Daten: Synthetische Daten sind nützlich, können sich aber von tatsächlich von Menschen erzeugten Daten unterscheiden. Dadurch kann die Realitätsnähe des Modells begrenzt sein.
Ausblick: Die Weiterentwicklung von LLMs mithilfe maßgeschneiderter und synthetischer Daten dürfte anhalten. Das könnte in vielen Bereichen Innovationen auslösen.
Wettbewerbssituation: Große Unternehmen wie OpenAI, Google und Microsoft investieren in die Erzeugung maßgeschneiderter Daten, wodurch sich der Wettbewerb weiter verschärfen dürfte.

2 Kommentare

bytebrawlers 2024-06-04

Die sogenannte Data Wall wird letztlich dann zum Problem, wenn ausreichend Compute vorhanden ist; betrachtet man jedoch Energieeffizienz und Versorgung, wird eher die Grenze des Compute-Wachstums – also die Frage der verfügbaren Strommenge – wichtiger.

GN⁺ 2024-06-03

Hacker-News-Kommentare

Dieser Beitrag weist auf einige gute Punkte hin, und insbesondere Phi-3 ist eine sehr interessante Technik. Es ist merkwürdig, dass neuere Architekturen wie Anthropic, Mistral und FAIR nicht erwähnt werden.
Moderne LLMs werden nicht nur mit im Web gesammelten Daten trainiert, sondern auch mit maßgeschneiderten Datensätzen, die von vielen Menschen erstellt wurden. Das zeigt Wachstumspotenzial, birgt aber das Risiko, sich unbegrenzt in die falsche Richtung auszudehnen.
Dass Menschen verzerrte Daten erzeugen, ist ein Problem. Als Beispiel dafür, dass LLMs keine originellen Antworten erzeugen können, wird genannt, dass sie keine verschiedenen Wege vorschlagen können, um Nutzer zum Klick auf den YouTube-Abonnieren-Button zu bewegen.
Die für das LLM-Training verwendeten Daten wurden von niedrig bezahlten indischen Programmierern bereitgestellt. Derzeit liefern Experten die Daten, aber es besteht die Möglichkeit eines Übergangs zu Niedriglohnarbeitern.
Expertensysteme sind daran gescheitert, dass man Experten laufend bezahlen muss. Die Zusammenarbeit von OpenAI und MS zielt zwar auf das Erreichen von AGI (Artificial General Intelligence), hat aber praktische Grenzen.
Das Training multimodaler Modelle bleibt weiterhin eine Herausforderung. Nicht Datenmangel, sondern andere Probleme verursachen die Engpässe.
Ein Datensatz wie „50.000 Beispiele für vorsichtig formulierte Unsicherheit bei Fragen, auf die selbst Ph.D.s keine Antwort wissen“ könnte mehr wert sein als seine Produktionskosten.
Es wäre wünschenswert, wenn technologische Investitionen zu einem WPA-ähnlichen Programm führten, in dem erfahrene Autoren zum Schreiben angestellt werden. Das könnte eine Sammlung hochwertiger menschlicher Werke schaffen.
Der nächste große Fortschritt in der KI wird wahrscheinlich nichts mit Daten zu tun haben.
OpenAI und andere werden Unternehmen, die versprochen haben, ihre Daten nicht öffentlich zu machen, hohe Summen zahlen. Dazu gehören Unternehmen wie Slack, Atlassian und Dropbox.