Sind Daten noch immer ein Burggraben (Moat)?

xguru · 2023-10-17T10:46:01+09:00

„Daten sind das neue Öl“ war das Schlagwort der vergangenen zehn Jahre Unternehmen erkannten, wie wertvoll Daten sind oder sein können Unternehmen investierten eilig in moderne Data Stacks und speicherten Terabytes an Daten in Data Warehouses Data-Science-Teams sollten Kennzahlen analysieren und die Ergebnisse für Produktentscheidungen nutzen (oder in manchen Fällen für kundennahe Funktionen wie Empfehlungs-Feeds) Es gab Erfolgsgeschichten, aber viele Organisationen scheiterten an der Umsetzung Gründe dafür waren isolierte Datenbestände (oder Datenteams), teure Cloud-Data-Warehouses und schlechte Queries (die derzeit zurückgehen) sowie das Fehlen sauberer Datenpipelines (mit erheblichem operativem Aufwand, um Daten in einen aufbereiteten Zustand zu bringen) Ist Daten nun im Zeitalter von „Generativer KI“ noch immer ein Burggraben? Wird der Wert von Daten steigen oder sinken, wenn synthetische Datensätze einen nicht unerheblichen Anteil in Trainings- und Inferenz-Pipelines einnehmen? Einerseits gilt: „Hochwertige Daten sind nach wie vor wichtig“ Ein großer Teil des Fokus bei LLM-Verbesserungen liegt auf Modellen und der Größe von Datensätzen Es gibt erste Hinweise darauf, dass LLMs stark von der Qualität der Daten beeinflusst werden können, mit denen sie trainiert werden WizardLM, TinyStories und phi-1 sind Beispiele dafür Ebenso sind RLHF-Datensätze wichtig Andererseits gilt für Fine-Tuning bei Ausgabeformaten und benutzerdefiniertem Stil: „Schon etwa 100 Datenpunkte bringen deutliche Verbesserungen“ LLM-Forscher von Databricks, Meta, Spark und Audible führten eine empirische Analyse zur Datenmenge durch, die für Fine-Tuning erforderlich ist Eine solche Datenmenge lässt sich leicht manuell erzeugen oder kuratieren Model Distillation ist real und lässt sich einfach praktisch umsetzen Mit LLMs lassen sich synthetische Daten erzeugen, um ein eigenes LLM zu trainieren oder feinzujustieren; dabei wird ein Teil des Wissens übertragen Das ist problematisch, wenn man das rohe LLM gegenüber Dritten offenlegt (bei interner Nutzung eher nicht), bedeutet aber auch, dass nicht besonders einzigartige Daten leicht kopiert werden können

(matt-rickard.com)

12 Punkte von xguru 2023-10-17 | Noch keine Kommentare. | Auf WhatsApp teilen

„Daten sind das neue Öl“ war das Schlagwort der vergangenen zehn Jahre
- Unternehmen erkannten, wie wertvoll Daten sind oder sein können
- Unternehmen investierten eilig in moderne Data Stacks und speicherten Terabytes an Daten in Data Warehouses
- Data-Science-Teams sollten Kennzahlen analysieren und die Ergebnisse für Produktentscheidungen nutzen (oder in manchen Fällen für kundennahe Funktionen wie Empfehlungs-Feeds)
- Es gab Erfolgsgeschichten, aber viele Organisationen scheiterten an der Umsetzung
- Gründe dafür waren isolierte Datenbestände (oder Datenteams), teure Cloud-Data-Warehouses und schlechte Queries (die derzeit zurückgehen) sowie das Fehlen sauberer Datenpipelines (mit erheblichem operativem Aufwand, um Daten in einen aufbereiteten Zustand zu bringen)
Ist Daten nun im Zeitalter von „Generativer KI“ noch immer ein Burggraben?
Wird der Wert von Daten steigen oder sinken, wenn synthetische Datensätze einen nicht unerheblichen Anteil in Trainings- und Inferenz-Pipelines einnehmen?
Einerseits gilt: „Hochwertige Daten sind nach wie vor wichtig“
- Ein großer Teil des Fokus bei LLM-Verbesserungen liegt auf Modellen und der Größe von Datensätzen
- Es gibt erste Hinweise darauf, dass LLMs stark von der Qualität der Daten beeinflusst werden können, mit denen sie trainiert werden
- WizardLM, TinyStories und phi-1 sind Beispiele dafür
- Ebenso sind RLHF-Datensätze wichtig
Andererseits gilt für Fine-Tuning bei Ausgabeformaten und benutzerdefiniertem Stil: „Schon etwa 100 Datenpunkte bringen deutliche Verbesserungen“
- LLM-Forscher von Databricks, Meta, Spark und Audible führten eine empirische Analyse zur Datenmenge durch, die für Fine-Tuning erforderlich ist
- Eine solche Datenmenge lässt sich leicht manuell erzeugen oder kuratieren
Model Distillation ist real und lässt sich einfach praktisch umsetzen
- Mit LLMs lassen sich synthetische Daten erzeugen, um ein eigenes LLM zu trainieren oder feinzujustieren; dabei wird ein Teil des Wissens übertragen
- Das ist problematisch, wenn man das rohe LLM gegenüber Dritten offenlegt (bei interner Nutzung eher nicht), bedeutet aber auch, dass nicht besonders einzigartige Daten leicht kopiert werden können

Sind Daten noch immer ein Burggraben (Moat)?

Verwandte Beiträge

Noch keine Kommentare.