- OpenAI hat seine ersten Open-Source-Large-Language-Models
gpt-oss-120b und gpt-oss-20b veröffentlicht, die in einigen Benchmarks sehr gut abschneiden, in realen Anwendungen jedoch an Grenzen stoßen
- Diese Modelle verfügen zwar über Allgemeinwissen, verfügen aber in bestimmten Bereichen wie der Popkultur über deutlich weniger Wissen
- Wie bei Microsofts Phi-Serie kann der Ansatz mit synthetischen Daten die Benchmark-Leistung steigern, führt in der Praxis aber häufig zu geringerer Nutzbarkeit
- Das Training mit synthetischen Daten hat den Vorteil, das bei einer Open-Source-Veröffentlichung mögliche Missbrauchsrisiko zu reduzieren
- OpenAI scheint einen Phi-orientierten Ansatz gewählt zu haben, um gegenüber chinesischen Open-Source-Modellen sowohl einen Benchmark-Vorteil zu erzielen als auch die Sicherheit zu wahren
Erste Open-Source-LLM-Veröffentlichung von OpenAI
- OpenAI stellte
gpt-oss-120b und gpt-oss-20b als seine ersten Open-Source-LLMs vor, die direkt im Web nutzbar sind
- In einigen Benchmarks erreicht das Modell starke Werte, in speziellen Tests wie
SimpleQA jedoch schwächere Ergebnisse
- Im Bereich des naturwissenschaftlichen bzw. allgemeinen Wissens ist es stark, bei Popkulturwissen dagegen werden Defizite beobachtet
- Die tatsächliche Praxistauglichkeit dürfte erst nach etwa sechs Monaten klar werden, wobei die reale Leistung unter den Benchmark-Werten liegen kann
Phi-Modelle und das Training mit synthetischen Daten
- Die von Sebastien Bubeck bei Microsoft im Jahr 2024 vorangetriebene Phi-Serie besteht aus Modellen, die vollständig auf synthetischen Daten trainiert wurden
- Synthetische Daten stammen von anderen Sprachmodellen erzeugten oder von Menschen ausgewählten lehrbuchartigen Texten; die Qualität ist kontrollierbar, die Erstellung ist jedoch kostenintensiv
- Dieser Ansatz kann die Benchmark-Performance verbessern, zeigt in realen Umgebungen jedoch häufig eher unbefriedigende Ergebnisse
- Da synthetische Daten sich leicht auf typische Benchmark-Aufgabentypen zuschneiden lassen, ist ein prüfungsorientiertes Training möglich, aber die Generalisierbarkeit bleibt oft schwach
Sebastien Bubecks Einstieg bei OpenAI und gpt-oss
- Ende 2024 wechselte Bubeck von Microsoft zu OpenAI
- Die genauen Details der Pretraining-Daten von
gpt-oss wurden nicht offengelegt; es ist jedoch wahrscheinlich, dass stark gefilterte oder synthetische Daten verwendet wurden
- Dieser Ansatz könnte Merkmale aufweisen, die den Modellen Phi-5 und Phi-5-mini ähneln
Sicherheitsvorteile synthetischer Daten
- Open-Source-Modelle können nach der Veröffentlichung unbegrenzt Fine-Tuning werden, was Sicherheitsrisiken birgt
- Ein häufiges inoffizielles Einsatzszenario kleiner Sprachmodelle ist dabei das Erwachsenen-Rollenspiel, weshalb Sicherheit zentral ist
- Beim Training mit synthetischen oder lehrbuchbasierten Daten kann riskanter Inhalt ausgeschlossen werden, was die Sicherheit erhöht
- OpenAI scheint eine Strategie gewählt zu haben, mit der es gegenüber chinesischen Open-Source-Modellen Benchmark-Führung mit einer stabilen Sicherheitslage verbindet
Fazit: de facto eine Phi-5-Linie
gpt-oss-Modelle wirken wie sicherheitszentrierte Konstruktionen auf Basis synthetischer Daten, bei denen Benchmark-Werte und Sicherheit offenbar wichtiger sind als Praxis-Performance
- Damit gehören diese Modelle faktisch in die Familie von Phi-5 und Phi-5-mini
Noch keine Kommentare.