OpenAIs neues Open-Source-Modell ist praktisch ein Phi-5

(seangoedecke.com)

5 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen

OpenAI hat seine ersten Open-Source-Large-Language-Models gpt-oss-120b und gpt-oss-20b veröffentlicht, die in einigen Benchmarks sehr gut abschneiden, in realen Anwendungen jedoch an Grenzen stoßen
Diese Modelle verfügen zwar über Allgemeinwissen, verfügen aber in bestimmten Bereichen wie der Popkultur über deutlich weniger Wissen
Wie bei Microsofts Phi-Serie kann der Ansatz mit synthetischen Daten die Benchmark-Leistung steigern, führt in der Praxis aber häufig zu geringerer Nutzbarkeit
Das Training mit synthetischen Daten hat den Vorteil, das bei einer Open-Source-Veröffentlichung mögliche Missbrauchsrisiko zu reduzieren
OpenAI scheint einen Phi-orientierten Ansatz gewählt zu haben, um gegenüber chinesischen Open-Source-Modellen sowohl einen Benchmark-Vorteil zu erzielen als auch die Sicherheit zu wahren

Erste Open-Source-LLM-Veröffentlichung von OpenAI

OpenAI stellte gpt-oss-120b und gpt-oss-20b als seine ersten Open-Source-LLMs vor, die direkt im Web nutzbar sind
In einigen Benchmarks erreicht das Modell starke Werte, in speziellen Tests wie SimpleQA jedoch schwächere Ergebnisse
Im Bereich des naturwissenschaftlichen bzw. allgemeinen Wissens ist es stark, bei Popkulturwissen dagegen werden Defizite beobachtet
Die tatsächliche Praxistauglichkeit dürfte erst nach etwa sechs Monaten klar werden, wobei die reale Leistung unter den Benchmark-Werten liegen kann

Die von Sebastien Bubeck bei Microsoft im Jahr 2024 vorangetriebene Phi-Serie besteht aus Modellen, die vollständig auf synthetischen Daten trainiert wurden
Synthetische Daten stammen von anderen Sprachmodellen erzeugten oder von Menschen ausgewählten lehrbuchartigen Texten; die Qualität ist kontrollierbar, die Erstellung ist jedoch kostenintensiv
Dieser Ansatz kann die Benchmark-Performance verbessern, zeigt in realen Umgebungen jedoch häufig eher unbefriedigende Ergebnisse
Da synthetische Daten sich leicht auf typische Benchmark-Aufgabentypen zuschneiden lassen, ist ein prüfungsorientiertes Training möglich, aber die Generalisierbarkeit bleibt oft schwach

Ende 2024 wechselte Bubeck von Microsoft zu OpenAI
Die genauen Details der Pretraining-Daten von gpt-oss wurden nicht offengelegt; es ist jedoch wahrscheinlich, dass stark gefilterte oder synthetische Daten verwendet wurden
Dieser Ansatz könnte Merkmale aufweisen, die den Modellen Phi-5 und Phi-5-mini ähneln

Open-Source-Modelle können nach der Veröffentlichung unbegrenzt Fine-Tuning werden, was Sicherheitsrisiken birgt
Ein häufiges inoffizielles Einsatzszenario kleiner Sprachmodelle ist dabei das Erwachsenen-Rollenspiel, weshalb Sicherheit zentral ist
Beim Training mit synthetischen oder lehrbuchbasierten Daten kann riskanter Inhalt ausgeschlossen werden, was die Sicherheit erhöht
OpenAI scheint eine Strategie gewählt zu haben, mit der es gegenüber chinesischen Open-Source-Modellen Benchmark-Führung mit einer stabilen Sicherheitslage verbindet

gpt-oss-Modelle wirken wie sicherheitszentrierte Konstruktionen auf Basis synthetischer Daten, bei denen Benchmark-Werte und Sicherheit offenbar wichtiger sind als Praxis-Performance
Damit gehören diese Modelle faktisch in die Familie von Phi-5 und Phi-5-mini