5 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • OpenAI hat seine ersten Open-Source-Large-Language-Models gpt-oss-120b und gpt-oss-20b veröffentlicht, die in einigen Benchmarks sehr gut abschneiden, in realen Anwendungen jedoch an Grenzen stoßen
  • Diese Modelle verfügen zwar über Allgemeinwissen, verfügen aber in bestimmten Bereichen wie der Popkultur über deutlich weniger Wissen
  • Wie bei Microsofts Phi-Serie kann der Ansatz mit synthetischen Daten die Benchmark-Leistung steigern, führt in der Praxis aber häufig zu geringerer Nutzbarkeit
  • Das Training mit synthetischen Daten hat den Vorteil, das bei einer Open-Source-Veröffentlichung mögliche Missbrauchsrisiko zu reduzieren
  • OpenAI scheint einen Phi-orientierten Ansatz gewählt zu haben, um gegenüber chinesischen Open-Source-Modellen sowohl einen Benchmark-Vorteil zu erzielen als auch die Sicherheit zu wahren

Erste Open-Source-LLM-Veröffentlichung von OpenAI

  • OpenAI stellte gpt-oss-120b und gpt-oss-20b als seine ersten Open-Source-LLMs vor, die direkt im Web nutzbar sind
  • In einigen Benchmarks erreicht das Modell starke Werte, in speziellen Tests wie SimpleQA jedoch schwächere Ergebnisse
  • Im Bereich des naturwissenschaftlichen bzw. allgemeinen Wissens ist es stark, bei Popkulturwissen dagegen werden Defizite beobachtet
  • Die tatsächliche Praxistauglichkeit dürfte erst nach etwa sechs Monaten klar werden, wobei die reale Leistung unter den Benchmark-Werten liegen kann

Phi-Modelle und das Training mit synthetischen Daten

  • Die von Sebastien Bubeck bei Microsoft im Jahr 2024 vorangetriebene Phi-Serie besteht aus Modellen, die vollständig auf synthetischen Daten trainiert wurden
  • Synthetische Daten stammen von anderen Sprachmodellen erzeugten oder von Menschen ausgewählten lehrbuchartigen Texten; die Qualität ist kontrollierbar, die Erstellung ist jedoch kostenintensiv
  • Dieser Ansatz kann die Benchmark-Performance verbessern, zeigt in realen Umgebungen jedoch häufig eher unbefriedigende Ergebnisse
  • Da synthetische Daten sich leicht auf typische Benchmark-Aufgabentypen zuschneiden lassen, ist ein prüfungsorientiertes Training möglich, aber die Generalisierbarkeit bleibt oft schwach

Sebastien Bubecks Einstieg bei OpenAI und gpt-oss

  • Ende 2024 wechselte Bubeck von Microsoft zu OpenAI
  • Die genauen Details der Pretraining-Daten von gpt-oss wurden nicht offengelegt; es ist jedoch wahrscheinlich, dass stark gefilterte oder synthetische Daten verwendet wurden
  • Dieser Ansatz könnte Merkmale aufweisen, die den Modellen Phi-5 und Phi-5-mini ähneln

Sicherheitsvorteile synthetischer Daten

  • Open-Source-Modelle können nach der Veröffentlichung unbegrenzt Fine-Tuning werden, was Sicherheitsrisiken birgt
  • Ein häufiges inoffizielles Einsatzszenario kleiner Sprachmodelle ist dabei das Erwachsenen-Rollenspiel, weshalb Sicherheit zentral ist
  • Beim Training mit synthetischen oder lehrbuchbasierten Daten kann riskanter Inhalt ausgeschlossen werden, was die Sicherheit erhöht
  • OpenAI scheint eine Strategie gewählt zu haben, mit der es gegenüber chinesischen Open-Source-Modellen Benchmark-Führung mit einer stabilen Sicherheitslage verbindet

Fazit: de facto eine Phi-5-Linie

  • gpt-oss-Modelle wirken wie sicherheitszentrierte Konstruktionen auf Basis synthetischer Daten, bei denen Benchmark-Werte und Sicherheit offenbar wichtiger sind als Praxis-Performance
  • Damit gehören diese Modelle faktisch in die Familie von Phi-5 und Phi-5-mini

Noch keine Kommentare.

Noch keine Kommentare.