Werden GPT-4.5 oder GPT-5 bei LMSYS getestet?

Hintergrund

Das von LMSYS kürzlich veröffentlichte Modell gpt2-chatbot zeigt eine Leistung, die das bislang bekannte GPT-2-Modell deutlich übertrifft
Informationen zu diesem Modell sind weder auf der LMSYS-Website noch anderswo leicht zu finden
Auch in den Benchmark-API-Ergebnissen von LMSYS ist ausgerechnet dieses Modell auffällig ausgenommen

Es bezeichnet sich selbst als „auf GPT-4 basierend“ und nennt sich „ChatGPT“
Es zeigt andere Eigenschaften als Modelle, die mit von anderen Organisationen erstellten OpenAI-Datensätzen trainiert wurden
Es scheint den tiktoken-Tokenizer von OpenAI zu verwenden
Eine für OpenAI typische Prompt-Injection-Schwachstelle wurde gefunden
Es zeigt andere Ausgabecharakteristika als Modelle anderer Organisationen

Tatsächlich handelt es sich mit hoher Wahrscheinlichkeit eher um GPT-4.5 oder GPT-5. Die Ausgabequalität hat sich ähnlich stark verbessert wie damals beim Sprung von GPT-3.5 auf GPT-4
Möglich wäre auch, dass LMSYS ein eigenes Modell trainiert oder einen MoE-ähnlichen Ansatz verwendet hat, doch angesichts der Verbindungen zu OpenAI erscheint das eher unwahrscheinlich

Es wirkt so, als wolle OpenAI über LMSYS heimlich das neueste GPT-Modell benchmarken
Ziel dürfte sein, Ergebnisse aus allgemeinen Benchmark-Tests zu erhalten, negative Bewertungen durch überzogene Erwartungen zu vermeiden und Gegenreaktionen anderer Wettbewerber zu minimieren

Es könnte tatsächlich auf der GPT-2-Architektur basieren. Jüngste Forschung deutet darauf hin, dass GPT-2 in bestimmten Bereichen besser abgeschnitten hat als andere Modelle
Die Selbstbezeichnung als GPT-4 könnte daran liegen, dass ein mit GPT-4 erzeugter Datensatz verwendet wurde
Bemerkenswert ist auch, dass MBZUAI, einer der Sponsoren von LMSYS, an dieser Forschung beteiligt war

Die Spekulationen über die wahre Identität von gpt2-chatbot sind spannend. Ich stimme der Einschätzung zu, dass es sich mit hoher Wahrscheinlichkeit um ein aktuelles Modell von OpenAI handelt
Andererseits lässt sich auch nicht ausschließen, dass es auf der GPT-2-Architektur basiert. Neuere Forschungsergebnisse deuten darauf hin, dass das Potenzial von GPT-2 weiterhin hoch ist
Auch die Vermutung, dass OpenAI über LMSYS heimlich Benchmarks durchführt, wirkt überzeugend. Das wäre eine Strategie, mit der sich objektive Bewertungen erzielen lassen, ohne direkte Gegenreaktionen von Wettbewerbern auszulösen
Es ist zu erwarten, dass weitere Experimente und Untersuchungen folgen werden, um die wahre Natur von gpt2-chatbot aufzuklären. Das könnte ein Anhaltspunkt dafür sein, wohin sich große Sprachmodelle entwickeln
Schon der Name „gpt2-chatbot“ selbst könnte den Eindruck erwecken sollen, es handle sich um GPT-2. Auch die Möglichkeit, dass OpenAI diesen Namen absichtlich gewählt hat, lässt sich nicht ausschließen