Vibechart
(vibechart.net)- Vibechart ist ein Visualisierungstool, das Nutzern ermöglicht, Diagramme nicht nach klassischen Kriterien wie Faktentreue, ästhetischem Wert oder Praktikabilität zu erstellen, sondern so, wie sie es sehen wollen.
- Interpretation der Diagramme, die bei der GPT-5-Ankündigung verwendet wurden
GPT-5-Leistungsvergleich (Academic / SWE-bench) Diagramm
- Testkriterium: SWE-bench Verified (Genauigkeit bei der Lösung von Software-Engineering-Problemen)
- Without thinking / With thinking: Leistungsunterschied abhängig davon, ob der Thinking-Modus (d. h. längere Inferenzzeit) genutzt wird
- GPT-5: ohne Thinking 52.8%, mit Thinking-Modus 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
- Hier erreicht GPT-5 mit dem Thinking-Modus eine höhere Leistung als o3.
Deception-Evaluierungen über Modelle (Täuschungsbewertung)
- Ein Test, der misst, wie stark Modelle versuchen, zu täuschen.
- Coding deception: GPT-5 (Thinking-Modus) 50.0%, o3 47.4%
- CharXiv missing image: GPT-5 9.0%, o3 86.7%
- Production traffic: GPT-5 2.1%, o3 4.8%
- Betrachtet man die einzelnen Punkte, hat GPT-5 in manchen Bereichen eine höhere Täuschungsrate, in anderen deutlich niedrigere.
Das heißt, GPT-5 ist im Thinking-Modus besser als o3, in anderen Bereichen (z. B. bei der Täuschungsanfälligkeit) jedoch schlechter oder vergleichbar.
Noch keine Kommentare.