1 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Vibechart ist ein Visualisierungstool, das Nutzern ermöglicht, Diagramme nicht nach klassischen Kriterien wie Faktentreue, ästhetischem Wert oder Praktikabilität zu erstellen, sondern so, wie sie es sehen wollen.
  • Interpretation der Diagramme, die bei der GPT-5-Ankündigung verwendet wurden

GPT-5-Leistungsvergleich (Academic / SWE-bench) Diagramm

  • Testkriterium: SWE-bench Verified (Genauigkeit bei der Lösung von Software-Engineering-Problemen)
  • Without thinking / With thinking: Leistungsunterschied abhängig davon, ob der Thinking-Modus (d. h. längere Inferenzzeit) genutzt wird
    • GPT-5: ohne Thinking 52.8%, mit Thinking-Modus 74.9%
    • OpenAI o3: 69.1%
    • GPT-4o: 30.8%
  • Hier erreicht GPT-5 mit dem Thinking-Modus eine höhere Leistung als o3.

Deception-Evaluierungen über Modelle (Täuschungsbewertung)

  • Ein Test, der misst, wie stark Modelle versuchen, zu täuschen.
  • Coding deception: GPT-5 (Thinking-Modus) 50.0%, o3 47.4%
  • CharXiv missing image: GPT-5 9.0%, o3 86.7%
  • Production traffic: GPT-5 2.1%, o3 4.8%
  • Betrachtet man die einzelnen Punkte, hat GPT-5 in manchen Bereichen eine höhere Täuschungsrate, in anderen deutlich niedrigere.

Das heißt, GPT-5 ist im Thinking-Modus besser als o3, in anderen Bereichen (z. B. bei der Täuschungsanfälligkeit) jedoch schlechter oder vergleichbar.

Noch keine Kommentare.

Noch keine Kommentare.