Vibechart

(vibechart.net)

1 Punkte von GN⁺ 2025-08-08 | 1 Kommentare | Auf WhatsApp teilen

Vibechart ist ein Visualisierungstool, das Nutzern ermöglicht, Diagramme nicht nach klassischen Kriterien wie Faktentreue, ästhetischem Wert oder Praktikabilität zu erstellen, sondern so, wie sie es sehen wollen.
Interpretation der Diagramme, die bei der GPT-5-Ankündigung verwendet wurden

GPT-5-Leistungsvergleich (Academic / SWE-bench) Diagramm

Testkriterium: SWE-bench Verified (Genauigkeit bei der Lösung von Software-Engineering-Problemen)
Without thinking / With thinking: Leistungsunterschied abhängig davon, ob der Thinking-Modus (d. h. längere Inferenzzeit) genutzt wird
- GPT-5: ohne Thinking 52.8%, mit Thinking-Modus 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
Hier erreicht GPT-5 mit dem Thinking-Modus eine höhere Leistung als o3.

Deception-Evaluierungen über Modelle (Täuschungsbewertung)

Ein Test, der misst, wie stark Modelle versuchen, zu täuschen.
Coding deception: GPT-5 (Thinking-Modus) 50.0%, o3 47.4%
CharXiv missing image: GPT-5 9.0%, o3 86.7%
Production traffic: GPT-5 2.1%, o3 4.8%
Betrachtet man die einzelnen Punkte, hat GPT-5 in manchen Bereichen eine höhere Täuschungsrate, in anderen deutlich niedrigere.

Das heißt, GPT-5 ist im Thinking-Modus besser als o3, in anderen Bereichen (z. B. bei der Täuschungsanfälligkeit) jedoch schlechter oder vergleichbar.

1 Kommentare

GN⁺ 2025-08-08

Hacker News Kommentar

Eine Version mit noch plausibleren Zahlen und Balkengrößen steht im Abschnitt „evaluation“ des OpenAI-GPT-5-Veröffentlichungsbeitrags (Link). Es kann eine bloße Nachlässigkeit sein, aber schon der Eindruck, dass ein Unternehmen, das Milliarden ausgibt und verspricht, jede menschliche Aktivität zu revolutionieren, nicht einmal eine ordentliche PowerPoint-Folie hinkriegt, ist ziemlich übel.
- Das wirkt, als ob sie ihr eigenes Futter testen; wäre es ein Produkt, das sie selbst herstellen und verkaufen, sähe es genau so aus.
- Vielleicht wurde die Grafik sogar von der neuen KI generiert.
- Die Leute bei OpenAI sind führend in ihrem Bereich, deshalb erscheint mir ein Fehler dieses Ausmaßes bei ihnen schwer vorstellbar.
Anfangs dachte ich, es sei eine Metrik für Vibe Coding, aber es war es nicht – es ist WakaTime.
Ich finde, die „Coding Deception“-Grafik hätte dazu gehören sollen, weil sie sehr missverständlich ist (50.0 ist nämlich nicht kleiner als 47.4). (Link)
- Ich habe dieses Diagrammbild in ChatGPT-5 eingefügt und gefragt: „Gibt es einen Fehler in diesem Diagramm, könnt ihr ihn erkennen?“. ChatGPT antwortete: „Bei der ersten „Coding deception“ ist beim GPT-5-(Thinker)-Modell der pinke Balken mit 50,0 % angegeben und beim OpenAI o3 der weiße Balken mit 47,4 %; visuell ist der weiße Balken aber kürzer gezeichnet als der pinke. Prozentual ist er etwas geringer, aber visuell passt es nicht.“ Ich hatte das Gefühl, man hätte ChatGPT für die Folienprüfung einsetzen sollen.
- Beim Beitrag und bei dem obigen Link hat es lange gedauert, festzustellen, was falsch war. Ich verstehe nicht, mit welcher Absicht das erstellt wurde. Jetzt frage ich mich, ob KIs die Diagramme erstellen und dann niemand sie überprüft.
- Das ist so offensichtlich falsch, dass ich glaube, jemand hat die Beschriftung des Diagramms falsch gemacht. Vielleicht bin ich zu optimistisch.
- Habe ich in die Grafik aufgenommen.
- Den Teil davon verstehe ich halbwegs. „Deception“ ist bei LLMs eine unerwünschte Eigenschaft, also gilt für das Publikum: Je geringer, desto besser. Doch wenn man es mit anderen Eigenschaften vergleicht, die nicht die „less is more“-Eigenschaft haben, finde ich keine saubere Art, das im Diagramm darzustellen – dazu kommt noch, dass die Achse nicht bei 0 startet. Damit ergibt es aus meiner Sicht überhaupt keinen Sinn.
- Ich frage mich, wie so etwas passieren konnte. Wahrscheinlich ist kurz vor Schluss ein hoher Vorgesetzter eingestiegen mit dem Feedback: „Das neue Modell darf nicht so aussehen, als sei es nur etwas besser als das alte; passen wir die y-Achse an, damit es wie ein deutlich größeres Plus aussieht.“
  - Dass Menschen mit so viel Geld und Macht so inkompetent sind, ist wirklich beängstigend.
  - Vielleicht wurde GPT-5 sogar gebeten, die Folien zu überarbeiten.
  - Bei OpenAI spürt man diesen Druck, daher ist es nicht überraschend, wenn diese übertriebene Hype-Inszenierung aus der obersten Etage stammt.
  - Das ist Branchenstandard. Wenn Nvidia einen neuen GPU-Launch bringt, sieht man dieses gleiche Diagramm. Apple macht es genauso bei den M-Serie-CPUs. Teilweise wird sogar noch weiter mit Modellen aus mehreren Generationen vorher verglichen, um es noch zu überhöhen.
Ich werde immer auf Diagramme mit mehr Rosa als Grau setzen.
OpenAI wusste von Anfang an, dass „Daten“ ebenfalls Teil des Marketings sind, und hat sie auch schon immer so behandelt. Ich glaube nicht, dass dies hier absichtlich passiert, aber seit DotA-2-Zeiten wissen sie genau, wie man Ergebnisse zugespitzt und Fehler kaschiert.
Das ist ähnlich wie die Glas-Demo des Cybertruck.
Die 69,1-Spalte ist genauso hoch wie die 30,8-Spalte. Vielleicht wurde die 30,8-Spalte kopiert, nur die Zahl geändert und die Anpassung der Höhe vergessen; offenbar hat man nur grob bestätigt, dass sie unter dem neuen Modell liegt. Dennoch lässt sich die Höhe der 50,0-Spalte auf diese Weise nicht erklären.
- Auf den ersten Blick sieht der Balken so aus, als läge er bei etwa 15 %. Vielleicht hätte man statt 50 15 schreiben sollen. Aber einen solchen Fehler erlebt man eher bei einer Präsentation in der Oberstufe als in der Keynote eines weltweit beachteten Startups. Übrigens bekommen alle an dieser Präsentation Beteiligten definitiv einen Bonus von 1,5 Mio. USD. Das macht einen traurig.
- In einer professionellen Präsentation verstehe ich nicht, warum Balken und Beschriftung separat manuell erstellt wurden. Nicht mal, um einen besonderen Stil zu erreichen – allein die Tatsache, dass schon ein einfaches Balkendiagramm solche Fehler hat, ist schwer zu erklären, wenn das nicht absichtlich geschehen ist.
Es bleibt einem nur noch das Lachen, wie alle versuchen, die eigene Selbsttäuschung zu übertünchen.