Das ist nun mal das Wesen des Unternehmens – warum erst jetzt? Das denke ich mir dabei.

 

Die Behauptung, Codex sei nicht SOTA, kann nur von Leuten kommen, die es entweder nicht ausprobiert haben oder sich für dieses Feld nicht interessieren.

 

Zumindest eine Kennzeichnung wäre deutlich nützlicher, denke ich. Es wäre doch schon gut, wenn nur der häufigste Wert und der Rest unterschiedlich dargestellt würden.

 

Sag doch mal, was für ein Niveau das überhaupt sein soll, warum du dieses Niveau so bewertet hast, und zwar mit mindestens zwei von Logik/Fakten/Wissenschaft/Statistik, okay.

 

Heißt das, wenn man Nein sagt, ist man gleich Ilbe? Ich komme aus der Gyeongsang-Region, weißt du?

 

Wenn man das 2 Stunden lang macht, wird man farbenblind.

 

So etwas wie einen Advocatus Diaboli einzurichten, wäre mit einer Funktion wie den Gems von Gemini ziemlich praktisch.

 

Beim täglichen SWE-Bench-Pro-Benchmark (kuratierte Auswahl) fällt bei Claude Code etwas Interessantes auf.

Im Zeitraum vom 10.4. bis 20.4. halbierte sich die Runtime (653s→345s), die Tool-Calls halbierten sich ebenfalls (3,3K→1,8K), und die Tokens gingen um 18 % zurück – trotzdem stieg die Pass-Rate sogar um 16 Prozentpunkte. Dass sich alle vier Kennzahlen gleichzeitig in die positive Richtung bewegen, ist kein häufiges Muster.

Die drei Zwischenfälle, die dabei auftraten, sind im Postmortem vom 23.4. dokumentiert, und wenn man sie sich ansieht, entstanden sie alle beim Versuch, „Tokens/Latenz zu reduzieren“.

Bei Codex (gpt-5.4-xhigh) bewegten sich die Zahlen im gleichen Zeitraum dagegen kaum. Die Pass-Rate blieb bei ungefähr 56 % konstant, und auch Tokens/Runtime/Tool-Calls lagen weiterhin etwa doppelt so hoch wie bei Claude Code.

 

Es wäre schön, wenn man Dienste nur per Drag-and-drop miteinander verbinden könnte.

 

Ich optimiere gerade die Performance meiner kleinen Begleit-npm-Bibliothek, die ich fleißig allein weiterentwickle, auch wenn sie niemand nutzt.
Die Hypothesen, die ich mir überlegt hatte, haben sich nach Benchmark-Läufen größtenteils als nicht umsetzbar herausgestellt, also werde ich mir damit wohl noch einmal zusätzliche Möglichkeiten zur Performance-Optimierung ableiten müssen.

 

Eher nicht „sollte“, sondern eher „wäre gut“ oder so in der Art~

 

Auch die schnelle Umstrukturierung einer Organisation, um mit Veränderungen Schritt zu halten, wirkt auf mich etwas konservativ und stößt bei mir auf leichte Ablehnung.

 

Mit der Weiterentwicklung von KI leben wir in einer Zeit, in der sie auch die Überzeugungen und Werte der Menschen, die daran arbeiten, stark beeinflusst.
Jeder wünscht sich doch, dass das Unternehmen, für das man mit voller Kraft arbeitet, der Menschheit hilft — und nicht das Gegenteil.

Ich kann zwar auch die Perspektive des Unternehmens nachvollziehen, aber es wirkt so, als würde die Unruhe unter den Palantir-Mitarbeitern künftig noch weiter zunehmen.

 

Erst dachte ich: Warum erst jetzt?
Als ich gesehen habe, dass der Autor Mitgründer von Tailscale ist, wollte ich ihn irgendwie anfeuern.
Bitte baut etwas Großartiges!

 

https://x.com/DongwooKim/status/2047499005580738657
Ich habe Seoul Namsan ausprobiert, und es wirkte wirklich sehr liebevoll gestaltet und schön.

 

Auch die claude.ai-Webseite fühlt sich in der Nutzbarkeit hier und da etwas verschlechtert an ... Um Tokens zu sparen, habe ich auch den Speicher deaktiviert.

 

Allein nach der Vorstellung und dem Video würde ich das gern mal ausprobieren ... aber man soll wohl 3 Stunden warten. Scheint, als wäre der Andrang riesig.

 

Irgendwie habe ich nach dieser Mitteilung eher noch weniger Vertrauen in Anthropic.

Oben stehen zwei verwandte Beiträge, und zwischen beiden liegen sieben Monate. Die Probleme sind in beiden Fällen dieselben drei.

Postmortem zu drei aktuellen Problemen mit der Claude-Qualität 2025-09-19
Update zu aktuellen Berichten über die Qualität von Claude Code 2026-04-24

 

Ist das nicht eher ein Postmortem zur Kostensenkung als ein Postmortem zu einem Ausfall?

 

Das ist die richtige Antwort, aber die Ausrede ist ganz schön lang, haha.