Claude Sonnet 4.5

(anthropic.com)

4 Punkte von GN⁺ 2025-09-30 | 1 Kommentare | Auf WhatsApp teilen

Claude Sonnet 4.5 ist das neueste KI-Modell und zeigt Spitzenleistung bei Coding, Reasoning und mathematischen Fähigkeiten
Das aktualisierte Claude Code fügt Checkpoints, eine verbesserte Terminal-UI, eine VS Code-Erweiterung und Speicherverwaltungsfunktionen hinzu, sodass komplexe Aufgaben über lange Zeit fortgesetzt werden können
Das neu veröffentlichte Claude Agent SDK stellt die Kerninfrastruktur für die Entwicklung von Agenten bereit, damit verschiedene Problemlösungs-Tools direkt erstellt werden können
In Benchmarks wie SWE-bench und OSWorld liegt es deutlich vor Konkurrenzmodellen und belegt seine Stärken bei Mathematik, Reasoning und Domain-Fit
Auch bei der Sicherheit wird es als das am besten ausgerichtete (alignment) Modell bewertet; die Abwehr von Prompt Injection und die Blockierung riskanter Inhalte wurden verbessert

Überblick über Claude Sonnet 4.5

Claude Sonnet 4.5 ist das derzeit beste Coding-Modell und liefert die stärkste Leistung beim Aufbau komplexer Agenten und bei der Computernutzung
- In allen modernen Arbeitsumgebungen, die wir nutzen – Software, Tabellenkalkulationen und verschiedenste Tools – ist Code ein zentrales Element
Auch die Fähigkeiten für Reasoning und mathematische Problemlösung wurden gegenüber dem bisherigen Modell deutlich verbessert, was den Einsatz in vielen Fachbereichen attraktiver macht
Verfügbar zum gleichen Preis wie Sonnet 4 ($3 / $15 pro Million Tokens)

Wichtige Produkt-Updates

Claude Code
- Einführung einer Checkpoint-Funktion zum Zwischenspeichern und Rollback während der Arbeit
- Verbesserte Terminal-Oberfläche, Veröffentlichung einer nativen VS Code-Erweiterung
- Zusätzliche Werkzeuge für Context Editing und Memory, Unterstützung für langfristige und komplexe Aufgaben
Claude Apps
- Unterstützt Code-Ausführung und Dateierstellung (Tabellen, Folien, Dokumente) direkt innerhalb der Unterhaltung
Claude for Chrome
- Erweiterung für Max-Nutzer verfügbar, unterstützt die Automatisierung von Aufgaben im Browser

Claude Agent SDK

Stellt die Agenten-Infrastruktur, die Anthropic intern für Claude Code verwendet hat, externen Entwicklern zur Verfügung
Bietet eine Grundlage zur Lösung schwieriger Probleme wie langfristiges Memory-Management, Berechtigungssteuerung und Koordination mehrerer Sub-Agenten
Kann auch jenseits von Coding für die Entwicklung verschiedenster Agenten genutzt werden

Leistung und Benchmarks

Erzielt die beste Leistung bei SWE-bench Verified und kann langfristige, mehrstufige Coding-Aufgaben über 30 Stunden hinweg fortsetzen
Erreicht 61,4 % im OSWorld-Benchmark (das frühere Sonnet 4 lag bei 42,2 %)
Auch bei Reasoning-, Mathematik- und multilingualen Evaluierungen (MMMLU) stark verbessert; die hohe Qualität wurde zudem durch Bewertungen von Experten aus Finanzen, Recht, Medizin und STEM belegt
Kundenfeedback bestätigt die Praxistauglichkeit für Production-Einsätze bei langfristigen Aufgaben, dem Verständnis komplexer Codebasen sowie schneller und präziser Code-Implementierung

Kundenbeispiele

Cursor: Spitzenleistung bei der Lösung komplexer Probleme bestätigt
GitHub Copilot: Verbesserungen bei mehrstufigem Reasoning und Codeverständnis
Sicherheitsbereich: 44 % kürzere Reaktionszeit bei Schwachstellen, 25 % höhere Genauigkeit
Canva, Figma: Revolutionäre Produktivitätssteigerungen bei der Arbeit mit großen Codebasen und beim Prototyping
Devin: Planungsleistung um 18 % verbessert, stärkere Fähigkeiten beim Testen und Ausführen von Code

Sicherheit und Alignment

Sonnet 4.5 weist unter den von Anthropic veröffentlichten Modellen das höchste Alignment auf
Das Sicherheitstraining wurde verstärkt, um unerwünschtes Verhalten wie Sykophanz, Täuschung, Machtstreben und die Förderung von Wahnvorstellungen zu reduzieren
Deutliche Fortschritte bei der Abwehr von Prompt-Injection-Angriffen; in die Sicherheitsevaluierung wurden auch Mechanistic-Interpretability-Methoden aufgenommen
Ein automatisiertes Audit-System für Handlungen berechnet automatisch Missbrauchsrisiko-Scores und erfüllt hohe Sicherheitsstandards
Veröffentlicht unter Schutzmaßnahmen der AI Safety Level 3 (ASL-3), einschließlich Filterung gefährlicher Eingaben und Ausgaben (z. B. Risiken in Chemie, Biologie, Strahlung und Nuklearbereich)

Forschungs-Preview

Zusammen mit Claude Sonnet 4.5 wird eine vorläufige Forschungs-Preview namens "Imagine with Claude" bereitgestellt
Demonstriert die spontane Erstellung von Software, die ohne vorab festgelegten Code oder Funktionen in Echtzeit auf Nutzeranfragen reagiert und sich anpasst
Für Max-Abonnenten 5 Tage lang testbar

Weitere Informationen und Migration

Für bestehende Claude-Produkt- und API-Nutzer ist Sonnet 4.5 sofort verfügbar; der Preis bleibt identisch zu Sonnet 4 ($3/$15 pro Million Tokens)
Neue Funktionen wie Coding, Dateierstellung und Code-Ausführung sind in allen kostenpflichtigen Plänen verfügbar
Detaillierte technische Informationen und Evaluierungsergebnisse finden sich in der System Card, Claude Model page, offiziellen Dokumentation
Siehe auch die Links zu Agentenentwicklung mit dem Claude Agent SDK, Cybersicherheit und effektivem Context Engineering

Fazit und Empfehlung

Claude Sonnet 4.5 ist ein leistungsverbessertes Drop-in-Ersatzmodell für alle Einsatzumgebungen wie API, Apps und Claude Code
Es vereint Weltklasse-Leistung und Praxistauglichkeit bei Coding, Agentenaufbau und Computernutzung sowie hohe Konsistenz
Mit starken Sicherheitsrichtlinien und breiter Unterstützung durch Entwickler-Tools wird es Produktivität und Innovation von Entwicklern und IT-Organisationen beschleunigen
Da es zum gleichen Preis leistungsfähigere Funktionen bietet, wird ein Upgrade empfohlen

1 Kommentare

GN⁺ 2025-09-30

Hacker-News-Kommentare

Ich hatte dieses Wochenende Zugriff auf die Preview-Version und habe meine Notizen dazu hier gesammelt.
Auf mich hat es einen sehr beeindruckenden Eindruck gemacht und fühlte sich, eher als Gesamteindruck denn als systematischer Vergleich, leicht besser an als GPT-5-Codex.
Besonders stark, finde ich, ist es im neuen Python/Node.js-Code-Interpreter-Modus von claude.ai.
Ich empfehle, einen Prompt wie den folgenden auszuprobieren:

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Auch komplexes Datenbank-Refactoring hat es Schritt für Schritt gut bewältigt; die Details habe ich im Blog festgehalten.

Ich hätte eine Bitte an @simonw und alle, die sich für LLM-Benchmarks interessieren:
Bitte veröffentlicht unbedingt auch, wie lange die Aufgaben bis zur Fertigstellung gebraucht haben.
Dieser Beitrag ist ein Bericht im Stil von „funktioniert direkt in claude.ai“, aber es fehlen Zeitstempel dazu, wann die Ergebnisse tatsächlich vorlagen.
Auch in realen LLM-Coding-Leaderboards fehlen Laufzeitinformationen leider komplett.
Je nach Modell und Plattform unterscheiden sich die Bearbeitungszeiten stark, und bei wiederholten Experimenten/Reboots sowie Prompt-Verbesserungen wirken Inferenzgeschwindigkeit, Token-Verbrauch, Tooling-Effizienz, Kosten und Modellintelligenz zusammen.
Gerade Modelle wie Grok Code Fast und Cerebras Code ermöglichen selbst ohne Spitzenleistung dank mehr als zehnfacher Inferenzgeschwindigkeit deutlich mehr erledigte Arbeit; schnelle Modelle haben echte Vorteile.
Nützliche Benchmarks dazu: swebench, tbench-Leaderboard, gosuevals agents
Ich habe es ausprobiert, aber in meiner Umgebung funktioniert es nicht.
Soweit ich sehe, ist das ein Kommando zum Einrichten des LLM-CLI-Tools: Die Option -e installiert im editierbaren Modus, und [test] installiert die Test-Abhängigkeiten.
Das Tool, das ich habe, unterstützt jedoch weder Shell-Kommandos (pip, pytest) noch git clone oder das Ausführen von Python.
Es kann nur JavaScript in einer Browser-Umgebung ausführen, aber keine Shell-Befehle auf Betriebssystemebene.
Mich würde interessieren, was du konkret erwartet hast: Musste das Setup der Tests verstanden werden, oder ging es um die gewünschte Funktion selbst?
Für alle, die sich für den Prompt-Anwendungsfall „mach mir eine ZIP-Datei“ interessieren:
Viele werden keine Zeit haben, sich das Gist direkt anzusehen. Mich würde interessieren, ob es wirklich sauber funktioniert hat und welche zusätzlichen Eindrücke du vom Ergebnis hattest.
Mich würde interessieren, ob Claude Sonnet 4.5 immer noch auf alles mit Antworten im Stil von „Sie haben absolut recht!“ reagiert oder ob es inzwischen wirklich wie ein echter Programmierer kommuniziert.
Ich frage mich, warum du Zugriff auf die frühe Preview bekommen konntest.
Ich teile mal eine praktische Erfahrung.
Ich habe denselben Prompt in einer großen Web-App mit rund 200.000 LoC sowohl auf Sonnet 4.5 (Claude Code) als auch auf GPT-5-Codex angewendet.
Die Anforderung lautete: „Führe in ‚Go to Conversation‘ oder ‚Go to Report‘ nach 2 Sekunden eine Fuzzy Search aus, wenn die Titeleingabe nicht mit dem Standardelement übereinstimmt.“
Sonnet 4.5 lieferte zwar in etwa 3 Minuten ein Ergebnis, aber der Code war unsauber, vorhandene Authentifizierung wurde nicht wiederverwendet, und stattdessen wollte es eine neue serverseitige Auth bauen.
Auch nachdem ich die Probleme benannt und neu gepromptet hatte, verbesserte sich wenig, und es schrieb zudem keinen Testcode, obwohl das eine Pflichtanforderung war.
GPT-5-Codex brauchte dagegen ungefähr 20 Minuten, behandelte aber Error Handling und verschiedenste Edge Cases sehr gründlich und schrieb ohne zusätzliche Aufforderung auch Testcode.
Die API funktionierte sauber, und die gesamte Umsetzung hatte Qualitätsniveau eines Senior-Entwicklers.
Ich will keine „schnelle und schmutzige“ Implementierung in 3 Minuten, deshalb würde ich immer die 20 Minuten wählen.
Dass Sonnet so schnell Ergebnisse brachte, war beeindruckend, aber eine Implementierung ohne saubere Qualität und ohne Tests ist letztlich wertlos.
- Ich hoffe, das klingt nicht zu kritisch, aber ich denke, dass bei so einem einfachen Prompt in einem einzelnen Satz die Ergebnisse zwangsläufig etwas zufällig ausfallen.
  Wichtiger ist, logische Blöcke und Detailbedingungen klarer zu strukturieren, aber selbst das Prompt-Beispiel wirkt eher wie ein Run-on Sentence.
  Bei komplexen oder wichtigen Aufgaben sollte ein Prompt meiner Meinung nach 5- bis 20-mal so konkret sein.
  Wenn der Input strukturiert ist und die Codebasis gute Muster hat, liefert auch die AI deutlich bessere Ergebnisse.
  Wenn man einem Junior-Entwickler oder einem Team nur einen knappen Ein-Satz-Wunsch ohne weitere Details gibt, wäre es ebenfalls nachvollziehbar, wenn das gewünschte Resultat nicht herauskommt.
  Ich würde raten, ein paar Minuten mehr in den initialen Prompt zu investieren; dann steigt die Wahrscheinlichkeit auf ein zufriedenstellendes Ergebnis deutlich.
- Nutzt du den kostenpflichtigen ChatGPT-Pro-Plan, und ist Codex CLI darin enthalten?
  Ich nutze wegen des Max-Plans Claude Code mit Sonnet/Opus, aber wenn man mit ChatGPT Pro ebenfalls Codex verwenden kann, würde ich einen Wechsel in Betracht ziehen.
- Bei mir genau dieselbe Erfahrung.
  Letzte Woche habe ich mit Codex erfolgreich einen vollständigen C++20-XPath-1.0-Parser entwickelt, und jetzt arbeite ich bereits an XPath-2.0-Unterstützung.
  Codex liefert weiterhin hervorragende Ergebnisse, und abgesehen davon, dass ich wegen Bugs die Cloud-Version statt lokal verwende, habe ich kaum Probleme.
  Sonnet bleibt bei Aufgaben mit hoher Komplexität immer wieder hängen, und auch bei 4.5 spüre ich keinen nennenswerten Fortschritt.
  Konkret bei der Verarbeitung von Date-Time scheint Claude fast aufzugeben, während Codex das perfekt bewältigt.
  Eigentlich war ich Anthropic gegenüber wohlwollend eingestellt, aber im Moment sehe ich OpenAI klar vorn.
  Wenn Claude mit Codex konkurrieren will, braucht es einen wichtigen Durchbruch; dazu kommt noch der höhere Preis und Qualitätsprobleme beim Service, die viele Nutzer vertreiben.
- Das entspricht ziemlich genau meinen Erwartungen.
  Codex ist eher ein Tool für Vibe Coding, während Claude Code stärker auf AI-assisted Development ausgerichtet ist.
  Ich persönlich bevorzuge Claude sogar eher.
  Codex arbeitet gut eigenständig, ist aber etwas eigensinnig, wenn die Richtung geändert werden soll, etwa wenn selbst sehr einfache Dateibearbeitungen unbedingt per Python-Skript erledigt werden sollen, und es berücksichtigt aktuelle Informationen nicht immer gut.
  Wenn man nach Erklärungen fragt, will es oft einfach nur ohne Kontext ausführen.
  Auch das Rechtemanagement bleibt ein Problem. Die Sandbox von Codex ist zwar beeindruckend, aber ich habe Sorge, dass versehentlich Commits gemacht werden; eigentlich möchte ich lieber, dass es nur editiert.
  Man kann Codex auch als MCP-Server nutzen, aber ich persönlich bevorzuge es, Claude als kollaborativen Planer zu verwenden, mit Codex zu planen und dann gemeinsam mit Claude in meinem Stil weiterzuarbeiten.
- Ich empfehle auch, ultrathink in den Prompt aufzunehmen und dabei Musik laufen zu lassen.
  Siehe: Reddit-Link zu ultrathink
Wenn ich sehe, was die aktuellen Modelle können, macht mich das etwas deprimiert.
Die feinen Kniffe für sauberes Coding, die ich mir über Jahre erarbeitet habe, wirken plötzlich wie bedeutungslose Details.
Dinge, die ich früher für essenziell hielt, werden jetzt zu bloßen „Implementierungsdetails“ im Prompt.
Es fühlt sich an, als würde meine Fähigkeit nach und nach durch Automatisierung ersetzt.
- Diese Detailkniffe hatten ursprünglich auch eine etwas unklare Bedeutung; die echte Fähigkeit ist letztlich der gesamte Prozess, mit Software Geld zu verdienen.
  Durch AI wird sogar noch mehr Software entstehen, und dafür wird weiterhin fachkundige Betreuung nötig sein.
- Ich habe selbst einige Monate konzentriert in einem AI-Spezialjob gearbeitet und in den ersten mehr als vier Wochen genau dieses Gefühl von Krise erlebt.
  Vor allem war ich irritiert, weil sich 25 Jahre angesammelte Entwicklungserfahrung plötzlich bedeutungslos anfühlten.
  Wenn du es noch etwas mehr annimmst und dich anpasst, wird es sich deutlich besser anfühlen.
  Ich hoffe wirklich, dass du daran denkst, dass du mehr bist als nur deine Coding-Fähigkeiten.
- Früher fandest du es wahrscheinlich erfreulich, wenn Automatisierung andere ersetzte; jetzt bist eben du selbst an der Reihe.
  Das ist genau das Phänomen der „schöpferischen Zerstörung“, das eine Wirtschaft dynamisch macht.
- Früher dachte ich auch so, aber nachdem ich es in letzter Zeit wirklich benutzt habe, bin ich zu dem Schluss gekommen, dass es praktisch kaum nützlich ist.
  Vor allem wenn Menschen ohne Erfahrung sich auf Vibe Coding verlassen, entstehen nur bedeutungslose Ergebnisse, und schon bei etwas komplexeren Aufgaben treten häufig fatale Fehler und Irrtümer auf.
  Auch Frontend-Automatisierung überzeugt mich nicht; selbst für sehr einfache Aufgaben wird oft viel zu viel Code erzeugt.
  Am Ende geht es nur für grundlegende React-/Next.js-Frontends und das Nachbauen populärer Seiten, aber bei ungewöhnlichen Anforderungen oder präzisem Design wird es schwierig.
- Tatsächlich steigern Vibe-Coding-Tools die Produktivität nicht massiv.
  Unterm Strich müssen Menschen weiterhin die Verantwortung für die Wartung von Systemen übernehmen, also Code, Infrastruktur und Ähnliches, und der Prozess, in dem Menschen Struktur und Funktionsweise eines Systems verstehen, lässt sich nie vollständig automatisieren.
  Deshalb werden Entwickler mit wirklich professioneller Denkweise sogar noch wichtiger und wertvoller.
Ich habe Sonnet 4 und Opus 4.1 mit einer einfachen Code-Ersetzungsaufgabe beauftragt, und beide sind gescheitert.
Es war eine Umwandlung, die selbst ein Anfänger hätte machen können, und ich sorge mich, dass die Modelle auf der Jagd nach Benchmark-Punkten die reale Nutzbarkeit aus den Augen verlieren.
Nach einem Folge-Prompt wie „Befolge exakt meine Anweisung“ war Sonnet erfolgreich, während Opus in eine Endlosschleife geriet.
- Dass Benchmark-Fixierung echter Leistung schaden kann, ist schon lange eine Sorge von mir.
  Bei Claude hatte ich zwischen 3.7 und 4 subjektiv sogar eher das Gefühl eines Rückschritts, obwohl die Benchmarks stark gestiegen sind.
  Ich verstehe also, dass Benchmarking als Aufgabe der tatsächlichen AI-Entwicklung hinterherhinkt.
- Im Grunde läuft der Zyklus doch so: „Benchmark laufen lassen und Bestwert aufstellen → reale Leistung verschlechtern → ein paar Wochen später ein besseres Modell veröffentlichen → wiederholen“.
- Da die Modelle alle auf dieselben Datenquellen wie Internet, GitHub und Bücher zurückgreifen und auf standardisierte Tests optimiert werden, frage ich mich, welcher Unterschied oder eigenständige Wert jenseits der Punktzahlen überhaupt noch übrig bleibt.
- Ich finde, es wäre langsam sinnvoll, eine Community-Datenbank mit Beispielen anzulegen, in denen LLMs falsch lagen; ich selbst habe davon schon eine ganze Reihe gesammelt.
- Bei simplen Dingen wie dem Beheben eines kleinen Lint-Fehlers ist es wahrscheinlich besser, es einfach selbst schnell zu machen und weiterzugehen.
  Statt jedem solchen Kleinkram Bedeutung zu geben, sollte man den Nutzen eher dort suchen, wo AI bei deutlich komplexeren Problemen hervorragende Ergebnisse liefert.
In den Diagrammen scheint Sonnet 4 beim SWE-verified-Benchmark bereits vor GPT-5-codex zu liegen, aber meiner praktischen Erfahrung nach ist GPT-5-codex bei komplexen Problemen deutlich überlegen.
- GPT-5 ist im Baseball wie ein Teamkollege, der Homeruns schlagen kann, aber die grundlegende Feldarbeit im Outfield nicht beherrscht.
  Auch in der Zusammenarbeit mit anderen Agenten sorgt es oft für Drama und zeigt unberechenbares Verhalten, zuletzt etwa, als ich auf claude code umsteigen wollte und es unbedingt git reset --hard durchsetzen wollte.
  Gemini und Claude sind dagegen großartige Teamplayer.
  Ich glaube nicht, dass dieser ganze Verlauf bei GPT-5 so beabsichtigt ist; ich halte ihn eher für das Ergebnis stark gesunkener Moral bei OpenAI.
- Bei mir hat 5-codex die Tokens viel zu schnell verbraucht und sich auch weniger an die agents.md-Anweisungen gehalten als Claude.
  Vor allem bei belanglosen Befehlen versucht es sofort, riesige Bash- oder Python-Skripte zu schreiben.
- Bei mir ist es genau umgekehrt: GPT-5-codex ist sehr langsam und die Ergebnisse sind auch nur durchschnittlich.
  Wenn ich gezwungen wäre, es zu benutzen, würde ich lieber ganz auf AI-Nutzung verzichten.
- Ich glaube nicht, dass Modellleistung einen absoluten Maßstab hat.
  Selbst wenn man Claude-Opus explizit auswählt, kommt manchmal eine schlechtere Antwort zurück als von einem extrem billigen Modell.
  Die Leistung schwankt stark; vermutlich ändern sich je nach Traffic-Situation die verfügbaren Serverressourcen.
  Anthropic hat ja auch einmal offiziell erwähnt, dass Experimente zeitweise die Leistung verschlechtert hatten.
  Ich könnte mir ebenso vorstellen, dass auch GPT zu Peak-Zeiten wegen Rechenzentrumskapazität an Qualität verliert.
- Die Anthropic-Modelle wirken auf mich so, als wären sie auf Vibe Coding getunt.
  Für einfaches Python/TypeScript passen sie gut, aber bei wissenschaftlichem oder komplexem Code und in großen Codebasen sind sie schwächer.
  Von Sonnet in der neuen Version erwarte ich da keine großen Veränderungen.
Ich finde den Werbesatz spannend, dass es „über 30 Stunden lang ohne Konzentrationsverlust komplexe mehrstufige Aufgaben ausführen“ könne.
Laut Artikeln wie dem von The Verge soll es tatsächlich 30 Stunden am Stück einen Slack-Klon erzeugt und dabei 11.000 Zeilen Code verwendet haben.
Ich bin aber skeptisch, wie gut die Qualität des Outputs wirklich wäre, wenn man ein LLM 30 Stunden unbeaufsichtigt laufen lässt.
Passender Artikel
- 30 Stunden am Stück funktionieren nicht einfach dadurch, dass man ein LLM allein lässt.
  Man braucht zwingend eine Umgebung mit externen Tools, Kontextmanagement und ähnlicher Anbindung, und oft sogar die Konfiguration eines Multi-Agenten-Systems.
  Dafür ist sehr viel Infrastruktur- und Setup-Aufwand nötig.
- Die Aussage „30 Stunden unbeaufsichtigte Arbeit“ ist an sich viel zu vage und wenig konkret.
  Wenn es zum Beispiel nur 1 Token pro Stunde verarbeitet, könnte es in 30 Stunden gerade einmal einen einzigen Satz hervorbringen.
- Mich würden die technischen Details interessieren, etwa ob tatsächlich Tools für das Kontextmanagement eingesetzt wurden und wie ein Prompt mit 200.000 bis 1.000.000 Tokens in der Praxis betrieben wurde.
Ich habe gerade ein einfaches Issue testweise ausprobiert, und wie die bestehenden Modelle neigt auch Sonnet 4.5 dazu, sich in einem Rabbit Hole zu verlieren und das Problem unnötig zu verkomplizieren.
Meist läuft es auf Trial and Error hinaus, mit wiederholtem Feedback wie „Jetzt dürfte das Problem gelöst sein“.
Zum Beispiel gab es in einer GH-Actions-Pipeline einen Fehler, weil das Build-System mangels Quelldatei nicht erkannt wurde, und Sonnet 4.5 wiederholte verzerrte Lösungsansätze wie das Erzeugen einer Dummy-JSON-Datei oder das Setzen nicht existierender Workflow-Parameter.
Tatsächlich hätte es gereicht, den Step einfach so zu überschreiben, dass er nur „Hello world“ ausgibt.
Ich frage mich, warum AI bei solch einfachem „Out-of-the-box“-Denken so schwach ist.
Es wirkt wie ein Genie mit IQ 170, das trotzdem nicht mit öffentlichen Verkehrsmitteln fahren kann.
Ich habe kostenpflichtige Abos für Gemini, Claude und OpenAI und bin zuletzt zu dem Schluss gekommen, dass ChatGPT mittlerweile deutlich vorne liegt.
Die Antworten sind prägnanter, informativer, und auch Claude 4.5 zeigt im Test für mich keine große Verbesserung.
- Bei mir genauso, ich habe ebenfalls alle drei abonniert.
  Für die Analyse komplexer Situationen ist ChatGPT am besten, aber beim reinen Coden ist Claude stärker.
  Ich entwerfe und löse Probleme mit ChatGPT und gebe die Ergebnisse dann an Claude oder Gemini weiter, um die Implementierung machen zu lassen.
  Gemini ist in beidem überdurchschnittlich.
- Insgesamt ist ChatGPT zwar etwas besser, aber Gemini kann durch Nutzung von AI Studio, optimierte Einstellungen und Anpassung des System-Prompts im realen Nutzungskontext sogar am stärksten werden.
  Beispielsweise ist nano banana zwar SOTA, aber Qwen-Edit ist weniger stark zensiert und dadurch in der Praxis oft brauchbarer.
  In meinem lokalisierten E-Commerce-Service kann ich nano banana nicht einsetzen, weil es die Ausgabe von Frauenbildern einschränkt, während Qwen-Edit ohne größere Probleme nutzbar ist.
- Ich abonniere sowohl Claude Max als auch ChatGPT Codex.
  Früher war ich ein Claude-Fan, aber in letzter Zeit nutze ich fast nur noch Codex.
  Wenn ich feststecke, lasse ich Claude nur einfache Aufgaben übernehmen oder teste beide parallel, aber Claude Code mit Sonnet/Opus fällt klar hinter Codex zurück.
- Es wäre hilfreich, wenn du klarstellen könntest, ob du wirklich Codex meinst.
- Wie ist Grok so, holt es auf?
Ich habe Claude noch nicht benutzt, aber ich verwende AI für viele unterschiedliche Aufgaben, etwa zum Lektorieren politischer Texte.
Bei bestimmten sensiblen Themen, etwa einem Vergewaltigungsfall eines zwölfjährigen Kindes in Österreich, habe ich erlebt, dass ChatGPT wegen seiner Guardrails komplett stoppt.
Dass unabhängig vom tatsächlichen Kontext einfach nur auf Wörter wie „sex + kid“ reagiert und pauschal blockiert wird, ist für mich nicht nachvollziehbar.
Das ist, als würde ein Textverarbeitungsprogramm das Thema zensieren und das Schreiben selbst verhindern; als Werkzeug erfüllt es so seine Rolle nicht.
- Tatsächlich ist bei solchen Themen der Anteil unzulässiger Inhalte im Verhältnis zu legitimer Konversation so hoch, dass eine Sperre aus Sicht der meisten Anbieter durchaus nachvollziehbar ist.
  Zum Beispiel habe ich bei einer von mir entwickelten App zur Verwaltung von Abstammungslinien bei Verwandtschaftstieren frustrierende Fälle erlebt, in denen schon Begriffe wie breeding oder breeders blockiert wurden.
- Ein „Service“ ist eben kein Werkzeug.
  Wenn du wirklich ein Werkzeug brauchst, ist die richtige Antwort, ein LLM lokal selbst zu betreiben.
- Ich glaube letztlich, dass die AI mit den schwächsten Guardrails den Markt dominieren wird.
  Unter den aktuellen Frontier-Modellen ist Grok im Moment am wenigsten eingeschränkt, aber auch dort gibt es noch Raum für Verbesserungen.
- Ähnlich war es bei mir, als ich mit ChatGPT/DALL·E ein Geburtstagscoupon-Bild für meine Tochter erstellen wollte: Drei Viertel der gesamten Zeit gingen für das Umgehen der Content-Policies drauf.
- Nach meiner bescheidenen Erfahrung blockiert Claude bei „kontroversen“ Themen Gespräche sogar noch schneller und härter.
Ich habe zusammen mit System Initiative einen schnellen Test gemacht.
Ein Infrastruktur-503-Fehler hätte manuell mehr als 2 Stunden gedauert, aber in Kombination war er in 15 Minuten gelöst.
Weitere Anwendungsfälle habe ich im Blog dokumentiert.
System Initiative offiziell
Erfahrungsbericht im Blog