Anthropic stellt Claude Haiku 4.5 vor

(anthropic.com)

5 Punkte von GN⁺ 2025-10-16 | 2 Kommentare | Auf WhatsApp teilen

Claude Haiku 4.5 bietet trotz seiner kompakten Größe Code-Performance auf dem Niveau von Claude Sonnet 4 – bei einem Drittel der Kosten und mehr als doppelt so hoher Geschwindigkeit
In realen Entwicklungs-Benchmarks wie SWE-bench Verified zeigt es AI-Coding-Effizienz und Reaktionsfähigkeit, die die vorherige Modellgeneration übertreffen
In Verbindung mit Sonnet 4.5 sind Multi-Agenten-Setups oder die Aufteilung komplexer Probleme möglich; dadurch eignet es sich für Echtzeitaufgaben und Umgebungen mit niedriger Latenz
Bei Echtzeit-Chatbots, Kundensupport und Pair Programming lassen sich die Vorteile von hoher Intelligenz und Geschwindigkeit nutzen
Laut Sicherheitsbewertung zeigt es das höchste Alignment-Niveau unter den Anthropic-Modellen und wird nach dem Standard AI Safety Level 2 (ASL-2) veröffentlicht
$1/$5 pro Million Input-/Output-Token

Einführung

Claude Haiku 4.5 ist das neueste kompakte Modell in der Anthropic-Produktlinie und soll für alle Nutzer ein ausgewogenes Verhältnis aus Leistung, Geschwindigkeit und Kosteneffizienz bieten
Es zeigt Coding-Fähigkeiten ähnlich wie Claude Sonnet 4, kostet aber nur ein Drittel und ist mehr als doppelt so schnell
Bei bestimmten Aufgaben, etwa der Computernutzung, zeigt es sogar eine höhere Leistung als Sonnet 4
Besonders in Echtzeit-Tools wie Claude for Chrome oder Claude Code bietet es eine verzögerungsfreie Umgebung für AI-gestützte Assistenz

Hauptmerkmale und Anwendungsfälle

Es eignet sich für Echtzeitaufgaben mit niedriger Latenz und zeigt hohe Effizienz bei Chatbots, Kundenservice und Pair Programming
Für Nutzer von Claude Code bietet es schnelle Reaktionsfähigkeit und damit ideale Leistung bei Multi-Agenten-Projekten und schnellem Prototyping
Sonnet 4.5 bleibt zwar weiterhin das Spitzenmodell, doch Haiku 4.5 bietet ähnliche Leistung bei deutlich höherer Kosteneffizienz
Beide Modelle lassen sich auch gemeinsam einsetzen: So kann Sonnet 4.5 komplexe Probleme zerlegen, während mehrere Haiku-4.5-Instanzen die Teilaufgaben parallel bearbeiten
Claude Haiku 4.5 ist ab heute weltweit verfügbar; Entwickler können es in der Claude API direkt unter claude-haiku-4-5 nutzen
Der Preis liegt bei $1/$5 pro Million Input-/Output-Token

Benchmarks und Nutzerbewertungen

Haiku 4.5 ist eines der leistungsstärksten Modelle, die Anthropic veröffentlicht hat
Unternehmen wie Augment, Warp und Gamma berichten aus realen Tests von mehr als 90 % der Codequalität von Sonnet 4.5
Bei agentischem Coding, der Orchestrierung von Sub-Agenten und Aufgaben zur Computernutzung zeigt es deutliche Fortschritte und maximiert die Unmittelbarkeit des Entwicklungserlebnisses
Traditionell gab es einen Zielkonflikt zwischen Qualität, Geschwindigkeit und Kosten; Haiku 4.5 erreicht nun sowohl hohe Geschwindigkeit als auch Kosteneffizienz
Es bietet sowohl Intelligenz als auch Reaktionsfähigkeit in Echtzeit und eröffnet damit neue Möglichkeiten für AI-Anwendungen
Leistung, die noch vor sechs Monaten als State of the Art galt, ist nun günstiger und schneller verfügbar
Komplexe Workflows werden schnell und stabil verarbeitet, inklusive Selbstkorrektur in Echtzeit
Bei der Ausführung spezifischer Anweisungen wie dem Erstellen von Foliensatz-Texten erzielt es deutlich bessere Ergebnisse als frühere Modelle
In Verbindung mit GitHub Copilot und ähnlichen Tools liefert es eine mit Sonnet 4 vergleichbare Codequalität bei höherer Geschwindigkeit

Sicherheitsbewertung

Verschiedene Sicherheits- und Alignment-Bewertungen zeigen eine niedrige Quote problematischen Verhaltens sowie eine verbesserte Ausrichtung gegenüber der Vorgängerversion Claude Haiku 3.5
Es weist sogar eine geringere Fehlanpassungsrate auf als Sonnet 4.5/Opus 4.1 und wird daher als das sicherste von Anthropic entwickelte Modell bewertet
Auch das Risiko in den Bereichen Chemie, Biologie, Radiologie und Nukleartechnik (CBRN) wird als sehr niedrig eingestuft, weshalb es nach dem ASL-2-Standard veröffentlicht wird
Im Vergleich zu ASL-3 mit strengeren Einschränkungen (Sonnet 4.5, Opus 4.1) lässt es sich freier einsetzen

Weitere Informationen

Claude Haiku 4.5 ist direkt in Claude Code und den Anthropic-Apps verfügbar
Dank effizienter Verarbeitung lässt sich innerhalb bestehender Nutzungslimits Leistung auf Premium-Modell-Niveau erzielen
In API, Amazon Bedrock und Google Cloud Vertex AI kann es günstig als Alternative zu Haiku 3.5 und Sonnet 4 gewählt werden
Technische Details und Bewertungsergebnisse finden sich in der offiziellen System Card, auf der Modellseite und in der Dokumentation

2 Kommentare

skageektp 2025-10-16

In Claude Code kann man es verwenden, wenn man /model haiku eingibt. Es ist schneller als Sonnet und liefert trotzdem gute Ergebnisse, daher lässt es sich ziemlich gut nutzen.

GN⁺ 2025-10-16

Hacker-News-Kommentare

Es wurde eine niedliche Zeichnung eines Pelikans geteilt, der auf einem leicht verdächtig aussehenden Fahrrad fährt: Link
- Gemini Pro weigerte sich zunächst, den SVG-Code zu liefern, gab ihn aber schließlich zurück, nachdem man etwas genauer darum bat und sagte, man wolle nur prüfen, ob es wirklich SVG-Code sei: SVG-Code
- Für alle, die den Hintergrund dieses Benchmarks nicht kennen, wurden diese Referenzen geteilt:
  Six months in LLMs,
  Erklärung zum Pelikan-auf-dem-Fahrrad-Tag,
  Benchmark-Methodik
- Um Benchmark-Manipulation zu vermeiden, wurde auch ein Beispiel mit einem „Shitaki-Pilz im Ruderboot“ geteilt:
  Shitaki Mushroom riding a rowboat
  Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 Sekunden
  Und Grok 4 Fast ist beim Pelikan-plus-Fahrrad-Stil okay, aber bei anderen Anfragen schwächer.
  Grok-Beispiel, Prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 Sekunden
  Zum Schluss das GPT-5-Ergebnis: Beispiel, Prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 Sekunden
  Subjektiv betrachtet sind die Pilzpunkte von Haiku ziemlich beeindruckend.
  Außerdem ist der Leistungsunterschied zwischen öffentlichen Benchmarks und informellen Testszenarien bei Anthropic-Modellen am geringsten.
  Häufig liefern Anthropic-Modelle inoffiziell sogar bessere Ergebnisse als in offenen Benchmarks.
  Auch Haikus Time-to-First ist ein deutlicher Vorteil.
- Überraschend, dass die Firmen hinter den modernsten Modellen solche Tests nicht als Easter Egg eingebaut haben.
- Bildgenerierungsmodelle haben offenbar immer Schwierigkeiten damit, die Arme eines Bogenschützen zu zeichnen, daher wurde vorgeschlagen, alle Modelle mit einem einfachen Testprompt zu vergleichen: ein berittener Bogenschütze, der Feuerpfeile auf ein Segelboot auf einem See schießt.
Obwohl es sich um sehr frühe Tests handelt, sind die Ergebnisse ziemlich beeindruckend.
Anders als GPT-5 enthält es bei Codeänderungen weniger unnötige Codeabschnitte und verändert dadurch präziser.
Deshalb könnte Haiku 4.5 in realen Umgebungen trotz höherer nomineller Kosten in der Nutzungseffizienz günstiger sein.
Das Problem ist die Markenwirkung.
Selbst wenn Haiku 4.5 qualitativ nahe an Sonnet 4 liegt, ist es wegen der Wahrnehmung kleiner Modelle und einiger jüngerer Leistungseinbußen nicht leicht, Haiku 4.5 statt Sonnet 4.5 zu wählen.
Ich frage mich, ob Haiku 3, 3.5 und 4.5 ungefähr im gleichen Parameterbereich liegen, und fände es gut, wenn alle Modelldaten transparent offengelegt würden.
Deshalb neigen die meisten psychologisch eher zu großen Modellen, aber ich finde tatsächlich, dass GPT-5 im Verhältnis von Leistung zu Preis am beeindruckendsten ist.
Referenzpreise:
Haiku 3: Input $0.25/M, Output $1.25/M
Haiku 4.5: Input $1.00/M, Output $5.00/M
GPT-5: Input $1.25/M, Output $10.00/M
GPT-5-mini: Input $0.25/M, Output $2.00/M
GPT-5-nano: Input $0.05/M, Output $0.40/M
GLM-4.6: Input $0.60/M, Output $2.20/M
- Update: Haiku 4.5 ist nicht nur bei Codeänderungen präzise, sondern auch sehr schnell.
  Im Schnitt 220 token/sec, also fast doppelt so schnell wie vergleichbare Modelle.
  Wenn dieses Tempo konstant bleibt, ist das ein enormer Gegenwert.
  Zum Vergleich: ähnlich schnell wie Gemini 2.5 Flash Lite.
  Groq, Cerebras usw. erreichen zwar bis zu 1000 token/sec, sind aber keine wirklich vergleichbaren Modelle.
  Anthropic hat in meinen persönlichen Benchmarks immer besser abgeschnitten als in offenen Benchmarks, daher sind meine Erwartungen hoch.
  Wenn Geschwindigkeit, Leistung und Preis so bleiben, ist Haiku 4.5 für die meisten Coding-Aufgaben eine hervorragende Wahl.
  Sonnet würde ich dann wohl nur in bestimmten Situationen verwenden.
  Frühere Claude-Modelle hatten bei langen Kettenaufgaben über 7 Minuten Leistungseinbußen; wenn das bei Haiku 4.5 auch so ist, wäre das ein Nachteil.
  Ich habe lange Aufgaben aber noch nicht getestet.
  Problematisch ist, dass bei Claude Code die Nutzung von Haiku 4.5 und Sonnet 4.5 derzeit gleich abgerechnet wird, obwohl der Preisunterschied groß ist.
  Auch die Support-Seite wurde noch nicht aktualisiert: Support-Dokument
  Solche Informationen sollten am Launch-Tag unbedingt kommuniziert werden.
  Solche Themen wie Tooling, Tests und Ankündigungssysteme werfen einen Schatten auf die ansonsten starke Leistung der Anthropic-Modelle.
- Ich habe wirklich auf ein Haiku-Update gewartet und die vorherige Version auch regelmäßig genutzt, weil sie günstig und trotzdem klug einsetzbar war.
  Jetzt ist es endlich da, und ich rolle das Upgrade gerade für alle meine Bots aus, nein, Agenten.
- Ich finde, Preisangaben ohne durchschnittlichen Tokenverbrauch im Alltag nur begrenzt aussagekräftig.
Modell- und Funktionsvergleiche sind inzwischen wirklich lästig.
Jedes LLM-Ökosystem hat andere Einschränkungen, sodass man ständig hin- und herwechseln muss, und ich zahle jeweils $20 im Monat für Claude Code und Codex.
Ich nutze auch Cursor, achte intern aber nicht darauf, welches Modell verwendet wird.
Ich will einfach ein konsistent integriertes Tool.
Es sollte im Hintergrund automatisch besser werden, ohne dass ich mir Gedanken machen muss, was im Backend passiert.
Wie bei einem TLS-Server sollte es überall integriert sein: CLI, Neovim, IDE.
- Selbst wenn man sich für eines entscheidet, heißt es erst promptbasiertes Entwickeln, dann kontextgetrieben, dann wieder detaillierte Specs, und jetzt sei ein dialogischer Ansatz besser.
  Dann heißt es wieder, beispielgetrieben sei besser, und obwohl jede Methode Vor- und Nachteile hat, gibt es keinen Branchenstandard oder Konsens, sodass man kaum gute Beispiele findet.
  Früher schrieb mal jemand in einer Antwort „bug-driven development“, und das blieb hängen: Am Ende arbeitet man ohnehin irgendwie drauflos, bekommt Ergebnisse und behebt dann Bugs und Fehler.
- Für mich ist das Wichtigste eine Integration, die ich ohne Stress beim Tool-Wechsel in CLI, Neovim oder IDE nutzen kann.
  Deshalb verwende ich GitHub Copilot Pro+.
  Neue Modelle kann man sofort auswählen, Claude Haiku 4.5 ist auch schon da.
  Mein Premium-Kontingent habe ich nie aufgebraucht, ich bin aber auch kein Hardcore-User.
  Die CLI-Version habe ich noch nicht ausprobiert, finde sie aber interessant.
  Bevor das IntelliJ-Plugin aktualisiert wurde, habe ich Prompts in VS Code abgeschickt und dann wieder zurückgewechselt.
  Auch die Webversion mit Spaces ist für Nischenaufgaben nützlich.
  Wie sich Copilot im Vergleich zu einzelnen LLMs schlägt, weiß ich nicht genau, aber es reicht mir, wenn es nur dann auftaucht, wenn ich es will, und ansonsten still zuverlässig arbeitet.
- Eine Option wäre, auf OpenRouter openrouter.ai das Modell openrouter/auto zu verwenden; dann werden Modelle wie GPT-5, Gemini 2.5 Pro oder Claude Sonnet 4.5 automatisch ausgewählt.
- Mit Crystal kann man Codex und Claude Code gleichzeitig laufen lassen und dann das beste Ergebnis auswählen.
- Ich verwende OpenRouter aus ähnlichen Gründen ebenfalls.
  Einerseits, um Lock-in zu vermeiden, andererseits, um die Unannehlichkeiten des Tool-Wechsels zu verringern, und selbst wenn man doch in einen Lock-in gerät, bleibt ein Wechsel einfacher.
Ich bin gespannt auf die Zukunft von Opus.
Ob es weiterhin mit Leistungen und Preisen auf „Monster“-Niveau kommt oder ob der Sprung von 4 auf 4.5 eher moderat ausfällt.
- Kürzlich wurde Opus 4.1 veröffentlicht, daher dürfte der Abstand von 4.1 zu 4.5 kleiner sein als das Upgrade von Sonnet 4 auf 4.5.
  Natürlich weiß ich nicht, ob Versionsnummern überhaupt mehr als Marketing sind und tatsächlich eine echte Bedeutung haben.
- Mein Eindruck ist, dass Sonnet und Haiku 4.5 dasselbe Basismodell wie 4 verwenden und die wichtigste Verbesserung ein Fine-Tuning mit von Opus erzeugten Daten ist.
  Ich verfolge die Branche nur und baue oder entwickle nichts selbst, aber kleine Modelle mit großen Modellen feinzujustieren ist Branchenpraxis.
  Dass GPT-4 Turbo viel schneller und günstiger als das ursprüngliche GPT-4 war, lässt sich eigentlich nur so erklären.
  Dass OpenAI Reasoning-Tokens verbirgt, ist auch eine Strategie, damit Konkurrenten diese Daten nicht zum Training nutzen.
- Opus war eine Weile verschwunden und ist kürzlich wieder aufgetaucht.
  Vermutlich entwickelt man weiterhin Modelle in drei Größenklassen groß/mittel/klein und legt den Veröffentlichungszeitpunkt je nach Marktnachfrage und Modellfähigkeit fest.
- Ich bin gespannt, wie ein Modellname unterhalb von Haiku heißen würde. Vielleicht „Claude Phrase“?
Ich habe Haiku und Sonnet bei einer Frage verglichen, für die tatsächliche Code-Dokumentation nötig war.
Haiku halluzinierte die Ausgabe einer Funktion und gab deshalb eine falsche Antwort, Sonnet lag richtig.
- Haiku-Ergebnis: Link
  Sonnet-Ergebnis: Link
Die Preise von $1 Input und $5 Output sind zwar günstiger als bei Sonnet 4.5, aber inzwischen gibt es so viele kleine und schnelle LLMs, dass für groß angelegtes agentisches Coding noch günstigere Modelle wichtig sind.
Sonnet wird trotz seines hohen Preises weiterhin viel genutzt, daher dürfte auch Haiku genügend Zuspruch finden, sofern die Qualität stimmt.
- Mit Caching sinken die Kosten auf bis zu 10 Cent pro Million Input.
  Bei fast allen günstigen Open-Source-Modellen funktioniert Caching nicht annähernd so effektiv.
  Das könnte wirklich gewaltig sein.
- Ich bin professioneller Entwickler, daher interessieren mich die Kosten nicht.
  Geschwindigkeit ist viel wichtiger, und ich wäre bereit, für Haiku 4.5 mehr zu zahlen als für Sonnet 4.5.
  Es ist einfach zu teuer, auf Antworten zu warten.
  Wenn es über 73% bei SWE Bench schafft, reicht mir das völlig.
- Aus API-Sicht ist Claude Code zwar teurer geworden, aber wenn man den Benchmarks glaubt, wurde die Qualität trotzdem verbessert.
- Haiku 3.5 lag bei $0.8/$4, daher ist 4.5 mit $1/$5 etwas enttäuschend.
  Gegenüber günstigen Modellen von OpenAI und Gemini wie GPT-5-Nano $0.05/$0.40 und Gemini 2.0 Flash Lite $0.075/$0.30 ist es preislich nicht sehr wettbewerbsfähig.
Soweit ich weiß, ist dies das erste kleine Reasoner-Produkt von Anthropic, und die System Card wurde ebenfalls verlinkt.
System Card PDF
(zugehörige Diskussion hier)
Beim Extended NYT Connections (Benchmark für Verbindungsrätsel) erreicht Haiku 4.5 20.0 Punkte, Haiku 3.5 10.0, Sonnet 3.7 19.2, Sonnet 4.0 26.6 und Sonnet 4.5 46.1.
Als freiberuflicher Entwickler habe ich das Gefühl, dass allein die dreifach schnellere Antwortgeschwindigkeit schon genug Mehrwert bietet.
Ich freue mich darauf, darauf umzusteigen statt auf Claude 4.5, weil ich denke, dass es meine Produktivität deutlich steigern wird.
Ich frage mich, wofür diese kleinen Modelle eigentlich gedacht sind. Geschwindigkeit? Übergang zu On-Device? Geringere API-Kosten?
Wenn die meisten ohnehin Claude im Abo nutzen, wirken die Einsatzmöglichkeiten begrenzt.
- Jetzt, wo sogar GPT-5-mini und Haiku 4.5 da sind, würde ich eher fragen, wofür man überhaupt noch große Modelle braucht.
  In unserem Unternehmen läuft fast alles auf kleinen Modellen, außer komplexe interne Codearbeit.
  Nutzernahe Umgebungen und Workflows wie Extraktion, Umwandlung, Übersetzung, Zusammenführung und Bewertung werden komplett von Mini- oder Nano-Modellen erledigt.
- In Claude Code werden kleine Modelle automatisch von Sonnet 4.5 delegiert, wenn der Kontext stark ist und die Aufgabe klar definiert ist, sofern das konfiguriert wurde.
  Das spart Kontextfenster im Haupt-Session und erhöht den Token-Durchsatz erheblich.
- Sie sind ideal, um Submodule für spezialisiertere Tool-Calls zu bauen, die von einem großen Modell aufgerufen werden.
- Mein Workflow mit Cerebras Qwen Coder fühlt sich durch die nahezu Echtzeitgeschwindigkeit von 3k tps eher wie eine natürliche Sprach-Shell als wie ein Agent an,
  und man kann schnell iterieren, bevor man einen Plan erstellt und ihn an ein großes Modell weitergibt.
- Schon ein Blick auf die OpenRouter-LLM-Rankings zeigt, dass die meisten Modelle für Vibe- oder agentisches Coding tatsächlich zur „Small Class“ gehören:
  OpenRouter-Ranking-Link
  Wobei Gemini 2.5 Pro natürlich ebenfalls höher platziert ist als erwartet.