- Claude Haiku 4.5 bietet trotz seiner kompakten Größe Code-Performance auf dem Niveau von Claude Sonnet 4 – bei einem Drittel der Kosten und mehr als doppelt so hoher Geschwindigkeit
- In realen Entwicklungs-Benchmarks wie SWE-bench Verified zeigt es AI-Coding-Effizienz und Reaktionsfähigkeit, die die vorherige Modellgeneration übertreffen
- In Verbindung mit Sonnet 4.5 sind Multi-Agenten-Setups oder die Aufteilung komplexer Probleme möglich; dadurch eignet es sich für Echtzeitaufgaben und Umgebungen mit niedriger Latenz
- Bei Echtzeit-Chatbots, Kundensupport und Pair Programming lassen sich die Vorteile von hoher Intelligenz und Geschwindigkeit nutzen
- Laut Sicherheitsbewertung zeigt es das höchste Alignment-Niveau unter den Anthropic-Modellen und wird nach dem Standard AI Safety Level 2 (ASL-2) veröffentlicht
- $1/$5 pro Million Input-/Output-Token
Einführung
- Claude Haiku 4.5 ist das neueste kompakte Modell in der Anthropic-Produktlinie und soll für alle Nutzer ein ausgewogenes Verhältnis aus Leistung, Geschwindigkeit und Kosteneffizienz bieten
- Es zeigt Coding-Fähigkeiten ähnlich wie Claude Sonnet 4, kostet aber nur ein Drittel und ist mehr als doppelt so schnell
- Bei bestimmten Aufgaben, etwa der Computernutzung, zeigt es sogar eine höhere Leistung als Sonnet 4
- Besonders in Echtzeit-Tools wie Claude for Chrome oder Claude Code bietet es eine verzögerungsfreie Umgebung für AI-gestützte Assistenz
Hauptmerkmale und Anwendungsfälle
- Es eignet sich für Echtzeitaufgaben mit niedriger Latenz und zeigt hohe Effizienz bei Chatbots, Kundenservice und Pair Programming
- Für Nutzer von Claude Code bietet es schnelle Reaktionsfähigkeit und damit ideale Leistung bei Multi-Agenten-Projekten und schnellem Prototyping
- Sonnet 4.5 bleibt zwar weiterhin das Spitzenmodell, doch Haiku 4.5 bietet ähnliche Leistung bei deutlich höherer Kosteneffizienz
- Beide Modelle lassen sich auch gemeinsam einsetzen: So kann Sonnet 4.5 komplexe Probleme zerlegen, während mehrere Haiku-4.5-Instanzen die Teilaufgaben parallel bearbeiten
- Claude Haiku 4.5 ist ab heute weltweit verfügbar; Entwickler können es in der Claude API direkt unter
claude-haiku-4-5 nutzen
- Der Preis liegt bei $1/$5 pro Million Input-/Output-Token
Benchmarks und Nutzerbewertungen
- Haiku 4.5 ist eines der leistungsstärksten Modelle, die Anthropic veröffentlicht hat
- Unternehmen wie Augment, Warp und Gamma berichten aus realen Tests von mehr als 90 % der Codequalität von Sonnet 4.5
- Bei agentischem Coding, der Orchestrierung von Sub-Agenten und Aufgaben zur Computernutzung zeigt es deutliche Fortschritte und maximiert die Unmittelbarkeit des Entwicklungserlebnisses
- Traditionell gab es einen Zielkonflikt zwischen Qualität, Geschwindigkeit und Kosten; Haiku 4.5 erreicht nun sowohl hohe Geschwindigkeit als auch Kosteneffizienz
- Es bietet sowohl Intelligenz als auch Reaktionsfähigkeit in Echtzeit und eröffnet damit neue Möglichkeiten für AI-Anwendungen
- Leistung, die noch vor sechs Monaten als State of the Art galt, ist nun günstiger und schneller verfügbar
- Komplexe Workflows werden schnell und stabil verarbeitet, inklusive Selbstkorrektur in Echtzeit
- Bei der Ausführung spezifischer Anweisungen wie dem Erstellen von Foliensatz-Texten erzielt es deutlich bessere Ergebnisse als frühere Modelle
- In Verbindung mit GitHub Copilot und ähnlichen Tools liefert es eine mit Sonnet 4 vergleichbare Codequalität bei höherer Geschwindigkeit
Sicherheitsbewertung
- Verschiedene Sicherheits- und Alignment-Bewertungen zeigen eine niedrige Quote problematischen Verhaltens sowie eine verbesserte Ausrichtung gegenüber der Vorgängerversion Claude Haiku 3.5
- Es weist sogar eine geringere Fehlanpassungsrate auf als Sonnet 4.5/Opus 4.1 und wird daher als das sicherste von Anthropic entwickelte Modell bewertet
- Auch das Risiko in den Bereichen Chemie, Biologie, Radiologie und Nukleartechnik (CBRN) wird als sehr niedrig eingestuft, weshalb es nach dem ASL-2-Standard veröffentlicht wird
- Im Vergleich zu ASL-3 mit strengeren Einschränkungen (Sonnet 4.5, Opus 4.1) lässt es sich freier einsetzen
Weitere Informationen
- Claude Haiku 4.5 ist direkt in Claude Code und den Anthropic-Apps verfügbar
- Dank effizienter Verarbeitung lässt sich innerhalb bestehender Nutzungslimits Leistung auf Premium-Modell-Niveau erzielen
- In API, Amazon Bedrock und Google Cloud Vertex AI kann es günstig als Alternative zu Haiku 3.5 und Sonnet 4 gewählt werden
- Technische Details und Bewertungsergebnisse finden sich in der offiziellen System Card, auf der Modellseite und in der Dokumentation
2 Kommentare
In Claude Code kann man es verwenden, wenn man
/model haikueingibt. Es ist schneller als Sonnet und liefert trotzdem gute Ergebnisse, daher lässt es sich ziemlich gut nutzen.Hacker-News-Kommentare
Es wurde eine niedliche Zeichnung eines Pelikans geteilt, der auf einem leicht verdächtig aussehenden Fahrrad fährt: Link
Six months in LLMs,
Erklärung zum Pelikan-auf-dem-Fahrrad-Tag,
Benchmark-Methodik
Shitaki Mushroom riding a rowboat
Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 Sekunden
Und Grok 4 Fast ist beim Pelikan-plus-Fahrrad-Stil okay, aber bei anderen Anfragen schwächer.
Grok-Beispiel, Prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 Sekunden
Zum Schluss das GPT-5-Ergebnis: Beispiel, Prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 Sekunden
Subjektiv betrachtet sind die Pilzpunkte von Haiku ziemlich beeindruckend.
Außerdem ist der Leistungsunterschied zwischen öffentlichen Benchmarks und informellen Testszenarien bei Anthropic-Modellen am geringsten.
Häufig liefern Anthropic-Modelle inoffiziell sogar bessere Ergebnisse als in offenen Benchmarks.
Auch Haikus Time-to-First ist ein deutlicher Vorteil.
Obwohl es sich um sehr frühe Tests handelt, sind die Ergebnisse ziemlich beeindruckend.
Anders als GPT-5 enthält es bei Codeänderungen weniger unnötige Codeabschnitte und verändert dadurch präziser.
Deshalb könnte Haiku 4.5 in realen Umgebungen trotz höherer nomineller Kosten in der Nutzungseffizienz günstiger sein.
Das Problem ist die Markenwirkung.
Selbst wenn Haiku 4.5 qualitativ nahe an Sonnet 4 liegt, ist es wegen der Wahrnehmung kleiner Modelle und einiger jüngerer Leistungseinbußen nicht leicht, Haiku 4.5 statt Sonnet 4.5 zu wählen.
Ich frage mich, ob Haiku 3, 3.5 und 4.5 ungefähr im gleichen Parameterbereich liegen, und fände es gut, wenn alle Modelldaten transparent offengelegt würden.
Deshalb neigen die meisten psychologisch eher zu großen Modellen, aber ich finde tatsächlich, dass GPT-5 im Verhältnis von Leistung zu Preis am beeindruckendsten ist.
Referenzpreise:
Haiku 3: Input $0.25/M, Output $1.25/M
Haiku 4.5: Input $1.00/M, Output $5.00/M
GPT-5: Input $1.25/M, Output $10.00/M
GPT-5-mini: Input $0.25/M, Output $2.00/M
GPT-5-nano: Input $0.05/M, Output $0.40/M
GLM-4.6: Input $0.60/M, Output $2.20/M
Im Schnitt 220 token/sec, also fast doppelt so schnell wie vergleichbare Modelle.
Wenn dieses Tempo konstant bleibt, ist das ein enormer Gegenwert.
Zum Vergleich: ähnlich schnell wie Gemini 2.5 Flash Lite.
Groq, Cerebras usw. erreichen zwar bis zu 1000 token/sec, sind aber keine wirklich vergleichbaren Modelle.
Anthropic hat in meinen persönlichen Benchmarks immer besser abgeschnitten als in offenen Benchmarks, daher sind meine Erwartungen hoch.
Wenn Geschwindigkeit, Leistung und Preis so bleiben, ist Haiku 4.5 für die meisten Coding-Aufgaben eine hervorragende Wahl.
Sonnet würde ich dann wohl nur in bestimmten Situationen verwenden.
Frühere Claude-Modelle hatten bei langen Kettenaufgaben über 7 Minuten Leistungseinbußen; wenn das bei Haiku 4.5 auch so ist, wäre das ein Nachteil.
Ich habe lange Aufgaben aber noch nicht getestet.
Problematisch ist, dass bei Claude Code die Nutzung von Haiku 4.5 und Sonnet 4.5 derzeit gleich abgerechnet wird, obwohl der Preisunterschied groß ist.
Auch die Support-Seite wurde noch nicht aktualisiert: Support-Dokument
Solche Informationen sollten am Launch-Tag unbedingt kommuniziert werden.
Solche Themen wie Tooling, Tests und Ankündigungssysteme werfen einen Schatten auf die ansonsten starke Leistung der Anthropic-Modelle.
Jetzt ist es endlich da, und ich rolle das Upgrade gerade für alle meine Bots aus, nein, Agenten.
Modell- und Funktionsvergleiche sind inzwischen wirklich lästig.
Jedes LLM-Ökosystem hat andere Einschränkungen, sodass man ständig hin- und herwechseln muss, und ich zahle jeweils $20 im Monat für Claude Code und Codex.
Ich nutze auch Cursor, achte intern aber nicht darauf, welches Modell verwendet wird.
Ich will einfach ein konsistent integriertes Tool.
Es sollte im Hintergrund automatisch besser werden, ohne dass ich mir Gedanken machen muss, was im Backend passiert.
Wie bei einem TLS-Server sollte es überall integriert sein: CLI, Neovim, IDE.
Dann heißt es wieder, beispielgetrieben sei besser, und obwohl jede Methode Vor- und Nachteile hat, gibt es keinen Branchenstandard oder Konsens, sodass man kaum gute Beispiele findet.
Früher schrieb mal jemand in einer Antwort „bug-driven development“, und das blieb hängen: Am Ende arbeitet man ohnehin irgendwie drauflos, bekommt Ergebnisse und behebt dann Bugs und Fehler.
Deshalb verwende ich GitHub Copilot Pro+.
Neue Modelle kann man sofort auswählen, Claude Haiku 4.5 ist auch schon da.
Mein Premium-Kontingent habe ich nie aufgebraucht, ich bin aber auch kein Hardcore-User.
Die CLI-Version habe ich noch nicht ausprobiert, finde sie aber interessant.
Bevor das IntelliJ-Plugin aktualisiert wurde, habe ich Prompts in VS Code abgeschickt und dann wieder zurückgewechselt.
Auch die Webversion mit
Spacesist für Nischenaufgaben nützlich.Wie sich Copilot im Vergleich zu einzelnen LLMs schlägt, weiß ich nicht genau, aber es reicht mir, wenn es nur dann auftaucht, wenn ich es will, und ansonsten still zuverlässig arbeitet.
Einerseits, um Lock-in zu vermeiden, andererseits, um die Unannehlichkeiten des Tool-Wechsels zu verringern, und selbst wenn man doch in einen Lock-in gerät, bleibt ein Wechsel einfacher.
Ich bin gespannt auf die Zukunft von Opus.
Ob es weiterhin mit Leistungen und Preisen auf „Monster“-Niveau kommt oder ob der Sprung von 4 auf 4.5 eher moderat ausfällt.
Natürlich weiß ich nicht, ob Versionsnummern überhaupt mehr als Marketing sind und tatsächlich eine echte Bedeutung haben.
Ich verfolge die Branche nur und baue oder entwickle nichts selbst, aber kleine Modelle mit großen Modellen feinzujustieren ist Branchenpraxis.
Dass GPT-4 Turbo viel schneller und günstiger als das ursprüngliche GPT-4 war, lässt sich eigentlich nur so erklären.
Dass OpenAI Reasoning-Tokens verbirgt, ist auch eine Strategie, damit Konkurrenten diese Daten nicht zum Training nutzen.
Vermutlich entwickelt man weiterhin Modelle in drei Größenklassen groß/mittel/klein und legt den Veröffentlichungszeitpunkt je nach Marktnachfrage und Modellfähigkeit fest.
Ich habe Haiku und Sonnet bei einer Frage verglichen, für die tatsächliche Code-Dokumentation nötig war.
Haiku halluzinierte die Ausgabe einer Funktion und gab deshalb eine falsche Antwort, Sonnet lag richtig.
Sonnet-Ergebnis: Link
Die Preise von $1 Input und $5 Output sind zwar günstiger als bei Sonnet 4.5, aber inzwischen gibt es so viele kleine und schnelle LLMs, dass für groß angelegtes agentisches Coding noch günstigere Modelle wichtig sind.
Sonnet wird trotz seines hohen Preises weiterhin viel genutzt, daher dürfte auch Haiku genügend Zuspruch finden, sofern die Qualität stimmt.
Bei fast allen günstigen Open-Source-Modellen funktioniert Caching nicht annähernd so effektiv.
Das könnte wirklich gewaltig sein.
Geschwindigkeit ist viel wichtiger, und ich wäre bereit, für Haiku 4.5 mehr zu zahlen als für Sonnet 4.5.
Es ist einfach zu teuer, auf Antworten zu warten.
Wenn es über 73% bei SWE Bench schafft, reicht mir das völlig.
Gegenüber günstigen Modellen von OpenAI und Gemini wie GPT-5-Nano $0.05/$0.40 und Gemini 2.0 Flash Lite $0.075/$0.30 ist es preislich nicht sehr wettbewerbsfähig.
Soweit ich weiß, ist dies das erste kleine Reasoner-Produkt von Anthropic, und die System Card wurde ebenfalls verlinkt.
System Card PDF
(zugehörige Diskussion hier)
Beim Extended NYT Connections (Benchmark für Verbindungsrätsel) erreicht Haiku 4.5 20.0 Punkte, Haiku 3.5 10.0, Sonnet 3.7 19.2, Sonnet 4.0 26.6 und Sonnet 4.5 46.1.
Als freiberuflicher Entwickler habe ich das Gefühl, dass allein die dreifach schnellere Antwortgeschwindigkeit schon genug Mehrwert bietet.
Ich freue mich darauf, darauf umzusteigen statt auf Claude 4.5, weil ich denke, dass es meine Produktivität deutlich steigern wird.
Ich frage mich, wofür diese kleinen Modelle eigentlich gedacht sind. Geschwindigkeit? Übergang zu On-Device? Geringere API-Kosten?
Wenn die meisten ohnehin Claude im Abo nutzen, wirken die Einsatzmöglichkeiten begrenzt.
In unserem Unternehmen läuft fast alles auf kleinen Modellen, außer komplexe interne Codearbeit.
Nutzernahe Umgebungen und Workflows wie Extraktion, Umwandlung, Übersetzung, Zusammenführung und Bewertung werden komplett von Mini- oder Nano-Modellen erledigt.
Das spart Kontextfenster im Haupt-Session und erhöht den Token-Durchsatz erheblich.
und man kann schnell iterieren, bevor man einen Plan erstellt und ihn an ein großes Modell weitergibt.
OpenRouter-Ranking-Link
Wobei Gemini 2.5 Pro natürlich ebenfalls höher platziert ist als erwartet.