- Cerebras hat das KI-Modell Qwen3-235B vorgestellt und bietet mit 1.500 generierten Token pro Sekunde eine Performance für sofortige Inferenz
- Im Vergleich zu bestehenden geschlossenen Modellen sind Produktivität und Codegenerierung 30-mal schneller bei nur einem Zehntel der Kosten
- Unterstützung für 131K Kontext ermöglicht die Verarbeitung großer Codebasen und komplexer Dokumente
- In Zusammenarbeit mit Cline wird das Echtzeit-Erlebnis für Codegenerierung in Microsoft VS Code erweitert
- Mit dieser Einführung entsteht auf Open-Source-Basis eine leistungsstarke und kostengünstige Alternative zu OpenAI und Anthropic
Qwen3-235B: Einführung von Cerebras’ ultraschnellem KI-Inferenzmodell und wichtigste Ergebnisse
Das weltweit schnellste KI-Inferenzmodell wird in der Cerebras Inference Cloud vorgestellt
- Cerebras Systems hat am 8. Juli 2025 Qwen3-235B offiziell gestartet und ein neues KI-Inferenzmodell vorgestellt, das bis zu 131K Kontext vollständig unterstützt
- Das Modell kombiniert Frontier-KI-Fähigkeiten und ultraschnelle Inferenzleistung mit Kosten auf einem Zehntel geschlossener Alternativen und setzt damit neue Impulse für die Einführung von KI in Unternehmen
Intelligenz auf Frontier-Modell-Niveau
- Alibabas Qwen3-235B hat in einer unabhängigen Bewertung von Artificial Analysis eine Leistung bei Benchmarks für Wissenschaft, Code und Allgemeinwissen auf Augenhöhe mit führenden Konkurrenzmodellen wie Claude 4 Sonnet, Gemini 2.5 Flash und DeepSeek R1 nachgewiesen
- Dank einer Mixture-of-Experts-Architektur wird die Recheneffizienz maximiert; das Modell ist für 0,60 US-Dollar pro Million Eingabe-Token und 1,20 US-Dollar pro Million Ausgabe-Token verfügbar und damit im Vergleich zu bestehenden geschlossenen Modellen äußerst günstig
Inferenzgeschwindigkeit: von Minuten zu Sekunden
- Herkömmliche Inferenz-KI benötigt selbst für allgemeine Anfragen oft mehrere Minuten
- Mit der Wafer Scale Engine erreicht Qwen3-235B eine Ausgabe von 1.500 Token pro Sekunde und verkürzt die Antwortzeit von 1 bis 2 Minuten auf 0,6 Sekunden
- Dadurch werden Codegenerierung, Reasoning und große RAG-Workflows mit sofortiger Reaktion möglich und ein neuer Maßstab für KI-Leistung in Echtzeit gesetzt
- Laut Messungen von Artificial Analysis ist es das weltweit einzige Frontier-KI-Modell, das mehr als 1.000 Token pro Sekunde erzeugt
131K Kontext: Unterstützung für Codegenerierung in realen Umgebungen
- Passend zur Einführung von Qwen3-235B erweitert Cerebras die Unterstützung vom bisherigen 32K-Kontext auf 131K, also auf mehr als das Vierfache
- Dadurch können große Codebasen und komplexe Dokumente in einem Durchgang verarbeitet werden; gleichzeitige Codegenerierung über Dutzende Dateien und Zehntausende Zeilen hinweg erhöht die Eignung für Entwicklung in Produktionsumgebungen deutlich
- Während mit 32K Kontext bisher nur einfache Codegenerierung möglich war, unterstützt 131K Kontext nun auch direkt die Entwicklung großer Anwendungen
- Damit kann Cerebras gezielt den Markt für Codegenerierung im Enterprise-Bereich adressieren, den größten und am schnellsten wachsenden Bereich der generativen KI
Strategische Partnerschaft mit Cline stärkt die Integration in VS Code
- Cerebras hat eine Partnerschaft mit Cline, dem mit mehr als 1,8 Millionen Installationen größten Coding-Agenten für VS Code, geschlossen
- Alle Cline-Nutzer können Qwen3-32B (64K Kontext, kostenlos) direkt im Editor verwenden; Unterstützung für Qwen3-235B (131K Kontext) ist ebenfalls geplant
- Gegenüber Wettbewerbern wie DeepSeek R1 soll eine 10- bis 20-mal schnellere Codegenerierung geboten werden
- Cline-CEO Saoud Rizwan betonte: „Dank Echtzeit-Inferenz können Entwickler beim Erkunden von Code und Problemen ihren Arbeitsfluss im Tempo ihres Denkens aufrechterhalten.“
30-mal höhere Geschwindigkeit und ein Zehntel der Kosten als Alternative zu Frontier-KI
- Mit dieser Einführung bietet Cerebras Entwicklern, die offen basierte Modellintelligenz und Codegenerierung auf einem Niveau ähnlich kommerzieller Modelle wie OpenAI und Anthropic wünschen, eine neue Option
- Besonders hervorzuheben ist die weltweit einzigartige sofortige Inferenzgeschwindigkeit von mehr als 1.500 Token pro Sekunde, die gegenüber GPU-basierten Ansätzen eine 10-mal höhere Produktivität ermöglicht
- Auch die Token-Kosten liegen bei weniger als einem Zehntel der Konkurrenz und bieten ultraschnelle KI zu vernünftigen Kosten
Über Cerebras Systems
- Cerebras Systems ist ein Team von Experten für Computerarchitektur, Deep Learning, Forschung und Engineering und konzentriert sich auf die Innovation großskaliger KI-Computing-Infrastrukturen
- Das Flaggschiffprodukt CS-3-System ist mit dem weltweit größten kommerziellen KI-Prozessor (Wafer-Scale Engine-3) ausgestattet und ermöglicht durch einfaches und schnelles Clustering den Aufbau großer KI-Supercomputer
- Cerebras Inference bietet innovative Inferenzgeschwindigkeit und wird von Forschungseinrichtungen, Unternehmen und Behörden für die Entwicklung leistungsstarker spezialisierter Modelle und für Open-Source-Training genutzt
- Lösungen werden sowohl in der Cerebras Cloud als auch für On-Premises-Umgebungen angeboten
1 Kommentare
Hacker-News-Meinungen
Diese Meldung könnte „veraltet“ sein; sie scheint vom 8. Juli zu stammen und wurde wohl mit dem gestern veröffentlichten Qwen 3 Coder 405B verwechselt. Die Spezifikationen der beiden Modelle unterscheiden sich.
Wenn das vollständig in fp16 quantisiert wäre, bräuchte man 2 TB Speicher, um den kompletten 131k-Kontext zu nutzen. Da ein Cerebras-Chip 44 GB SRAM hat, müsste man 45 davon in Reihe schalten, und bei $3M pro Stück wären das insgesamt $135M. Zum Vergleich: Mit zwei DGX B200 kommt man auf 2,8 TB für $1M. Also $1M gegenüber $135M. Außer bei hochprofitablen Aufgaben, die extrem hohe Inferenzgeschwindigkeit erfordern (Hedgefonds, Finanzmärkte usw.), wirkt das nicht effizient. Ich kann mir kaum vorstellen, was passiert, wenn man künftig ein Modell auf Claude-Opus-4-Niveau (oder darüber) mit zig Millionen Kontext-Tokens und 1500 Token/s sehr günstig betreiben kann. Dafür scheint es noch mehrere Hardware-Generationen Fortschritt zu brauchen.
Ich habe einen
litellm-Proxy eingerichtet, ihn mit der neuen Cerebras-API für Qwen-235B verbunden und dann Aider zum Testen angehängt. Es ist nicht besser als Claude Code, aber unglaublich schnell. Ich habe Aider auch mit einem geleakten Claude-Code-Prompt ausprobiert, aber es hat nicht wie gewünscht funktioniert. Der Claude-Code-Prompt scheint auf Claude optimiert zu sein. Trotzdem war es einen Versuch wert, und ich habe das Gefühl, dass da viel Potenzial ist. Aider spuckt extrem schnell Text aus, installiert irgendetwas, macht Web-Calls und beendet sich wieder. Das geht wirklich in Sekundenbruchteilen. Um mein Setup nachzubauen, kann man diese Konfiguration verwenden:Ausführung:
und dann
Die nötigen Pakete per
pipo. Ä. installieren. Inprompt.txtden geleakten Claude-Code-Prompt selbst suchen und speichern.Ich warte sehnsüchtig darauf, dass Qwen 3 Coder von Cerebras unterstützt wird. Ich lasse viele Agent-Loops laufen, und die Ausführungsgeschwindigkeit sorgt für einen enormen Zeitkompressionseffekt. Wenn ein Modell auf Claude-4-Sonnet-Niveau mit 1000 bis 1500 Token/s läuft, wäre das wirklich revolutionär. Wer ein Gefühl für diese Geschwindigkeit bekommen will, kann sie direkt auf der Cerebras-Inference-Seite oder per API erleben, oder über Mistral / Le Chat mit „Flash Answers“ (basiert auf Cerebras). Code iterativ mit 1000 tok/s auszuführen fühlt sich wie Magie an.
Die Geschwindigkeit ist definitiv enorm, aber meiner Erfahrung nach ist es bei Cerebras sehr schwer, echte produktionsreife Rate Limits oder Token-Kontingente zu bekommen. Deshalb können wir keine Systeme darauf aufbauen und nutzen stattdessen andere Anbieter. Ich habe auch viel mit dem Sales-Team gesprochen, aber mir wurde gesagt, dass es nicht geht.
Gibt es hier jemanden, der Claude Code mit Sonnet 4 intensiv genutzt und einen Vergleichstest zwischen Claude Code und Qwen3-Coder gemacht hat? Die hohe Geschwindigkeit von Cerebras ist verlockend, aber wenn die Modellqualität schlechter ist, würde ich trotz aller Geschwindigkeit nicht wechseln.
Es heißt „Full 131k“-Kontext, tatsächlich ist es aber doppelt so viel, nämlich 262144, und mit dem 8x-Multiplikator von YaRN soll es bis auf 2 Millionen gehen. Eigentlich hat auch Cerebras theoretische Grenzen bei der Kontextlänge, aber das liegt an den Grenzen der Transformer-Architektur: Der Speicherbedarf wächst nahezu linear, der Rechenbedarf vervierfacht sich. Deshalb scheint auch Cerebras die Kontextlänge nicht zu 100 % ausreizen zu können. Außerdem frage ich mich, ob Kunden überhaupt erfahren können, welche Quantisierung genau verwendet wird.
Die Geschwindigkeit ist wirklich beeindruckend. Etwas anderes Thema, aber ich frage mich, wie es bei Modellen wie Qwen oder Kimi mit heimischer Zensur bzw. Bias aussieht.
Cerebras ist eine der verrücktesten (im besten Sinne) technischen Leistungen, die in den letzten zehn Jahren aus dem Silicon Valley gekommen sind. Als ich Andy vor 7 oder 8 Jahren traf, dachte ich bei einem Chip so groß wie ein Servierteller und 6 Tonnen Klemmkraft: völlig absurd. Aber sie haben es wirklich gebaut, und heute wirkt es wie ein enorm weitsichtiger Schritt.
Ich suche eine lokale Qwen-Entwicklungsumgebung auf dem Macbook. Ich habe die Kombination
localforge + mlx_lm.serverausprobiert; auf der Seite heißt es zwar, der Proof of Concept habe funktioniert, aber in der Praxis bekomme ich nur den Fehler „empty response“. Falls jemand Ähnliches erlebt hat, wären Hinweise hilfreich.ollamaläuft lokale Qwen-Inferenz auf einem Macbook Pro (32 GB) bei mir sehr gut.