1 Punkte von GN⁺ 2025-07-24 | 1 Kommentare | Auf WhatsApp teilen
  • Cerebras hat das KI-Modell Qwen3-235B vorgestellt und bietet mit 1.500 generierten Token pro Sekunde eine Performance für sofortige Inferenz
  • Im Vergleich zu bestehenden geschlossenen Modellen sind Produktivität und Codegenerierung 30-mal schneller bei nur einem Zehntel der Kosten
  • Unterstützung für 131K Kontext ermöglicht die Verarbeitung großer Codebasen und komplexer Dokumente
  • In Zusammenarbeit mit Cline wird das Echtzeit-Erlebnis für Codegenerierung in Microsoft VS Code erweitert
  • Mit dieser Einführung entsteht auf Open-Source-Basis eine leistungsstarke und kostengünstige Alternative zu OpenAI und Anthropic

Qwen3-235B: Einführung von Cerebras’ ultraschnellem KI-Inferenzmodell und wichtigste Ergebnisse

Das weltweit schnellste KI-Inferenzmodell wird in der Cerebras Inference Cloud vorgestellt

  • Cerebras Systems hat am 8. Juli 2025 Qwen3-235B offiziell gestartet und ein neues KI-Inferenzmodell vorgestellt, das bis zu 131K Kontext vollständig unterstützt
  • Das Modell kombiniert Frontier-KI-Fähigkeiten und ultraschnelle Inferenzleistung mit Kosten auf einem Zehntel geschlossener Alternativen und setzt damit neue Impulse für die Einführung von KI in Unternehmen

Intelligenz auf Frontier-Modell-Niveau

  • Alibabas Qwen3-235B hat in einer unabhängigen Bewertung von Artificial Analysis eine Leistung bei Benchmarks für Wissenschaft, Code und Allgemeinwissen auf Augenhöhe mit führenden Konkurrenzmodellen wie Claude 4 Sonnet, Gemini 2.5 Flash und DeepSeek R1 nachgewiesen
  • Dank einer Mixture-of-Experts-Architektur wird die Recheneffizienz maximiert; das Modell ist für 0,60 US-Dollar pro Million Eingabe-Token und 1,20 US-Dollar pro Million Ausgabe-Token verfügbar und damit im Vergleich zu bestehenden geschlossenen Modellen äußerst günstig

Inferenzgeschwindigkeit: von Minuten zu Sekunden

  • Herkömmliche Inferenz-KI benötigt selbst für allgemeine Anfragen oft mehrere Minuten
  • Mit der Wafer Scale Engine erreicht Qwen3-235B eine Ausgabe von 1.500 Token pro Sekunde und verkürzt die Antwortzeit von 1 bis 2 Minuten auf 0,6 Sekunden
  • Dadurch werden Codegenerierung, Reasoning und große RAG-Workflows mit sofortiger Reaktion möglich und ein neuer Maßstab für KI-Leistung in Echtzeit gesetzt
  • Laut Messungen von Artificial Analysis ist es das weltweit einzige Frontier-KI-Modell, das mehr als 1.000 Token pro Sekunde erzeugt

131K Kontext: Unterstützung für Codegenerierung in realen Umgebungen

  • Passend zur Einführung von Qwen3-235B erweitert Cerebras die Unterstützung vom bisherigen 32K-Kontext auf 131K, also auf mehr als das Vierfache
  • Dadurch können große Codebasen und komplexe Dokumente in einem Durchgang verarbeitet werden; gleichzeitige Codegenerierung über Dutzende Dateien und Zehntausende Zeilen hinweg erhöht die Eignung für Entwicklung in Produktionsumgebungen deutlich
  • Während mit 32K Kontext bisher nur einfache Codegenerierung möglich war, unterstützt 131K Kontext nun auch direkt die Entwicklung großer Anwendungen
  • Damit kann Cerebras gezielt den Markt für Codegenerierung im Enterprise-Bereich adressieren, den größten und am schnellsten wachsenden Bereich der generativen KI

Strategische Partnerschaft mit Cline stärkt die Integration in VS Code

  • Cerebras hat eine Partnerschaft mit Cline, dem mit mehr als 1,8 Millionen Installationen größten Coding-Agenten für VS Code, geschlossen
  • Alle Cline-Nutzer können Qwen3-32B (64K Kontext, kostenlos) direkt im Editor verwenden; Unterstützung für Qwen3-235B (131K Kontext) ist ebenfalls geplant
  • Gegenüber Wettbewerbern wie DeepSeek R1 soll eine 10- bis 20-mal schnellere Codegenerierung geboten werden
  • Cline-CEO Saoud Rizwan betonte: „Dank Echtzeit-Inferenz können Entwickler beim Erkunden von Code und Problemen ihren Arbeitsfluss im Tempo ihres Denkens aufrechterhalten.“

30-mal höhere Geschwindigkeit und ein Zehntel der Kosten als Alternative zu Frontier-KI

  • Mit dieser Einführung bietet Cerebras Entwicklern, die offen basierte Modellintelligenz und Codegenerierung auf einem Niveau ähnlich kommerzieller Modelle wie OpenAI und Anthropic wünschen, eine neue Option
  • Besonders hervorzuheben ist die weltweit einzigartige sofortige Inferenzgeschwindigkeit von mehr als 1.500 Token pro Sekunde, die gegenüber GPU-basierten Ansätzen eine 10-mal höhere Produktivität ermöglicht
  • Auch die Token-Kosten liegen bei weniger als einem Zehntel der Konkurrenz und bieten ultraschnelle KI zu vernünftigen Kosten

Über Cerebras Systems

  • Cerebras Systems ist ein Team von Experten für Computerarchitektur, Deep Learning, Forschung und Engineering und konzentriert sich auf die Innovation großskaliger KI-Computing-Infrastrukturen
  • Das Flaggschiffprodukt CS-3-System ist mit dem weltweit größten kommerziellen KI-Prozessor (Wafer-Scale Engine-3) ausgestattet und ermöglicht durch einfaches und schnelles Clustering den Aufbau großer KI-Supercomputer
  • Cerebras Inference bietet innovative Inferenzgeschwindigkeit und wird von Forschungseinrichtungen, Unternehmen und Behörden für die Entwicklung leistungsstarker spezialisierter Modelle und für Open-Source-Training genutzt
  • Lösungen werden sowohl in der Cerebras Cloud als auch für On-Premises-Umgebungen angeboten

1 Kommentare

 
GN⁺ 2025-07-24
Hacker-News-Meinungen
  • Diese Meldung könnte „veraltet“ sein; sie scheint vom 8. Juli zu stammen und wurde wohl mit dem gestern veröffentlichten Qwen 3 Coder 405B verwechselt. Die Spezifikationen der beiden Modelle unterscheiden sich.

    • Zuerst dachte ich, es gehe um das vor zwei Tagen angekündigte Qwen3-235B-A22B-Instruct-2507 (Link). Dieses Modell hat kein Reasoning, und weil die Cerebras-Ankündigung Reasoning erwähnt, wurde klar, dass es sich hier um das im April erschienene Qwen3-235B-A22B handelt. Die Modellnamen sind verwirrend.
  • Wenn das vollständig in fp16 quantisiert wäre, bräuchte man 2 TB Speicher, um den kompletten 131k-Kontext zu nutzen. Da ein Cerebras-Chip 44 GB SRAM hat, müsste man 45 davon in Reihe schalten, und bei $3M pro Stück wären das insgesamt $135M. Zum Vergleich: Mit zwei DGX B200 kommt man auf 2,8 TB für $1M. Also $1M gegenüber $135M. Außer bei hochprofitablen Aufgaben, die extrem hohe Inferenzgeschwindigkeit erfordern (Hedgefonds, Finanzmärkte usw.), wirkt das nicht effizient. Ich kann mir kaum vorstellen, was passiert, wenn man künftig ein Modell auf Claude-Opus-4-Niveau (oder darüber) mit zig Millionen Kontext-Tokens und 1500 Token/s sehr günstig betreiben kann. Dafür scheint es noch mehrere Hardware-Generationen Fortschritt zu brauchen.

    • Die Rechnung „44 GB SRAM pro Cerebras-Chip, 45 in Reihe nötig, insgesamt $135M“ ist falsch. Die 44 GB sind SRAM, also On-Chip-Speicher, und die meisten Modellparameter liegen in HBM. Zum Beispiel hat ein GB200 nur 126 MB SRAM; wenn man allein anhand der Cache-Größe die Zahl der für ein 2-TB-Modell nötigen Chips berechnet, kommt Unsinn heraus. Cerebras kann HBM getrennt vom Chip skalieren und mit Systemen wie MemoryX auf fast 2 PB erweitern (mehr dazu). Ich bin kein Experte, aber bei der Cerebras-Architektur sind die Speichergrenzen deutlich weiter gefasst.
    • Das On-Chip-SRAM ist reiner temporärer Arbeitsspeicher und muss nicht die gesamten Modellgewichte enthalten. Cerebras arbeitet mit einem Sparse-Weights-Ansatz, bei dem nur die benötigten Daten aus externem Speicher gestreamt werden, und die Cores funktionieren triggerbasiert bei der Übertragung.
    • Die Sichtweise „machbar/nicht machbar“ ist zu simpel. In der Praxis ist entscheidend, welchen Durchsatz man im Gesamtsystem auf viele Nutzer verteilen kann. Ein Golfcart und ein Zug können beide von der Ost- an die Westküste fahren, aber die Wirtschaftlichkeit ist unterschiedlich. Die minimale Deployment-Größe ist zwar wichtig, aber wenn man Token über eine große Cloud-API verkauft, ist das dem Kunden egal.
    • Man muss Inferenz nicht mit festem fp16 betreiben. Moderne Quantisierungsformate weisen je nach Layer unterschiedliche Präzision zu, sodass man im Mittel bei 6 Bit pro Parameter kaum Unterschiede bemerkt. Selbst stark komprimiert reichen 8 Bit pro Parameter aus. Das spart enorm viel Speicher.
    • Unsere Chips kosten nicht $3M pro Stück. Ich weiß nicht, woher diese Zahl kommt, aber sie ist völlig falsch.
  • Ich habe einen litellm-Proxy eingerichtet, ihn mit der neuen Cerebras-API für Qwen-235B verbunden und dann Aider zum Testen angehängt. Es ist nicht besser als Claude Code, aber unglaublich schnell. Ich habe Aider auch mit einem geleakten Claude-Code-Prompt ausprobiert, aber es hat nicht wie gewünscht funktioniert. Der Claude-Code-Prompt scheint auf Claude optimiert zu sein. Trotzdem war es einen Versuch wert, und ich habe das Gefühl, dass da viel Potenzial ist. Aider spuckt extrem schnell Text aus, installiert irgendetwas, macht Web-Calls und beendet sich wieder. Das geht wirklich in Sekundenbruchteilen. Um mein Setup nachzubauen, kann man diese Konfiguration verwenden:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    Ausführung:

    litellm --config config.yaml --port 4000 --debug
    

    und dann

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    Die nötigen Pakete per pip o. Ä. installieren. In prompt.txt den geleakten Claude-Code-Prompt selbst suchen und speichern.

  • Ich warte sehnsüchtig darauf, dass Qwen 3 Coder von Cerebras unterstützt wird. Ich lasse viele Agent-Loops laufen, und die Ausführungsgeschwindigkeit sorgt für einen enormen Zeitkompressionseffekt. Wenn ein Modell auf Claude-4-Sonnet-Niveau mit 1000 bis 1500 Token/s läuft, wäre das wirklich revolutionär. Wer ein Gefühl für diese Geschwindigkeit bekommen will, kann sie direkt auf der Cerebras-Inference-Seite oder per API erleben, oder über Mistral / Le Chat mit „Flash Answers“ (basiert auf Cerebras). Code iterativ mit 1000 tok/s auszuführen fühlt sich wie Magie an.

    • Genau das ist es. Mit dieser Geschwindigkeit steigt meine Arbeitseffizienz massiv. Jedes Warten auf den Agenten reißt mich aus Fokus und Kontext. Parallelisieren geht zwar schneller, kostet aber Konzentration. Wenn in einer IDE wie Cursor der Iterationsloop nahezu sofort läuft, wirkt das noch magischer. Und bei dieser Geschwindigkeit ändert sich die Arbeitsweise selbst. Eine interaktive IDE wie Cursor dürfte sich viel natürlicher anfühlen als ein kommandozeilenbasiertes Claude Code.
    • Geht mir genauso. Aber die API von Cerebras muss OpenAI-kompatibler werden. Ich habe vorhandene Modelle mit verschiedenen Code-Agenten ausprobiert, inklusive Cline, und überall nur 400er-Fehler oder Probleme mit dem Tool-Calling-Format bekommen. Das war enttäuschend.
    • Ich habe vor ein paar Tagen Kimi K2 auf Groq eingerichtet und war von der Geschwindigkeit schockiert. Jetzt überlege ich, auf Qwen 3 und Cerebras umzusteigen. (Nebenbei: Der Name erinnert mich an das Zerg-Rangsystem aus Starcraft, speziell an „cerebrate“, was bei mir Kindheitserinnerungen geweckt hat.)
    • Wenn LLM-Agenten so schnell werden, könnte am Ende die Compile-Zeit im Entwicklungsprozess zum Flaschenhals werden. Dann entstünde ein wirtschaftlicher Anreiz, die Performance von Compilern zu verbessern.
  • Die Geschwindigkeit ist definitiv enorm, aber meiner Erfahrung nach ist es bei Cerebras sehr schwer, echte produktionsreife Rate Limits oder Token-Kontingente zu bekommen. Deshalb können wir keine Systeme darauf aufbauen und nutzen stattdessen andere Anbieter. Ich habe auch viel mit dem Sales-Team gesprochen, aber mir wurde gesagt, dass es nicht geht.

  • Gibt es hier jemanden, der Claude Code mit Sonnet 4 intensiv genutzt und einen Vergleichstest zwischen Claude Code und Qwen3-Coder gemacht hat? Die hohe Geschwindigkeit von Cerebras ist verlockend, aber wenn die Modellqualität schlechter ist, würde ich trotz aller Geschwindigkeit nicht wechseln.

    • Qwen habe ich nicht ausprobiert, aber ich habe auf Groq u. Ä. „Instant-Token“-Inferenzdienste sowie LLaMA-basierte Code-Generatoren mit Diffusion-Modellen getestet, und die Ergebnisse waren nicht zufriedenstellend. Wenn ein Modell auf Gemini-2.5-Pro- oder Sonnet-4-Niveau bei Cerebras zigtausend Zeilen Code in wenigen Sekunden ausgeben könnte, würde das die Lage wirklich verändern.
  • Es heißt „Full 131k“-Kontext, tatsächlich ist es aber doppelt so viel, nämlich 262144, und mit dem 8x-Multiplikator von YaRN soll es bis auf 2 Millionen gehen. Eigentlich hat auch Cerebras theoretische Grenzen bei der Kontextlänge, aber das liegt an den Grenzen der Transformer-Architektur: Der Speicherbedarf wächst nahezu linear, der Rechenbedarf vervierfacht sich. Deshalb scheint auch Cerebras die Kontextlänge nicht zu 100 % ausreizen zu können. Außerdem frage ich mich, ob Kunden überhaupt erfahren können, welche Quantisierung genau verwendet wird.

    • Auf der Modellseite steht, dass 32768 nativ sind und die Leistung mit 4x YaRN validiert wurde (Link). Das passt ungefähr zu den 131k.
  • Die Geschwindigkeit ist wirklich beeindruckend. Etwas anderes Thema, aber ich frage mich, wie es bei Modellen wie Qwen oder Kimi mit heimischer Zensur bzw. Bias aussieht.

    • Qwen-Modelle gelten selbst unter offenen Modellen als qualitativ sehr stark, besonders die MoE-Architektur. Gleichzeitig sind sie extrem stark zensiert. Ob man nach „Was ist auf dem Tiananmen-Platz passiert?“, „großen Protesten“ oder „hat das etwas mit Panzern zu tun?“ fragt – die Antwort weicht nur aus und sagt vage, der Platz sei schön und historisch bedeutsam.
  • Cerebras ist eine der verrücktesten (im besten Sinne) technischen Leistungen, die in den letzten zehn Jahren aus dem Silicon Valley gekommen sind. Als ich Andy vor 7 oder 8 Jahren traf, dachte ich bei einem Chip so groß wie ein Servierteller und 6 Tonnen Klemmkraft: völlig absurd. Aber sie haben es wirklich gebaut, und heute wirkt es wie ein enorm weitsichtiger Schritt.

    • Das Konzept ist cool, aber gibt es wirklich Leute, die tatsächlich Cerebras statt Nvidia einsetzen?
    • Eigentlich ist das eher für HPC und FLOPS optimiert; bei LLM-Inferenz ist am Ende die Speicherbandbreite wichtiger.
    • Das ist eine moderne Interpretation einer alten Idee. Ich habe die ersten Paper zu Wafer-Scale, analoger Technik und neuronalen Netzen in europäischer Forschung gesehen. Ich habe auch ein weiteres Projekt gefunden. (Paper 1, Paper 2). Das zweite Paper stammt von 1989, also sind die Patente ohnehin alle abgelaufen.
    • Wafer-Scale-Integration wurde schon vor Jahrzehnten ausprobiert.
  • Ich suche eine lokale Qwen-Entwicklungsumgebung auf dem Macbook. Ich habe die Kombination localforge + mlx_lm.server ausprobiert; auf der Seite heißt es zwar, der Proof of Concept habe funktioniert, aber in der Praxis bekomme ich nur den Fehler „empty response“. Falls jemand Ähnliches erlebt hat, wären Hinweise hilfreich.

    • Vielleicht habe ich deine Frage falsch verstanden, aber mit ollama läuft lokale Qwen-Inferenz auf einem Macbook Pro (32 GB) bei mir sehr gut.