Step 3.5 Flash – Open-Source-LLM für schnelle Inferenz
(static.stepfun.com)- Mit einer sparsamen Mixture-of-Experts-Architektur, bei der von 196 Milliarden Parametern nur 11 Milliarden aktiviert werden, unterstützt es schnelle Inferenz und Echtzeit-Interaktion
- Erreicht eine Generierungsgeschwindigkeit von bis zu 350 Token pro Sekunde sowie ein 256K-Kontextfenster
- Mit SWE-bench Verified 74.4% zeigt es stabile Leistung bei Coding- und Agenten-Benchmarks und kann auch in lokalen Umgebungen (Mac Studio M4 Max, NVIDIA DGX Spark) ausgeführt werden
- Durch toolgestützte Inferenz und Multi-Agent-Orchestrierung belegt es hohe Zuverlässigkeit und Ausführungsstärke in realen Arbeitsszenarien wie Finanzen, Datenanalyse und Forschungsautomatisierung
- Mit der RL-basierten MIS-PO-Optimierungsmethode wird die Stabilität bei langfristiger Inferenz gesichert, während es zu geringeren Kosten als Hochleistungsmodelle Reasoning- und Action-Fähigkeiten auf Frontier-Niveau bietet
Modellüberblick und Leistung
- Step 3.5 Flash ist ein Open-Source-basiertes foundation model, das schnelle Inferenz und Agentenfunktionen kombiniert und einen durchschnittlichen Benchmark-Wert von 81.0 erreicht
- Höherer Durchschnittswert als wichtige Modelle wie GLM-4.7 (78.5), DeepSeek V3.2 (77.3) und Kimi K2.5 (80.5)
- Dank der sparsamen MoE-Architektur werden von 196B nur 11B Parameter aktiviert, was durch effiziente Berechnung Echtzeitreaktionen ermöglicht
- Auf Basis von MTP-3 werden im normalen Einsatz 100–300 tok/s und bei Coding-Aufgaben bis zu 350 tok/s erreicht
- Mit SWE-bench Verified 74.4% und Terminal-Bench 2.0 51.0% wird stabile Leistung bei langfristigen Code- und Agentenaufgaben erreicht
- Das 256K-Kontextfenster ist mit einer 3:1-SWA-Struktur umgesetzt und bleibt auch bei langen Kontexten kosteneffizient
Praxisbeispiele und Tool-Nutzung
- Durch tool-augmented reasoning wird die Leistung in Mathematik, Coding und Datenanalyse verbessert
- Mit integrierter Python-Ausführung wurden bei AIME 2025 (99.8), HMMT 2025 (98.0) und IMOAnswerBench (86.7) verbesserte Werte erzielt
- In einem Aktieninvestment-Szenario wurden mehr als 80 MCP-Tools kombiniert, um Datenerfassung, Analyse und Alarmierung zu automatisieren
- Die Autonomous Business Intelligence Engine automatisiert alles von der CSV-Verarbeitung bis zur Vorhersage und identifiziert Unterschiede in der Datenqualität (1.6x)
- Der Large-Scale Repository Architect analysiert große Codebases und erstellt ein spezialisiertes Wiki, das Architekturpattern mit Implementierungsdetails verknüpft
Forschung und Agentenleistung
- Im ResearchRubrics-Benchmark erreicht es mit 65.3% einen höheren Wert als Gemini DeepResearch (63.7) und OpenAI DeepResearch (60.7)
- Führt in einer einzelnen ReAct-basierten Schleife die Schritte Planung, Suche, Verifikation und Schreiben aus
- In der Claude-Code-Umgebung erreicht es 39.6% im Datenanalyse-Benchmark und liegt damit knapp vor GPT-5.2 (39.3)
- Über das Multi-Agent Framework koordiniert ein Master Agent Such-, Verifikations- und Zusammenfassungs-Agenten und erzeugt strukturierte Ergebnisse
- Mit Cloud-Device Synergy und Anbindung an Step-GUI erreicht es im AndroidDaily-Hard-Benchmark 57 Punkte (gegenüber 40 Punkten allein)
Architektur und technische Merkmale
- Das Sparse-MoE-Backbone trennt globale Kapazität (196B) von der Rechenleistung pro Token (11B) und optimiert Inferenzkosten und Geschwindigkeit
- Die Struktur Sliding-Window Attention + Full Attention (3:1) erhält die Effizienz bei der Verarbeitung langer Kontexte
- Head-wise Gated Attention steuert den Informationsfluss dynamisch und sichert numerische Stabilität
- Einen Dekodierdurchsatz von 350 tok/s erreicht es auf NVIDIA-Hopper-GPUs
- Über ein INT4-GGUF-Quantisierungsmodell wird lokale Inferenz (20 tok/s, 256K-Kontext) unterstützt
Reinforcement-Learning-Framework
- Einführung von Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Statt Importance Sampling werden instabile Samples durch binäre Filterung entfernt
- truncation-aware value bootstrapping und routing confidence monitoring stabilisieren langfristige Inferenz
- Diese Struktur ermöglicht kontinuierliche Selbstverbesserung in Mathematik, Coding und Tool-Nutzung insgesamt
Benchmark-Vergleich
- Step 3.5 Flash zeigt in den drei Bereichen Reasoning, Coding und Agentic eine ausgewogene Spitzenleistung
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- Die Dekodierkosten liegen bei 128K-Kontext bei 1.0x und sind damit effizienter als DeepSeek V3.2 (6.0x) und Kimi K2.5 (18.9x)
Einschränkungen und Ausblick
- Token-Effizienz: Im Vergleich zu Gemini 3.0 Pro sind für die gleiche Qualität längere Generierungen nötig
- Integration von Fachwissen: Forschung zu On-Policy-Distillation für eine effizientere Verbindung von Generalität und Spezialisierung läuft
- Erweiterung von agentischem RL: Der Einsatz von RL soll auf komplexe Aufgaben auf professionellem Arbeits- und Forschungsniveau ausgeweitet werden
- Betriebsstabilität: Bei langen Dialogen oder Domain-Wechseln können wiederholte Inferenz und gemischte Sprachausgaben auftreten
Bereitstellung und Zugänglichkeit
- In die OpenClaw-Plattform integriert und mit einfacher Installation sowie Modellregistrierung nutzbar
- Zugriff über die API-Plattform (Englisch/Chinesisch) sowie Web- und Mobile-Apps (iOS/Android)
- Updates und Support werden über die Discord-Community bereitgestellt
2 Kommentare
Dieses Modell ist ziemlich stark.
Wer die Möglichkeit hat und es mit llama.cpp ausführen möchte, muss den Prompt aus dem Kommentar im unten verlinkten Thread zusätzlich anwenden. Andernfalls tritt das Problem auf, dass ohne ein öffnendes
<think>mitten im Text nur ein einzelnes</think>erscheint.https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Hacker-News-Kommentare
Ich halte das für eine der am meisten unterschätzten Veröffentlichungen unter den LLMs der letzten Monate
Ich habe die lokale 4-Bit-Quant-Version (Step-3.5-Flash-GGUF) getestet, und sie war sogar besser als Minimax 2.5 oder GLM-4.7 (GLM lief nur in 2-Bit)
Die wichtigsten Merkmale sind folgende
Unter den Modellen in der 200B-Parameter-Klasse ist das das erste lokale Modell, das sich im CLI-Harness tatsächlich sinnvoll nutzen lässt. Ich verwende es zusammen mit pi.dev, und die Erfahrung war ausgezeichnet
Als Nachteil gibt es einen Bug mit einer Endlosschleife im Reasoning (zugehöriges Issue)
StepFun scheint auch die Firma hinter ACEStep, einem Musikgenerierungsmodell, zu sein, und wird auch in der ComfyUI-Dokumentation erwähnt
Gelegentlich ruft es Tools falsch auf, aber mit der von Qwen empfohlenen Einstellung temperature=1 bleibt es nicht hängen
Nemotron 3 Nano war bei der Tool-Nutzung schwach und neigte dazu, meist nur das Shell-Tool zu verwenden
Insgesamt scheinen agentic Open-Weight-Modelle unbekannte Tools eher schlecht aufzurufen
Mich würde interessieren, ob jemand diese Rechnung schon einmal gemacht hat
Ich denke eher, dass dafür die Modellgewichte selbst geändert werden müssten
Kürzlich fand ich den Reasoning-Prozess hinter dem Trick „Walk or drive to the carwash“ interessant
Zugehörige Links: gist, stepfun.ai-Gespräch
Es heißt, das Modell habe im Terminal-Bench 2.0 51,0 % erreicht, aber ich bezweifle, dass das wirklich eine 'zuverlässige Fähigkeit zur Bearbeitung langfristiger Aufgaben' garantiert
Im Leaderboard liegt der Höchstwert bei 75 %, daher entsprechen 51 % ungefähr zwei Dritteln des SOTA-Niveaus
Es könnte sein, dass das Modell einfach Kommandozeilen-Flags auswendig gelernt hat
In meinen Tests war die Halluzination stark ausgeprägt. Selbst bei einfachen Fragen wie „Finde mir ein Pokémon-Champion-Deck“ war es ungenau
Opus 4.6, Deepseek und Kimi funktionierten erwartungsgemäß gut
Das ist ein kürzlich veröffentlichtes Modell, das eine Mixture-of-Experts-(MoE)-Architektur nutzt und pro Token nur 11B von 196B aktiviert
In mehr Benchmarks liegt es vor Kimi K2.5 und GLM 4.7
Selbst auf einer Maschine mit 128 GB lässt es sich in der 4-Bit-Quant-Version ausführen (Referenzlink)
Siehe Modellseite
Bei neueren Modellen gehen hohe Benchmark-Scores oft mit einer explodierenden Token-Nutzung einher
Für echte Innovation muss das Problem der Energieeffizienz gelöst werden
Eine effiziente Nutzung der MoE-Architektur beeinflusst sowohl tokens/joule als auch tokens/sec
SWE-bench Verified ist ganz ordentlich, aber wir brauchen bessere SWE-Benchmarks
Faire Benchmarks verursachen hohe laufende Kosten
Das Konzept eines „Live-Benchmarks“ ist gut, bildet aber aktuelle Modelle nicht ausreichend ab
Dokumentationslink
Ich denke, dass eher tokens per dollar/sec eine wichtige Kennzahl ist als die reine Parameterzahl
Denn die Top-Modelle unterstützen keine lokale Inferenz
Qwen3 0.6b ist zum Beispiel bei tok/dollar hervorragend, reicht aber für die meisten Anwendungsfälle nicht aus
In einem einfachen Test habe ich einige Beobachtungen gemacht
Die x-Achse des Diagramms war umgekehrt, was verwirrend war