- Mit einer sparsamen Mixture-of-Experts-Architektur, bei der von 196 Milliarden Parametern nur 11 Milliarden aktiviert werden, unterstützt es schnelle Inferenz und Echtzeit-Interaktion
- Erreicht eine Generierungsgeschwindigkeit von bis zu 350 Token pro Sekunde sowie ein 256K-Kontextfenster
- Mit SWE-bench Verified 74.4% zeigt es stabile Leistung bei Coding- und Agenten-Benchmarks und kann auch in lokalen Umgebungen (Mac Studio M4 Max, NVIDIA DGX Spark) ausgeführt werden
- Durch toolgestützte Inferenz und Multi-Agent-Orchestrierung belegt es hohe Zuverlässigkeit und Ausführungsstärke in realen Arbeitsszenarien wie Finanzen, Datenanalyse und Forschungsautomatisierung
- Mit der RL-basierten MIS-PO-Optimierungsmethode wird die Stabilität bei langfristiger Inferenz gesichert, während es zu geringeren Kosten als Hochleistungsmodelle Reasoning- und Action-Fähigkeiten auf Frontier-Niveau bietet
Modellüberblick und Leistung
- Step 3.5 Flash ist ein Open-Source-basiertes foundation model, das schnelle Inferenz und Agentenfunktionen kombiniert und einen durchschnittlichen Benchmark-Wert von 81.0 erreicht
- Höherer Durchschnittswert als wichtige Modelle wie GLM-4.7 (78.5), DeepSeek V3.2 (77.3) und Kimi K2.5 (80.5)
- Dank der sparsamen MoE-Architektur werden von 196B nur 11B Parameter aktiviert, was durch effiziente Berechnung Echtzeitreaktionen ermöglicht
- Auf Basis von MTP-3 werden im normalen Einsatz 100–300 tok/s und bei Coding-Aufgaben bis zu 350 tok/s erreicht
- Mit SWE-bench Verified 74.4% und Terminal-Bench 2.0 51.0% wird stabile Leistung bei langfristigen Code- und Agentenaufgaben erreicht
- Das 256K-Kontextfenster ist mit einer 3:1-SWA-Struktur umgesetzt und bleibt auch bei langen Kontexten kosteneffizient
Praxisbeispiele und Tool-Nutzung
- Durch tool-augmented reasoning wird die Leistung in Mathematik, Coding und Datenanalyse verbessert
- Mit integrierter Python-Ausführung wurden bei AIME 2025 (99.8), HMMT 2025 (98.0) und IMOAnswerBench (86.7) verbesserte Werte erzielt
- In einem Aktieninvestment-Szenario wurden mehr als 80 MCP-Tools kombiniert, um Datenerfassung, Analyse und Alarmierung zu automatisieren
- Die Autonomous Business Intelligence Engine automatisiert alles von der CSV-Verarbeitung bis zur Vorhersage und identifiziert Unterschiede in der Datenqualität (1.6x)
- Der Large-Scale Repository Architect analysiert große Codebases und erstellt ein spezialisiertes Wiki, das Architekturpattern mit Implementierungsdetails verknüpft
Forschung und Agentenleistung
- Im ResearchRubrics-Benchmark erreicht es mit 65.3% einen höheren Wert als Gemini DeepResearch (63.7) und OpenAI DeepResearch (60.7)
- Führt in einer einzelnen ReAct-basierten Schleife die Schritte Planung, Suche, Verifikation und Schreiben aus
- In der Claude-Code-Umgebung erreicht es 39.6% im Datenanalyse-Benchmark und liegt damit knapp vor GPT-5.2 (39.3)
- Über das Multi-Agent Framework koordiniert ein Master Agent Such-, Verifikations- und Zusammenfassungs-Agenten und erzeugt strukturierte Ergebnisse
- Mit Cloud-Device Synergy und Anbindung an Step-GUI erreicht es im AndroidDaily-Hard-Benchmark 57 Punkte (gegenüber 40 Punkten allein)
Architektur und technische Merkmale
- Das Sparse-MoE-Backbone trennt globale Kapazität (196B) von der Rechenleistung pro Token (11B) und optimiert Inferenzkosten und Geschwindigkeit
- Die Struktur Sliding-Window Attention + Full Attention (3:1) erhält die Effizienz bei der Verarbeitung langer Kontexte
- Head-wise Gated Attention steuert den Informationsfluss dynamisch und sichert numerische Stabilität
- Einen Dekodierdurchsatz von 350 tok/s erreicht es auf NVIDIA-Hopper-GPUs
- Über ein INT4-GGUF-Quantisierungsmodell wird lokale Inferenz (20 tok/s, 256K-Kontext) unterstützt
Reinforcement-Learning-Framework
- Einführung von Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Statt Importance Sampling werden instabile Samples durch binäre Filterung entfernt
- truncation-aware value bootstrapping und routing confidence monitoring stabilisieren langfristige Inferenz
- Diese Struktur ermöglicht kontinuierliche Selbstverbesserung in Mathematik, Coding und Tool-Nutzung insgesamt
Benchmark-Vergleich
- Step 3.5 Flash zeigt in den drei Bereichen Reasoning, Coding und Agentic eine ausgewogene Spitzenleistung
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- Die Dekodierkosten liegen bei 128K-Kontext bei 1.0x und sind damit effizienter als DeepSeek V3.2 (6.0x) und Kimi K2.5 (18.9x)
Einschränkungen und Ausblick
- Token-Effizienz: Im Vergleich zu Gemini 3.0 Pro sind für die gleiche Qualität längere Generierungen nötig
- Integration von Fachwissen: Forschung zu On-Policy-Distillation für eine effizientere Verbindung von Generalität und Spezialisierung läuft
- Erweiterung von agentischem RL: Der Einsatz von RL soll auf komplexe Aufgaben auf professionellem Arbeits- und Forschungsniveau ausgeweitet werden
- Betriebsstabilität: Bei langen Dialogen oder Domain-Wechseln können wiederholte Inferenz und gemischte Sprachausgaben auftreten
Bereitstellung und Zugänglichkeit
- In die OpenClaw-Plattform integriert und mit einfacher Installation sowie Modellregistrierung nutzbar
- Zugriff über die API-Plattform (Englisch/Chinesisch) sowie Web- und Mobile-Apps (iOS/Android)
- Updates und Support werden über die Discord-Community bereitgestellt
Noch keine Kommentare.