20 Punkte von GN⁺ 2026-02-20 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Mit einer sparsamen Mixture-of-Experts-Architektur, bei der von 196 Milliarden Parametern nur 11 Milliarden aktiviert werden, unterstützt es schnelle Inferenz und Echtzeit-Interaktion
  • Erreicht eine Generierungsgeschwindigkeit von bis zu 350 Token pro Sekunde sowie ein 256K-Kontextfenster
  • Mit SWE-bench Verified 74.4% zeigt es stabile Leistung bei Coding- und Agenten-Benchmarks und kann auch in lokalen Umgebungen (Mac Studio M4 Max, NVIDIA DGX Spark) ausgeführt werden
  • Durch toolgestützte Inferenz und Multi-Agent-Orchestrierung belegt es hohe Zuverlässigkeit und Ausführungsstärke in realen Arbeitsszenarien wie Finanzen, Datenanalyse und Forschungsautomatisierung
  • Mit der RL-basierten MIS-PO-Optimierungsmethode wird die Stabilität bei langfristiger Inferenz gesichert, während es zu geringeren Kosten als Hochleistungsmodelle Reasoning- und Action-Fähigkeiten auf Frontier-Niveau bietet

Modellüberblick und Leistung

  • Step 3.5 Flash ist ein Open-Source-basiertes foundation model, das schnelle Inferenz und Agentenfunktionen kombiniert und einen durchschnittlichen Benchmark-Wert von 81.0 erreicht
    • Höherer Durchschnittswert als wichtige Modelle wie GLM-4.7 (78.5), DeepSeek V3.2 (77.3) und Kimi K2.5 (80.5)
  • Dank der sparsamen MoE-Architektur werden von 196B nur 11B Parameter aktiviert, was durch effiziente Berechnung Echtzeitreaktionen ermöglicht
  • Auf Basis von MTP-3 werden im normalen Einsatz 100–300 tok/s und bei Coding-Aufgaben bis zu 350 tok/s erreicht
  • Mit SWE-bench Verified 74.4% und Terminal-Bench 2.0 51.0% wird stabile Leistung bei langfristigen Code- und Agentenaufgaben erreicht
  • Das 256K-Kontextfenster ist mit einer 3:1-SWA-Struktur umgesetzt und bleibt auch bei langen Kontexten kosteneffizient

Praxisbeispiele und Tool-Nutzung

  • Durch tool-augmented reasoning wird die Leistung in Mathematik, Coding und Datenanalyse verbessert
    • Mit integrierter Python-Ausführung wurden bei AIME 2025 (99.8), HMMT 2025 (98.0) und IMOAnswerBench (86.7) verbesserte Werte erzielt
  • In einem Aktieninvestment-Szenario wurden mehr als 80 MCP-Tools kombiniert, um Datenerfassung, Analyse und Alarmierung zu automatisieren
  • Die Autonomous Business Intelligence Engine automatisiert alles von der CSV-Verarbeitung bis zur Vorhersage und identifiziert Unterschiede in der Datenqualität (1.6x)
  • Der Large-Scale Repository Architect analysiert große Codebases und erstellt ein spezialisiertes Wiki, das Architekturpattern mit Implementierungsdetails verknüpft

Forschung und Agentenleistung

  • Im ResearchRubrics-Benchmark erreicht es mit 65.3% einen höheren Wert als Gemini DeepResearch (63.7) und OpenAI DeepResearch (60.7)
    • Führt in einer einzelnen ReAct-basierten Schleife die Schritte Planung, Suche, Verifikation und Schreiben aus
  • In der Claude-Code-Umgebung erreicht es 39.6% im Datenanalyse-Benchmark und liegt damit knapp vor GPT-5.2 (39.3)
  • Über das Multi-Agent Framework koordiniert ein Master Agent Such-, Verifikations- und Zusammenfassungs-Agenten und erzeugt strukturierte Ergebnisse
  • Mit Cloud-Device Synergy und Anbindung an Step-GUI erreicht es im AndroidDaily-Hard-Benchmark 57 Punkte (gegenüber 40 Punkten allein)

Architektur und technische Merkmale

  • Das Sparse-MoE-Backbone trennt globale Kapazität (196B) von der Rechenleistung pro Token (11B) und optimiert Inferenzkosten und Geschwindigkeit
  • Die Struktur Sliding-Window Attention + Full Attention (3:1) erhält die Effizienz bei der Verarbeitung langer Kontexte
  • Head-wise Gated Attention steuert den Informationsfluss dynamisch und sichert numerische Stabilität
  • Einen Dekodierdurchsatz von 350 tok/s erreicht es auf NVIDIA-Hopper-GPUs
  • Über ein INT4-GGUF-Quantisierungsmodell wird lokale Inferenz (20 tok/s, 256K-Kontext) unterstützt

Reinforcement-Learning-Framework

  • Einführung von Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
    • Statt Importance Sampling werden instabile Samples durch binäre Filterung entfernt
    • truncation-aware value bootstrapping und routing confidence monitoring stabilisieren langfristige Inferenz
  • Diese Struktur ermöglicht kontinuierliche Selbstverbesserung in Mathematik, Coding und Tool-Nutzung insgesamt

Benchmark-Vergleich

  • Step 3.5 Flash zeigt in den drei Bereichen Reasoning, Coding und Agentic eine ausgewogene Spitzenleistung
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • Die Dekodierkosten liegen bei 128K-Kontext bei 1.0x und sind damit effizienter als DeepSeek V3.2 (6.0x) und Kimi K2.5 (18.9x)

Einschränkungen und Ausblick

  • Token-Effizienz: Im Vergleich zu Gemini 3.0 Pro sind für die gleiche Qualität längere Generierungen nötig
  • Integration von Fachwissen: Forschung zu On-Policy-Distillation für eine effizientere Verbindung von Generalität und Spezialisierung läuft
  • Erweiterung von agentischem RL: Der Einsatz von RL soll auf komplexe Aufgaben auf professionellem Arbeits- und Forschungsniveau ausgeweitet werden
  • Betriebsstabilität: Bei langen Dialogen oder Domain-Wechseln können wiederholte Inferenz und gemischte Sprachausgaben auftreten

Bereitstellung und Zugänglichkeit

  • In die OpenClaw-Plattform integriert und mit einfacher Installation sowie Modellregistrierung nutzbar
  • Zugriff über die API-Plattform (Englisch/Chinesisch) sowie Web- und Mobile-Apps (iOS/Android)
  • Updates und Support werden über die Discord-Community bereitgestellt

Noch keine Kommentare.

Noch keine Kommentare.