1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen3.7-Max ist ein agentenzentriertes proprietäres Modell für Coding und Debugging, Office-Automatisierung sowie autonome Ausführung über Hunderte bis Tausende von Schritten
  • In Bewertungen zu Coding, allgemeinen Agenten, Reasoning und Mehrsprachigkeit tritt es gegen Konkurrenzmodelle an und erreicht 69,7 Punkte im Terminal Bench 2.0-Terminus sowie 92,4 Punkte im GPQA Diamond
  • Bei einer 35-stündigen autonomen Kernel-Optimierung führte es 1.158 Tool-Aufrufe und 432 Evaluierungen aus und erzielte gegenüber Triton eine geometrische mittlere Beschleunigung um das 10,0-Fache
  • Durch die Trennung von Trainingsinstanzen in Task, Harness und Verifier wird Cross-Harness-RL-Training durchgeführt, um statt spezieller Harness-Abkürzungen verallgemeinerte Problemlösung zu fördern
  • Über Alibaba Cloud Model Studio wird bald eine API bereitgestellt; Integration mit Agent-Frameworks wie Claude Code, OpenClaw und Qwen Code ist möglich

Leistungsbewertung

  • Qwen3.7-Max wurde zusammen mit mehreren Vergleichsmodellen in den Bereichen Coding-Agenten, allgemeine Agenten, STEM und Reasoning, allgemeine Fähigkeiten sowie Mehrsprachigkeit evaluiert
  • Leere Zellen (--) bedeuten, dass der Wert noch nicht bereitgestellt wurde
  • Coding-Agenten

    • Im Terminal Bench 2.0-Terminus erzielt es 69,7 Punkte und übertrifft damit die 67,9 Punkte von DS-V4-Pro Max
    • In SWE-Verified erreicht es mit 80,4 Punkten ein ähnliches Niveau wie Opus-4.6 Max mit 80,8 und DS-V4-Pro Max mit 80,6 Punkten
    • Es erzielt 60,6 Punkte in SWE-Pro, 78,3 in SWE-Multilingual, 53,5 in SciCode und 1608 in QwenSVG
    • NL2repo wurde mit Claude Code evaluiert; Bash-Befehle wie pip download, pip install und git clone, die Zugriff auf bestimmte Repositories versuchen, wurden deaktiviert
    • QwenWebDev ist ein interner Benchmark für zweisprachige Frontend-Codegenerierung auf Englisch und Chinesisch; verwendet werden 7 Kategorien sowie automatisches Rendering, multimodale Bewertung und BT/Elo-Ratings
  • Allgemeine Agenten

    • In MCP-Mark erreicht es 60,8 Punkte und übertrifft damit GLM-5.1 mit 57,5; in MCP-Atlas erzielt es 76,4 Punkte und liegt damit vor Opus-4.6 mit 75,8
    • In Skillsbench erreicht es 59,2 Punkte und liegt damit über K2.6 mit 56,2
    • In Kernel Bench L3 zeigt es GPU-Kernel-Optimierungsfähigkeit mit einer medianen 1,98-fachen Beschleunigung und einer Gewinnrate von 96 %
    • Mit 75,0 Punkten in BFCL-V4, 64,3 in Qwenclaw und 65,2 in ClawEval liegt es nahe an Opus-4.6 Max
    • In SpreadSheetBench-v1 erzielt es 87,0 Punkte und zeigt damit auch in einem Office-Automatisierungs-Benchmark hohe Leistung
    • QwenClawBench ist ein als Open Source veröffentlichter Claw-Agent-Benchmark, der die Verteilung realer Nutzer widerspiegelt
    • CoWorkBench ist ein interner Kollaborations-Benchmark für langfristige Aufgaben in Produktivitätsdomänen wie Informatik, Finanzen, Recht und Medizin
  • Reasoning

    • In GPQA Diamond erreicht es 92,4 Punkte und übertrifft Opus-4.6 mit 91,3
    • In HLE erzielt es 41,4 Punkte und liegt damit vor Opus-4.6 mit 40,0; in HMMT 2026 Feb erreicht es 97,1 Punkte gegenüber 96,2 von Opus-4.6
    • In IMOAnswerBench erzielt es 90,0 Punkte und übertrifft DS-V4-Pro mit 89,8; in Apex erreicht es 44,5 Punkte gegenüber 38,3 von DS-V4-Pro
    • Für Reasoning-Szenarien wird ein System-Prompt empfohlen, der mit Reasoning effort is set to xhigh... beginnt
  • Allgemeine Fähigkeiten und Mehrsprachigkeit

    • In IFBench erreicht es 79,1 Punkte und übertrifft DS-V4-Pro mit 77,0; das zeigt präzise Befolgung von Anweisungen
    • In WMT24++ erzielt es 85,8 Punkte und in MAXIFE 89,2 und zeigt damit Stärken bei mehrsprachigem Verständnis und Übersetzungsqualität
    • In SuperGPQA erreicht es 73,6 Punkte, in QwenWorldBench 57,3
    • WMT24++ ist ein schwierigeres Teilset von WMT24 und verwendet den durchschnittlichen XCOMET-XXL-Score über 55 Sprachen
    • MAXIFE misst die Genauigkeit in 23 Konfigurationen englischer und mehrsprachiger Prompts
    • MMLU-ProX verwendet die durchschnittliche Genauigkeit über 29 Sprachen

Evaluierungsbedingungen und Benchmark-Details

  • Terminal-Bench 2.0 wurde mit dem Harbor/Terminus-2-Harness, einem Zeitlimit von 5 Stunden, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, maximal 80K Tokens, 256K Kontext und als Mittelwert über 5 Durchläufe evaluiert
  • Die SWE-Bench-Familie wurde mit internem Agent-Scaffold sowie Bash- und Datei-Bearbeitungstools bei temp=1.0, top_p=0.95 und einem Kontextfenster von 200K evaluiert
  • SkillsBench wurde mit OpenCode evaluiert und verwendet den Durchschnitt über 5 Durchläufe auf 78 Tasks, ausgenommen 9 Aufgaben mit Abhängigkeit von externen APIs
  • MCP-Mark verwendet GitHub MCP v0.30.3 und kappte Playwright-Antworten bei 32K Tokens
  • MCP-Atlas verwendet den öffentlichen Set-Score und den Bewerter gemini-2.5-pro
  • Kernel Bench L3 berichtet über 50 Probleme den Median der problemweisen Beschleunigung gegenüber PyTorch eager sowie den Anteil der Probleme, bei denen das Modell schneller als torch.compile ist
  • Jedes Test-Sample in Kernel Bench L3 läuft in einem isolierten Docker-Container mit einer H100-80GB-GPU; der Internetzugang ist auf die CUTLASS-Codebasis und die offizielle CUDA-Dokumentation beschränkt
  • Kernel Bench L3 verwendet ein Limit von 500 Tool-Aufrufen und einen frühen Abbruch nach 100 Zügen ohne Verbesserung, erkennt potenzielles Hacking-Verhalten mit GPT-5.4(xhigh) und misst Kernel-Level-Timing mit CUPTI
  • MRCR-v2 ist ein 128K-Kontext-Teilset mit 8 Nadeln und übernimmt das Protokoll mrcr_v2 aus Google DeepMind eval_hub

Assistent für kollaborative Produktivität

  • Qwen3.7-Max zielt auf die Rolle eines fortgeschrittenen Kollegen für reale Arbeitsproduktivität und übernimmt komplexe Informationssynthese, tiefgehende Datenanalyse und Modellierung sowie die Erstellung publikationsfähiger Dokumente und Visualisierungen
  • Es bietet grundlegende Kompatibilität mit wichtigen Agent-Harnesses und unterstützt bei langfristigen Aufgaben autonome Planung und kontinuierliche Ausführung über viele Stunden
  • Durch Tausende von Tool-Aufrufen und Dutzende Verbesserungsiterationen steigert es die Qualität der Ausgabe schrittweise
  • Es wird dargestellt, dass komplexe Projekte, für die spezialisierte Teams normalerweise 1 bis 2 Wochen benötigen, in wenigen Stunden end-to-end abgeschlossen werden können

Agent-Training und Generalisierung

  • Aufbauend auf dem in Qwen3.5 eingeführten Ansatz des Environment Scaling erweitert Qwen3.7 Qualität und Vielfalt der Lernumgebungen für Agenten
  • Dahinter steht die Beobachtung, dass Agentenfähigkeiten ebenso über vielfältige Trainingsumgebungen generalisieren wie Sprachmodelle über vielfältige vortrainierte Texte
  • Alle Benchmarks in der Evaluation bestehen aus vollständig neuen Out-of-Domain-Umgebungen, die nicht im Training enthalten waren
  • Environment Scaling erzeugt eine klare und konsistente Verbesserungskurve; Qwen3.7-Max erreicht einen durchschnittlichen Rang unter den Top 3 nahe bei Claude-4.6-Opus-Max
  • Die Leistungssteigerung auf Teilmengen der Benchmarks ist so konsistent, dass sie die relative Verbesserung auf den übrigen Benchmarks und im Gesamtdurchschnitt vorhersagt; das deutet eher auf Fähigkeitsgeneralisierung als auf benchmark-spezifische Optimierung hin
  • Zusätzliche Analysen zu Skalierungsdynamik und Methodik sollen in einem künftigen technischen Bericht behandelt werden

Cross-Harness-Generalisierung

  • Die Infrastruktur der Rollout-Umgebung trennt jede Trainingsinstanz in die drei orthogonalen Komponenten Task, Harness und Verifier
  • Unterstützt werden verschiedene Harnesses und ihre Versionen; verwendet werden reale Umgebungen statt synthetischer Proxys
  • Das getrennte Design ermöglicht kombinatorische Skalierung, indem dieselbe Aufgabe mit minimalen Zusatzkosten über verschiedene Harness-Typen, Versionen und Verifier kombiniert werden kann
  • Durch Cross-Harness- und Cross-Verifier-RL-Training, bei dem dieselbe Aufgabe in unterschiedlichen Harness-Konfigurationen erscheint, soll das Modell verallgemeinerbare Problemlösungsstrategien statt Abkürzungen eines bestimmten Harnesses lernen
  • In QwenClawBench und CoWorkBench zeigt Qwen3.7-Max starke und konsistente Leistung unabhängig vom bei der Evaluierung verwendeten Harness

Selbst-Evolution in realen Umgebungen

  • Extend Attention ist der produktionsreife Operator für Multihead-Attention mit variabler Länge in SGLang
  • Das Testszenario behandelt einen speichergebundenen und latenzsensitiven Kernel für LLM-Serving, der zusammen mit MTP die Attention-Scores zwischen neu erzeugten Tokens und einem Prefix-KV-Cache mit bis zu 32K Einträgen berechnet
  • Die Referenzimplementierung ist die offizielle Triton-Implementierung von SGLang
  • Kernel-Optimierung auf unbekannter PPU-Architektur

    • Qwen3.7-Max optimiert diesen Kernel auf einer ECS-Instanz mit einer T-Head ZW-M890 PPU, die es im Training nie gesehen hatte
    • Es startet ohne vorherige Profildaten, Hardware-Dokumentation oder Beispiel-Kernel für diese Architektur
    • Der leere Workspace enthielt nur die Aufgabenbeschreibung, die bestehende SGLang-Implementierung und das Evaluierungsskript
    • Während einer rund 35-stündigen ununterbrochenen autonomen Ausführung führte es 1.158 Tool-Aufrufe und 432 Kernel-Evaluierungen durch
    • Diagnose von Kompilierungsfehlern, Behebung von Korrektheitsbugs, Identifikation von Engpässen per Runtime-Profiling und Redesign der Kernel-Architektur wurden vollständig eigenständig durchgeführt
    • Das Endergebnis ist über mehrere Workloads hinweg eine geometrische mittlere Beschleunigung um das 10,0-Fache gegenüber Triton
    • Auch nach 30 Stunden wurden noch sinnvolle Verbesserungen gefunden; das zeigt die Produktivität langfristiger autonomer Optimierung
  • Optimierungspfad

    • Mit Split-KV-Parallelisierung wurde der Prefix-KV-Cache pro Query auf mehrere Thread-Blöcke aufgeteilt und ein Reduction-Kernel mit Online-Softmax-Rescaling zum Zusammenführen partieller Ergebnisse eingeführt; das verbesserte die Leistung in etwa 2 Stunden von 0,33x auf 2,58x
    • Durch Ersetzen von cudaMalloc/cudaFree pro Aufruf durch vorallozierte torch::empty-Tensoren, Entfernen von synchronem cudaMemcpy und zweifaches Unrolling der inneren Schleife wurde in etwa 2,5 Stunden eine 5,37-fache Beschleunigung erreicht
    • Durch Ersetzen eines festen Split-Divisors durch eine workload-basierte Heuristik und höhere SM-Wave-Occupancy auf einer 36-SM-Architektur wurde in etwa 3 Stunden 6,85x erreicht
    • Durch Kombination aus Entfernen gemeinsamer Speicherbarrieren, registerbasiertem K/V-Laden, persistentem statischem Tensor, batched Softmax-Update und Vorab-Skalierung von Q wurde im Zeitraum von 3 bis 25 Stunden 8,50x erreicht
    • Ein auf MTP γ=4 spezialisierter Kernel verarbeitet 4 Query-Tokens gleichzeitig pro Block und teilt K/V-Ladevorgänge zwischen Queries; damit wurden im Zeitraum von 32 bis 35 Stunden 10,0x erreicht
  • Vergleich unter gleichen Bedingungen

    • GLM 5.1 erreichte 7,3x, Kimi K2.6 5,0x, DeepSeek V4 Pro 3,3x und Qwen3.6-Plus 1,1x
    • Früh gestoppte Modelle beendeten die Sitzung freiwillig, nachdem sie fünfmal in Folge keine Tool-Aufrufe mehr ausgegeben hatten und urteilten, dass kein weiterer Fortschritt möglich sei
  • NVIDIA-GPU-Kernel-Generierung

    • Qwen3.7-Max erzeugt nicht nur PPU-Kernel, sondern auch produktionsreife Kernel auf verschiedenen NVIDIA-GPUs
    • In KernelBench L3 kann Qwen3.7-Max in 96 % der Szenarien beschleunigte Kernel erzeugen
    • Vergleichswerte sind Opus-4.6 mit 98 %, GLM 5.1 mit 78 %, Kimi K2.6 mit 80 %, DeepSeek V4 Pro mit 54 % und Qwen3.6-Plus mit 48 %
  • Merkmale langfristiger autonomer Agenten

    • Über mehr als 1.000 Tool-Aufrufe hinweg zeigt es langfristige Reasoning-Persistenz, indem es Optimierungsstrategien beibehält, ohne Kontextverlust oder Regression
    • Es zeigt In-Context-Generalisierung, indem es auf im Training nicht gesehenen Architekturen konkurrenzfähige Kernel auf Basis von Runtime-Feedback statt auswendig gelerntem Hardwarewissen erstellt

Monitoring von Reward Hacking

  • Qwen3.7-Max ist in das RL-Monitoring von Software-Engineering-Aufgaben integriert und bildet ein Framework für Self-Monitoring von Reward Hacking und regelbasierte Selbst-Evolution
  • In RL-Experimenten über mehr als 80 Stunden durchsucht und reproduziert es autonom Lerntrajektorien und führt mehr als 10.000 Aufrufe aus
  • Es identifiziert systematisch potenzielle Hacking-Muster wie Versuche, Beschränkungen zu umgehen, um auf GitHub an die richtige Antwort zu gelangen
  • Es führt Regelvalidierung, Gegenbeispiel-Mining und iterative Optimierung durch
  • Durch mehrere Runden regelbasierter Selbst-Evolution wurden 13 neue heuristische Regeln ergänzt und 1.618 Hacking-Fälle korrekt markiert
  • Dieser Prozess sichert die Stabilität der RL-Belohnung und fördert die kontinuierliche Selbstverbesserung des Modells als hochentwickelter Software-Engineering-Agent

Langfristige Planung und Ausführung im Startup-Management

  • Im Framework der Dynamic Cumulative Survival Games wird die zeitliche Komplexität von Trainingsaufgaben skaliert, um die Fähigkeiten zu langfristiger Planung und Ausführung zu stärken
  • In sequentiellen Entscheidungsabläufen mit mehr als tausend Schritten wird die Konsistenz der Agent-Policy erhöht, sodass Hypothesenbildung, strategieanpassung auf Basis von Umweltfeedback sowie die Akkumulation langfristiger Erfahrung und Erinnerung aufrechterhalten werden
  • Auch über lange Zeithorizonte wird ein stabiler Ausführungsrhythmus beibehalten und Widerstand gegen Kontextdegradation und Abweichen von Anweisungen erzielt
  • YC-Bench-Ergebnisse

    • YC-Bench ist ein Benchmark, der den gesamten einjährigen Lebenszyklus eines Startups simuliert
    • Der Agent muss über Hunderte Entscheidungsrunden hinweg Personaleinsatz steuern, Verträge prüfen und böswillige Kunden identifizieren und dabei trotz steigender Personalkosten die Gewinnmarge erhalten
    • Qwen3.7-Max erzielt einen Gesamtumsatz von 2,08 Millionen Dollar und damit die doppelte Leistung von Qwen3.6-Plus mit 1,05 Millionen Dollar sowie das 5,9-Fache von Qwen3.5-Plus mit 352.000 Dollar
    • Die Zahl der abgeschlossenen Aufgaben beträgt 237
    • Es übernimmt das Auffinden potenzieller Kunden, die Identifikation bösartiger Fallen samt Blacklisting, die Priorisierung stabiler Erlösquellen und die autonome Erholung in mittelfristigen Krisen
    • Am Ende konvergiert es zu einer stabilen und hocheffizienten Ausführungsschleife

Mit Qwen3.7 entwickeln

  • Qwen3.7-Max wird bald über Alibaba Cloud Model Studio verfügbar sein und lässt sich in populäre Agent-Frameworks und Coding-Assistenten integrieren
  • API-Nutzung

  • Frontend-Coding

    • Qwen3.7-Max kann aus einem einzelnen Prompt interaktive Webanwendungen erzeugen, einschließlich Three.js-3D-Szenen, Canvas-Animationen, vollständigen Seitenlayouts und dynamischem SVG
    • Ein Beispiel-Prompt verlangt eine HTML-Implementierung mit Kameraerkennung von Öffnen und Schließen der Handfläche zur Steuerung von Kontraktion und Ausbreitung eines Partikelschwarmes sowie mit den Texten hello, world und I’am Qwen, die durch Finger-Gesten 1 bzw. 2 geformt werden, samt 3D-Rotationseffekt
  • Office-Assistent

    • Qwen3.7-Max kann über Tool-Integration als intelligenter Office-Assistent arbeiten
    • Im Beispiel liest es Formatvorgaben für Hochschularbeiten und formatiert einen unordentlichen Entwurf mithilfe autonomer Aufrufe des Tools office-cli neu
    • Es überarbeitet Seitenlayout, Überschriftenstil, Schriftarten, Ränder, Inhaltsverzeichnis und Literaturverzeichnisformat
    • Die Beispielarbeit wurde für die Demo von einer KI erzeugt
  • Navigationsagent in der physischen Welt

    • Qwen3.7-Max kann über Tool-Aufrufe einen Roboterhund steuern
    • Es übernimmt physisches Verständnis, Planung, Gedächtnis und Entscheidungsfindung in einer realen Umgebung
    • Verwendet werden das Robotik-Agent-Harness Qwen-RobotClaw, das navigationsbasierte Modell Qwen-RobotNav und mehrere mit dem Qwen-plus-Modell gebaute Vision-Tools
    • Das linke Panel der Demo zeigt den Interaktionsfluss der Tool-Aufrufe des Agenten über 20 Minuten in der physischen Welt, in der Mitte die Ich-Perspektive entlang der Trajektorie des vierbeinigen Roboters und rechts das Langzeitgedächtnis des Agenten
  • Integration in Coding-Assistenten

    • Qwen3.7-Max ist in populäre Agent-Frameworks und Coding-Assistenten integriert
    • Claude Code

      • Die Qwen-API unterstützt das Anthropic-API-Protokoll und kann daher direkt in Claude Code verwendet werden
      • ANTHROPIC_MODEL und ANTHROPIC_SMALL_FAST_MODEL werden auf qwen3.7-max gesetzt, ANTHROPIC_BASE_URL auf https://dashscope-intl.aliyuncs.com/apps/anthropic
    • OpenClaw

      • OpenClaw kann über Model Studio verbunden werden
      • Nach dem Setzen von DASHSCOPE_API_KEY wird openclaw dashboard ausgeführt; in ~/.openclaw/openclaw.json wird modelstudio/qwen3.7-max als Standardmodell festgelegt
      • Das Konfigurationsbeispiel enthält contextWindow 1000000, maxTokens 65536 und reasoning true
    • Qwen Code

      • Qwen Code ist tief für die Qwen-Serie optimiert
      • Nach Installation mit npm install -g @qwen-code/qwen-code@latest wird es mit dem Befehl qwen ausgeführt

1 Kommentare

 
GN⁺ 3 시간 전
Hacker-News-Kommentare
  • Bei AA-omniscience liegt die Quote nicht-halluzinierter Antworten auf Spitzenniveau und ist besser als bei Opus 4.7, Gemini 3.1 Pro und GPT5.5. Glückwunsch an das Team

    • Ich habe auf diesen Link Bezug genommen: https://artificialanalysis.ai/evaluations/omniscience?models...
      Man musste es direkt im Chart hinzufügen statt in der Standardansicht, und ich frage mich, ob es im Datensatz die niedrigste Halluzinationsrate hat
    • Wenn man viele dieser chinesischen Spitzenmodelle nutzt, ist die größte Frage, wie es um die Token-Effizienz steht
      Wenn man zum Beispiel Step 3.5 Flash lokal betreibt, ist es insgesamt erstaunlich kompetent, aber die Token-Effizienz ist so schlecht, dass es gemessen an der tatsächlichen Laufzeit meist hinter anderen Modellen zurückfällt. Selbst nachdem ich MTP-Support in llama.cpp hineingehackt hatte, wurden aus 20tk/s in Spark nur etwa 30tk/s, und obwohl es mit drei Heads trainiert wurde, war MTP 2 der Sweet Spot
      Bei DeepSeek-Modellen und Qwen 3.5 Plus ist es ähnlich: Verglichen mit Opus, besonders GPT 5.5, verbrauchen sie für dieselbe Antwort deutlich mehr Tokens
      Ich hoffe wirklich, dass Qwen 3.7 das verbessert hat, und will es schnell ausprobieren. Nebenbei: DeepSeek v4 Flash in Spark laufen zu lassen, war absurd faszinierend, und wenn antirez das sieht, würde ich ihm gern danken
    • Dass die „Quote nicht-halluzinierter Antworten“ perfekt ist, muss für sich genommen nicht viel bedeuten. Auch solche Tests können von Menschen erzeugte Halluzinationen enthalten
      Letztlich bedeutet es nur, wie gut das Modell mit den Überzeugungen der Gruppe übereinstimmt, die den Test erstellt hat, und diese können wahr oder falsch sein
    • Wirklich großartig, und der Fortschritt ist beeindruckend. Ich frage mich auch, wie viele eigene Chips beim Training eingesetzt wurden
    • Ich frage mich, ab welchem Punkt ein Zustandsübergang der Fähigkeiten eintritt. Bei 5 %? Bei 1 %?
  • Letzte Nacht kam ich gefährlich nah an das wöchentliche Claude-Code-Limit heran und habe Claude daher Qwen3.6 mit llama.cpp und OpenCode einrichten lassen. Ehrlich gesagt ist das eine großartige kostenlose Alternative zu Claude Code und für viele kleinere und weniger komplexe Aufgaben völlig gut genug
    Ich freue mich darauf, auch diese neue Version auszuprobieren. Es ist sehr beeindruckend, dass Open-Source-Modelle der Front so nahe gekommen sind

    • Ich würde gern wissen, auf welcher Maschine und mit welchem Modell du das betreibst
      Letzte Woche habe ich auf einem M2 MacBook Pro 32GB mit llama.cpp und LM Studio qwen3.6-27b Q6_k GUFF ausprobiert, und beides kam kaum auf 1 Token pro Sekunde
      Ich weiß nicht, welche Geschwindigkeit man erwarten sollte. Als ich vor zwei Jahren mit llama.cpp Modelle aus der Llama-3-34b-Familie betrieben habe, erinnere ich mich an ein paar Tokens pro Sekunde, daher bin ich unsicher, ob ich die Konfiguration komplett vermasselt habe oder ob meine Erwartungen unrealistisch sind
      Vielleicht ist qwen 3.x aus irgendeinem Grund langsamer. Ich frage mich auch, ob es eine Mixture-of-Experts-(MoE)-Architektur ist. Ich erwarte keine sofortige Reaktion, aber bei der aktuellen Geschwindigkeit ist es praktisch kaum nutzbar
    • Diese neue Version ist nichts, was man lokal laufen lässt. Es ist ein Cloud-Modell, und selbst wenn die Gewichte veröffentlicht würden, wären sie vermutlich zu groß
    • Ich würde gern genau wissen, welches Modell du verwendest. Auch welche Parameter und Quantisierung sowie welche Hardware würde mich interessieren
      Ich würde auch gern wissen, ob du MCPs oder andere Tools zur Performance-Optimierung nutzt, etwa context-mode oder dynamisches Context-Pruning. Ich habe schon einiges mit lokalen Modellen gemacht, aber mit opencode erst angefangen. Bisher sind die Ergebnisse nicht großartig, aber ich hoffe wirklich, dass es bei einfachen Aufgaben gut funktioniert. Außerdem gibt es das Problem, dass eine frisch installierte opencode-Instanz selbst im Idle iTerm zu 100 % CPU-Auslastung bringt
    • Schade, dass Qwen Max normalerweise ein proprietäres Modell ist
    • Ich frage mich, wie sich Qwen 3.6 im Vergleich zu Sonnet 4.6 anfühlt. Realistisch gesehen ist das das Modell, das viele tatsächlich häufig verwenden
      Wenn ich alle Code-bezogenen Aufgaben mit Opus 4.7 erledigen würde, wäre meine Monatsrechnung 10- bis 20-mal höher, als wenn ich Sonnet nutzen könnte
  • Da sie offenbar mehr proprietäre Modelle herausbringen, wäre es wirklich schön, wenn sie mit einem der großen US-Hyperscaler kooperieren würden, sodass man diese Modelle über einen in den USA ansässigen Anbieter nutzen kann
    Ich verstehe gut, warum das nicht sinnvoll oder nicht in ihrem Interesse sein könnte. Und es stimmt auch, dass die USA so etwas umgekehrt ebenfalls keineswegs automatisch tun. Trotzdem wäre es gut, das in echten Produktions-Workloads vernünftig testen zu können

    • Solange die US-Hyperscaler nicht umgekehrt dasselbe tun, hätte ich gern, dass der jetzige Zustand bestehen bleibt. Wenn alle mit dem Teilen zufrieden sind, sollte es in beide Richtungen geteilt werden; andernfalls können die US-Hyperscaler wie bisher ruhig isoliert bleiben
    • Qwen3.6-Plus ist bei Fireworks verfügbar
    • Alibaba Cloud hat ein Rechenzentrum in Mexiko
    • Da Fireworks Qwen 3.6 Plus hostet, könnten sie vermutlich auch Qwen 3.7 Plus anbieten
    • ChatLLM unterstützt QWEN, aber ich frage mich, ob man das aus US-Sicht als sicher betrachten kann
  • Die Zahlen selbst sind sehr gut. Aber ich verstehe immer noch nicht, warum in solchen Beiträgen nicht mit den aktuellsten Konkurrenzmodellen verglichen wird. Es ist ja nicht so, als würden die Leute das nicht bemerken

    • Niemand veröffentlicht Zahlen, mit denen er schlechter aussieht als die Konkurrenz
      OpenAI und Anthropic machen im Grunde dasselbe, weil sie oft unterschiedliche Evaluations-Datensätze verwenden
    • Wenn es nur ein kleiner Versionssprung ist, finde ich das verzeihlich. Übrigens scheinen x.5-Versionen bei großen Sprachmodellen in letzter Zeit aus irgendeinem Grund faktisch wie Major-Releases behandelt zu werden
      Selbst bei großen Sprachmodellen fallen solche Beiträge nicht einfach vom Himmel. Wenn man einen Ziel-Benchmark-Satz für das eigene Modell hat, ist es ein eigener Pflegeaufwand, parallel ein Set an Modellen beizubehalten, die sich sauber direkt vergleichen lassen
    • Vermutlich steckt dahinter die Logik, dass man so nur N Monate hinter der aktuellen Spitze zu liegen scheint
      Realistisch betrachtet hofft man wohl einfach, dass die Leser die Details nicht bemerken
      Qwen-Modelle sind bei offenen Gewichten großartig, aber frühere Releases waren in der Praxis nicht so gut, wie die Benchmarks vermuten ließen. Sie wissen, dass Benchmark-Optimierung funktioniert, und richten sich deshalb danach
    • Ich denke, das ist Teil des Erwartungsmanagements. Es kann auch damit zusammenhängen, dass man für ein bestimmtes Modell Distillation oder einen Evaluierungs-Harness aufgebaut hat
      Wenn man sagt, es sei mit 4.7 vergleichbar, verankert sich dieses Referenzmodell entsprechend im Kopf
    • Ehrlich gesagt war die frühe Version von Opus-4.6 viel besser als das, was jetzt als 4.7 angeboten wird. Wenn es nur auf diesem Niveau laufen würde, wäre ich durchaus bereit, komplett zu wechseln
  • Ich frage mich, ob das auch wieder so ein Typ ist, bei dem eine Woche später ein Hugging-Face-Release kommt. Oder weiß man sicher, dass es proprietär bleibt

    • Korrigiert mich bitte, wenn ich falsch liege, aber meines Wissens werden Max-Modelle normalerweise nicht veröffentlicht
  • Ich hoffe auf weitere Open-Weights-Releases von Qwen. Besonders auf 122B und 397B

    • Ja. Der Bereich von etwa 60 bis 150B ist auf aktueller Prosumer-Hardware wirklich ein sehr guter Sweet Spot, daher wäre ein Modell wie 120b-a14b großartig
    • Ich persönlich freue mich mehr auf stärker quantisierte kleinere Modelle wie 9B
    • Ich freue mich mehr auf qwen3.7 9b und 72b. Typischerweise ist ihre Leistung im Verhältnis zur Größe sehr gut
    • Ich warte immer noch auf qwem image-edit 2.0 open weights
    • Autsch. Ich habe gerade erst angefangen, mit solchen Dingen herumzuspielen, und meine Umgebung ist nur ein gewöhnlicher Gaming-Desktop mit einer 12GB-3060 und 32GB RAM
      Schon alles oberhalb von Qwen 9B birgt das Risiko, dass die Maschine komplett einfriert
  • In den Benchmarks fehlen Opus 4.7, GPT5.5 und Gemini Flash 3.5

  • Ich nutze pi agent und würde gern gehostete Qwen-Modelle ausprobieren. Ich frage mich, was gute Optionen sind
    Der offizielle Anbieter enthält Alibaba nicht. Ich frage mich auch, ob Dienste wie OpenRouter schnell genug sind. DeepSeek v4 wird über solche Proxy-Dienste nämlich stark gedrosselt

    • Ich nutze auf pi + openrouter viel qwen3.6-max-preview. Bisher hatte ich weder Stabilitäts- noch Performance-Probleme
  • Ich habe gerade erst angefangen, mit lokalen großen Sprachmodellen zu experimentieren, und ehrlich gesagt ist das ziemlich beeindruckend. Ich nutze ein Workstation-Notebook mit NVIDIA A1000 (6GB VRAM) und 96GB RAM
    Die GPU habe ich fast nie genutzt, höchstens gelegentlich für CAD-Design oder OpenCV-basiertes Machine Learning. Ich habe llama3:latest ausprobiert, und das lief ziemlich schnell. Ich frage mich, wie Qwen auf meinem System laufen würde

  • Das Muster, dem ich am meisten vertraue, besteht darin, für jede externe Aktion kleine Verifizierungsartefakte hinzuzufügen. Agenten scheitern oft schneller an stiller Zustandsdrift als an mangelnder Tiefe des Schlussfolgerns

    • Könntest du das näher erläutern?