7 Punkte von GN⁺ 27 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen3.6-Plus ist ein umfassend aufgerüstetes Modell, das nach Qwen3.5 veröffentlicht wurde und die agentische Coding-Fähigkeit sowie die multimodale Reasoning-Leistung deutlich verbessert
  • Es unterstützt ein 1M-Token-Kontextfenster und ist über die Alibaba Cloud Model Studio API sofort nutzbar
  • In Coding-, Sprach-, multimodalen und Agenten-Benchmarks erzielt es Leistung auf Spitzenniveau der Branche und verbessert die Fähigkeit zum Management komplexen Codes und zur Ausführung langfristiger Planung
  • Über die Option preserve_thinking bleibt der Reasoning-Kontext erhalten, und die Integration mit verschiedenen Coding-Agenten wie OpenClaw, Claude Code und Qwen Code wird unterstützt
  • Es entwickelt sich zu einer multimodalen agentischen KI, die von der visuellen Wahrnehmung bis zur Handlungsentscheidung arbeiten kann, und zielt künftig auf die Open-Source-Veröffentlichung kleinerer Modelle sowie den Ausbau zu hochautonomen Super-Agenten

Zusammenfassung der wichtigsten Funktionen und Leistungen von Qwen3.6-Plus

  • Qwen3.6-Plus ist eine große Upgrade-Version, die nach der Qwen3.5-Serie veröffentlicht wurde, und stärkt insbesondere die agentische Coding-Fähigkeit sowie die multimodale Reasoning-Leistung deutlich
  • Es ist über Alibaba Cloud Model Studio sofort per API nutzbar und bietet standardmäßig ein 1M-Token-Kontextfenster
  • Auf Basis von Community-Feedback wurden Stabilität und Zuverlässigkeit verbessert; Ziel ist ein „vibe coding“-Erlebnis in realen Entwicklungsumgebungen

Leistungsbewertung

  • In verschiedenen Sprach-, Coding-, multimodalen und Agenten-Benchmarks erreicht es Ergebnisse auf dem Niveau der Klassenbesten
  • Im Bereich Coding-Agenten erzielt es in wichtigen Benchmarks wie SWE-bench, Terminal-Bench und Claw-Eval Resultate, die führenden Modellen der Branche entsprechen oder diese übertreffen
  • Bei allgemeinen Agenten- und Tool-Nutzungsszenarien zeigt es in TAU3-Bench, DeepPlanning und MCPMark durchgängige Verbesserungen
  • Auch bei STEM-Reasoning, Informationsextraktion aus sehr langen Texten und mehrsprachiger Anpassungsfähigkeit wurden neue Bestwerte erreicht
  • Das Modell integriert logisches Reasoning, Speicher und Tool-Ausführung organisch und stärkt damit die Fähigkeit zur Lösung realer Probleme wie komplexes Code-Management oder langfristige Planung

Multimodale Leistung

  • Durch fortgeschrittenes multimodales Reasoning wurden große Fortschritte bei Dokumentenverständnis, Analyse der physischen Welt, Video-Reasoning und visuellem Coding erzielt
  • Hinsichtlich der Praxistauglichkeit in realen Umgebungen liefert es stabile Leistung bei Texterkennung, Objekterkennung und präziser visueller Wahrnehmung in tatsächlichen Business-Szenarien
  • Durch die Vision-Language-Integration entwickelt es sich über reine Einzelleistung hinaus zu einer workflow-orientierten agentischen KI
  • In verschiedenen Benchmarks wie RealWorldQA, OmniDocBench, CountBench und VideoMME zeigt es wettbewerbsfähige Ergebnisse gegenüber GPT5.2, Claude 4.5 und Gemini-3 Pro

API und Entwicklungsintegration

  • Über die Alibaba Cloud Model Studio API werden mit OpenAI und Anthropic kompatible Protokolle unterstützt
  • Neue API-Option preserve_thinking hinzugefügt
    • Bewahrt den Reasoning-Inhalt früherer Gespräche und verbessert dadurch die Konsistenz agentischer Aufgaben sowie die Token-Effizienz
    • Standardmäßig deaktiviert (false); bei Aktivierung bleibt der vollständige Reasoning-Kontext erhalten
  • Die API kann über den OpenAI-kompatiblen Endpunkt chat.completions genutzt werden; Beispielcode wird bereitgestellt

Coding- und Agenten-Integration

  • Qwen3.6-Plus lässt sich mit Third-Party-Coding-Assistenten wie OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline und OpenCode integrieren
  • Besonders in der Frontend-Entwicklung wurde die Fähigkeit gestärkt, komplexe Projekte wie 3D-Szenen, Spiele und Webdesign zu bearbeiten
  • OpenClaw-Integration

    • Ein selbst gehosteter Open-Source-AI-Coding-Agent, der in Verbindung mit Model Studio eine terminalbasierte agentische Coding-Umgebung bereitstellt
    • Nutzbar durch Hinzufügen des Qwen3.6-Plus-Modells in der Konfigurationsdatei (openclaw.json)
    • Das Modell unterstützt aktiviertes Reasoning, Text- und Bildeingaben sowie ein 1M-Kontextfenster
  • Qwen Code-Integration

    • Ein für die Qwen-Serie optimierter Open-Source-AI-Coding-Agent für das Terminal
    • Unterstützt das Verständnis komplexer Codebasen, die Automatisierung wiederkehrender Aufgaben und schnelle Deployments
    • Nach der Installation in einer Node.js-Umgebung ist die Authentifizierung über den Befehl /auth möglich
  • Claude Code-Integration

    • Dank Kompatibilität mit dem Anthropic-API-Protokoll kann Qwen3.6-Plus auch in der Claude Code CLI verwendet werden
    • Ausführung nach Konfiguration von Modellname (qwen3.6-plus) und API-Endpunkt über Umgebungsvariablen

Visuelle Agenten und multimodale Erweiterung

  • Der Entwicklungspfad von visueller Wahrnehmung → multimodalem Reasoning → agentischer Ausführung wird konsequent weiter verstärkt
  • Es kann nicht nur einfache Erkennung leisten, sondern auch Beziehungen visueller Informationen analysieren und Handlungsentscheidungen treffen
  • Unterstützt praktische visuelle Aufgaben wie Dokumentenverständnis, Diagrammanalyse, UI-Erkennung und präzise Positionsbestimmung
  • Im Bereich Videoverständnis kann es zeitliche Informationen und Beziehungen zwischen Frames verarbeiten und damit dynamische Inhalte analysieren
  • In GUI-Agenten-Szenarien erkennt es den Bildschirminhalt und führt mehrstufige Planung und Ausführung durch

Ausblick

  • Qwen3.6-Plus ist eine Version mit greifbaren Fortschritten bei agentischem Coding und multimodaler KI und stärkt die Grundlagen des Entwickler-Ökosystems
  • Bald sollen die gesamte Qwen3.6-Serie veröffentlicht und kleinere Modelle als Open Source freigegeben werden
  • Langfristiges Ziel ist die Entwicklung zu einem hochautonomen Super-Agenten, der komplexe Langzeitaufgaben auf Repository-Ebene ausführen kann

1 Kommentare

 
GN⁺ 27 일 전
Hacker-News-Kommentare
  • Dieses Modell ist diesmal nur gehostet verfügbar und hat keine offenen Gewichte (open weight).
    Früher hat man sich mit offenen Modellen einen guten Ruf erarbeitet, aber jetzt ist der Wechsel schwierig, wenn man als Konkurrent von Claude oder ChatGPT wahrgenommen werden will.
    Tatsächlich war die kostenlose Freigabe kleiner Modelle wohl keine Großzügigkeit, sondern eher eine Werbestrategie.
    Auch dass mit Opus 4.5 statt 4.6 verglichen wurde, wirkt wie eine absichtliche Irreführung.
    Trotzdem ist der Markt für günstige Modelle, auch wenn sie nicht SOTA sind, ziemlich groß.
    Allerdings ist in so einem Markt die Markentreue gering, sodass viele sofort wechseln, sobald ein etwas besseres Modell erscheint.

    • Sie haben zwar gesagt, dass später „kleine Variantenmodelle“ veröffentlicht werden sollen, aber es gibt keine konkreten Angaben dazu.
      Ob es wie bei Qwen 3.5 eine 300B-Variante geben wird, ist ebenfalls unklar. Auch im offiziellen Blog wird das nicht erwähnt.
    • Ach so, deshalb gab es also zuletzt Abgänge im Qwen-Team.
    • In letzter Zeit frage ich mich eher, wie es bei solchen Modellen mit der Rentabilität aussieht.
      Es kommen immer mehr offene Modelle heraus, die sogar auf günstiger Hardware laufen, und da fragt man sich, wie AI-Unternehmen ihre Marge verteidigen wollen.
    • Tatsächlich fühlt sich Opus 4.5 besser an als 4.6.
      4.6 war im Grunde nur ein Update zur Kostensenkung, bei dem Benchmarks so angepasst wurden, dass es besser aussieht.
    • Wenn man mehrere Modelle in Produktion einsetzt, ist die „Persönlichkeit“ des Modells wichtig.
      Zum Beispiel, ob es Anweisungen gut befolgt, keine Tokens verschwendet und nicht vom Skript abweicht.
      Chinesische Modelle sind in dieser Hinsicht sehr konkurrenzfähig und liefern ähnliche Qualität zu 70–90 % niedrigeren Preisen.
  • Ich verstehe, warum Qwen mit Opus 4.5 oder Gemini Pro 3.0 verglichen hat.
    Aber das gleich als irreführend zu bezeichnen, halte ich für übertrieben.
    Bei AI-Modellen erscheinen jedes Quartal neue Versionen, aber deshalb hat man die Leistung der vorherigen Generationen ja nicht vergessen.
    Ich habe GLM-5 und Kimi K2.5 ausprobiert, und die waren ziemlich gut. Wenn das neue Qwen-Modell auf diesem Niveau liegt, ist das beeindruckend.
    Auch Qwen 3.5-plus und 3-Max waren bereits nicht öffentlich zugängliche Modelle, also ist das nichts Neues.
    Schade, dass es ein geschlossenes Modell ist, aber der Wettbewerb um SOTA kommt am Ende den Verbrauchern zugute.

    • Das Problem ist nicht nur, womit verglichen wird, sondern die Aufrichtigkeit der Vergleichsmethode.
      Es wirkt ein bisschen so, als würde Apple ein neues iPhone vorstellen und es mit einem alten Android vergleichen — das untergräbt das Vertrauen.
    • Opus 4.5 war auch schon mehr als gut genug.
      Außerdem kostet Opus 4.5 $25 pro Ausgabetoken, während dieses Modell bei etwa $6 liegt, also bei einem Viertel des Preises.
  • Ich habe ziemlich gute Pelican-Ergebnisse bekommen.
    Erzeugt habe ich sie über die API von Alibaba Cloud Model Studio, wofür man ein Konto anlegen und PayPal verknüpfen musste.
    Inzwischen kann man es aber bei OpenRouter kostenlos nutzen.

    • Dazu gab es den Witz, Pelican hole gerade die Führungsgruppe (drafting peloton) ein.
    • Es gab auch den Scherz, dass als Nächstes ein fahrradfahrender Pelikan trainiert werde. Irgendwas mit „globalem Benchmark“.
  • An diejenigen, die glauben, chinesische Forschungslabore würden mit Open Source aufhören:
    Das wird wohl nicht passieren.
    Meldet euch zum Beispiel mal für den Coding-Plan von Z.ai an — das ist fast unmöglich.
    Diesen Firmen fehlt es an Marketingkompetenz, daher haben sie außer der Veröffentlichung offener Modelle kaum eine Möglichkeit, sichtbar zu bleiben.
    Beim Vertrieb sind sie außerdem auf Kanäle wie OpenRouter oder OpenCode angewiesen.
    Letztlich ist Open Source also keine nationale Strategie, sondern das einzige Mittel zur Kommerzialisierung.

    • Dazu gab es auch den Scherz: „Dann sollen die Modelle eben ihr Marketing selbst machen.“
      Wenn sie sich nicht einmal selbst vermarkten können, könnte das sogar ein Signal für Leistungsgrenzen sein.
  • Im Unterschied zu den meisten Qwen-Modellen sind bei diesem Modell die Gewichte nicht öffentlich, und auch die Zahl der Parameter wurde nicht veröffentlicht.
    Außerdem ist es merkwürdig, dass mit Opus 4.5 verglichen wurde, obwohl Opus 4.6 schon vor zwei Monaten erschienen ist.

    • Im letzten Absatz des Blogs steht, dass bald kleine Variantenmodelle als Open Source veröffentlicht werden sollen.
      Quelle
    • Wenn Opus 4.6 erst vor zwei Monaten erschienen ist, besteht auch die Möglichkeit, dass Qwen die Vergleichstests noch nicht abgeschlossen hatte.
    • Tatsächlich waren Qwens -MAX- oder -Omni-Modelle schon immer nicht öffentlich.
  • Ich finde den Vergleich mit Opus 4.5 gar nicht so problematisch.
    Ein Vergleich mit Modellen, die ich kenne, ist für mich in der Praxis sogar nützlicher.
    Wenn ich maximale Leistung will, nehme ich ein anderes Modell, aber wenn ich nach einer günstigen Option mit ähnlicher Qualität suche, ist das absolut sinnvoll.

    • Wenn man Leistung auf dem Niveau von Opus 4.5 kostenlos bekommen kann, ist das bemerkenswert.
      Selbst wenn man es nicht für die Kernfunktionen einer App einsetzt, kann man es für weniger wichtige Teile gut verwenden.
    • Ehrlich gesagt gab es bei Opus 4.6 oder GPT 5.4 gegenüber der vorherigen Generation kaum einen spürbaren Unterschied.
      Wenn ich Leistung auf 4.5-Niveau für ein Zehntel des Preises bekommen kann, würde ich das nehmen.
  • Die Ergebnisse bei Agenten-Benchmarks sind interessant, aber ich frage mich, wie gut Qwen3.6-Plus bei der Fehlerbehebung und Wiederherstellung ist.
    Die meisten Tests behandeln nur den Happy Path,
    aber in der Praxis ist die eigentliche Frage, ob es in Schritt 3 einen Fehler machen und in Schritt 15 wieder auf Kurs kommen kann.
    Mich würde interessieren, ob das schon jemand mit solchen Stresstests in echten Entwicklungs-Workflows ausprobiert hat.

  • Ich wünschte, AI-Anbieter würden mit diesem Marketing aufhören, bei dem sie sich mit Modellen der vorherigen Generation der Konkurrenz vergleichen.
    Darauf fällt niemand herein, und am Ende leidet nur das Vertrauen in die Marke.
    Das Qwen-Modell selbst ist hervorragend, und deshalb ist es schade, dass sein Ruf durch solche Vergleichsstrategien beschädigt wird.

  • Eigentlich hat Qwen die Plus- und Max-Versionen schon seit Längerem als nicht öffentliche Modelle betrieben.
    Insofern ist diese Veröffentlichungsform nichts Neues.

  • Qwen 3.6 Plus wirkt einfach wie eine verfeinerte Version von 3.5 Plus.
    Vergleichslink