3 Punkte von GN⁺ 2025-09-13 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen3-Next ist eine neue Modellarchitektur, die entwickelt wurde, um die zukünftigen Trends längere Kontextfenster und mehr Gesamtparameter bei großen Modellen zu unterstützen, und Funktionen bietet, die Trainings- und Inferenz-Effizienz maximieren
  • Durch die Einführung eines hybriden Attention-Mechanismus und einer hochgradig spärlichen MoE-Struktur wird die Leistung bei langen Kontexten und großen Parameterkonfigurationen verbessert
  • Optimierte Trainingsstabilität und ein Multi-Token-Vorhersagemechanismus beschleunigen die Inferenzgeschwindigkeit
  • Das Modell Qwen3-Next-80B-A3B-Base erreicht eine Leistung auf dem Niveau von Qwen3-32B oder darüber, während die Trainingskosten auf unter 10 % reduziert werden
  • Die Veröffentlichung dieses Modells bringt der Open-Source-Community fortschrittliche Architektur-Innovationen und schafft eine Grundlage für mehr Intelligenz und Produktivität auf dem Weg zu Qwen3.5

Einleitung

  • In der Überzeugung, dass längere Kontextfenster und mehr Gesamtparameter die wichtigsten Trends zukünftiger großer Modelle sind, wurde mit Qwen3-Next eine neue Modellarchitektur entworfen, um die Trainings- und Inferenz-Effizienz bei langen Kontexten und großen Parameterkonfigurationen zu steigern
  • Im Vergleich zur MoE-Struktur von Qwen3 wurden mehrere zentrale Verbesserungen eingeführt, darunter ein hybrider Attention-Mechanismus, eine hochgradig spärliche MoE-Struktur, Optimierungen der Trainingsstabilität sowie ein Multi-Token-Vorhersagemechanismus für schnellere Inferenz
  • Auf Basis dieser Architektur wurde das Modell Qwen3-Next-80B-A3B-Base trainiert, ein Modell mit 80 Milliarden Parametern, bei dem während der Inferenz nur 3 Milliarden Parameter aktiviert werden
  • Dieses Basismodell erreicht eine Leistung auf dem Niveau des dichten Modells Qwen3-32B oder leicht darüber, während es weniger als 10 % der Trainingskosten (GPU-Zeit) benötigt
  • Insbesondere bei Kontextlängen über 32K Tokens liefert es mehr als den 10-fachen Durchsatz und erreicht damit extreme Effizienz bei Training und Inferenz
  • Auf Basis von Qwen3-Next-80B-A3B-Base wurden zwei Post-Training-Versionen entwickelt und veröffentlicht: Qwen3-Next-80B-A3B-Instruct und Qwen3-Next-80B-A3B-Thinking
  • Durch die hybride Attention und die hochgradig spärliche MoE-Architektur wurden langjährige Stabilitäts- und Effizienzprobleme beim Reinforcement-Learning-(RL-)Training gelöst, wodurch sowohl die RL-Trainingsgeschwindigkeit als auch die Endleistung verbessert wurden
  • Qwen3-Next-80B-A3B-Instruct zeigt eine Leistung auf dem Niveau des Flaggschiffmodells Qwen3-235B-A22B-Instruct-2507 und weist bei Ultra-Long-Context-Aufgaben mit bis zu 256K Tokens deutliche Vorteile auf
  • Qwen3-Next-80B-A3B-Thinking ist bei komplexen Schlussfolgerungsaufgaben herausragend, übertrifft die teureren Modelle Qwen3-30B-A3B-Thinking-2507 und Qwen3-32B-Thinking, schlägt das Closed-Source-Modell Gemini-2.5-Flash-Thinking in mehreren Benchmarks und nähert sich der Leistung des Spitzenmodells Qwen3-235B-A22B-Thinking-2507 an
  • Qwen3-Next wurde bereits auf Hugging Face und ModelScope veröffentlicht, und jeder kann den Qwen3-Next-Service über Alibaba Cloud Model Studio und den NVIDIA API Catalog nutzen

Hauptfunktionen

  • Hybride Architektur: Gated DeltaNet + Gated Attention nutzt aus, dass lineare Attention die quadratische Komplexität standardmäßiger Attention durchbricht und bei langen Kontexten effizienter ist
    • Es wurde festgestellt, dass lineare Attention schnell, aber beim Recall schwächer ist, während Standard-Attention teuer und langsam ist. Durch systematische Experimente wurde bestätigt, dass Gated DeltaNet stärkere In-Context-Learning-Fähigkeiten bietet als gängige Ansätze wie Sliding Window Attention oder Mamba2
    • Durch die Mischung von Gated DeltaNet mit Standard-Attention im Verhältnis 3:1 (75 % der Layer verwenden Gated DeltaNet, 25 % behalten Standard-Attention) wurden durchgängig bessere Leistung und Effizienz als mit einzelnen Architekturen erreicht
    • In den Standard-Attention-Layern wurde ein Output-Gating-Mechanismus übernommen, um Low-Rank-Probleme der Attention zu verringern, und die Dimension pro Attention-Head wurde von 128 auf 256 erhöht
    • Rotary Position Encoding wird nur auf die ersten 25 % der Positionsdimension angewendet, um die Extrapolation auf längere Sequenzen zu verbessern
  • Extrem spärliches MoE: nur 3,7 % der Parameter werden aktiviert – Qwen3-Next verwendet ein hochgradig spärliches MoE-Design, bei dem pro Inferenzschritt von insgesamt 80B Parametern nur etwa 3B aktiviert werden
    • Experimente zeigen, dass der Trainingsverlust mit zunehmender Gesamtzahl der Expertenparameter bei fixer Zahl aktivierter Experten durch globales Load Balancing stetig sinkt
    • Im Vergleich zum MoE von Qwen3 (128 Experten insgesamt, 8 geroutet) skaliert Qwen3-Next auf insgesamt 512 Experten und kombiniert 10 geroutete Experten + 1 Shared Expert, um die Ressourcennutzung zu maximieren, ohne die Leistung zu verschlechtern
  • Auf Trainingsstabilität ausgelegte Architektur: Der Output-Gating-Mechanismus der Attention beseitigt Probleme wie Attention Sink und Massive Activation und stellt die numerische Stabilität des gesamten Modells sicher
    • Es wurde entdeckt, dass bei dem in Qwen3 verwendeten QK-Norm einige Layer-Norm-Gewichte anomal groß wurden; deshalb verwendet Qwen3-Next Zero-Centered RMSNorm und wendet Weight Decay auf die Normgewichte an, um unendliches Wachstum zu verhindern
    • MoE-Router-Parameter werden bei der Initialisierung normalisiert, damit zu Beginn des Trainings jeder Experte ohne Verzerrung ausgewählt werden kann, was Rauschen durch zufällige Initialisierung reduziert
    • Dieses auf Stabilität ausgerichtete Design macht kleine Experimente verlässlicher und ermöglicht einen reibungslosen Ablauf von großskaligem Training
  • Multi-Token-Vorhersage: Qwen3-Next führt einen nativen Multi-Token-Prediction-(MTP-)Mechanismus ein, der nicht nur MTP-Module mit hoher Akzeptanzrate für Speculative Decoding erzeugt, sondern auch die Gesamtleistung verbessert
    • Qwen3-Next optimiert insbesondere die mehrstufige Inferenzleistung von MTP und verbessert die Akzeptanzrate von Speculative Decoding in realen Szenarien zusätzlich durch mehrstufiges Training, das die Konsistenz zwischen Training und Inferenz aufrechterhält

Pre-Training

  • Pre-Training-Effizienz und Inferenzgeschwindigkeit: Qwen3-Next wurde auf einer gleichmäßig gesampelten Teilmenge (15T Tokens) des 36T-Token-Pre-Training-Korpus von Qwen3 trainiert
    • Es benötigt weniger als 80 % der GPU-Zeit von Qwen3-30A-3B und nur 9,3 % der Rechenkosten von Qwen3-32B, erreicht dabei aber bessere Leistung und zeigt damit hervorragende Trainingseffizienz und hohen Gegenwert
    • Dank der hybriden Architektur ist es auch in der Inferenz herausragend und liefert in der Prefill-Phase bei 4K Kontextlänge fast den 7-fachen Durchsatz von Qwen3-32B
    • Bei mehr als 32K ist es über 10-mal schneller
    • In der Decode-Phase zeigt es bei 4K Kontext fast den 4-fachen Durchsatz und behält auch oberhalb von 32K noch einen Geschwindigkeitsvorteil von über dem 10-Fachen
  • Leistung des Basismodells: Qwen3-Next-80B-A3B-Base aktiviert nur ein Zehntel der Nicht-Embedding-Parameter von Qwen3-32B-Base und übertrifft dieses dennoch in den meisten Benchmarks deutlich; gegenüber Qwen3-30B-A3B liegt es klar vorn und belegt damit außergewöhnliche Effizienz und starke Leistung

Post-Training

  • Leistung des Instruct-Modells: Qwen3-Next-80B-A3B-Instruct übertrifft Qwen3-30B-A3B-Instruct-2507 und Qwen3-32B-Non-thinking deutlich und erzielt Ergebnisse, die nahezu mit dem Flaggschiff Qwen3-235B-A22B-Instruct-2507 übereinstimmen
    • In RULER übertrifft Qwen3-Next-80B-A3B-Instruct das Qwen3-30B-A3B-Instruct-2507 mit seinen zahlreicheren Attention-Layern bei allen Längen und schlägt innerhalb von 256K Kontext sogar das insgesamt tiefere Qwen3-235B-A22B-Instruct-2507, was die Stärke des hybriden Designs aus Gated DeltaNet + Gated Attention für Long-Context-Aufgaben belegt
  • Leistung des Thinking-Modells: Qwen3-Next-80B-A3B-Thinking übertrifft die teureren Modelle Qwen3-30B-A3B-Thinking-2507 und Qwen3-32B-Thinking
    • In mehreren Benchmarks schlägt es das Closed-Source-Modell Gemini-2.5-Flash-Thinking und nähert sich bei zentralen Kennzahlen dem neuesten Flaggschiffmodell Qwen3-235B-A22B-Thinking-2507 an

Mit Qwen3 entwickeln

  • Hugging Face Transformers: Der Qwen3-Next-Code wurde in den Main-Branch von Hugging Face transformers integriert
    • In früheren Versionen können Fehler auftreten
    • Enthält einen Code-Snippet, der beispielhaft zeigt, was das Modell auf Basis eines gegebenen Eingangs erzeugt
    • Multi-Token-Prediction (MTP) ist in Hugging Face Transformers nicht allgemein verfügbar
    • Effizienz- oder Durchsatzverbesserungen hängen stark von der Implementierung ab
    • Für Inferenzaufgaben wird die Nutzung spezialisierter Inferenz-Frameworks wie SGLang und vLLM empfohlen
    • Mit flash-linear-attention und causal-conv1d kann je nach Inferenz-Setup eine bessere Effizienz beobachtet werden
    • Detaillierte Anleitungen und Anforderungen finden sich unter den entsprechenden Links
    • Für Deployment sollte mit aktuellem sglang oder vllm ein OpenAI-kompatibler API-Endpunkt erstellt werden
  • SGLang ist ein schnelles Serving-Framework für große Sprachmodelle und Vision-Language-Modelle, mit dem sich ein Server mit OpenAI-kompatiblem API-Service starten lässt
    • SGLang unterstützt Qwen3-Next im Main-Branch und kann aus dem Source Code installiert werden
    • Es wird ein Befehl zum Erzeugen eines API-Endpunkts unter http://localhost:30000/v1 mit Tensor Parallelism auf 4 GPUs und maximaler Kontextlänge von 256K Tokens bereitgestellt
    • Ein empfohlener Befehl für MTP wird mit ansonsten identischen Einstellungen bereitgestellt
    • Derzeit ist die Umgebungsvariable SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 erforderlich
    • Die Standard-Kontextlänge beträgt 256K; falls der Serverstart fehlschlägt, sollte ein kleinerer Wert wie 32768 in Betracht gezogen werden
  • vLLM ist eine Inferenz- und Serving-Engine für LLMs mit hohem Durchsatz und effizienter Speichernutzung, mit der sich ein Server mit OpenAI-kompatiblem API-Service starten lässt
    • vLLM unterstützt Qwen3-Next im Main-Branch und kann aus dem Source Code installiert werden
    • Es wird ein Befehl zum Erzeugen eines API-Endpunkts unter http://localhost:8000/v1 mit Tensor Parallelism auf 4 GPUs und maximaler Kontextlänge von 256K Tokens bereitgestellt
    • Ein empfohlener Befehl für MTP wird mit ansonsten identischen Einstellungen bereitgestellt
    • Derzeit ist die Umgebungsvariable VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 erforderlich
    • Die Standard-Kontextlänge beträgt 256K; falls der Serverstart fehlschlägt, sollte ein kleinerer Wert wie 32768 in Betracht gezogen werden
  • Agentische Nutzung: Qwen3 ist bei Tool Calling herausragend, und für die maximale Nutzung der Agentenfähigkeiten von Qwen3 wird Qwen-Agent empfohlen
    • Qwen-Agent kapselt intern Vorlagen für Tool Calling und einen Tool-Calling-Parser, wodurch die Komplexität der Implementierung stark reduziert wird
    • Zur Definition verfügbarer Tools kann eine MCP-Konfigurationsdatei verwendet werden, ebenso integrierte Tools von Qwen-Agent oder eigene integrierte Tools
  • Verarbeitung extrem langer Texte: Qwen3-Next unterstützt nativ eine Kontextlänge von bis zu 262.144 Tokens
    • Bei Dialogen, deren Gesamtlänge einschließlich Eingabe und Ausgabe diese Grenze deutlich überschreitet, wird empfohlen, RoPE-Skalierungstechniken wie YaRN zu verwenden, um lange Texte effektiv zu verarbeiten
    • Die Modellleistung wurde mit YaRN bei Kontextlängen bis zu 1 Million Tokens verifiziert
    • YaRN wird derzeit von mehreren Inferenz-Frameworks wie transformers, vllm und sglang unterstützt
    • In unterstützten Frameworks gibt es zwei Ansätze zum Aktivieren von YaRN: Änderung der Modelldatei oder Übergabe von Kommandozeilenargumenten
    • Das Feld rope_scaling zur Datei config.json hinzufügen
    • Für vllm Kommandozeilenargumente verwenden
    • Für sglang Kommandozeilenargumente verwenden
    • Alle wichtigen Open-Source-Frameworks implementieren statisches YaRN, wodurch der Skalierungsfaktor unabhängig von der Eingabelänge konstant bleibt, mit potenziellen Auswirkungen auf die Leistung bei kurzen Texten
    • Es wird empfohlen, die Einstellung rope_scaling nur hinzuzufügen, wenn Long-Context-Verarbeitung erforderlich ist
    • Es wird empfohlen, den factor nach Bedarf anzupassen; wenn die typische Kontextlänge einer Anwendung beispielsweise 524.288 Tokens beträgt, sollte factor auf 2.0 gesetzt werden

Zusammenfassung

  • Qwen3-Next stellt mit linearer Attention und Attention-Gating einen großen Sprung in der Modellarchitektur dar und erhöht zugleich die Sparsity im MoE-Design
  • Qwen3-Next-80B-A3B liefert sowohl im Thinking- als auch im Non-thinking-Modus eine Leistung auf dem Niveau des größeren Qwen3-235B-A22B-2507 und bietet zugleich in Long-Context-Szenarien deutlich schnellere Inferenz
  • Mit dieser Veröffentlichung soll die Open-Source-Community durch fortschrittliche Architektur-Innovationen gestärkt werden und sich gemeinsam mit modernsten Architekturfortschritten weiterentwickeln

1 Kommentare

 
GN⁺ 2025-09-13
Hacker-News-Kommentare
  • Der coolste Teil von Qwen3-Next ist, dass nach der linearen Attention MTP (Multi-Token Prediction) eingeführt wird, ohne eine zusätzliche Un-Embedding-Matrix hinzuzufügen. Deepseek R1 nutzt zwar ebenfalls MTP in Layer 61, fügt aber große Tensoren wie embed_tokens und shared_head.head hinzu (zusammen etwa 2 GB in FP8), sodass Qwen3-Next MTP mit deutlich weniger aktiven Parametern verarbeiten und dadurch Speicher im GB-Bereich sparen kann. Das beschleunigt die Inferenz stark.
    • Ich frage mich, welchen konkreten Vorteil MTP in der Inferenzphase tatsächlich bringt, oder ob es nur für die Effizienz beim Pretraining relevant ist.
    • Mich würde interessieren, was der Unterschied zwischen MTP und Medusa-Heads ist und ob dieses Modell speculative decoding „nativ“ unterstützt. Wenn man dieses Modell in vllm ausführt, profitiert man dann direkt von speculative decoding, weil MTP schon eingebaut ist?
    • Es wäre hilfreich, wenn es eine Quelle gäbe, die all diese Begriffe auf einmal leicht verständlich erklärt.
  • Alibaba bringt wirklich weiterhin erstaunliche Modelle heraus. Ich habe Qwen3-Next-80B-A3B in Qwen Chat ausprobiert; es ist extrem schnell und scheint qualitativ in etwa auf dem Niveau von Qwen3-235B-A22B zu sein. Beeindruckend, wie sie das hinbekommen haben. Ich bin auch gespannt, wann Benchmarks bei Artificial Analysis auftauchen. Laut Qwen Chat liegen die Grenzen von Qwen3-Next bei maximal 262.144 Token Kontextlänge und maximal 32.768 Token für die Summary-Generierung. Im Vergleich zu Qwen3-235B-A22B ist das der doppelte Kontext und die vierfache Summary-Länge. Stärken sind das Verständnis langer Kontexte und die Bearbeitung komplexer Aufgaben. Trotzdem werde ich weiter Qwen2.5-Turbo nutzen. Es ist eines der wenigen Modelle mit 1M-Token-Kontext und passt daher besser zu meinem Setup, in dem ich große PDFs hochlade und kapitelübergreifende Fragen stelle.
    • Selbst wenn Frontier-Modelle langen Kontext unterstützen, scheint die Genauigkeit in der Praxis oft stark zu leiden, je länger der Kontext wird. Auch wenn 10M Kontext unterstützt werden, funktioniert es realistisch gesehen nicht richtig, wenn man den Kontext voll ausreizt. Mich würden die Meinungen anderer dazu interessieren.
    • Wenn man etwas in die Model Card schaut, kann auch Qwen3-Next mit YaRN bis auf eine maximale Kontextlänge von 1M erweitert werden. Laut offizieller Formulierung unterstützt Qwen3-Next standardmäßig bis zu 262.144 Token Kontext und wurde für bis zu 1M Token validiert, wenn die Summe aus Ein- und Ausgabetokens deutlich darüber liegt und RoPE-Scaling oder YaRN verwendet wird. Quelle
    • Alibabas proprietäre Modelle sind ebenfalls wirklich stark und erstaunlich wenig bekannt. In Benchmarks tauchen sie fast nie auf. Qwen3-coder-plus ist viel besser als Open-Source-qwen3, und Qwen3 max spielt auf einem Niveau, das mit SOTA-Modellen konkurrieren kann.
    • Mich würde interessieren, wie du PDF-Daten vorbereitest, bevor du sie in Qwen einspeist.
  • Ich habe mit dem llm-Befehl bei Qwen3-Next-80B-A3B-Thinking nach „ASCII von Spongebob“ gefragt, und es kam nur eine sehr einfache Form heraus. Mit Qwen3-Coder-480B-A35B-Instruct wurde dagegen ein deutlich ausgearbeiteteres Spongebob-ASCII erzeugt. Als ich nachts mehrfach getestet habe, fehlten bei vielen ASCII-Ausgaben von Qwen3-coder die Beine oder der Abschluss war insgesamt unsauber; am Morgen kam mit demselben Prompt sofort ein perfektes Ergebnis. Ich habe mich gefragt, ob die Auslastung oder der Zustand von Ressourcen (Server, API) die Antwortqualität beeinflusst oder ob es rein Glückssache ist. Ein paar Minuten später habe ich es erneut versucht und wieder keinen Erfolg gehabt, also ist es wohl eher eine Chance von vielleicht 1 zu 10 und bei Qwen3-next nahezu nie der Fall.
    • Es wirkt so, als wäre das SpongeBob-ASCII komplett im Modell auswendig gespeichert.
    • Ich vermute, dass es zwischen Kimi K2 und Qwen Coder (oder anderen verwandten Modellen) irgendeine Form von Distillation oder gemeinsame Trainingsdaten gibt. Ich habe die meisten LLMs ausprobiert, aber nur bei Kimi K2 kam exakt dasselbe SpongeBob-ASCII wie bei Qwen3-coder heraus. Bei der Nutzung von Kimi K2 wird das SpongeBob-ASCII ebenfalls exakt identisch erzeugt.
    • Der SpongeBob-ASCII-Test stammt aus den offiziellen sozialen Kanälen von Qwen und ist im Grunde ein Probe-Test für eingespeiste Auswendiglernleistung (rote memorization). Ein großes dichtes Modell kann so etwas dank seiner Parameterkapazität komplett auswendig speichern, aber in der sparse-MoE-Struktur von Qwen3 kommen zusätzliche Störfaktoren wie Expert-Auswahl oder Token-Sampling hinzu, wodurch die präzise Ausrichtung der Zeichnung leichter zerfällt. Außerdem sind noch neue Strukturen wie gated attention und multi-token head darübergelegt, sodass schon ein einziges unglückliches Expert-Routing das Layout der Zeichnung verschieben kann. Und Qwen3-coder wurde dafür offenbar speziell trainiert, was den Vergleich unfair macht. Ich habe auch die ASCII-Ergebnisse anderer Modelle der Qwen3-Reihe verglichen; sie fallen ziemlich unterschiedlich aus.
  • Ich finde es erstaunlich, wie weit MoE dank Qwen gekommen ist. Qwen3-Next übertrifft das bisherige dichte 72B-Modell klar, und mit gutem Offloading von VRAM und CPU läuft es sogar schneller als ein 14B-Modell. Diese Effizienz ist wirklich beeindruckend.
    • Nicht Qwen treibt den Fortschritt bei LLMs voran; SOTA-LLMs sind schon seit GPT-4 MoE. Es ist schade, dass HN bei Trends so weit hinterherhinkt und bei AI-Themen dadurch viele unnötige Kommentare entstehen.
    • Rückblickend ist es fast schon absurd, wie Meta im vergangenen Jahr enorme Ressourcen in das Training eines dichten 405B-Modells gesteckt hat. Das Modell ist zwar riesig, aber in der Praxis schlechter als Modelle mit einem Zehntel der Größe und auf realistischer Hardware mit brauchbarer Geschwindigkeit praktisch nicht nutzbar.
  • Ich habe Qwen3 Next zur offenen Runde des Brokk Power Ranking (Coding-Benchmark) hinzugefügt. Leistungsmäßig liegt es etwa auf dem Niveau von GPT-OSS-20b. Die Ergebnisse aller Open-Source-Modelle kann man hier ansehen.
    • Wenn weitere Sprachen hinzukämen, wäre das ein nützlicherer Benchmark. Aktuell wird nur Java bewertet, aber ich nutze im Alltag hauptsächlich andere Sprachen, sodass die Benchmark-Ergebnisse nicht mit meiner tatsächlichen Erfahrung übereinstimmen.
    • Ich frage mich, ob das eingetragene Kimi K2 die neueste Version ist oder ein älteres Kimi k2.
  • Oracle prognostiziert diese Woche einen sprunghaften Anstieg der Rechenzentrumsnachfrage, und die Aktie steigt. Wenn die 10-fache Effizienzsteigerung bei LLMs tatsächlich stimmt, könnte die Nachfrage nach Nvidia, Oracle, Coreweave und ähnlichen Anbietern zurückgehen.
    • Man sollte wohl wirtschaftliche Effekte wie das Jevons-Paradoxon berücksichtigen.
    • Unabhängig von Oracles Prognose glaube ich nicht, dass Effizienzgewinne unmittelbar zu sinkender Nachfrage führen. Wie beim Jevons-Paradoxon könnte höhere Effizienz sogar dazu führen, dass noch mehr genutzt wird.
    • Dasselbe wurde schon bei deepseek-r1 gesagt, aber in der Realität hat sich nichts geändert. Wenn man Modelle 10-mal effizienter macht, werden alle einfach versuchen, 10-mal größere Modelle zu trainieren. Die Akteure werden nicht irgendwann sagen: „So groß reicht jetzt.“ Solange Scaling weiter Einfluss auf die Leistung hat.
    • Ganz sicher nicht. Wenn man sich das Marktverhalten anschaut, sind Menschen immer bereit, für die beste Qualität zu zahlen, und die Preise bleiben meist ähnlich. Sobald neue Modelle erscheinen, werden ältere Modelle mit niedrigerer Qualität (und niedrigerem Preis) sofort ignoriert, und die Leute wollen nur noch bessere Modelle zum gleichen Preis. Diesmal wird es wohl ähnlich laufen.
    • Falls die AI-Blase platzt und Rechenzentren sowie GPUs im Überfluss vorhanden sind, frage ich mich, wie man das gezielt nutzen und daraus einen Investitionsvorteil ziehen könnte.
  • Wenn dich Gated Delta Network interessiert, siehe dieses Paper: arxiv-Link
    • Ein Paper zu Gated Attention gibt es hier.
  • Qwen3-Next ist ziemlich beeindruckend, und ich denke, dass bessere Architekturen die kommenden Innovationen antreiben werden. Es fühlt sich nicht so an, als wären mehr als 100B Parameter wie bei GPT OSS 120B zwingend nötig.
    • Sicher, mehr Parameter sind grundsätzlich besser. Modelle mit weniger Parametern halluzinieren häufiger. Mit wenigen aktiven Parametern und gutem Routing könnte es aber trotzdem funktionieren.
    • Neue Architekturen sind spannend, und dass sie sofort offen veröffentlicht werden, ist bemerkenswert. Allerdings wirken Modelle aus der Qwen-Familie oft stark overfitted. Häufig sind sie nur bei bestimmten Aufgaben gut und haben im Vergleich zu geschlossenen Modellen Grenzen bei der Generalisierung. Ich weiß nicht genau, ob das nur eine Frage der Skalierung ist oder ob auch das Trainingsrezept bzw. die Methode eine Rolle spielt. Wenn man mit OOD (out-of-distribution) testet, sinkt ihr Wert stark, während geschlossene Modelle dort weiterhin Stärken zeigen.
  • Prognose: In den nächsten vier Jahren wird AI auf einem Niveau allgemein verfügbar und leicht zugänglich sein, das 15 IQ-Punkte über heutigen SOTA-Modellen liegt, bei gleichzeitig viel längeren Kontextfenstern. Sobald Verbesserungen beim Training mit synthetic data an ihre Grenzen stoßen (nachdem „echte“ Daten bereits weitgehend aufgebraucht sind), werden Open-Source-Modelle günstig trainiert werden, indem Outputs kapitalstarker Modelle genutzt werden. Danach wird die AI-Entwicklung stagnieren, bis man einen Weg findet, allgemeine Intelligenz per competitive reinforcement learning zu trainieren, ähnlich wie bei AlphaGo. Sobald diese Methode kommt, braucht man keine riesigen Trainingsdatensätze mehr, und echte AGI wird entstehen.
    • Ich verstehe nicht, was mit „echte Daten sind aufgebraucht“ gemeint ist. Jeden Tag kommen im Internet neue Informationen, wissenschaftliche Arbeiten und Videos hinzu — wie kann man da von Datenerschöpfung sprechen?
    • Wenn heutige Spitzenmodelle nach menschlichem IQ-Maßstab ungefähr bei 120 liegen (ob das stimmt, weiß ich nicht, aber nehmen wir hier als Grundlage), dann werden in Zukunft massenhaft hochgradig immersive Bots auf IQ-135-Niveau auftauchen. Es ist kaum vorstellbar, was das praktisch bedeuten würde.
  • Es ist zwar ein 80B-Modell, aber ich schaue mir derzeit vor allem Modelle mit 32B oder weniger an, die bequem auf einem MacBook Pro (M4, 64GB) laufen. Ich nutze ollama täglich zum Spam-Filtern; gemma3:27b ist hervorragend, und gpt-oss:20b ist durch seine Geschwindigkeit ebenfalls oft im Einsatz.
    • Es wäre interessant, genauer zu hören, wie du Ollama fürs Spam-Filtern einsetzt.
    • Das Modell hat insgesamt 80B Parameter, aber bei der Inferenz werden nur etwa 3B aktiviert. Ich betreibe das ältere 2507 Qwen3 30B problemlos auch auf einer Nvidia-Karte mit 8 GB.
    • Da es eine MoE-Struktur ist, dürfte es sehr gut laufen.