Quantisierung von Qwen3.5-Modellen: Warum die Community-Versionen leistungsschwächer sind

(x.com/Brooooook_lyn)

18 Punkte von ragingwind 11 일 전 | 4 Kommentare | Auf WhatsApp teilen

Bei der „Quantisierung“ – einer Technik, mit der AI-Modelle kleiner und schneller komprimiert werden – wurde die technische Ursache dafür geklärt, warum von der Community veröffentlichte Qwen3.5-Modelle im MLX-Format Fehler bei Tool-Aufrufen, bedeutungslose Ausgaben und Halluzinationen zeigen. Der Anbieter von AI-Finetuning-Tools Unsloth hat dazu in über 150 Benchmark-Experimenten Ursachen und Lösungsansätze vorgestellt.

Kernaussagen

Quantisierung ist eine Technik, bei der die numerischen Daten eines Modells mit geringerer Präzision (weniger Bits) komprimiert werden, um Dateigröße und Rechenaufwand zu reduzieren
Die meisten Quantisierungswerkzeuge aus der Community verwenden eine „gleichmäßige Quantisierung“, bei der auf alle Layer dieselbe Bitzahl angewendet wird
Qwen3.5 besitzt eine Hybridstruktur, in der sich gewöhnliche Self-Attention-Layer und ein Linear-Attention-Layer namens GatedDeltaNet abwechseln
Der Kern des Problems ist der Layer linear_attn.out_proj: Bei 4-Bit-Komprimierung ist seine Empfindlichkeit gegenüber Informationsverlust rund 120-mal höher als die des Output-Layers (lm_head)
Gleichmäßige Quantisierung hat das strukturelle Problem, Präzision an unwichtigen Stellen zu verschwenden und gleichzeitig die wirklich empfindlichen Layer zu beschädigen

Unsloths Lösung

Eingesetzt wurde ein Ansatz der „Mixed-Bit-Quantisierung“, bei dem die Bitzahl je nach tatsächlicher Empfindlichkeit des jeweiligen Layers unterschiedlich zugewiesen wird
MLP-Layer mit geringer Empfindlichkeit werden mit 3 Bit quantisiert, auf Attention-Q/K/V-Layer werden 5 Bit plus AWQ (eine Methode zur Gewichtskorrektur) angewendet, und für den empfindlichsten Output-Layer bleibt die volle Präzision in bf16 erhalten
Als Kalibrierungsdaten werden nicht Wikipedia, sondern Dialog-, Coding- und Tool-Calling-Beispiele verwendet, sodass sich die Relevanz besser an realen Nutzungsszenarien ausrichten lässt

Vor- und Nachteile

Vorteil: Tool-Calling, strukturierte Ausgaben und die Qualität der Codegenerierung verbessern sich im Vergleich zu bisherigen Community-Versionen deutlich. In MLX wurde damit dieselbe Leistung wie bei entsprechenden GGUF-Versionen erreicht
Nachteil: Da einige empfindliche Layer in bf16 erhalten bleiben müssen, ist der Speicherbedarf auf Datenträgern höher als bei rein niedrigbitigen Modellen

Unterscheidungsmerkmale

Während bestehende Community-Tools ohne Berücksichtigung der Struktur pauschal komprimieren, hat Unsloth mithilfe von über 150 KLD-Experimenten (Metrik zur Messung von Informationsverlust) und dem Vergleich von 121 Konfigurationen wissenschaftlich optimale Bitzahlen pro Layer abgeleitet
Bemerkenswert ist auch der empirische Nachweis, dass die Qualität der Kalibrierungsdaten die Kompressionsqualität entscheidend bestimmt

Implikationen

Es hat sich erneut gezeigt, dass die Kompression von AI-Modellen nicht einfach nur eine Frage geringerer Bitzahlen ist, sondern ein Verständnis der internen Modellstruktur voraussetzt
Für den praktischen Einsatz von in der Community verbreiteten Leichtgewichtsmodellen ergibt sich die wichtige Lehre, die Quantisierungsmethode und die Kalibrierungsdaten des Herausgebers unbedingt zu prüfen

4 Kommentare

iiiiiiiiiiiii 9 일 전

Tatsächlich treten selbst dann nicht viele Verluste auf, wenn man weniger wichtige Layer konsequent komprimiert. Bei einigen Layern gibt es selbst bei einer 2-Bit-Quantisierung keinen merklichen Qualitätsverlust.
Das Problem entsteht jedoch, weil Community-Modelle alle Layer pauschal quantisieren.

jeeeyul 10 일 전

Das liegt daran, dass die Dimensionen und Layer des Modells nicht gleichmäßig ausgebacken wurden. Wie immer eben.

ryj0902 10 일 전

Wow......!

mammal 11 일 전

Der Unsloth-Gründer Daniel Han scheint wirklich ein Genie zu sein. Jedes Mal, wenn ein Open-Weight-Modell erscheint, analysiert und teilt er alles von der Modellarchitektur über Tokenisierungs-Bugs, Quantisierungsfehler bis hin zu Template-Fehlern – das ist wirklich beeindruckend.

Quantisierung von Qwen3.5-Modellen: Warum die Community-Versionen leistungsschwächer sind

Verwandte Beiträge

4 Kommentare