Quantisierung von Qwen3.5-Modellen: Warum die Community-Versionen leistungsschwächer sind
(x.com/Brooooook_lyn)Bei der „Quantisierung“ – einer Technik, mit der AI-Modelle kleiner und schneller komprimiert werden – wurde die technische Ursache dafür geklärt, warum von der Community veröffentlichte Qwen3.5-Modelle im MLX-Format Fehler bei Tool-Aufrufen, bedeutungslose Ausgaben und Halluzinationen zeigen. Der Anbieter von AI-Finetuning-Tools Unsloth hat dazu in über 150 Benchmark-Experimenten Ursachen und Lösungsansätze vorgestellt.
Kernaussagen
- Quantisierung ist eine Technik, bei der die numerischen Daten eines Modells mit geringerer Präzision (weniger Bits) komprimiert werden, um Dateigröße und Rechenaufwand zu reduzieren
- Die meisten Quantisierungswerkzeuge aus der Community verwenden eine „gleichmäßige Quantisierung“, bei der auf alle Layer dieselbe Bitzahl angewendet wird
- Qwen3.5 besitzt eine Hybridstruktur, in der sich gewöhnliche Self-Attention-Layer und ein Linear-Attention-Layer namens GatedDeltaNet abwechseln
- Der Kern des Problems ist der Layer
linear_attn.out_proj: Bei 4-Bit-Komprimierung ist seine Empfindlichkeit gegenüber Informationsverlust rund 120-mal höher als die des Output-Layers (lm_head) - Gleichmäßige Quantisierung hat das strukturelle Problem, Präzision an unwichtigen Stellen zu verschwenden und gleichzeitig die wirklich empfindlichen Layer zu beschädigen
Unsloths Lösung
- Eingesetzt wurde ein Ansatz der „Mixed-Bit-Quantisierung“, bei dem die Bitzahl je nach tatsächlicher Empfindlichkeit des jeweiligen Layers unterschiedlich zugewiesen wird
- MLP-Layer mit geringer Empfindlichkeit werden mit 3 Bit quantisiert, auf Attention-Q/K/V-Layer werden 5 Bit plus AWQ (eine Methode zur Gewichtskorrektur) angewendet, und für den empfindlichsten Output-Layer bleibt die volle Präzision in bf16 erhalten
- Als Kalibrierungsdaten werden nicht Wikipedia, sondern Dialog-, Coding- und Tool-Calling-Beispiele verwendet, sodass sich die Relevanz besser an realen Nutzungsszenarien ausrichten lässt
Vor- und Nachteile
- Vorteil: Tool-Calling, strukturierte Ausgaben und die Qualität der Codegenerierung verbessern sich im Vergleich zu bisherigen Community-Versionen deutlich. In MLX wurde damit dieselbe Leistung wie bei entsprechenden GGUF-Versionen erreicht
- Nachteil: Da einige empfindliche Layer in bf16 erhalten bleiben müssen, ist der Speicherbedarf auf Datenträgern höher als bei rein niedrigbitigen Modellen
Unterscheidungsmerkmale
- Während bestehende Community-Tools ohne Berücksichtigung der Struktur pauschal komprimieren, hat Unsloth mithilfe von über 150 KLD-Experimenten (Metrik zur Messung von Informationsverlust) und dem Vergleich von 121 Konfigurationen wissenschaftlich optimale Bitzahlen pro Layer abgeleitet
- Bemerkenswert ist auch der empirische Nachweis, dass die Qualität der Kalibrierungsdaten die Kompressionsqualität entscheidend bestimmt
Implikationen
- Es hat sich erneut gezeigt, dass die Kompression von AI-Modellen nicht einfach nur eine Frage geringerer Bitzahlen ist, sondern ein Verständnis der internen Modellstruktur voraussetzt
- Für den praktischen Einsatz von in der Community verbreiteten Leichtgewichtsmodellen ergibt sich die wichtige Lehre, die Quantisierungsmethode und die Kalibrierungsdaten des Herausgebers unbedingt zu prüfen
4 Kommentare
Tatsächlich treten selbst dann nicht viele Verluste auf, wenn man weniger wichtige Layer konsequent komprimiert. Bei einigen Layern gibt es selbst bei einer 2-Bit-Quantisierung keinen merklichen Qualitätsverlust.
Das Problem entsteht jedoch, weil Community-Modelle alle Layer pauschal quantisieren.
Das liegt daran, dass die Dimensionen und Layer des Modells nicht gleichmäßig ausgebacken wurden. Wie immer eben.
Wow......!
Der Unsloth-Gründer Daniel Han scheint wirklich ein Genie zu sein. Jedes Mal, wenn ein Open-Weight-Modell erscheint, analysiert und teilt er alles von der Modellarchitektur über Tokenisierungs-Bugs, Quantisierungsfehler bis hin zu Template-Fehlern – das ist wirklich beeindruckend.