18 Punkte von ragingwind 11 일 전 | 4 Kommentare | Auf WhatsApp teilen

Bei der „Quantisierung“ – einer Technik, mit der AI-Modelle kleiner und schneller komprimiert werden – wurde die technische Ursache dafür geklärt, warum von der Community veröffentlichte Qwen3.5-Modelle im MLX-Format Fehler bei Tool-Aufrufen, bedeutungslose Ausgaben und Halluzinationen zeigen. Der Anbieter von AI-Finetuning-Tools Unsloth hat dazu in über 150 Benchmark-Experimenten Ursachen und Lösungsansätze vorgestellt.

Kernaussagen

  • Quantisierung ist eine Technik, bei der die numerischen Daten eines Modells mit geringerer Präzision (weniger Bits) komprimiert werden, um Dateigröße und Rechenaufwand zu reduzieren
  • Die meisten Quantisierungswerkzeuge aus der Community verwenden eine „gleichmäßige Quantisierung“, bei der auf alle Layer dieselbe Bitzahl angewendet wird
  • Qwen3.5 besitzt eine Hybridstruktur, in der sich gewöhnliche Self-Attention-Layer und ein Linear-Attention-Layer namens GatedDeltaNet abwechseln
  • Der Kern des Problems ist der Layer linear_attn.out_proj: Bei 4-Bit-Komprimierung ist seine Empfindlichkeit gegenüber Informationsverlust rund 120-mal höher als die des Output-Layers (lm_head)
  • Gleichmäßige Quantisierung hat das strukturelle Problem, Präzision an unwichtigen Stellen zu verschwenden und gleichzeitig die wirklich empfindlichen Layer zu beschädigen

Unsloths Lösung

  • Eingesetzt wurde ein Ansatz der „Mixed-Bit-Quantisierung“, bei dem die Bitzahl je nach tatsächlicher Empfindlichkeit des jeweiligen Layers unterschiedlich zugewiesen wird
  • MLP-Layer mit geringer Empfindlichkeit werden mit 3 Bit quantisiert, auf Attention-Q/K/V-Layer werden 5 Bit plus AWQ (eine Methode zur Gewichtskorrektur) angewendet, und für den empfindlichsten Output-Layer bleibt die volle Präzision in bf16 erhalten
  • Als Kalibrierungsdaten werden nicht Wikipedia, sondern Dialog-, Coding- und Tool-Calling-Beispiele verwendet, sodass sich die Relevanz besser an realen Nutzungsszenarien ausrichten lässt

Vor- und Nachteile

  • Vorteil: Tool-Calling, strukturierte Ausgaben und die Qualität der Codegenerierung verbessern sich im Vergleich zu bisherigen Community-Versionen deutlich. In MLX wurde damit dieselbe Leistung wie bei entsprechenden GGUF-Versionen erreicht
  • Nachteil: Da einige empfindliche Layer in bf16 erhalten bleiben müssen, ist der Speicherbedarf auf Datenträgern höher als bei rein niedrigbitigen Modellen

Unterscheidungsmerkmale

  • Während bestehende Community-Tools ohne Berücksichtigung der Struktur pauschal komprimieren, hat Unsloth mithilfe von über 150 KLD-Experimenten (Metrik zur Messung von Informationsverlust) und dem Vergleich von 121 Konfigurationen wissenschaftlich optimale Bitzahlen pro Layer abgeleitet
  • Bemerkenswert ist auch der empirische Nachweis, dass die Qualität der Kalibrierungsdaten die Kompressionsqualität entscheidend bestimmt

Implikationen

  • Es hat sich erneut gezeigt, dass die Kompression von AI-Modellen nicht einfach nur eine Frage geringerer Bitzahlen ist, sondern ein Verständnis der internen Modellstruktur voraussetzt
  • Für den praktischen Einsatz von in der Community verbreiteten Leichtgewichtsmodellen ergibt sich die wichtige Lehre, die Quantisierungsmethode und die Kalibrierungsdaten des Herausgebers unbedingt zu prüfen

4 Kommentare

 
iiiiiiiiiiiii 9 일 전

Tatsächlich treten selbst dann nicht viele Verluste auf, wenn man weniger wichtige Layer konsequent komprimiert. Bei einigen Layern gibt es selbst bei einer 2-Bit-Quantisierung keinen merklichen Qualitätsverlust.
Das Problem entsteht jedoch, weil Community-Modelle alle Layer pauschal quantisieren.

 
jeeeyul 10 일 전

Das liegt daran, dass die Dimensionen und Layer des Modells nicht gleichmäßig ausgebacken wurden. Wie immer eben.

 
ryj0902 10 일 전

Wow......!

 
mammal 11 일 전

Der Unsloth-Gründer Daniel Han scheint wirklich ein Genie zu sein. Jedes Mal, wenn ein Open-Weight-Modell erscheint, analysiert und teilt er alles von der Modellarchitektur über Tokenisierungs-Bugs, Quantisierungsfehler bis hin zu Template-Fehlern – das ist wirklich beeindruckend.