Qwen3.5-Guide zum Fine-Tuning

(unsloth.ai)

16 Punkte von GN⁺ 2026-03-06 | 2 Kommentare | Auf WhatsApp teilen

Die Qwen3.5-Modellfamilie (0.8B–122B) kann mit Unsloth, einem Open-Source-Framework für LLM-Fine-Tuning und Reinforcement Learning, per text- und visionbasiertem Fine-Tuning trainiert werden
Unsloth bietet eine 1,5-fach höhere Trainingsgeschwindigkeit gegenüber FlashAttention-2 und 50 % weniger VRAM-Verbrauch und ermöglicht effizientes Training mit bf16 LoRA
Über Colab-Notebooks lassen sich die Modelle 0.8B, 2B und 4B kostenlos testen; zusätzlich gibt es Notebooks für 27B- und 35B-Modelle in A100-Umgebungen
MoE-Modelle (35B, 122B usw.) unterstützen mit aktuellen Kerneln ein 12-fach schnelleres Training, 35 % weniger VRAM und eine 6-fach längere Kontextlänge
Nach dem Training können Modelle in verschiedene Deployment-Formate wie GGUF, vLLM, Ollama, LM Studio, SGLang exportiert werden

Überblick über das Qwen3.5-Fine-Tuning

Die Qwen3.5-Modellfamilie (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) kann mit Unsloth feinabgestimmt werden
- Unterstützung für Text und Vision
- Qwen3.5‑35B‑A3B bf16 LoRA läuft mit 74 GB VRAM
Unsloth bietet eine 1,5-fach höhere Trainingsgeschwindigkeit bei 50 % geringerem VRAM-Verbrauch
- VRAM-Verbrauch: 0.8B (3 GB), 2B (5 GB), 4B (10 GB), 9B (22 GB), 27B (56 GB)
Mit kostenlosen Google-Colab-Notebooks lassen sich die Modelle 0.8B, 2B und 4B ausprobieren
Um die Reasoning-Fähigkeiten zu erhalten, wird eine Datensatz-Zusammenstellung mit mindestens 75 % Reasoning-Beispielen empfohlen
Full Fine-Tuning (FFT) ist ebenfalls möglich, erhöht den VRAM-Bedarf aber um das Vierfache

Trainingsumgebung und Einstellungen

Qwen3.5 ist ein mehrsprachiges Modell mit Unterstützung für 201 Sprachen
Reinforcement Learning (RL) und Vision RL (VLM RL) werden ebenfalls über Unsloth unterstützt
A100-Colab-Notebooks verfügbar: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
Für lokales Training ist ein Update auf die neueste Version erforderlich
- Befehl: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 ist erforderlich; ältere Versionen funktionieren nicht
Durch die Kompilierung des Mamba-Triton-Kernels kann das erste Training langsam sein (insbesondere auf T4-GPUs)
QLoRA(4-bit)-Training wird nicht empfohlen

Fine-Tuning von MoE-Modellen (35B, 122B)

Unterstützung für die Modelle Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- 12-fach schnelleres Training, 35 % weniger VRAM, 6-fach längere Kontextlänge
Empfohlen werden bf16 LoRA oder Full Fine-Tuning
MoE QLoRA 4-bit wird wegen Einschränkungen von BitsandBytes nicht empfohlen
Der Unsloth-MoE-Kernel ist standardmäßig aktiviert; das Backend kann über UNSLOTH_MOE_BACKEND gewechselt werden
Router-Layer-Fine-Tuning ist aus Stabilitätsgründen standardmäßig deaktiviert
Qwen3.5‑122B‑A10B bf16 LoRA benötigt 256 GB VRAM
- Bei Nutzung mehrerer GPUs device_map = "balanced" setzen oder den multiGPU-Guide beachten

Quickstart

Beispiel für textbasiertes SFT (überwachtes Fine-Tuning) verfügbar
Qwen3.5 hat die Struktur Causal Language Model + Vision Encoder
- Installation der Vision-Abhängigkeiten (torchvision, pillow) erforderlich
Die Nutzung der neuesten Transformers-Version wird empfohlen
GRPO-Training kann nach Deaktivierung von fast vLLM mit Unsloth-Inferenz durchgeführt werden
Bei OOM (Out of Memory)
- per_device_train_batch_size=1, max_seq_length verkleinern
- gradient_checkpointing="unsloth" beibehalten, um VRAM zu sparen und den Kontext zu erweitern
Beispiel für einen MoE-bf16-LoRA-Loader verfügbar

Vision-Fine-Tuning

Vision-Fine-Tuning für multimodale Qwen3.5-Modelle wird unterstützt
- Qwen3-VL-GRPO/GSPO-RL-Notebooks können verwendet werden (nur Modellname ändern)
Nur Vision- oder nur Text-Training ist auswählbar
- Selektives Fine-Tuning von Vision-, Language-, Attention- und MLP-Layern
- Standardmäßig sind alle aktiviert
Für Training mit mehreren Bildern den separaten Multi-Image-Vision-Guide beachten

Modellspeicherung und Deployment

Unterstützung für verschiedene Deployment-Methoden wie llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

GGUF speichern

Unsloth unterstützt das direkte Speichern im GGUF-Format sowie den Upload zu Hugging Face
Wenn die Inferenzleistung sinkt, sind falsche Chat-Templates oder EOS-Token die Hauptursache

vLLM speichern

vLLM 0.16.0 unterstützt Qwen3.5 nicht
- 0.170 oder neuer bzw. eine Nightly-Version ist erforderlich
Speicherung in 16-Bit sowie nur des LoRA-Adapters möglich
Details siehe Inference-Guide von Unsloth

2 Kommentare

hmmhmmhm 2026-03-06

Als ich das letzte Mal versucht habe, über den Agenten ein Fine-Tuning laufen zu lassen, schien je nach Datenlage häufig ein Overfitting-Problem aufzutreten. Ich bin gespannt, ob das in diesem Notebook mit einer Kombination aus LoRA/QLoRA möglich ist.

GN⁺ 2026-03-06

Hacker-News-Kommentare

Ich habe Qwen-Modelle auf NVIDIA-Jetson-Hardware feinabgestimmt, und die Leistung war überraschend gut.
Ich habe mehrere 7B-Varianten für Edge-AI-Einsätze ausgerollt, und sie waren besonders nützlich in Umgebungen wie industrieller Inspektion oder Retail-Analysen, wo Latenz wichtiger ist als Genauigkeit.
Dank LoRA-Fine-Tuning wurden die Modelle klein genug, um gut in den Unified Memory zu passen, und die Echtzeit-Inferenz war schnell genug.
Am meisten überrascht hat mich die Energieeffizienz — ein Jetson Orin konnte kontinuierliche Inferenz mit unter 15W fahren und sparte damit deutlich mehr Energie als ein Cloud-Roundtrip.
- Dieser Kommentar wirkt, als wäre er von einer KI erzeugt worden.
  In letzter Zeit sehe ich auf Twitter oder Reddit oft Kommentare in genau diesem gefälschten Anekdotenformat. Sie wirken wie echte Personen, aber klingen komplett erfunden.
- Interessant. Ich frage mich, ob du Beispiele für industrielle Aufgaben nennen kannst, bei denen etwas geringere Genauigkeit noch akzeptabel ist.
- Mich würden konkrete Anwendungsfälle interessieren, wofür solche Modelle in der Praxis eingesetzt werden.
- Vielleicht eine naive Frage, aber wären für solche Einsätze nicht auch klassische neuronale Netze ausreichend?
- Du meintest, ein 7B-Modell laufe bei 15W — mich würde interessieren, welches Modell der Orin-Serie das war.
  Nano (40 TOPS), NX (100) oder AGX (275)? Und hast du eventuell auch größere Modelle auf Thor (2070) ausprobiert?
Mich interessieren reale Beispiele, in denen Leute tatsächlich kleine/mittlere Modelle feinabstimmen und einsetzen.
- Dazu gibt es einen Thread auf X.
  Relevanter Post
  Zum Beispiel:
  1. Cursor steigerte mit Online-RL die Acceptance Rate um 28% (Link)
  2. Vercel setzte RFT für sein AutoFix-Modell ein (Link)
  3. Perplexity Sonar ist ein feinabgestimmtes Modell für Deep Research Reasoning (Link)
  4. DoorDash baute mit LoRA/QLoRA ein Modell zur Attributextraktion (Link)
  5. Das Hochwasser-Erkennungsmodell der NASA (Link)
  6. Online-RL für Robotik
  7. Sammlung von OpenAI-RFT-Anwendungsfällen (Link)
  8. Mercor verbessert Modellleistung mit Expertendaten (Link)
- Ich habe eine einfache Dokumentklassifizierungsaufgabe mit mehreren Modellen gebenchmarkt.
  Ich habe Genauigkeit und Kosten von Llama-70B, Gemma-4B, Ministral-14B und anderen verglichen,
  und selbst 4B-Modelle zeigten eine ziemlich ordentliche Leistung.
  Allerdings habe ich das Gefühl, dass die Intuition für den Zusammenhang zwischen Datenmenge und Leistungsgewinn verloren gegangen ist.
  Ich überlege, Fine-Tuning selbst auszuprobieren.
- Ich denke darüber nach, Fine-Tuning einzusetzen, um die Erkennung meiner Handschrift zu verbessern.
  Das Basismodell funktioniert zwar gut, aber wegen meiner schlechten Handschrift kommt es manchmal zu Erkennungsfehlern.
- Als gutes Beispiel empfehle ich den Atredis-Blogleitfaden zum LLM-Training.
Es wirkt so, als würde die Notwendigkeit von LLM-Fine-Tuning derzeit immer weiter abnehmen.
Aktuelle Modelle bewältigen selbst komplexe Aufgaben schon sehr gut mit Few-Shot-Learning.
Modelle mit großem Kontextfenster wie Qwen3.5 lassen sich oft durch starkes Prompt Engineering gut ersetzen.
Für Bildmodelle oder ältere LLMs ist es weiterhin sinnvoll, aber bei Text-LLMs wird es zunehmend ineffizient.
- Wenn man kleine Modelle auf bestimmte strukturierte Ausgaben feinabstimmt, kann man großskalige Inferenz sehr günstig betreiben.
  Die Kontexterweiterung großer Modelle ist einfach zu teuer.
- LLMs entwickeln sich weiter, aber in Bereichen wie Continual Learning für Robotik oder multimodales LoRA-Fine-Tuning gibt es weiterhin viel Potenzial.
  Mit Anleitungen wie dem Unsloth-Guide ist auch Vision+Text-Fine-Tuning möglich.
  Wahrscheinlich wird sich künftig Model Routing durchsetzen: lokal kleine LoRA-Modelle und komplexe Aufgaben in der Cloud.
  Tatsächlich betreiben DoorDash, Vercel, NASA und Cursor bereits ihr eigenes Fine-Tuning.
- Ich habe versucht, ein Modell auf meinen Schreibstil feinabzustimmen.
  Ich habe es mit Claude, Qwen, Llama, Gemma und anderen versucht, aber Style Transfer funktionierte kaum.
  Selbst mit Hunderten meiner Kommentare als Trainingsdaten war zusätzliches Training fast unmöglich, weil Instruct-Modelle bereits übermäßig getunt sind.
- Kurz gesagt liegt es an Erwachseneninhalten.
  Qwen hat solche Daten beim Training herausgefiltert, deshalb lassen sie sich nur per Fine-Tuning zurückholen.
  Beispiel dafür: chenrms Qwen3-LoRA-Modell
- In echten Produkten ist Fine-Tuning weiterhin wichtig.
  Kombinationen aus deterministischem und auditierbarem Verhalten, weniger Halluzinationen und kostensparendem LoRA/QLoRA sind nützlich.
  Zusammen mit RAG und einer FAISS-Vektor-DB lässt sich ein explodierender Kontext vermeiden.
  Langfristig ist das Verwalten kleiner Adapter deutlich effizienter als ständiges Prompt-Tuning.
Schade, dass einige Leads im Qwen-Team ausgetauscht wurden.
Ich mache mir Sorgen, dass mit einer stärker geschäftsorientierten neuen Führung der Open-Source-Geist geschwächt wird.
- Ich habe dazu auf X etwas gesehen.
  Meldung über ein dringendes Meeting von Alibaba-CEO/CTO
  Hoffentlich klärt sich das gut.
Wenn schon ein dokumentenzentrierter RAG-Ansatz ausreicht, frage ich mich, ob Fine-Tuning tatsächlich bessere Ergebnisse liefert.
- Spezialisierte Modelle übertreffen SOTA eindeutig.
  Beispiel: FlashCheck
- Früher war Cursors tab-next-action-Modell ein großes Thema, und tatsächlich war das einfach eine feinabgestimmte Version eines 70B-Modells.
Dieses Material scheint sich nur mit großen MoE-Modellen zu befassen.
Die meisten Nutzer dürften eher auf kleine Modelle (z. B. 9B) abzielen,
und diese verwenden eine hybride Mamba-Architektur, was vermutlich gesonderte Überlegungen erfordert.