- Die Qwen3.5-Modellfamilie (0.8B–122B) kann mit Unsloth, einem Open-Source-Framework für LLM-Fine-Tuning und Reinforcement Learning, per text- und visionbasiertem Fine-Tuning trainiert werden
- Unsloth bietet eine 1,5-fach höhere Trainingsgeschwindigkeit gegenüber FlashAttention-2 und 50 % weniger VRAM-Verbrauch und ermöglicht effizientes Training mit bf16 LoRA
- Über Colab-Notebooks lassen sich die Modelle 0.8B, 2B und 4B kostenlos testen; zusätzlich gibt es Notebooks für 27B- und 35B-Modelle in A100-Umgebungen
- MoE-Modelle (35B, 122B usw.) unterstützen mit aktuellen Kerneln ein 12-fach schnelleres Training, 35 % weniger VRAM und eine 6-fach längere Kontextlänge
- Nach dem Training können Modelle in verschiedene Deployment-Formate wie GGUF, vLLM, Ollama, LM Studio, SGLang exportiert werden
Überblick über das Qwen3.5-Fine-Tuning
- Die Qwen3.5-Modellfamilie (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) kann mit Unsloth feinabgestimmt werden
- Unterstützung für Text und Vision
- Qwen3.5‑35B‑A3B bf16 LoRA läuft mit 74 GB VRAM
- Unsloth bietet eine 1,5-fach höhere Trainingsgeschwindigkeit bei 50 % geringerem VRAM-Verbrauch
- VRAM-Verbrauch: 0.8B (3 GB), 2B (5 GB), 4B (10 GB), 9B (22 GB), 27B (56 GB)
- Mit kostenlosen Google-Colab-Notebooks lassen sich die Modelle 0.8B, 2B und 4B ausprobieren
- Um die Reasoning-Fähigkeiten zu erhalten, wird eine Datensatz-Zusammenstellung mit mindestens 75 % Reasoning-Beispielen empfohlen
- Full Fine-Tuning (FFT) ist ebenfalls möglich, erhöht den VRAM-Bedarf aber um das Vierfache
Trainingsumgebung und Einstellungen
- Qwen3.5 ist ein mehrsprachiges Modell mit Unterstützung für 201 Sprachen
- Reinforcement Learning (RL) und Vision RL (VLM RL) werden ebenfalls über Unsloth unterstützt
- A100-Colab-Notebooks verfügbar: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- Für lokales Training ist ein Update auf die neueste Version erforderlich
- Befehl:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 ist erforderlich; ältere Versionen funktionieren nicht
- Durch die Kompilierung des Mamba-Triton-Kernels kann das erste Training langsam sein (insbesondere auf T4-GPUs)
- QLoRA(4-bit)-Training wird nicht empfohlen
Fine-Tuning von MoE-Modellen (35B, 122B)
- Unterstützung für die Modelle Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- 12-fach schnelleres Training, 35 % weniger VRAM, 6-fach längere Kontextlänge
- Empfohlen werden bf16 LoRA oder Full Fine-Tuning
- MoE QLoRA 4-bit wird wegen Einschränkungen von BitsandBytes nicht empfohlen
- Der Unsloth-MoE-Kernel ist standardmäßig aktiviert; das Backend kann über
UNSLOTH_MOE_BACKEND gewechselt werden
- Router-Layer-Fine-Tuning ist aus Stabilitätsgründen standardmäßig deaktiviert
- Qwen3.5‑122B‑A10B bf16 LoRA benötigt 256 GB VRAM
- Bei Nutzung mehrerer GPUs
device_map = "balanced" setzen oder den multiGPU-Guide beachten
Quickstart
- Beispiel für textbasiertes SFT (überwachtes Fine-Tuning) verfügbar
- Qwen3.5 hat die Struktur Causal Language Model + Vision Encoder
- Installation der Vision-Abhängigkeiten (
torchvision, pillow) erforderlich
- Die Nutzung der neuesten Transformers-Version wird empfohlen
- GRPO-Training kann nach Deaktivierung von fast vLLM mit Unsloth-Inferenz durchgeführt werden
- Bei OOM (Out of Memory)
per_device_train_batch_size=1, max_seq_length verkleinern
gradient_checkpointing="unsloth" beibehalten, um VRAM zu sparen und den Kontext zu erweitern
- Beispiel für einen MoE-bf16-LoRA-Loader verfügbar
Vision-Fine-Tuning
- Vision-Fine-Tuning für multimodale Qwen3.5-Modelle wird unterstützt
- Qwen3-VL-GRPO/GSPO-RL-Notebooks können verwendet werden (nur Modellname ändern)
- Nur Vision- oder nur Text-Training ist auswählbar
- Selektives Fine-Tuning von Vision-, Language-, Attention- und MLP-Layern
- Standardmäßig sind alle aktiviert
- Für Training mit mehreren Bildern den separaten Multi-Image-Vision-Guide beachten
Modellspeicherung und Deployment
- Unterstützung für verschiedene Deployment-Methoden wie llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang
GGUF speichern
- Unsloth unterstützt das direkte Speichern im GGUF-Format sowie den Upload zu Hugging Face
- Wenn die Inferenzleistung sinkt, sind falsche Chat-Templates oder EOS-Token die Hauptursache
vLLM speichern
- vLLM 0.16.0 unterstützt Qwen3.5 nicht
- 0.170 oder neuer bzw. eine Nightly-Version ist erforderlich
- Speicherung in 16-Bit sowie nur des LoRA-Adapters möglich
- Details siehe Inference-Guide von Unsloth
2 Kommentare
Als ich das letzte Mal versucht habe, über den Agenten ein Fine-Tuning laufen zu lassen, schien je nach Datenlage häufig ein Overfitting-Problem aufzutreten. Ich bin gespannt, ob das in diesem Notebook mit einer Kombination aus LoRA/QLoRA möglich ist.
Hacker-News-Kommentare
Ich habe Qwen-Modelle auf NVIDIA-Jetson-Hardware feinabgestimmt, und die Leistung war überraschend gut.
Ich habe mehrere 7B-Varianten für Edge-AI-Einsätze ausgerollt, und sie waren besonders nützlich in Umgebungen wie industrieller Inspektion oder Retail-Analysen, wo Latenz wichtiger ist als Genauigkeit.
Dank LoRA-Fine-Tuning wurden die Modelle klein genug, um gut in den Unified Memory zu passen, und die Echtzeit-Inferenz war schnell genug.
Am meisten überrascht hat mich die Energieeffizienz — ein Jetson Orin konnte kontinuierliche Inferenz mit unter 15W fahren und sparte damit deutlich mehr Energie als ein Cloud-Roundtrip.
In letzter Zeit sehe ich auf Twitter oder Reddit oft Kommentare in genau diesem gefälschten Anekdotenformat. Sie wirken wie echte Personen, aber klingen komplett erfunden.
Nano (40 TOPS), NX (100) oder AGX (275)? Und hast du eventuell auch größere Modelle auf Thor (2070) ausprobiert?
Mich interessieren reale Beispiele, in denen Leute tatsächlich kleine/mittlere Modelle feinabstimmen und einsetzen.
Relevanter Post
Zum Beispiel:
Ich habe Genauigkeit und Kosten von Llama-70B, Gemma-4B, Ministral-14B und anderen verglichen,
und selbst 4B-Modelle zeigten eine ziemlich ordentliche Leistung.
Allerdings habe ich das Gefühl, dass die Intuition für den Zusammenhang zwischen Datenmenge und Leistungsgewinn verloren gegangen ist.
Ich überlege, Fine-Tuning selbst auszuprobieren.
Das Basismodell funktioniert zwar gut, aber wegen meiner schlechten Handschrift kommt es manchmal zu Erkennungsfehlern.
Es wirkt so, als würde die Notwendigkeit von LLM-Fine-Tuning derzeit immer weiter abnehmen.
Aktuelle Modelle bewältigen selbst komplexe Aufgaben schon sehr gut mit Few-Shot-Learning.
Modelle mit großem Kontextfenster wie Qwen3.5 lassen sich oft durch starkes Prompt Engineering gut ersetzen.
Für Bildmodelle oder ältere LLMs ist es weiterhin sinnvoll, aber bei Text-LLMs wird es zunehmend ineffizient.
Die Kontexterweiterung großer Modelle ist einfach zu teuer.
Mit Anleitungen wie dem Unsloth-Guide ist auch Vision+Text-Fine-Tuning möglich.
Wahrscheinlich wird sich künftig Model Routing durchsetzen: lokal kleine LoRA-Modelle und komplexe Aufgaben in der Cloud.
Tatsächlich betreiben DoorDash, Vercel, NASA und Cursor bereits ihr eigenes Fine-Tuning.
Ich habe es mit Claude, Qwen, Llama, Gemma und anderen versucht, aber Style Transfer funktionierte kaum.
Selbst mit Hunderten meiner Kommentare als Trainingsdaten war zusätzliches Training fast unmöglich, weil Instruct-Modelle bereits übermäßig getunt sind.
Qwen hat solche Daten beim Training herausgefiltert, deshalb lassen sie sich nur per Fine-Tuning zurückholen.
Beispiel dafür: chenrms Qwen3-LoRA-Modell
Kombinationen aus deterministischem und auditierbarem Verhalten, weniger Halluzinationen und kostensparendem LoRA/QLoRA sind nützlich.
Zusammen mit RAG und einer FAISS-Vektor-DB lässt sich ein explodierender Kontext vermeiden.
Langfristig ist das Verwalten kleiner Adapter deutlich effizienter als ständiges Prompt-Tuning.
Schade, dass einige Leads im Qwen-Team ausgetauscht wurden.
Ich mache mir Sorgen, dass mit einer stärker geschäftsorientierten neuen Führung der Open-Source-Geist geschwächt wird.
Meldung über ein dringendes Meeting von Alibaba-CEO/CTO
Hoffentlich klärt sich das gut.
Wenn schon ein dokumentenzentrierter RAG-Ansatz ausreicht, frage ich mich, ob Fine-Tuning tatsächlich bessere Ergebnisse liefert.
Beispiel: FlashCheck
Dieses Material scheint sich nur mit großen MoE-Modellen zu befassen.
Die meisten Nutzer dürften eher auf kleine Modelle (z. B. 9B) abzielen,
und diese verwenden eine hybride Mamba-Architektur, was vermutlich gesonderte Überlegungen erfordert.