2 Punkte von liang1008 2026-01-04 | 5 Kommentare | Auf WhatsApp teilen

In letzter Zeit habe ich mit kleinen Gemma-3-Modellen SFT- und LoRA-Fine-Tuning für den Bereich Filmempfehlungen ausprobiert. Während der Experimente hatte ich den Eindruck, dass es bei der Fähigkeit kleiner Modelle (SLM), Wissen aufzunehmen, einige Grenzen gibt, weshalb ich diese Frage stelle.

[Experiment]

  • Verwendete Modelle: gemma-3-270m-it, gemma-3-1b-it
  • Trainingsmethode: LoRA und SFT
  • Versuchsergebnis: Das 1B-Modell konnte auf Basis seines vorhandenen Wissens bis zu einem gewissen Grad Schlussfolgerungen ziehen, aber beim 270M-Modell hatte ich aufgrund der begrenzten Anzahl an Parametern den Eindruck, dass ihm schlicht das „Gefäß“ fehlt, um neues Domänenwissen aufzunehmen.

Den gesamten Tuning-Prozess habe ich in mehreren Blogbeiträgen dokumentiert.
https://seungsang.tistory.com/entry/…


[Probleme, auf die ich gestoßen bin]

  • Kapazitätsgrenze von LoRA: Da die trainierbaren Parameter nur bei etwa 1 % der Gesamtmenge liegen, stieß ich bei der Wissenseinspeisung (Knowledge Injection), die über einfache Task Adaptation hinausgeht, an Grenzen.
  • Bedenken beim Full Fine-Tuning: Wenn ich alle Gewichte des Modells aktualisiere, ist das zwar für die Wissenseinspeisung vorteilhaft, aber ich vermute, dass dabei die vorhandene allgemeine Reasoning-Fähigkeit verloren geht. Selbst wenn ich Replay-Daten beimischen möchte, um das zu verhindern, ist das schwierig, weil die Trainingsdaten des Basismodells nicht offengelegt sind.

Ich denke, im Fall von Filmen war Fine-Tuning möglich, weil das Modell bereits entsprechendes Wissen hatte.
Aber was sollte ich tun, wenn ich mich auf eine ganz bestimmte Domäne stützen möchte?
Wenn man ein kleines Modell auf eine bestimmte Domäne spezialisieren möchte: Welche Strategien gibt es, um die begrenzte Parameterkapazität zu überwinden und Domänenwissen wirksam einzuspeisen?

Ich freue mich über viele Ratschläge. Ich wäre auch dankbar, wenn Sie verschiedene Erfahrungen teilen könnten, etwa mit CPT (Continued Pre-training).

5 Kommentare

 
bungker 2026-01-05

Ich habe auch mit 7B feinabgestimmt, und es hat überhaupt nicht funktioniert — ich dachte schon, ich werde wahnsinnig. Da kommen direkt wieder PTSD-Erinnerungen hoch.

 
liang1008 2026-01-06

Machen Sie das noch?

Gibt es vielleicht Eindrücke oder Tipps, die Sie dabei gewonnen haben?

 
mammal 2026-01-04

LoRA und Fine-Tuning sind für die Wissensinjektion ungeeignet. LoRA und Fine-Tuning eignen sich am besten zur Korrektur von Ausgabestil und Tonalität. Wenn Sie wissensbezogene Informationen in Form von RAG in den Eingabe-Prompt aufnehmen und anschließend den Recall bzw. die Genauigkeit der Ausgabedaten bewerten und erst dann LoRA/Fine-Tuning durchführen, ist das deutlich effektiver.

 
tsboard 2026-02-14

Ich möchte mich ebenfalls für den Einsatz von RAG aussprechen.

 
liang1008 2026-01-04

Vielen Dank für Ihre Antwort.

Bei RAG überlege ich noch etwas, wie sich im Hinblick auf die Domäne die Daten sinnvoll beschaffen lassen.
Ob ich das Embedding-Modell selbst trainieren sollte ...

Ich wollte das Wissen verinnerlichen, um auch die Token-Anzahl des kleinen Modells zu reduzieren, aber offenbar gibt es mit LoRA Grenzen.

Ich werde über die von Ihnen genannten Punkte nachdenken. Vielen Dank.