Ein hundertmal kleineres ModernBERT auf Basis der Inferenzfähigkeit von DeepSeek R1 trainieren

(link.medium.com)

7 Punkte von sigridjineth 2025-01-30 | Noch keine Kommentare. | Auf WhatsApp teilen

Mit von DeepSeek R1 erzeugten Labels lässt sich ein ModernBERT-Modell so trainieren, dass es vorhersagt, ob „ein Paper einen neuen Datensatz einführt“. Das so erstellte Modell ist sofort einsatzbereit und benötigt in produktiven Service-Umgebungen bei reiner Inferenz keine riesigen Ressourcen wie ein LLM. Dennoch bleibt bei Klassifikationsproblemen, die Labels benötigen, eine gewisse Genauigkeit erhalten, da die Inferenzfähigkeit des LLM indirekt übertragen wurde.

Besonders bei RAG, wenn sich ein Problem nicht allein mit einfachem Text-Matching lösen lässt und ein gewisses Maß an Schlussfolgern nötig ist, und wenn Labels knapp sind oder sich nur schwer erstellen lassen, ist es nützlich, ein ModernBERT-Modell auf Basis von von DeepSeek erzeugten Labels zu trainieren.

Ein hundertmal kleineres ModernBERT auf Basis der Inferenzfähigkeit von DeepSeek R1 trainieren

Verwandte Beiträge

Noch keine Kommentare.