Die Rückkehr des Fine-Tuning

(welovesota.com)

13 Punkte von GN⁺ 2025-10-21 | 2 Kommentare | Auf WhatsApp teilen

Fine-Tuning rückt wieder ins Zentrum der AI-Entwicklungsmethodik. Ausgelöst wurde dies durch die Ankündigung von Tinker durch Thinking Machines Labs und einen Paradigmenwechsel hin zur Bereitstellung selbstverwalteter Open-Source-LLMs
Fine-Tuning, das zeitweise auf weniger als 10 % der AI-Inferenz-Workloads zurückgefallen war, erhält durch GPU-as-a-service-Plattformen, ein stabilisiertes Modell-Ökosystem und die Verbreitung von Open-Weight-Modellen wieder Aufmerksamkeit
Die Technik LoRA (Low-Rank Adaptation) senkt die Kosten drastisch, indem statt Milliarden Parametern nur kleine niedrig-rangige Matrizen zusätzlich trainiert werden, während die Leistung erhalten bleibt oder sich verbessert
Tinker bietet eine Architektur für kontinuierliches Lernen durch Online Reinforcement Learning und zeigt damit die Zukunft des Fine-Tuning: Statt vorformulierte Antworten nachzuahmen, werden die Antworten des Modells selbst bewertet und verbessert
Fine-Tuning entwickelt sich über einen bloßen technischen Schritt hinaus zu einer strategischen Schicht für Eigentümerschaft, Alignment und kontinuierliche Verbesserung und dürfte zum zentralen Treiber persönlicher AI-Computer und spezialisierter Agentensysteme werden

Historischer Hintergrund des Fine-Tuning

Thinking Machines Labs hat Tinker angekündigt und damit die Debatte über Fine-Tuning-as-a-platform neu entfacht
- Das Startup, gegründet von der früheren OpenAI-CTO Mira Murati, erreichte nur 6 Monate nach der Gründung eine Bewertung von 12 Milliarden US-Dollar
- Die Fine-Tuning-Plattform wird als Grundlage für Forschungskooperationen mit Universitäten positioniert
Clément Delangue von Hugging Face erkennt einen Paradigmenwechsel hin zur Bereitstellung selbstverwalteter, Open-Source-basierter, spezialisierter LLMs
- Dedizierte Hardware wie NVIDIAs DGX Spark stützt diese Entwicklung
- Die Personal AI Workstation von a16z ist ein Marketingbeispiel für diesen Trend
Fine-Tuning erhielt nach der ersten Welle großer Sprachmodelle kurzzeitig Aufmerksamkeit, verschwand dann aber rasch wieder und macht derzeit weniger als 10 % der AI-Inferenz-Workloads aus

Die Zeit vor dem Transformer

Vor der Transformer-Revolution war NLP auf spezialisierte Modelle angewiesen
- Rekurrente Architekturen wie RNN und LSTM erzielten die ersten Fortschritte
- Zum ersten Mal wurde direkt aus Wortsequenzen gelernt, statt auf manuell entwickelte Sprachmerkmale zu setzen
- Jede Anwendung musste mit aufgabenspezifischen Daten von Grund auf neu beginnen

Das Aufkommen des Transformer und die Etablierung der Fine-Tuning-Methodik

2017 stellte Googles Paper Attention Is All You Need die Transformer-Architektur vor
- Rekurrenz und Faltung wurden allein durch Self-Attention ersetzt
7 Monate später bewies ULMFiT, dass sich vortrainierte Sprachmodelle (damals noch auf LSTM-Basis) für verschiedene Aufgaben feinabstimmen lassen
- Damit wurde die methodische Grundlage geschaffen, die Transformer praktisch nutzbar machte
Ein Jahr später setzten BERT und GPT-1 dieses Design tatsächlich um
- BERT nutzt die Encoder-Seite mit bidirektionaler Attention für Verständnisaufgaben
- GPT verwendet die Decoder-Seite mit unidirektionaler Attention für Generierung
Vor allem BERT formte die NLP-Kultur neu
- Statt jedes Modell von Grund auf neu zu bauen, konnten Forschende vortrainierte Transformer feinabstimmen und so Ergebnisse erzielen, für die zuvor monatelanges manuelles Feature Engineering nötig gewesen wäre

Die Grenzen von Full Fine-Tuning und das Aufkommen von LoRA

Als die Zahl der Parameter von Millionen auf Hunderte Milliarden explodierte, war Fine-Tuning nicht länger automatisch die kluge Wahl
- Full Fine-Tuning (FFT) bedeutet, alle Schichten und Gewichte neu zu trainieren
- Es bot Präzision, verursachte aber enorme Kosten
- Was einst einige Stunden GPU-Arbeit war, wurde zu einer groß angelegten industriellen Aufgabe
2021 stellte Microsoft Research LoRA (Low-Rank Adaptation of Large Language Models) vor
- Statt Milliarden Parameter neu zu trainieren, friert LoRA die ursprünglichen Gewichte ein und fügt ausgewählten Schichten kleine niedrig-rangige Matrizen hinzu
- Nur diese werden trainiert, wodurch die Kosten um eine Größenordnung sinken, während die Leistung von FFT erhalten bleibt oder sich verbessert
- LoRA wurde zum Standardansatz
- Bis 2024 war die Implementierung dank der PEFT-Bibliothek von Hugging Face mit einem einzigen Befehl möglich

Die Komplexität des Hyperparameter-Tuning

Fine-Tuning ist mehr als nur ein Paket, das man bereitstellt und betreibt
- Im Tuning selbst passiert die eigentliche Magie, und es gibt niemals eine einzelne Konfiguration, die für alles passt
Hyperparameter-Tuning entscheidet selbst über Erfolg oder Misserfolg eines Modells
- Das Austarieren von Rank, Learning Rate und Alpha-Verhältnis ist eher Alchemie als Wissenschaft
- Man muss vermeiden, dass Adapter überfitten oder das Modell vergisst, was es bereits wusste (catastrophic forgetting)
Wenn etwas funktioniert, fühlt sich die Evaluation eher wie Wahrsagerei als wie Verifikation an
Gleichzeitig wurden LLMs bei nahezu allen Aufgaben weiter besser und näherten sich einer Art Allzuständigkeit
- Bis 2023 erkannten die meisten Teams, dass sie dank größerer Kontextfenster etwa 90 % der Fine-Tuning-Leistung durch Prompt Engineering erreichen konnten
- Auch RAG (Retrieval-Augmented Generation) verschaffte Modellen Zugriff auf externe Wissensbasen
- Beide Ansätze erfordern kein Retraining und liefern brauchbare Ergebnisse bei deutlich geringerem operativem Aufwand

Warum Fine-Tuning wieder Aufmerksamkeit bekommt

Die Faktoren, die Fine-Tuning einst irrelevant oder ineffizient machten, werden nun einer nach dem anderen gelöst
- GPU-as-a-service-Plattformen wie Together.ai ermöglichen es, LoRA-Fine-Tuning-Pipelines mit minimaler Reibung zu starten
- Neue Modelle erscheinen zwar weiterhin schnell, doch die Veränderungen sind heute eher evolutionär als revolutionär
- Open-Weight-Ökosysteme wie Mistral, Llama, Falcon, Yi und Gemma bieten Organisationen viele Alternativen, um feinabgestimmte Varianten ohne Vendor Lock-in zu besitzen, zu prüfen und zu betreiben
- Unternehmen könnten an die Grenzen dessen gestoßen sein, was sich allein durch Prompting erreichen lässt
Fine-Tuning wird langsam wieder ins Rampenlicht gerückt — nicht als trendiges Feature, sondern als strategischer Hebel für Kontrolle, Differenzierung und eingebettete Intelligenz

Tinker von Thinking Machines Lab und Verbesserungen an LoRA

Tinker von Thinking Machines Lab fokussiert sich auf Beweisführung in der Theorembeweisung, chemisches Schlussfolgern, Multi-Agent-Reinforcement-Learning und AI-Sicherheit
Im Blogpost LoRA Without Regret teilen sie Methoden für effektiveres Fine-Tuning
- Empfohlen wird, LoRA nicht nur wie im Originalpaper auf Attention-Layer anzuwenden, sondern auf alle linearen Module
- Hervorgehoben wird die Bedeutung des oft übersehenen Hyperparameters LoRA-Rank
- Empfohlen werden höhere Learning Rates (mindestens 10-fach höher) sowie kleinere Batch-Größen (entgegen der üblichen Praxis)
- Es wird geraten, Reward-Funktionen explizit zu definieren — etwa über mathematische oder logische Verifikation
- Alle Empfehlungen sind in Hugging Faces TRL klar beschrieben und reproduzierbar

Die Modularität moderner Fine-Tuning-Pipelines

Moderne Fine-Tuning-Pipelines sehen völlig anders aus als noch vor 5 Jahren
- Sie sind modular, serverless und orchestriert
Eine einzelne Bereitstellung kann zusammen mit dem Basismodell Dutzende von LoRA-Adaptern ausführen
- Jeder davon steht für einen bestimmten Tonfall, eine Funktion oder eine Domäne
Während der Inferenz routet das System Abfragen an die richtige Kombination von Adaptern, statt sich auf statische Modelldateien zu verlassen
Diese Modularität bringt eigene Herausforderungen mit sich
- All-in-one-Plattformen wie Together.ai übernehmen zwar den Großteil der schweren Arbeit, es fehlt ihnen jedoch oft an der feingranularen Konfiguration und Observability, die viele Teams benötigen
- Kosten im großen Maßstab können schnell ausufern

Tinkers besonderer Ansatz

Tinker scheint das Beste aus beiden Welten zu bieten
- Es kombiniert den Komfort eines modernen, vollständig verwalteten Fine-Tuning-Stacks mit feingranularer Kontrolle für Forschende
- Nutzer erhalten direkten API-Zugriff auf Low-Level-Lernprimitiven, um Lern-Workflows und Custom-Algorithmen auf der tiefsten Ebene zu orchestrieren
- Gleichzeitig übernimmt es die mühsame Arbeit
Derzeit ist Tinker nur für Forschungszwecke reserviert, dürfte aber andere Plattformen inspirieren
Infrastrukturprobleme werden nach und nach zu einem Thema der Vergangenheit, doch die große Herausforderung der Evaluation bleibt bestehen

Die Schwierigkeit der Modellevaluation und Online Reinforcement Learning

Modelle sind sehr schwer zu evaluieren
- Menschliche Evaluation ist inkonsistent, langsam und vor allem teuer
- Benchmarks altern schnell und verlieren durch Datenkontamination an Relevanz
- Selbst automatisierte Ansätze wie G-Eval oder Chatbot Arena bringen eigene Probleme mit sich und verstärken oft Verzerrungen und erzeugen instabile Scores
Benjamin Anderson schlägt vor, dass Tinker einen Teil der Lösung bieten könnte
- Tinker gibt Nutzern die Möglichkeit, Online Reinforcement Learning durchzuführen
- Es nimmt Vervollständigungen aus den aktuellen Modellgewichten, bewertet diese und aktualisiert das Modell je nachdem, ob die Ausgabe gut oder schlecht war
- Supervised Fine-Tuning lehrt das Modell, vorgegebene Antworten zu imitieren, während Online RL seine eigenen Antworten bewertet und verbessert
Mit einer solchen Architektur könnte die Zukunft des Fine-Tuning nicht mehr wie klassisches Fine-Tuning aussehen
- Sie beginnt kontinuierlichem Lernen zu ähneln

Die strategische Evolution des Fine-Tuning

Robert Hommes von Moyai.ai sagt dazu
- "Theoretisch war Fine-Tuning immer sinnvoll. Aber das Tempo, in dem Closed-Source-Labore die Modellintelligenz skalierten, machte es praktisch zu einer schlechten Wahl"
- "Jetzt verschiebt sich das Ganze mit Rechenleistung, Daten und besseren Frameworks wieder in Richtung Spezialisierung"
Der Wechsel zum Self-Hosting könnte näher sein als erwartet
- Constant Razel von Exxa sagt: "Persönliche AI-Computer sind keine ferne Idee mehr"
- Die Technologie verbessert sich und wird leichter zugänglich
- Sicherheit und Kosten könnten die frühe Adoption antreiben
- Fine-Tuning wird es ermöglichen, dass darauf spezialisierte Hochleistungs-Agenten laufen
Fine-Tuning verändert sich von der brachialen Jagd nach Grenzgenauigkeit hin zu einem Framework für Eigentümerschaft, Alignment und kontinuierliche Verbesserung, das in Nähe und Kontrolle verwurzelt ist
Es ist nicht länger nur ein technischer Schritt, sondern könnte zu einer strategischen Schicht dafür werden, wie Intelligenz aufgebaut und besessen wird

2 Kommentare

m00nlygreat 2025-10-22

Der Mensch wird eher noch zum Hindernis für die Weiterentwicklung der AI. Das ist ein interessantes Dilemma. Haha

GN⁺ 2025-10-21

Hacker-News-Kommentare

Noch vor einem Jahr war ich optimistisch. Es gab sogar mindestens einen Fall, in dem RL-basiertes Fine-Tuning sinnvoll war. Aber wenn man versucht, das tatsächlich im Arbeitsalltag einzusetzen, kollidiert es oft mit bestehenden Industrietechniken. Wenn ich mir die ML-Ingenieure in meinem Umfeld ansehe, dann fehlt vielen von ihnen, besonders denen, die seit dem Aufkommen der LLMs eingestellt wurden, echtes ML-Wissen. Faktisch sind sie eher AI-Entwickler oder im AI-DevOps-Bereich tätig. ML selbst wandelt sich zunehmend zu einem Beruf, in dem man wie im Data Engineering oder in der Analyse vor allem Plattform-Tools nutzt. Tatsächlich gibt es unter den AI-Produkten von Cloud-Plattformen etliche, die nicht einmal Evaluierungsmetriken bereitstellen, sodass sich damit keine vernünftigen ML-Lösungen entwickeln lassen. Und kaum jemand macht daraus ein großes Problem. RL-Fine-Tuning erfordert unzählige Details, Monitoring-Punkte und Data Refinement. Schon einfache ML-Modelle lernen die meisten inzwischen kaum noch richtig, und die Lernlücke beim RL-Fine-Tuning ist noch deutlich größer. Praktisch gibt es so wenige gute Beispiele, dass man im Job kaum von erfahrenen Kollegen lernen kann. Auch bei der Zuteilung von Experten oder den Kosten für Data Labeling wird eher gespart. Ich bin skeptisch, wie lange ein Unternehmen solchen technischen Support wirklich aufrechterhält und wer das nach meinem Weggang übernehmen würde. Auch AutoML ist an der Breitenanwendung gescheitert, und ich glaube, RL wird sich ebenfalls nicht leicht als Plattform verpacken lassen. Die Realität ist, dass die meisten Unternehmen ohne Zögern mehr Geld für ein unterlegenes Produkt ausgeben, solange es groß skaliert. „Berufserfahrung“ in der Branche bedeutet am Ende meist Erfahrung mit proprietären Plattformen. Im Tech-Stack wird gelegentlich „pytorch“ verlangt, aber fast niemand im Unternehmen kann es tatsächlich nutzen. Und selbst wenn doch, verhindert die operative Last oft den Einsatz
- Labeling ist selbst dann absolut essenziell, wenn man kein Modell trainiert, weil man ein System damit schnell und objektiv validieren kann. Aber Labels zu beschaffen ist immer wieder schwierig. Selbst wenn man gelegentlich SME-Ressourcen bekommt, ist die Kommunikation mühsam, wenn man verlangt, dass konsistente Kriterien strikt angewendet werden, und am Ende sind die finalen Labels oft schwer nutzbar. Deshalb habe ich oft freiwillig selbst gelabelt. Mir fehlte zwar tiefes Domänenwissen, aber ich wusste ungefähr, „was neuronale Netze mögen“, und konnte dadurch die Wartezeit stark verkürzen. Das Tuning großer Modelle ist nach wie vor schwer zu rechtfertigen. Oft reicht es schon, sechs Monate zu warten, und es erscheint ein besseres Basismodell. Aber wenn große Modelle zu teuer sind und in einen ineffizienten Kostenbereich fallen, dann ist es definitiv wertvoll, ein kleines Modell passend zum Zweck feinzujustieren
- Ich habe das Gefühl, dass echtes Engineering, also die Fähigkeit, komplexe Theorie in funktionierende Systeme zu übertragen, im eigentlichen Sinn stark schwächer geworden ist. Statt viel Zeit in den Aufbau von Engineering-Kompetenz zu investieren, ist die Tendenz heute größer, einfach auf bereits vorhandene Engineering-Services aufzuspringen. Aus Hacker-Sicht muss man nicht erst einen ROI dafür verlangen, auf irgendeiner obskuren GPU selbst ein Modell zu trainieren. Einzelne Ingenieure haben eben den Drang, sich Wissen anzueignen
- Letztlich wird irgendwann jemand durch echte Leistungsmessung ordentliche Resultate liefern, Michael Lewis wird darüber ein Buch schreiben, und dann beginnt der nächste Zyklus von vorn
- Ich habe ebenfalls viele Teams gesehen, die sich vom Fine-Tuning große Effekte versprochen hatten, in der Praxis aber nur schrittweise oder minimale Verbesserungen erzielten. Oft wurde es schließlich sogar produktisiert, nur um später zu bereuen, dass man mit den neuesten SOTA-Updates nicht Schritt halten konnte. Ich vermeide Fine-Tuning inzwischen bewusst. Der Grund ist, dass sich die Modelle selbst zu schnell verbessern und selbst große Unternehmen mit ihrer Produktentwicklung nicht hinterherkommen
Kürzlich habe ich auf Twitter nach Fällen gefragt, in denen mit LLM-Fine-Tuning wirtschaftlicher Wert geschaffen wurde. Diese Frage stelle ich ungefähr alle sechs Monate, und die Ergebnisse waren meist enttäuschend. Diesmal kamen etwas glaubwürdigere Antworten zusammen als früher. Die wichtigsten Fälle habe ich in meinem Twitter-Thread zusammengefasst, und für Leute ohne Twitter-Konto gibt es auch einen Link zum Thread-Viewer. Ein besonders eindrucksvolles Beispiel ist Datadog, das bei natürlicher Sprachsuche eine Latenz von unter 500 ms erreicht hat, siehe zugehöriger Tweet und offizielle Dokumentation. Vercel betreibt ein eigenes Fine-Tuning-Modell für die automatische Generierung von Next.js, dazu gibt es auch einen Blogbeitrag. Shopify nutzt ein feinabgestimmtes Vision LLM zur Analyse von Produktfotos, siehe Artikel
- Bei Regressionsaufgaben ist Fine-Tuning fast unverzichtbar. Auch bei Klassifikation ist es nützlich, weil man Wahrscheinlichkeitswerte direkt verwenden kann, um Ja/Nein-Schwellenwerte anzupassen
- Für die meisten Unternehmen dürfte das Verhältnis von Risiko zu Ertrag beim Fine-Tuning schlechter sein als erwartet. Wenn man einfach mehr Daten in den Prompt packen kann, ist das oft der bequemere Weg
- Falls jemand Ideen für Anwendungsfälle hat, in denen Fine-Tuning einen großen Unterschied machen könnte, aber keine Zeit oder Ressourcen hat, sie selbst zu testen, dann teile solche Ideen gern. Ich sammle solche Fälle gerade, und aktuell habe ich nur drei echte bzw. verifizierte Beispiele
- Viele Leute, die versuchen, Domänenwissen in ein LLM hineinzufeinjustieren, machen den Fehler, zum Beispiel psychologische Fachbücher einfach zu zerschneiden und nur den Text einzuspeisen. Damit bringt man dem Modell nicht bei, „Psychologie anzuwenden“, sondern nur, darüber „einen einführenden Text zu schreiben“. Ein schlecht entworfenes Dataset ist die Ursache vieler Fine-Tuning-Fehlschläge. Ist das Dataset dagegen richtig aufgebaut, kann ein 7B-Modell effizienter sein als ein 180B-Modell
Ich stimme der Meinung des OP zu, auch anhand einiger Beispiele, die ich kürzlich gesehen habe. PaddleOCR erreicht mit 0,9B Parametern eine nahezu SOTA-Genauigkeit bei Text, Tabellen, Formeln, Diagrammen und Handschrift, siehe Paper. Außerdem erreichen 3B/8B-Modelle bei der Aufgabe, HTML in JSON umzuwandeln, eine Genauigkeit auf GPT-5-Niveau, bei 40- bis 80-mal geringeren Kosten und schnellerer Inferenz, siehe Reddit. Wenn man die Effizienz für eine bestimmte Aufgabe erhöhen will, ist Fine-Tuning sinnvoll
- Mich würde interessieren, ob du PaddleOCR selbst ausprobiert hast. Dass es SOTA sein soll, ohne mit Amazon Textract oder Azure Document Intelligence (auf Basis von LayoutLM v3) verglichen zu werden, finde ich merkwürdig. Als ich selbst mit Dokumentenerkennung experimentiert habe, waren diese beiden auf Spitzenniveau
- Diese Diskussion führt wieder zurück zur Frage nach SLMs und LLMs, also der Modellgröße. SLMs kann man für bestimmte Aufgaben optimieren, und dort können sie LLMs schlagen. Aber solange nicht 1. Präzision extrem wichtig ist oder 2. das Traffic-Volumen riesig ist, lohnt sich der Aufwand in Relation zu Zeit und Mühe oft nicht
Als Gründer eines LLM-Fine-Tuning-Startups namens Lamini stimme ich der Meinung des OP nicht zu. Unsere Hypothese war, dass Fine-Tuning viel einfacher nutzbar sein würde als Deep Learning von Grund auf. Wir gingen davon aus, dass es leichter sein müsste, weil man bereits von einem sehr leistungsfähigen LLM startet. Aber nach rund 20 realen Projekten stellte sich heraus, dass Fine-Tuning genauso schwierig und die Einstiegshürde genauso hoch ist wie bei Deep Learning. In der aktuellen Marktstruktur kann jeder ML-Ingenieur, der Deep-Learning-basiertes Fine-Tuning beherrscht, leicht ein Startup gründen oder zu Anthropic, OpenAI usw. wechseln. Gerade in Teams, die LLM-Lösungen bauen, werden wirklich gute Ingenieure nicht besonders wertgeschätzt. In der Folge sind spezialisierte Teams, die Claude, GPT oder Qwen entwickeln, wettbewerbsfähiger als individuelle Fine-Tuning-Versuche einzelner Nutzer. Momentan sind RAG, Prompt Engineering, Reasoning, AI Agents, Memory und SLMs deutlich einfachere und stärkere Lösungen
- Ich frage mich, ob Anthropic oder OpenAI wirklich jeden einstellen würden, der LLM-Fine-Tuning beherrscht
- Mich würde interessieren, welche Art von Modellen ihr damals feinjustiert habt, ob sie bereits weit genug entwickelt waren, um sich gut tunen zu lassen, und ob es Probleme mit catastrophic forgetting gab. Inzwischen gibt es deutlich bessere Open-Source-Modelle. Wenn man die Architektur mit Fine-Tuning im Hinterkopf entwirft, lassen sich die Schwächen früherer Generationen meiner Meinung nach überwinden. Unternehmen wollen ihr eigenes Modell lieber selbst besitzen, als sich auf fremde Modelle zu stützen
Fine-Tuning ist eine gute Technik, die unbedingt im Werkzeugkasten sein sollte. In der Praxis ist das Spektrum sinnvoller Einsätze aber enger, als man denkt. Einerseits liefern viele NLP-Aufgaben bereits mit der Grundfähigkeit von LLMs eine so hohe Genauigkeit, dass Fine-Tuning unnötig ist. Andererseits sind wirklich komplexe Aufgaben extrem schwer feinzujustieren, und auch die Datensammlung ist sehr teuer. Letztlich ist Fine-Tuning also eine brauchbare Lösung für Aufgaben irgendwo in der Mitte: schwierig genug, aber nicht zu schwierig, und mit realistischer Datenerhebung
- Ich glaube, es gibt Hunderttausende passende Use Cases
- Mich würde interessieren, was zum Beispiel konkrete Fälle für solche „mittleren“ Aufgaben wären
Diese Website lädt selbst aus Europa heraus extrem schnell. Inhalte werden dynamisch beim Scrollen nachgeladen, und die Bilder sind stark komprimiert, sehen aber trotzdem gut aus. Der Aufbau der Seite ist wirklich beeindruckend
- Vermutlich Magie durch das CDN und minimierter Einsatz von JS (ich habe mir den Source noch nicht angesehen)
Ich habe kürzlich einen Blogpost zu einem ähnlichen Thema geschrieben, siehe Blog. Darin bespreche ich „LoRA Land“, eine groß angelegte empirische Studie, in der ein feinjustiertes 7B-Modell GPT-4 übertroffen hat, sowie die Veränderungen bei Fine-Tuning-Trends in den letzten sechs Monaten
Ich frage mich, ob man mit LoRA-Adaptern all die Kontextelemente ins Modell hineinbekommen könnte, die man sonst immer in den Prompt stecken muss: Arbeitsstandards, bevorzugte Benennungsstile, Referenzmaterialien, MCP-Definitionen usw. Die Daten ließen sich bequem erzeugen, indem man zunächst möglichst viel bestehenden Kontext einfügt, verschiedene Prompts ausprobiert und dann beobachtet, wie sich die Antworten vom Baseline-Modell unterscheiden. Das Ergebnis könnte man fürs Fine-Tuning auch in der Form input=“refactor {base model output}”, output=“{full-context model output}” verwenden. LoRA wurde ursprünglich so entworfen, dass man es kombinieren kann, also ließe sich auch MCP wohl als Adapter ausliefern und an- oder abschalten. Ich glaube, dass man auf diese Weise sogar context poisoning verhindern könnte
Ich bin Entwickler von inference.net und schematron. Unternehmen setzen LLMs inzwischen real in Produkte ein und achten immer stärker auf Effizienz. Aus Entwicklersicht kann man zwar auch teure Modelle wie GPT-5-Super-AGI-Thinking-Max abrechnen, aber das reale Geschäft achtet eben ebenfalls auf Effizienz. Wenn man ein Llama-Modell mit 8 Milliarden Parametern innerhalb von 48 Stunden auf Basis von GPT-5-Daten feinjustieren und damit 100.000 Dollar pro Monat einsparen kann, dann will natürlich jeder diese Chance nutzen
Es wirkt so, als hätten die meisten Unternehmen inzwischen die Grenze dessen erreicht, was sich allein mit simplen Prompts erzielen lässt. Sie brauchen Modelle, die ihren eigenen Wortschatz, Tonfall, ihre Taxonomien und Compliance-Vorgaben genau kennen. Geschwindigkeit und Kosten sind dabei wichtig, und das ist ein Hauptgrund für Fine-Tuning. Allerdings ermöglichen auch Kontext-Management-Techniken Zusammenarbeit. Mit wachsender Kontextgröße hat RAG Fine-Tuning teilweise ersetzt, und zuletzt hat schon besseres Prompt-Design die praktische Nutzbarkeit stark erhöht. Wie in der FPGA-vs.-CPU/GPU-Debatte können die meisten wegen Entwicklungsaufwand und Lieferterminrisiken die Vorteile von High-End-Fine-Tuning am Ende nicht ausschöpfen