Einführung in das Sprachmodell phi-3-mini
- phi-3-mini ist ein Sprachmodell mit 3,8B Parametern und wurde mit 3,3 Billionen Token trainiert
- Laut akademischen Benchmarks und internen Testergebnissen zeigt es eine Leistung, die mit Modellen wie Mixtral 8x7B und GPT-3.5 vergleichbar ist (MMLU 69 %, MT-bench 8,38 Punkte)
- Trotz seiner geringen Größe, die eine Bereitstellung auf Mobiltelefonen ermöglicht, zeigt es eine hervorragende Leistung
- Es basiert auf einer erweiterten Version des für phi-2 verwendeten Datensatzes und besteht aus gefilterten Webdaten sowie synthetischen Daten
- Zusätzlich wurde es für Robustheit, Sicherheit und das Chat-Format weiter aligniert
Einführung in die Modelle phi-3-small und phi-3-medium
- Es werden auch erste Ergebnisse zur Parameterskalierung der mit 4,8 Billionen Token trainierten 7B- und 14B-Modelle phi-3-small und phi-3-medium vorgestellt
- Sie zeigen eine deutlich bessere Leistung als phi-3-mini (MMLU 75 %, 78 %, MT-bench 8,7 Punkte, 8,9 Punkte)
Meinung von GN⁺
- Beeindruckend ist, dass ein kleines Sprachmodell, das auf Mobiltelefonen eingesetzt werden kann, eine hohe Leistung zeigt. Dadurch dürfte das Potenzial für den Einsatz von AI auf mobilen Geräten weiter steigen
- Allerdings könnte es Bedenken hinsichtlich Datenschutz und Privatsphäre geben. Auch wenn die Verarbeitung lokal auf dem Gerät erfolgt, müssen Nutzerdaten sicher verwaltet werden
- Der Trainingsansatz mit Webdaten und synthetischen Daten ist interessant. Vermutlich war viel Aufwand für Datensammlung und -bereinigung nötig. Das ist ein Beispiel dafür, dass hochwertige Daten zu guter Leistung führen
- Auch die Ergebnisse des Leistungsvergleichs nach Modellgröße sind interessant. Aus Effizienzsicht scheint die Wahl eines Modells in passender Größe wichtig zu sein
- Es erscheinen kompakte Open-Source-Sprachmodelle wie StableLM von Stability AI und Claude von Anthropic. Es ist zu erwarten, dass daraus vielfältige Anwendungsfälle entstehen
2 Kommentare
Microsoft stellt mit 2,7B das kleine, aber leistungsstarke Sprachmodell Phi-2 vor
Hacker-News-Kommentare
Die Benchmark-Ergebnisse des Phi-3-Modells sollten mit Vorsicht interpretiert werden. Bereits beim früheren Phi-2-Modell gab es den Präzedenzfall, dass die tatsächliche Leistung unter den Benchmark-Werten lag. Das muss sich nicht direkt in die reale Nutzung oder die Platzierung im LMSYS-Leaderboard übersetzen.
Dennoch zeigt Phi-3 bei kleiner Modellgröße eine gute Leistung. Das deutet darauf hin, dass ein Distillation-Ansatz über "synthetische Daten", bei dem die Leistung von GPT-4 auf ein kleines Modell übertragen wird, wirksam sein könnte. Man bekommt einen Eindruck vom Potenzial des Chinchilla-Ansatzes, bei dem ein großes Modell optimal trainiert und anschließend in ein kleines Modell destilliert wird.
Im englischen LMSYS-Leaderboard zeigen die Phi-3-Modelle eine Leistung, die mit Llama 3, GPT-3.5 und anderen vergleichbar ist. Besonders Phi-3-mini 3.8B ist mit 3,8 Milliarden Parametern Llama 3 8B ebenbürtig. Das deutet auf die mögliche Entstehung eines Open-Source-LLM auf GPT-4-Niveau hin, das auf Mobiltelefonen laufen kann.
Solche Benchmarks haben allerdings die Einschränkung, dass Modelle sie leicht gamen können. Statt auf einzelne Tasks sollte man eher auf die Gesamtleistung achten. Eine sorgfältige Prüfung aus mehreren Perspektiven scheint nötig zu sein.
Einige der Phi-3-Modelle wurden auf HuggingFace veröffentlicht. Dadurch dürfte die Nutzung der Modelle deutlich einfacher werden.
Das Training mit umfangreichen synthetischen Daten von 3,3 Billionen Token trägt zur Verkleinerung des Modells bei. Das könnte auch helfen, Urheberrechtsprobleme zu entschärfen.
In der tatsächlichen Nutzung produziert das Modell außerhalb des Trainingsdatenbereichs jedoch oft viel Unsinn. Für Finetuning auf eng umrissene Tasks mag es effektiv sein, aber in allgemeinen Gesprächen dürfte es GPT-3.5 nur schwer ersetzen können.
Die Modellgewichte wurden in 4k- und 128k-Kontextversionen auf HuggingFace veröffentlicht. Das weckt Interesse an möglichen Anwendungen für Finetuning oder RAG (Retrieval-Augmented Generation).