Microsoft stellt mit 2.7B das kleine, aber leistungsstarke Sprachmodell Phi-2 vor

xguru · 2023-12-15T09:21:19+09:00

SLM: Small Language Model Trotz eines 2.7B-Modells zeigt es eine Leistung, die mit bis zu 25-mal größeren Modellen vergleichbar oder besser ist Übertrifft die Leistung von Mistral 7B und Llama-7B/13B Bei mehrstufigem Schlussfolgern wie Coding und Mathematik ist es sogar besser als das 25-mal größere Modell Llama-2-70B Es ist kleiner als Google Gemini Nano 2, liefert aber eine gleich gute oder bessere Leistung Kann mit weniger Rechenleistung als Modelle wie GPT-4 oder Llama-2 ähnliche Aufgaben wie Textgenerierung und Bildbeschreibung ausführen Aufgrund seiner geringen Größe ist es ein idealer Playground für Forschende, einschließlich Experimenten zur mechanistischen Interpretierbarkeit, zur Verbesserung der Sicherheit oder zum Fine-Tuning für verschiedene Aufgaben

(microsoft.com)

17 Punkte von xguru 2023-12-15 | 2 Kommentare | Auf WhatsApp teilen

SLM: Small Language Model
Trotz eines 2.7B-Modells zeigt es eine Leistung, die mit bis zu 25-mal größeren Modellen vergleichbar oder besser ist
- Übertrifft die Leistung von Mistral 7B und Llama-7B/13B
- Bei mehrstufigem Schlussfolgern wie Coding und Mathematik ist es sogar besser als das 25-mal größere Modell Llama-2-70B
- Es ist kleiner als Google Gemini Nano 2, liefert aber eine gleich gute oder bessere Leistung
Kann mit weniger Rechenleistung als Modelle wie GPT-4 oder Llama-2 ähnliche Aufgaben wie Textgenerierung und Bildbeschreibung ausführen
Aufgrund seiner geringen Größe ist es ein idealer Playground für Forschende, einschließlich Experimenten zur mechanistischen Interpretierbarkeit, zur Verbesserung der Sicherheit oder zum Fine-Tuning für verschiedene Aufgaben

2 Kommentare

xguru 2023-12-15

Die Weights gibt es hier: https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Hacker-News-Kommentare

Vergleich der Parameteranzahl von GPT-3 und Phi-2
- GPT-3 hat 174 Milliarden Parameter.
- Phi-2 hat 2,7 Milliarden Parameter und ist damit etwa 65-mal kleiner als GPT-3.
Vergleich der Trainingsdatenmenge
- GPT-3 wurde mit 300 Milliarden Tokens trainiert.
- Phi-2 wurde mit 1,4 Billionen Tokens trainiert und damit mit etwa 5-mal mehr Daten als GPT-3.
Menschlicher Spracherwerb und künstliche Intelligenz
- Ein menschliches Baby benötigt etwa 30 Millionen „Token-Äquivalente“ an Lerndaten, um Sprache zu erwerben.
- Das deutet darauf hin, dass die biologische Struktur des Menschen auf Spracherwerb spezialisiert ist und starke „Leitplanken“ oder Einschränkungen besitzt, die den Hypothesenraum möglicher menschlicher Sprachen verkleinern.
- Es stellt sich die Frage, ob sich eine ähnliche Struktur finden lässt, mit der Sprachmodelle mit weniger Daten lernen können.
Ob die Gewichte von Phi-2 veröffentlicht wurden
- Die Gewichte von Phi-2 wurden veröffentlicht, können aber nur nach Anmeldung bei Azure Studio heruntergeladen werden.
- In Azure AI Studio kann man die Phi-2-Seite aufrufen und den Reiter „artifacts“ anklicken, um den Download zu starten.
Trainingskosten von Phi-2
- Phi-2 wurde 14 Tage lang auf 96 A100-GPUs trainiert.
- Das bedeutet, dass die Trainingskosten bei etwa 30.000 USD liegen.
- Wenn die Trainingskosten für LLMs (Large Language Models) niedriger werden als der Kaufpreis eines Autos, könnte das stark zur Demokratisierung von KI beitragen.
Einschränkung von Phi-2 auf Forschungszwecke
- Trotz der Einschränkung „nur für Forschungszwecke“ erhöht die Leistung von Phi-2 die Möglichkeit einer lokalen Nutzung auf verschiedenen Geräten.
- Es gibt die Meinung, dass die Leistung so gut sei, dass die Zukunft vielversprechend und/oder beängstigend wirke.
Wettbewerb bei kleinen Modellen
- Im Bereich kleiner Modelle gibt es zuletzt einen ernsthaften Wettbewerb.
- Das Hauptziel solcher kleinen Modelle ist die lokale Bereitstellung auf Smartphones/Laptops usw., um eine neue Generation von Apps und Benutzeroberflächen hervorzubringen.
Leistungsvergleich zwischen Phi-2 und Mistral 7B
- Es ist beeindruckend, dass das 2,7B große Phi-2 eine bessere Leistung zeigt als das 7B große Mistral 7B.
Probleme beim Zugriff auf die Website
- Auf die Website kann nicht zugegriffen werden, aber sie lässt sich über eine zwischengespeicherte Version ansehen.
Bereitstellungsweise von Phi-2
- Phi-1.5 wurde auf Hugging Face veröffentlicht, Phi-2 wurde jedoch nur zu Azure AI Studio hinzugefügt, offenbar um Entwickler zur Anmeldung zu bewegen.
- Es wird infrage gestellt, warum Microsoft sich nicht an dem „GitHub des ML-Bereichs“ wie Hugging Face beteiligt.
Ob das Phi-2-Modell heruntergeladen werden kann
- Es wird gefragt, ob sich das Phi-2-Modell lokal herunterladen lässt oder ob es nur in Azure genutzt werden kann.

Microsoft stellt mit 2.7B das kleine, aber leistungsstarke Sprachmodell Phi-2 vor

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare