17 Punkte von xguru 2023-12-15 | 2 Kommentare | Auf WhatsApp teilen
  • SLM: Small Language Model
  • Trotz eines 2.7B-Modells zeigt es eine Leistung, die mit bis zu 25-mal größeren Modellen vergleichbar oder besser ist
    • Übertrifft die Leistung von Mistral 7B und Llama-7B/13B
    • Bei mehrstufigem Schlussfolgern wie Coding und Mathematik ist es sogar besser als das 25-mal größere Modell Llama-2-70B
    • Es ist kleiner als Google Gemini Nano 2, liefert aber eine gleich gute oder bessere Leistung
  • Kann mit weniger Rechenleistung als Modelle wie GPT-4 oder Llama-2 ähnliche Aufgaben wie Textgenerierung und Bildbeschreibung ausführen
  • Aufgrund seiner geringen Größe ist es ein idealer Playground für Forschende, einschließlich Experimenten zur mechanistischen Interpretierbarkeit, zur Verbesserung der Sicherheit oder zum Fine-Tuning für verschiedene Aufgaben

2 Kommentare

 
xguru 2023-12-15

Die Weights gibt es hier: https://huggingface.co/microsoft/phi-2

 
xguru 2023-12-15
Hacker-News-Kommentare
  • Vergleich der Parameteranzahl von GPT-3 und Phi-2
    • GPT-3 hat 174 Milliarden Parameter.
    • Phi-2 hat 2,7 Milliarden Parameter und ist damit etwa 65-mal kleiner als GPT-3.
  • Vergleich der Trainingsdatenmenge
    • GPT-3 wurde mit 300 Milliarden Tokens trainiert.
    • Phi-2 wurde mit 1,4 Billionen Tokens trainiert und damit mit etwa 5-mal mehr Daten als GPT-3.
  • Menschlicher Spracherwerb und künstliche Intelligenz
    • Ein menschliches Baby benötigt etwa 30 Millionen „Token-Äquivalente“ an Lerndaten, um Sprache zu erwerben.
    • Das deutet darauf hin, dass die biologische Struktur des Menschen auf Spracherwerb spezialisiert ist und starke „Leitplanken“ oder Einschränkungen besitzt, die den Hypothesenraum möglicher menschlicher Sprachen verkleinern.
    • Es stellt sich die Frage, ob sich eine ähnliche Struktur finden lässt, mit der Sprachmodelle mit weniger Daten lernen können.
  • Ob die Gewichte von Phi-2 veröffentlicht wurden
    • Die Gewichte von Phi-2 wurden veröffentlicht, können aber nur nach Anmeldung bei Azure Studio heruntergeladen werden.
    • In Azure AI Studio kann man die Phi-2-Seite aufrufen und den Reiter „artifacts“ anklicken, um den Download zu starten.
  • Trainingskosten von Phi-2
    • Phi-2 wurde 14 Tage lang auf 96 A100-GPUs trainiert.
    • Das bedeutet, dass die Trainingskosten bei etwa 30.000 USD liegen.
    • Wenn die Trainingskosten für LLMs (Large Language Models) niedriger werden als der Kaufpreis eines Autos, könnte das stark zur Demokratisierung von KI beitragen.
  • Einschränkung von Phi-2 auf Forschungszwecke
    • Trotz der Einschränkung „nur für Forschungszwecke“ erhöht die Leistung von Phi-2 die Möglichkeit einer lokalen Nutzung auf verschiedenen Geräten.
    • Es gibt die Meinung, dass die Leistung so gut sei, dass die Zukunft vielversprechend und/oder beängstigend wirke.
  • Wettbewerb bei kleinen Modellen
    • Im Bereich kleiner Modelle gibt es zuletzt einen ernsthaften Wettbewerb.
    • Das Hauptziel solcher kleinen Modelle ist die lokale Bereitstellung auf Smartphones/Laptops usw., um eine neue Generation von Apps und Benutzeroberflächen hervorzubringen.
  • Leistungsvergleich zwischen Phi-2 und Mistral 7B
    • Es ist beeindruckend, dass das 2,7B große Phi-2 eine bessere Leistung zeigt als das 7B große Mistral 7B.
  • Probleme beim Zugriff auf die Website
    • Auf die Website kann nicht zugegriffen werden, aber sie lässt sich über eine zwischengespeicherte Version ansehen.
  • Bereitstellungsweise von Phi-2
    • Phi-1.5 wurde auf Hugging Face veröffentlicht, Phi-2 wurde jedoch nur zu Azure AI Studio hinzugefügt, offenbar um Entwickler zur Anmeldung zu bewegen.
    • Es wird infrage gestellt, warum Microsoft sich nicht an dem „GitHub des ML-Bereichs“ wie Hugging Face beteiligt.
  • Ob das Phi-2-Modell heruntergeladen werden kann
    • Es wird gefragt, ob sich das Phi-2-Modell lokal herunterladen lässt oder ob es nur in Azure genutzt werden kann.