Llama 3 8B zeigt eine Leistung auf dem Niveau von Wizard 2 8x22B

(huggingface.co)

3 Punkte von GN⁺ 2024-04-22 | 1 Kommentare | Auf WhatsApp teilen

Leistung von Meta-Llama-3-8B-Instruct

Obwohl es sich um ein 8B-Modell handelt, zeigt es eine nahezu ebenbürtige Leistung zu Wizard 22B
Es zeigt sogar bessere Schlussfolgerungsfähigkeiten als bisherige 70B-Modelle
Es liefert in verschiedenen Bereichen wie Problemlösen und Coding eine sehr starke Leistung

Merkmale von Meta-Llama-3-8B-Instruct

Ein Ergebnis davon, dass Meta enorme Ressourcen eingesetzt und das Modell über lange Zeit mit mehr Daten trainiert hat
Je nach Entwickler und Hardware gibt es Leistungsunterschiede. Auch abhängig von den Inferenzparametern fallen die Ergebnisse unterschiedlich aus
In der FP16-Version zeigt es nahezu die gleiche Leistung wie Q8_0. Für ein 8B-Modell ist dieses Leistungsniveau als quantisiertes Modell Spitzenklasse
Die generierten Inhalte haben teils einen schroffen und geistreichen Ton. Es versteht die Absicht eines Satzes und reagiert angemessen darauf

Meinung von GN⁺

Bei einzelnen Anfragen liefert es verlässliche Antworten, zeigt in dialogorientierten Multi-Turn-Szenarien aber noch Grenzen. Verbesserungen durch Optimierung von Prompt-Templates oder Hyperparameter-Tuning sind nötig
Da die Leistung des 8B-Modells im Vergleich zum 3B-Modell sehr stark ist, erscheint es vielversprechend, verschiedene 8B-Klassen-Modelle feinzujustieren und spezialisierte Modelle zu erstellen
Da Sprachverständnis und Schlussfolgerungsvermögen hervorragend sind, ist das Nutzungspotenzial in wissensintensiven Bereichen oder Fachdomänen hoch. Es könnte zu domänenspezifischen Modellen für Medizin, Recht oder Finanzen weiterentwickelt werden
Dass Meta mit seinen Ressourcen und seiner technischen Stärke ein 8B-Modell auf dieses Niveau gebracht hat, ist eine beachtliche Leistung. Künftig dürften sich dadurch hochleistungsfähige AI-Modelle auch auf privaten PCs ausführen lassen
Schade ist, dass kein mittelgroßes Modell zwischen 8B und 70B veröffentlicht wurde. Ein Modell in der Größenordnung von 32B würde voraussichtlich optimale Leistung und Effizienz zeigen

1 Kommentare

GN⁺ 2024-04-22

Hacker-News-Kommentare

Das Llama-3-8B-Modell beantwortet die Frage, was passiert, wenn man ein kleines Modell sehr lange trainiert. Dieser Trend begann mit den Mistral-Modellen und wurde mit Llama 3 noch verstärkt. Für ein Modell mit 8B Parametern 15T Token zu verwenden, ist ein Ausmaß, das man bisher noch nicht gesehen hat.
Dies ist ein Release, das die Erwartungen an Qualitätsverbesserungen bei kleinen Modellen erhöht.
Llama 3 wirkt gesprächig und scheint einige falsche Annahmen zu treffen. Zum Beispiel stellte es sich zunächst vor, dass man durch Hochspucken in den Himmel die Wolken erreichen könnte, korrigierte sich dann aber selbst, dass das in der Realität nicht so ist.
Ich frage mich, ob diese Ergebnisse auf mehr Training und die daraus resultierende Leistungssteigerung zurückzuführen sind oder darauf, dass solche Rätsel inzwischen gut bekannt und deshalb im Trainingsmaterial gut repräsentiert sind.
Das Besondere an Llama 3 ist, dass zusätzlich Aufwand in die Deduplizierung der Trainingsdaten (Qualität) und in die Vergrößerung der Trainingsdaten (Menge) gesteckt wurde und dass viermal mehr Code als Trainingsmaterial verwendet wurde, was gut für Schlussfolgerungen ist.
Vielleicht kann man selbst bei so kleinen Modellen enorme Leistungssteigerungen erwarten, wenn man mehr Aufwand in die Kuratierung und Erstellung der Trainingsdaten steckt.
Llama 3 verwendet weiterhin kein Mixture of Experts (MoE). Das deutet darauf hin, dass die Erstellung riesiger MoE-Modelle Verschwendung sein könnte.
Meta gibt Milliarden Dollar für Nvidia-AI-Chips aus. In den nächsten fünf Jahren scheint es möglich, 8B-Modelle auf GPT-4-Niveau auf Smartphones und Laptops auszuführen.
Ich bin tief beeindruckt von der logischen Denkfähigkeit des 8b-instruct-Modells. Die Zukunft kleiner Modelle ist vielversprechend.
Das größte Problem bei lokalen LLMs ist, dass Menschen je nach Art der Nutzung einen unterschiedlichen Eindruck bekommen können.
Die meisten Unternehmen trainieren ihre Modelle kontinuierlich weiter; es gibt keinen Zeitpunkt, an dem das Training wirklich abgeschlossen ist. Das erklärt, warum die GPU-Ausgaben so gewaltig sind.
Wenn man dieses Modell heute sofort auf einem Smartphone ausführen will, muss man zuerst llama.cpp unter Termux ausführen und dann Modelldateien wie ggml laden.
Es ist überraschend, dass das 8B-Modell die Frage „Was ist schwerer, 1 kg Eisen oder 2 kg Federn?“ falsch beantwortet. GPT-3.5 lag ebenfalls falsch, aber das 70B-Modell und GPT-4 hatten recht.

Llama 3 8B zeigt eine Leistung auf dem Niveau von Wizard 2 8x22B

Leistung von Meta-Llama-3-8B-Instruct

Merkmale von Meta-Llama-3-8B-Instruct

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare