Yi – Open-Source-LLM der nächsten Generation mit Zweisprachigkeit

xguru · 2024-03-12T10:03:02+09:00

Open-Source-LLM der nächsten Generation, das von Entwicklern von Grund auf trainiert wurde Als zweisprachiges Modell konzipiert und mit einem mehrsprachigen 3T-Korpus trainiert; zeigt starke Leistung bei Sprachverständnis, Common-Sense-Reasoning und Leseverständnis Basierend auf den vortrainierten Sprachmodellen 6B und 34B; erweitert um Chatbot-Modelle, Langkontext-Modelle mit 200K, Deep-Upscaling-Modelle und Vision-Language-Modelle Das Modell Yi-34B-Chat belegt im AlpacaEval-Leaderboard hinter GPT-4 Turbo den 2. Platz und übertrifft andere LLMs übertrifft bestehende Open-Source-Modelle sowohl in Englisch als auch in Chinesisch und erreicht in verschiedenen Benchmarks den 1. Platz Verwendet dieselbe Modellarchitektur wie Llama, ist aber kein von Llama abgeleitetes Modell. Nutzt keine Llama-Gewichte In verschiedenen Größen verfügbar; Modelle können für spezifische Anforderungen feinabgestimmt werden Chat-Modelle Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits Basis-Modelle Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 Punkte von xguru 2024-03-12 | 1 Kommentare | Auf WhatsApp teilen

Open-Source-LLM der nächsten Generation, das von Entwicklern von Grund auf trainiert wurde
Als zweisprachiges Modell konzipiert und mit einem mehrsprachigen 3T-Korpus trainiert; zeigt starke Leistung bei Sprachverständnis, Common-Sense-Reasoning und Leseverständnis
Basierend auf den vortrainierten Sprachmodellen 6B und 34B; erweitert um Chatbot-Modelle, Langkontext-Modelle mit 200K, Deep-Upscaling-Modelle und Vision-Language-Modelle
Das Modell Yi-34B-Chat
- belegt im AlpacaEval-Leaderboard hinter GPT-4 Turbo den 2. Platz und übertrifft andere LLMs
- übertrifft bestehende Open-Source-Modelle sowohl in Englisch als auch in Chinesisch und erreicht in verschiedenen Benchmarks den 1. Platz
Verwendet dieselbe Modellarchitektur wie Llama, ist aber kein von Llama abgeleitetes Modell. Nutzt keine Llama-Gewichte
In verschiedenen Größen verfügbar; Modelle können für spezifische Anforderungen feinabgestimmt werden
- Chat-Modelle
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- Basis-Modelle
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 Kommentare

xguru 2024-03-12

Hacker-News-Kommentare

Das Modell Yi-34B-Chat belegt im AlpacaEval-Leaderboard hinter GPT-4 Turbo den 2. Platz und übertrifft dabei andere LLMs wie GPT-4, Mixtral und Claude.
Das Modell Yi-34B belegt unter den Open-Source-Modellen den 1. Platz in englischen und chinesischen Benchmarks. Grundlage dafür sind das Hugging Face Open LLM Leaderboard (vortrainierte Modelle) und C-Eval.
Der Quellcode des Repositoriums steht unter der Apache-2.0-Lizenz, die Gewichte jedoch nicht.
Das Yi-Modell scheitert bei bestimmten Test-Prompts. Trotz mehrerer Versuche wählte Yi jedes Mal eine andere Antwort als Sieger aus.
Der Name "01.ai" ist derselbe wie der Name des ersten KI-Staates im Film „Matrix“, der Krieg gegen die Menschheit führte und Menschen versklavte, was nichts Gutes verheißt.
Die Leistung des Yi-Modells wird auf die Datenqualität zurückgeführt, die aus Data-Engineering-Anstrengungen resultiert.
Das Modell Yi 34B Chat erzielt im NYT-Connections-Benchmark keine guten Ergebnisse und belegt im LMSYS-Elo-basierten Leaderboard den 22. Platz. Auf Chinesisch zeigt es eine bessere Leistung.
Wenn man sieht, wie sich die Leistung dieser Modelle verbessert, gibt das Hoffnung, dass in 2–3 Jahren mobile-first LLMs Text-to-Speech und Tippvorhersage verbessern und zugleich den Batterieverbrauch deutlich senken werden.
Es gibt auch ein neues Modell namens Yi-9B.

Yi – Open-Source-LLM der nächsten Generation mit Zweisprachigkeit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare