Das Erscheinen von DeepSeek V3, einem Open-Source-Modell, das Closed-Source-LLMs übertrifft
- Kürzlich hat DeepSeek (ein chinesisches AI-Unternehmen) mit DeepSeek V3 ein überraschendes Open-Source-Modell veröffentlicht, das in bestimmten LLM-Benchmarks wie MMLU (Englisch), Human-Eval-Mul (Coding) und AIME 2024 (Mathematik) GPT-4o 0513 übertroffen hat
- Da dies ein Ergebnis ist, das bestehende Closed-Source-LLMs (z. B. OpenAIs GPT, Anthropics Claude) übertrifft, hat es viel Aufmerksamkeit auf sich gezogen
Schwache Leistung im Benchmark MisguidedAttention, der auf Overfitting testet
- MisguidedAttention ist ein "Benchmark, der überprüft, ob ein LLM auf bestimmte Benchmarks overfitted ist"
- MisguidedAttention testet Overfitting von LLMs mit leicht abgewandelten Versionen bestehender Benchmark-Fragen
- Beispielsweise fragen bestehende Benchmarks das "Trolley-Problem": "Ein außer Kontrolle geratener Zug fährt auf den Gleisen. Auf den jeweiligen Gleisen sind 5 Personen bzw. 1 Person gefesselt. Wenn man den Hebel zieht, überleben die 5 Personen, aber 1 Person stirbt; wenn man nichts tut, sterben die 5 Personen. Würden Sie den Hebel ziehen?" MisguidedAttention verwendet jedoch die abgewandelte "No-Trolley-Dilemma"-Frage "Auf den jeweiligen Gleisen liegen 5 Leichen und 1 lebende Person ist gefesselt.", um zu prüfen, ob das LLM eine klare Antwort gibt
- DeepSeek V3 erreichte in MisguidedAttention 0,22 Punkte und lag damit unter den Closed-Source-LLMs claude-3.5-sonnet-new mit 0,45 und gpt4-32k mit 0,46
DeepSeek V3 ist ein Open-Source-Modell
- Es lag jedoch über einem anderen Closed-Source-LLM, gemini-pro-1.5, das 0,21 Punkte erreichte
- Unter den Open-Source-Modellen erzielte das auf Llama basierende Fine-Tuning-Modell
hermes-3-llama-3.1-405 mit 0,27 den höchsten Wert; verglichen mit den 0,22 von DeepSeek V3 ist der Unterschied nicht groß
- Obwohl es in einem Benchmark zum Test auf Overfitting niedrig abschnitt, gibt es die Ansicht, dass es als Open-Source-Modell weiterhin eine große Bedeutung hat
2 Kommentare
Wahrscheinlich, weil es in China entwickelt wurde, konnte es auf in China sensible Themen nicht richtig antworten.
Es scheint, als hätten alle chinesischen Dienste diese Tendenz. Unabhängig davon, ob es richtig oder falsch ist, scheinen sie allein schon davor auf der Hut zu sein, dass entsprechende Themen überhaupt auftauchen.