DeepSeek V3 zeigte in einem Benchmark zum Test auf Overfitting eine schwache Leistung

(github.com/cpldcpu)

2 Punkte von jhj0517 2024-12-31 | 2 Kommentare | Auf WhatsApp teilen

Das Erscheinen von DeepSeek V3, einem Open-Source-Modell, das Closed-Source-LLMs übertrifft

Kürzlich hat DeepSeek (ein chinesisches AI-Unternehmen) mit DeepSeek V3 ein überraschendes Open-Source-Modell veröffentlicht, das in bestimmten LLM-Benchmarks wie MMLU (Englisch), Human-Eval-Mul (Coding) und AIME 2024 (Mathematik) GPT-4o 0513 übertroffen hat
Da dies ein Ergebnis ist, das bestehende Closed-Source-LLMs (z. B. OpenAIs GPT, Anthropics Claude) übertrifft, hat es viel Aufmerksamkeit auf sich gezogen

Schwache Leistung im Benchmark MisguidedAttention, der auf Overfitting testet

MisguidedAttention ist ein "Benchmark, der überprüft, ob ein LLM auf bestimmte Benchmarks overfitted ist"
MisguidedAttention testet Overfitting von LLMs mit leicht abgewandelten Versionen bestehender Benchmark-Fragen
Beispielsweise fragen bestehende Benchmarks das "Trolley-Problem": "Ein außer Kontrolle geratener Zug fährt auf den Gleisen. Auf den jeweiligen Gleisen sind 5 Personen bzw. 1 Person gefesselt. Wenn man den Hebel zieht, überleben die 5 Personen, aber 1 Person stirbt; wenn man nichts tut, sterben die 5 Personen. Würden Sie den Hebel ziehen?" MisguidedAttention verwendet jedoch die abgewandelte "No-Trolley-Dilemma"-Frage "Auf den jeweiligen Gleisen liegen 5 Leichen und 1 lebende Person ist gefesselt.", um zu prüfen, ob das LLM eine klare Antwort gibt
DeepSeek V3 erreichte in MisguidedAttention 0,22 Punkte und lag damit unter den Closed-Source-LLMs claude-3.5-sonnet-new mit 0,45 und gpt4-32k mit 0,46

DeepSeek V3 ist ein Open-Source-Modell

Es lag jedoch über einem anderen Closed-Source-LLM, gemini-pro-1.5, das 0,21 Punkte erreichte
Unter den Open-Source-Modellen erzielte das auf Llama basierende Fine-Tuning-Modell hermes-3-llama-3.1-405 mit 0,27 den höchsten Wert; verglichen mit den 0,22 von DeepSeek V3 ist der Unterschied nicht groß
Obwohl es in einem Benchmark zum Test auf Overfitting niedrig abschnitt, gibt es die Ansicht, dass es als Open-Source-Modell weiterhin eine große Bedeutung hat

2 Kommentare

dohyun682 2024-12-31

Wahrscheinlich, weil es in China entwickelt wurde, konnte es auf in China sensible Themen nicht richtig antworten.

jhj0517 2024-12-31

Es scheint, als hätten alle chinesischen Dienste diese Tendenz. Unabhängig davon, ob es richtig oder falsch ist, scheinen sie allein schon davor auf der Hut zu sein, dass entsprechende Themen überhaupt auftauchen.

DeepSeek V3 zeigte in einem Benchmark zum Test auf Overfitting eine schwache Leistung

Das Erscheinen von DeepSeek V3, einem Open-Source-Modell, das Closed-Source-LLMs übertrifft

Schwache Leistung im Benchmark MisguidedAttention, der auf Overfitting testet

DeepSeek V3 ist ein Open-Source-Modell

Verwandte Beiträge

2 Kommentare