2 Punkte von jhj0517 2024-12-31 | 2 Kommentare | Auf WhatsApp teilen

Das Erscheinen von DeepSeek V3, einem Open-Source-Modell, das Closed-Source-LLMs übertrifft

  • Kürzlich hat DeepSeek (ein chinesisches AI-Unternehmen) mit DeepSeek V3 ein überraschendes Open-Source-Modell veröffentlicht, das in bestimmten LLM-Benchmarks wie MMLU (Englisch), Human-Eval-Mul (Coding) und AIME 2024 (Mathematik) GPT-4o 0513 übertroffen hat
  • Da dies ein Ergebnis ist, das bestehende Closed-Source-LLMs (z. B. OpenAIs GPT, Anthropics Claude) übertrifft, hat es viel Aufmerksamkeit auf sich gezogen

Schwache Leistung im Benchmark MisguidedAttention, der auf Overfitting testet

  • MisguidedAttention ist ein "Benchmark, der überprüft, ob ein LLM auf bestimmte Benchmarks overfitted ist"
  • MisguidedAttention testet Overfitting von LLMs mit leicht abgewandelten Versionen bestehender Benchmark-Fragen
  • Beispielsweise fragen bestehende Benchmarks das "Trolley-Problem": "Ein außer Kontrolle geratener Zug fährt auf den Gleisen. Auf den jeweiligen Gleisen sind 5 Personen bzw. 1 Person gefesselt. Wenn man den Hebel zieht, überleben die 5 Personen, aber 1 Person stirbt; wenn man nichts tut, sterben die 5 Personen. Würden Sie den Hebel ziehen?" MisguidedAttention verwendet jedoch die abgewandelte "No-Trolley-Dilemma"-Frage "Auf den jeweiligen Gleisen liegen 5 Leichen und 1 lebende Person ist gefesselt.", um zu prüfen, ob das LLM eine klare Antwort gibt
  • DeepSeek V3 erreichte in MisguidedAttention 0,22 Punkte und lag damit unter den Closed-Source-LLMs claude-3.5-sonnet-new mit 0,45 und gpt4-32k mit 0,46

DeepSeek V3 ist ein Open-Source-Modell

  • Es lag jedoch über einem anderen Closed-Source-LLM, gemini-pro-1.5, das 0,21 Punkte erreichte
  • Unter den Open-Source-Modellen erzielte das auf Llama basierende Fine-Tuning-Modell hermes-3-llama-3.1-405 mit 0,27 den höchsten Wert; verglichen mit den 0,22 von DeepSeek V3 ist der Unterschied nicht groß
  • Obwohl es in einem Benchmark zum Test auf Overfitting niedrig abschnitt, gibt es die Ansicht, dass es als Open-Source-Modell weiterhin eine große Bedeutung hat

2 Kommentare

 
dohyun682 2024-12-31

Wahrscheinlich, weil es in China entwickelt wurde, konnte es auf in China sensible Themen nicht richtig antworten.

 
jhj0517 2024-12-31

Es scheint, als hätten alle chinesischen Dienste diese Tendenz. Unabhängig davon, ob es richtig oder falsch ist, scheinen sie allein schon davor auf der Hut zu sein, dass entsprechende Themen überhaupt auftauchen.