8 Punkte von GN⁺ 2023-09-10 | 1 Kommentare | Auf WhatsApp teilen
  • Mit einem Satz aus 20 Fragen wird die Leistung von mehr als 60 Large Language Models (LLMs) getestet, und die Antworten der einzelnen LLMs werden zusammengestellt
  • Diese Fragen wurden entwickelt, um grundlegendes Schlussfolgern, das Befolgen von Anweisungen und Kreativität von LLMs zu testen
  • Die Antworten der LLMs werden in einer SQLite-Datenbank gespeichert
  • Die Fragen reichen von einfachen Rechenaufgaben bis zu komplexeren Aufgaben wie der Erklärung der Quantenfeldtheorie für Oberstufenschüler
  • Das Skript enthält auch Aufgaben, die LLMs ausführen sollen, etwa das Übersetzen von Sätzen, das Identifizieren von Bugs in Code und das Erzeugen von Python-Funktionen
  • Der Autor führte das Skript mithilfe der APIs von OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha und AI21 aus
    • Geplant ist, das Skript mit für jedes Modell optimierten Stop-Sequenzen und Prompt-Formaten zu verbessern
    • Zukünftige Ideen sind unter anderem die Berechnung von ELO-Ratings durch öffentliche Abstimmungen, der direkte Vergleich zweier Modelle nebeneinander und von der Community eingereichte Prompts

1 Kommentare

 
GN⁺ 2023-09-10
Hacker-News-Kommentare
  • Ein Nutzer hat ein allgemeines Harness erstellt, um Benchmarks für verschiedene Large Language Models (LLMs) auszuführen, und ermutigt andere, Modelle mit ihren eigenen Daten zu testen. Die Bibliothek unterstützt Modelle von OpenAI, Anthropic, Google, Llama, Codellama, Replicate und Ollama.
  • Vercels AI Playground wird als nützliches Tool hervorgehoben, um mehreren LLMs gleichzeitig Fragen zu stellen, unterstützt derzeit aber nur 24 und nicht 60.
  • Die im Artikel verwendete Methode zum Benchmarking von LLMs wird dafür gelobt, realistischer zu sein als traditionelle Methoden wie das Bestehen von Prüfungen. Es werden jedoch Bedenken geäußert, dass die Fragen Teil des Trainingssatzes geworden sein könnten und dadurch die Ergebnisse verzerren.
  • In den Antworten der LLMs auf Fragen zu Familienbeziehungen wurden Unterschiede festgestellt, und ein Nutzer berichtet, dass GPT4 eine Frage korrekt beantwortet habe, bei der der Artikel behauptete, alle LLMs hätten sie falsch beantwortet.
  • Falcon Instruct (40B) wird mit einem Urlaubswitz augenzwinkernd als „lustigstes Modell“ hervorgehoben.
  • Weitere Benchmarks für LLMs werden vorgeschlagen, darunter „TheoremQA: theorem-oriented [STEM] question answering dataset“ und „Awesome-legal-nlp“.
  • ChatGPT 3.5 wird für weitschweifige Antworten kritisiert; ein Nutzer merkt an, dass es oft unnötig lange Erklärungen liefert.
  • Mit Bewunderung für die Fortschritte der AI erwähnt ein Nutzer die Fähigkeit von LLMs, „ethische und nicht-sexuelle Haikus für und gegen Kubernetes“ zu erzeugen.
  • Die Leistung des CodeLlama-Modells wird infrage gestellt, wobei ein Nutzer deutlich bessere Ergebnisse meldet als die im Artikel aufgeführten.
  • Trotz des Interesses an LLMs äußern einige Nutzer Enttäuschung über die Qualität der Modellantworten, insbesondere bei Fragen zur Musiktheorie, und bezweifeln, dass sich diese Modelle im Laufe der Zeit stark verbessern werden.