- Mit einem Satz aus 20 Fragen wird die Leistung von mehr als 60 Large Language Models (LLMs) getestet, und die Antworten der einzelnen LLMs werden zusammengestellt
- Diese Fragen wurden entwickelt, um grundlegendes Schlussfolgern, das Befolgen von Anweisungen und Kreativität von LLMs zu testen
- Die Antworten der LLMs werden in einer SQLite-Datenbank gespeichert
- Die Fragen reichen von einfachen Rechenaufgaben bis zu komplexeren Aufgaben wie der Erklärung der Quantenfeldtheorie für Oberstufenschüler
- Das Skript enthält auch Aufgaben, die LLMs ausführen sollen, etwa das Übersetzen von Sätzen, das Identifizieren von Bugs in Code und das Erzeugen von Python-Funktionen
- Der Autor führte das Skript mithilfe der APIs von OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha und AI21 aus
- Geplant ist, das Skript mit für jedes Modell optimierten Stop-Sequenzen und Prompt-Formaten zu verbessern
- Zukünftige Ideen sind unter anderem die Berechnung von ELO-Ratings durch öffentliche Abstimmungen, der direkte Vergleich zweier Modelle nebeneinander und von der Community eingereichte Prompts
1 Kommentare
Hacker-News-Kommentare