OpenAI veröffentlicht den Faktencheck-Benchmark SimpleQA

(openai.com)

6 Punkte von GN⁺ 2024-11-02 | Noch keine Kommentare. | Auf WhatsApp teilen

SimpleQA ist ein neuer Benchmark zur Messung der Faktentreue von Sprachmodellen
In der KI ist das Training von Modellen, die faktenbasierte Antworten erzeugen, weiterhin ein ungelöstes Problem
Aktuelle Sprachmodelle erzeugen mitunter falsche Ausgaben oder Antworten, die nicht durch Belege gestützt sind. Dies wird als „hallucinations“ bezeichnet
Genauere Sprachmodelle mit weniger Halluzinationen sind vertrauenswürdiger und können in vielfältigeren Anwendungsfeldern eingesetzt werden
Mit dem Open-Source-Projekt SimpleQA soll die Faktentreue von Sprachmodellen gemessen werden

Merkmale des SimpleQA-Benchmarks

Da Faktentreue schwer zu messen ist, konzentriert sich SimpleQA auf kurze, faktenorientierte Anfragen
Ziele von SimpleQA:
1. Hohe Genauigkeit: Unabhängige Quellenangaben von zwei AI-Trainern stützen die richtigen Antworten, und die Fragen sind so formuliert, dass sich vorhergesagte Antworten leicht bewerten lassen
2. Vielfalt: Das Themenspektrum reicht von Wissenschaft und Technik bis zu TV-Serien und Videospielen
3. Anspruchsvoll für aktuelle Modelle: Anders als frühere Benchmarks wie TriviaQA oder NQ wurde SimpleQA so gestaltet, dass es für moderne Modelle schwieriger ist (z. B. erzielt GPT-4 weniger als 40 %)
4. Forscherfreundliche UX: Dank knapper Fragen und Antworten ist SimpleQA schnell und einfach auszuführen. Auch Auswertungen über die OpenAI API oder andere moderne Modell-APIs sind effizient. Mit 4.326 Fragen dürfte die Varianz als Evaluationsbenchmark zudem relativ gering sein

AI-Trainer durchsuchten das Web und erstellten kurze, faktenorientierte Fragen samt zugehörigen Antworten
Um in den Datensatz aufgenommen zu werden, musste jede Frage strenge Kriterien erfüllen:
- Es muss eine eindeutige, offensichtliche Antwort geben, die leicht zu bewerten ist
- Die Antwort auf die Frage darf sich im Laufe der Zeit nicht ändern
- Die meisten Fragen sollen bei GPT-4 oder GPT-3.5 Halluzinationen auslösen
Um die Qualität des Datensatzes weiter zu verbessern, beantwortete ein zweiter unabhängiger AI-Trainer jede Frage, ohne die ursprüngliche Antwort zu sehen
Nur Fragen, bei denen die Antworten der beiden AI-Trainer übereinstimmten, wurden aufgenommen

Für die abschließende Validierung wurden 1.000 Fragen zufällig aus dem Datensatz ausgewählt und von einem dritten AI-Trainer beantwortet
Die Antworten des dritten AI-Trainers stimmten in 94,4 % der Fälle mit den ursprünglich abgestimmten Antworten überein. 5,6 % wichen ab
Die manuelle Prüfung der Abweichungen ergab:
- Von den 5,6 % waren 2,8 % auf False Negatives der Bewertenden oder menschliche Fehler des dritten Trainers zurückzuführen (z. B. unvollständige Antworten, Missverständnisse von Quellen)
- Die übrigen 2,8 % beruhten auf tatsächlichen Problemen der Fragen selbst (z. B. mehrdeutige Fragen, widersprüchliche Antworten zwischen Websites)
Daraus wird eine inhärente Fehlerquote des Datensatzes von etwa 3 % geschätzt

Das unten stehende Kreisdiagramm zeigt die thematische Vielfalt des SimpleQA-Benchmarks
Wenn man im Kreisdiagramm mit der Maus über die einzelnen Segmente fährt, werden Beispielfragen angezeigt

Zur Bewertung der Fragen wurde ein ChatGPT-Klassifikator verwendet, der sowohl die vom Modell vorhergesagte Antwort als auch die tatsächliche Antwort sieht
Der Klassifikator bewertet die vorhergesagte Antwort als „correct“, „incorrect“ oder „not attempted“
Die folgende Tabelle zeigt die Definitionen der einzelnen Kategorien und passende Beispiele
- „Correct“: Die vorhergesagte Antwort enthält die tatsächliche Antwort vollständig und widerspricht ihr nicht
- „Incorrect“: Die vorhergesagte Antwort widerspricht der tatsächlichen Antwort in irgendeiner Weise (auch wenn sie vorsichtig formuliert ist)
- „Not attempted“: Das tatsächliche Ziel wird in der Antwort nicht vollständig genannt, und die Antwort widerspricht der tatsächlichen Antwort nicht
Ideal ist ein Modell, das möglichst viele Fragen beantwortet (also möglichst viele „correct“) und gleichzeitig die Zahl der „incorrect“-Antworten minimiert

Mit einem Faktentreue-Benchmark wie SimpleQA lässt sich messen, ob ein Modell „weiß, was es weiß“
Dies wird als Kalibrierung bezeichnet und kann gemessen werden, indem man das Sprachmodell direkt bittet, seine Sicherheit in die eigene Antwort in Prozent anzugeben
Anschließend lässt sich die Korrelation zwischen der angegebenen Sicherheit und der tatsächlichen Genauigkeit grafisch darstellen
Ein perfekt kalibriertes Modell würde dieselbe angegebene Sicherheit wie tatsächliche Genauigkeit aufweisen
Die folgende Abbildung zeigt diese Ergebnisse:
- Eine positive Korrelation zwischen angegebener Sicherheit und Genauigkeit ist ein positives Signal dafür, dass das Modell ein gewisses Unsicherheitsbewusstsein besitzt
- o1-preview ist besser kalibriert als o1-mini, und gpt4 ist besser kalibriert als gpt4-mini
- Dass die Leistung jedoch deutlich unter der Linie y=x liegt, bedeutet, dass die Modelle ihre Sicherheit systematisch überschätzen
- Daher gibt es bei großen Sprachmodellen noch viel Raum, die Kalibrierung in Bezug auf die angegebene Sicherheit zu verbessern

SimpleQA ist ein einfacher, aber anspruchsvoller Benchmark zur Bewertung der Faktentreue aktueller Modelle
Die wichtigste Einschränkung von SimpleQA ist sein Umfang. SimpleQA misst Faktentreue nur in einem begrenzten Szenario: bei kurzen, faktenorientierten Anfragen mit einer genauen, einzelnen und überprüfbaren Antwort
Ob die Fähigkeit, kurze faktenbasierte Antworten zu geben, mit der Fähigkeit korreliert, lange Antworten voller zahlreicher Fakten zu verfassen, ist weiterhin eine offene Forschungsfrage
OpenAI hofft, dass das Open-Source-Projekt SimpleQA vertrauenswürdigere und robustere KI-Forschung fördert, und bittet Forschende, die Faktentreue von Sprachmodellen mit SimpleQA zu bewerten und Feedback zu geben

SimpleQA ist ein interessanter und notwendiger Benchmark, der die Faktentreue von Sprachmodellen mit kurzen, faktenbasierten Fragen misst. Letztlich muss die Fähigkeit verbessert werden, faktenbasierte Antworten zu erzeugen, um die Zuverlässigkeit von KI zu erhöhen
Da SimpleQA jedoch nur Faktentreue in begrenzten Situationen misst, bildet es die Faktentreue von Sprachmodellen in realen Anwendungsszenarien nicht vollständig ab. Künftige Forschung sollte die Bewertung der Faktentreue in vielfältigeren Situationen erweitern
Außerdem liegt die Genauigkeit des SimpleQA-Datensatzes selbst nur bei rund 97 %, weshalb die Leistung von Sprachmodellen diesen Wert kaum übertreffen dürfte. Auch die Qualität des Datensatzes selbst sollte kontinuierlich verbessert werden
Andere Benchmarks mit ähnlicher Zielsetzung wie SimpleQA sind etwa TruthfulQA oder HonestQA. Ein Vergleich mit ihnen könnte die Stärken und Schwächen von SimpleQA noch klarer herausarbeiten
Um die Faktentreue von Sprachmodellen zu verbessern, ist nicht nur Vortraining mit großen Mengen hochwertiger Daten wichtig; auch die Fähigkeit, bei der Inferenz externes Wissen zu nutzen oder sich selbst zu korrigieren, erscheint notwendig. Es ist zu hoffen, dass hierzu intensiv weiter geforscht wird