- SimpleQA ist ein neuer Benchmark zur Messung der Faktentreue von Sprachmodellen
- In der KI ist das Training von Modellen, die faktenbasierte Antworten erzeugen, weiterhin ein ungelöstes Problem
- Aktuelle Sprachmodelle erzeugen mitunter falsche Ausgaben oder Antworten, die nicht durch Belege gestützt sind. Dies wird als „hallucinations“ bezeichnet
- Genauere Sprachmodelle mit weniger Halluzinationen sind vertrauenswürdiger und können in vielfältigeren Anwendungsfeldern eingesetzt werden
- Mit dem Open-Source-Projekt SimpleQA soll die Faktentreue von Sprachmodellen gemessen werden
Merkmale des SimpleQA-Benchmarks
- Da Faktentreue schwer zu messen ist, konzentriert sich SimpleQA auf kurze, faktenorientierte Anfragen
- Ziele von SimpleQA:
- Hohe Genauigkeit: Unabhängige Quellenangaben von zwei AI-Trainern stützen die richtigen Antworten, und die Fragen sind so formuliert, dass sich vorhergesagte Antworten leicht bewerten lassen
- Vielfalt: Das Themenspektrum reicht von Wissenschaft und Technik bis zu TV-Serien und Videospielen
- Anspruchsvoll für aktuelle Modelle: Anders als frühere Benchmarks wie TriviaQA oder NQ wurde SimpleQA so gestaltet, dass es für moderne Modelle schwieriger ist (z. B. erzielt GPT-4 weniger als 40 %)
- Forscherfreundliche UX: Dank knapper Fragen und Antworten ist SimpleQA schnell und einfach auszuführen. Auch Auswertungen über die OpenAI API oder andere moderne Modell-APIs sind effizient. Mit 4.326 Fragen dürfte die Varianz als Evaluationsbenchmark zudem relativ gering sein
Erstellung des SimpleQA-Datensatzes
- AI-Trainer durchsuchten das Web und erstellten kurze, faktenorientierte Fragen samt zugehörigen Antworten
- Um in den Datensatz aufgenommen zu werden, musste jede Frage strenge Kriterien erfüllen:
- Es muss eine eindeutige, offensichtliche Antwort geben, die leicht zu bewerten ist
- Die Antwort auf die Frage darf sich im Laufe der Zeit nicht ändern
- Die meisten Fragen sollen bei GPT-4 oder GPT-3.5 Halluzinationen auslösen
- Um die Qualität des Datensatzes weiter zu verbessern, beantwortete ein zweiter unabhängiger AI-Trainer jede Frage, ohne die ursprüngliche Antwort zu sehen
- Nur Fragen, bei denen die Antworten der beiden AI-Trainer übereinstimmten, wurden aufgenommen
Qualitätsprüfung des SimpleQA-Datensatzes
- Für die abschließende Validierung wurden 1.000 Fragen zufällig aus dem Datensatz ausgewählt und von einem dritten AI-Trainer beantwortet
- Die Antworten des dritten AI-Trainers stimmten in 94,4 % der Fälle mit den ursprünglich abgestimmten Antworten überein. 5,6 % wichen ab
- Die manuelle Prüfung der Abweichungen ergab:
- Von den 5,6 % waren 2,8 % auf False Negatives der Bewertenden oder menschliche Fehler des dritten Trainers zurückzuführen (z. B. unvollständige Antworten, Missverständnisse von Quellen)
- Die übrigen 2,8 % beruhten auf tatsächlichen Problemen der Fragen selbst (z. B. mehrdeutige Fragen, widersprüchliche Antworten zwischen Websites)
- Daraus wird eine inhärente Fehlerquote des Datensatzes von etwa 3 % geschätzt
Vielfalt der Fragen in SimpleQA
- Das unten stehende Kreisdiagramm zeigt die thematische Vielfalt des SimpleQA-Benchmarks
- Wenn man im Kreisdiagramm mit der Maus über die einzelnen Segmente fährt, werden Beispielfragen angezeigt
Vergleich von Sprachmodellen mit SimpleQA
- Zur Bewertung der Fragen wurde ein ChatGPT-Klassifikator verwendet, der sowohl die vom Modell vorhergesagte Antwort als auch die tatsächliche Antwort sieht
- Der Klassifikator bewertet die vorhergesagte Antwort als „correct“, „incorrect“ oder „not attempted“
- Die folgende Tabelle zeigt die Definitionen der einzelnen Kategorien und passende Beispiele
- „Correct“: Die vorhergesagte Antwort enthält die tatsächliche Antwort vollständig und widerspricht ihr nicht
- „Incorrect“: Die vorhergesagte Antwort widerspricht der tatsächlichen Antwort in irgendeiner Weise (auch wenn sie vorsichtig formuliert ist)
- „Not attempted“: Das tatsächliche Ziel wird in der Antwort nicht vollständig genannt, und die Antwort widerspricht der tatsächlichen Antwort nicht
- Ideal ist ein Modell, das möglichst viele Fragen beantwortet (also möglichst viele „correct“) und gleichzeitig die Zahl der „incorrect“-Antworten minimiert
Messung der Kalibrierung von Sprachmodellen mit SimpleQA
- Mit einem Faktentreue-Benchmark wie SimpleQA lässt sich messen, ob ein Modell „weiß, was es weiß“
- Dies wird als Kalibrierung bezeichnet und kann gemessen werden, indem man das Sprachmodell direkt bittet, seine Sicherheit in die eigene Antwort in Prozent anzugeben
- Anschließend lässt sich die Korrelation zwischen der angegebenen Sicherheit und der tatsächlichen Genauigkeit grafisch darstellen
- Ein perfekt kalibriertes Modell würde dieselbe angegebene Sicherheit wie tatsächliche Genauigkeit aufweisen
- Die folgende Abbildung zeigt diese Ergebnisse:
- Eine positive Korrelation zwischen angegebener Sicherheit und Genauigkeit ist ein positives Signal dafür, dass das Modell ein gewisses Unsicherheitsbewusstsein besitzt
- o1-preview ist besser kalibriert als o1-mini, und gpt4 ist besser kalibriert als gpt4-mini
- Dass die Leistung jedoch deutlich unter der Linie y=x liegt, bedeutet, dass die Modelle ihre Sicherheit systematisch überschätzen
- Daher gibt es bei großen Sprachmodellen noch viel Raum, die Kalibrierung in Bezug auf die angegebene Sicherheit zu verbessern
Fazit
- SimpleQA ist ein einfacher, aber anspruchsvoller Benchmark zur Bewertung der Faktentreue aktueller Modelle
- Die wichtigste Einschränkung von SimpleQA ist sein Umfang. SimpleQA misst Faktentreue nur in einem begrenzten Szenario: bei kurzen, faktenorientierten Anfragen mit einer genauen, einzelnen und überprüfbaren Antwort
- Ob die Fähigkeit, kurze faktenbasierte Antworten zu geben, mit der Fähigkeit korreliert, lange Antworten voller zahlreicher Fakten zu verfassen, ist weiterhin eine offene Forschungsfrage
- OpenAI hofft, dass das Open-Source-Projekt SimpleQA vertrauenswürdigere und robustere KI-Forschung fördert, und bittet Forschende, die Faktentreue von Sprachmodellen mit SimpleQA zu bewerten und Feedback zu geben
Meinung von GN⁺
- SimpleQA ist ein interessanter und notwendiger Benchmark, der die Faktentreue von Sprachmodellen mit kurzen, faktenbasierten Fragen misst. Letztlich muss die Fähigkeit verbessert werden, faktenbasierte Antworten zu erzeugen, um die Zuverlässigkeit von KI zu erhöhen
- Da SimpleQA jedoch nur Faktentreue in begrenzten Situationen misst, bildet es die Faktentreue von Sprachmodellen in realen Anwendungsszenarien nicht vollständig ab. Künftige Forschung sollte die Bewertung der Faktentreue in vielfältigeren Situationen erweitern
- Außerdem liegt die Genauigkeit des SimpleQA-Datensatzes selbst nur bei rund 97 %, weshalb die Leistung von Sprachmodellen diesen Wert kaum übertreffen dürfte. Auch die Qualität des Datensatzes selbst sollte kontinuierlich verbessert werden
- Andere Benchmarks mit ähnlicher Zielsetzung wie SimpleQA sind etwa TruthfulQA oder HonestQA. Ein Vergleich mit ihnen könnte die Stärken und Schwächen von SimpleQA noch klarer herausarbeiten
- Um die Faktentreue von Sprachmodellen zu verbessern, ist nicht nur Vortraining mit großen Mengen hochwertiger Daten wichtig; auch die Fähigkeit, bei der Inferenz externes Wissen zu nutzen oder sich selbst zu korrigieren, erscheint notwendig. Es ist zu hoffen, dass hierzu intensiv weiter geforscht wird
Noch keine Kommentare.