29 Punkte von vkehfdl1 2023-08-08 | 7 Kommentare | Auf WhatsApp teilen
  • Die Leistung von GPT-4 in der koreanischen CSAT-Sprachprüfung wurde durch CoT-basiertes Prompt Engineering von Stufe 3 (86 Punkte, Top 22 %) auf Stufe 2 (94 Punkte, Top 5 %) verbessert.
  • Mit Prompts, die auf bestimmte Grammatik-Aufgabentypen spezialisiert sind, wurde sogar maximal Stufe 1 (96 Punkte, Top 4 %) erreicht.
  • Die vollständigen Prompts, der Quellcode und der verwendete Datensatz der koreanischen CSAT-Sprachprüfung wurden als Open Source auf GitHub veröffentlicht.
  • Ein Beispiel dafür, dass GPT-4 bei den koreanischen Sprachfähigkeiten von LLMs, die bislang oft als unzureichend galten, bereits ein sprachliches Leistungsniveau auf Spitzenniveau erreicht hat.

Hallo. Ich habe GPT-4 mithilfe von CoT-Prompts selbst so optimiert, dass es die koreanische CSAT-Sprachprüfung äußerst gut löst.

Ich habe noch keinen Prompt gefunden, der die Top 5 % deutlich übertrifft oder 100 Punkte erreicht, und wegen der API-Kosten konnte ich bislang nur die CSAT 2023 testen. Deshalb veröffentliche ich das Projekt als Open Source und hoffe auf die Unterstützung vieler Interessierter. Ich würde mich freuen, wenn viele mit dem veröffentlichten Quellcode frei neue Prompts testen und noch weiterentwickelte Prompt-Techniken finden!

7 Kommentare

 
wedding 2023-08-09

Ein interessantes Projekt~

 
kuber 2023-08-08

Wie wäre es, das nicht als Multiple-Choice-Aufgabe mit fünf Optionen anzugehen, sondern als Klassifikationsproblem, bei dem jede einzelne Option als True/False betrachtet wird?

Wenn man mit CoT jede Option unabhängig voneinander als wahr oder falsch beurteilen lässt und dann Agents so aufbaut, dass sie sich die Begründungen für alle fünf Gedankengänge ansehen und am Ende eine finale Entscheidung treffen, kann man auch mit einem weniger leistungsfähigen Modell Ergebnisse von höherer Qualität erzielen.

Bei der aktuell gewählten Methode beginnt die Bewertung mit Option 1, wodurch sich bei der Bewertung der späteren Optionen Vorurteile aus den vorherigen Optionen einschleichen. Einer der Gründe, warum GPT-4 so beeindruckend ist, liegt darin, dass das Modell groß genug geworden ist, sodass solche Vorurteile weniger stark ins Gewicht fallen. Soweit ich weiß, stand in einer Arbeit aber auch, dass dieser Effekt mit längeren Textpassagen ebenfalls nachlässt.
(Das war allerdings ein nicht begutachtetes arXiv-Paper ... trotzdem klang der Inhalt einigermaßen plausibel.)

Natürlich wären die API-Kosten dann sechsmal so hoch, aber meiner persönlichen Meinung nach sollte mit gutem Prompting selbst das Niveau des CSAT-Sprachteils auch mit GPT-3.5 gut machbar sein.

 
vkehfdl1 2023-08-09

Wie Sie gesagt haben: Wenn man die fünf Optionen unabhängig voneinander bewertet, kommt es tatsächlich vor, dass es mehr als eine richtige Antwort gibt oder auch gar keine. Dann müsste man zusätzlich noch einen Prompt einbauen, der anhand jeder richtigen Antwort und der jeweiligen Erklärung erneut eine Entscheidung trifft.
Oder man könnte für jede der fünf Antwortoptionen mehrfach Prompts ausprobieren und dann die Option als richtige Antwort nehmen, die am häufigsten ausgewählt wird. Aber wie Sie schon sagten, würden die API-Kosten dann immer weiter explodieren;; Selbst mit dem aktuellen Prompt kostet schon ein einziger Durchlauf der CSAT-Prüfung 4 bis 5 Dollar T_T

 
kuber 2023-08-09

Willkommen in der Welt des Engineerings, in der man sich auch Gedanken über Kosteneinsparungen machen muss, haha

 
dohyun682 2023-08-08

Der Name ist ja Bewertungsstellen-Slayer, hahaha

 
kuroneko 2023-08-08

Wow, faszinierend.

Ich habe das Gefühl, dass sich Prompt Engineering seit Step by step enorm weiterentwickelt hat.
(Und ob wohl ein Open-Source-LLM erscheinen kann, das über Koreanischkenntnisse auf dem Niveau von GPT-4 verfügt....)

 
vkehfdl1 2023-08-09

Koreanische Open-Source-LLMs reichen im Moment noch nicht einmal annähernd an GPT-3.5 heran T_T Hoffentlich erreichen Open-Source-LLMs unbedingt irgendwann das Niveau von GPT-4.