GPT-4 wird mit der Zeit schlechter

xguru · 2023-07-20T11:06:02+09:00

Viele Menschen haben darüber gesprochen, bisher aber nur bruchstückhaft In einer kürzlich veröffentlichten Studie wurden die Juni- und März-Versionen von GPT-4 anhand von 500 Problemen objektiv verglichen Im März wurden 488 korrekt beantwortet, im Juni waren es nur noch 12 richtige Antworten Das bedeutet, dass die Trefferquote in nur drei Monaten von 97,6 % auf 2,4 % gefallen ist Aber es wird noch schlimmer Mit der Chain-of-Thought-Technik wurde das Modell zum Schlussfolgern gebracht Auf die Anweisung Ist 17077 eine Primzahl? Think step by step. erzeugte GPT-4 nicht einmal Zwischenschritte und antwortete einfach mit „Nein“ Auch die Code-Generierung ist schlechter geworden Dafür wurde mit 50 einfachen Problemen von LeetCode ein Datensatz aufgebaut und ausgeführt Die März-Version war zu 52 % erfolgreich, die Juni-Version nur zu 10 % Warum passiert das? Es wird angenommen, dass OpenAI fortlaufend Änderungen vornimmt, aber man weiß nicht, wie es intern funktioniert oder wie dort evaluiert wird Gerüchten zufolge bündeln sie mehrere kleine spezialisierte GPT-4-Modelle, sodass sie wie ein großes Modell wirken, aber günstiger betrieben werden können Könnte die Qualitätsverschlechterung dadurch verursacht werden, dass alles günstiger und schneller gemacht wird? Das ist ein Warnsignal für alle, die Anwendungen entwickeln, die von GPT-4 abhängen Dass sich das Verhalten von LLMs im Zeitverlauf verändert, ist nicht akzeptabel Das Experiment kann von jedem in Google Colab reproduziert werden

(twitter.com/svpino)

17 Punkte von xguru 2023-07-20 | 6 Kommentare | Auf WhatsApp teilen

Viele Menschen haben darüber gesprochen, bisher aber nur bruchstückhaft
In einer kürzlich veröffentlichten Studie wurden die Juni- und März-Versionen von GPT-4 anhand von 500 Problemen objektiv verglichen
Im März wurden 488 korrekt beantwortet, im Juni waren es nur noch 12 richtige Antworten
- Das bedeutet, dass die Trefferquote in nur drei Monaten von 97,6 % auf 2,4 % gefallen ist
Aber es wird noch schlimmer
Mit der Chain-of-Thought-Technik wurde das Modell zum Schlussfolgern gebracht
- Auf die Anweisung Ist 17077 eine Primzahl? Think step by step. erzeugte GPT-4 nicht einmal Zwischenschritte und antwortete einfach mit „Nein“
Auch die Code-Generierung ist schlechter geworden
- Dafür wurde mit 50 einfachen Problemen von LeetCode ein Datensatz aufgebaut und ausgeführt
- Die März-Version war zu 52 % erfolgreich, die Juni-Version nur zu 10 %
Warum passiert das?
- Es wird angenommen, dass OpenAI fortlaufend Änderungen vornimmt, aber man weiß nicht, wie es intern funktioniert oder wie dort evaluiert wird
- Gerüchten zufolge bündeln sie mehrere kleine spezialisierte GPT-4-Modelle, sodass sie wie ein großes Modell wirken, aber günstiger betrieben werden können
- Könnte die Qualitätsverschlechterung dadurch verursacht werden, dass alles günstiger und schneller gemacht wird?
Das ist ein Warnsignal für alle, die Anwendungen entwickeln, die von GPT-4 abhängen
- Dass sich das Verhalten von LLMs im Zeitverlauf verändert, ist nicht akzeptabel
Das Experiment kann von jedem in Google Colab reproduziert werden

6 Kommentare

secret3056 2023-07-20

Ich habe mein Abonnement gekündigt. Die Verschlechterungen waren deutlich spürbar.

delimoni 2023-07-20

Auch in inländischen chatGPT-Nutzer-Communitys gab es immer wieder solche Berichte, also scheint es tatsächlich wahr zu sein.

appcaster 2023-07-20

Ich nutze GPT seit der Einführung des Bezahlmodells jeden Monat und stimme dem hier zu.
Außerdem bin ich trotz kostenpflichtigem Abo sehr unzufrieden damit, dass es bei Version 4 immer noch die Begrenzung auf 25 Fragen in 3 Stunden gibt.

wedding 2023-07-21

Heute wurde mit der Hinzufügung der Funktion für benutzerdefinierte Anweisungen offenbar auch die Beschränkung auf 50 aufgehoben.

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

Kommt es nur mir so vor, oder hat die Qualität von GPT-4 in letzter Zeit deutlich nachgelassen?

xguru 2023-07-20

Die betreffende Arbeit: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 wird mit der Zeit schlechter

Verwandte Beiträge

6 Kommentare