- Viele Menschen haben darüber gesprochen, bisher aber nur bruchstückhaft
- In einer kürzlich veröffentlichten Studie wurden die Juni- und März-Versionen von GPT-4 anhand von 500 Problemen objektiv verglichen
- Im März wurden 488 korrekt beantwortet, im Juni waren es nur noch 12 richtige Antworten
- Das bedeutet, dass die Trefferquote in nur drei Monaten von 97,6 % auf 2,4 % gefallen ist
- Aber es wird noch schlimmer
- Mit der Chain-of-Thought-Technik wurde das Modell zum Schlussfolgern gebracht
- Auf die Anweisung
Ist 17077 eine Primzahl? Think step by step. erzeugte GPT-4 nicht einmal Zwischenschritte und antwortete einfach mit „Nein“
- Auch die Code-Generierung ist schlechter geworden
- Dafür wurde mit 50 einfachen Problemen von LeetCode ein Datensatz aufgebaut und ausgeführt
- Die März-Version war zu 52 % erfolgreich, die Juni-Version nur zu 10 %
- Warum passiert das?
- Es wird angenommen, dass OpenAI fortlaufend Änderungen vornimmt, aber man weiß nicht, wie es intern funktioniert oder wie dort evaluiert wird
- Gerüchten zufolge bündeln sie mehrere kleine spezialisierte GPT-4-Modelle, sodass sie wie ein großes Modell wirken, aber günstiger betrieben werden können
- Könnte die Qualitätsverschlechterung dadurch verursacht werden, dass alles günstiger und schneller gemacht wird?
- Das ist ein Warnsignal für alle, die Anwendungen entwickeln, die von GPT-4 abhängen
- Dass sich das Verhalten von LLMs im Zeitverlauf verändert, ist nicht akzeptabel
- Das Experiment kann von jedem in Google Colab reproduziert werden
6 Kommentare
Ich habe mein Abonnement gekündigt. Die Verschlechterungen waren deutlich spürbar.
Auch in inländischen chatGPT-Nutzer-Communitys gab es immer wieder solche Berichte, also scheint es tatsächlich wahr zu sein.
Ich nutze GPT seit der Einführung des Bezahlmodells jeden Monat und stimme dem hier zu.
Außerdem bin ich trotz kostenpflichtigem Abo sehr unzufrieden damit, dass es bei Version 4 immer noch die Begrenzung auf 25 Fragen in 3 Stunden gibt.
Heute wurde mit der Hinzufügung der Funktion für benutzerdefinierte Anweisungen offenbar auch die Beschränkung auf 50 aufgehoben.
https://openai.com/blog/custom-instructions-for-chatgpt
Kommt es nur mir so vor, oder hat die Qualität von GPT-4 in letzter Zeit deutlich nachgelassen?
Die betreffende Arbeit: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?