17 Punkte von xguru 2023-07-20 | 6 Kommentare | Auf WhatsApp teilen
  • Viele Menschen haben darüber gesprochen, bisher aber nur bruchstückhaft
  • In einer kürzlich veröffentlichten Studie wurden die Juni- und März-Versionen von GPT-4 anhand von 500 Problemen objektiv verglichen
  • Im März wurden 488 korrekt beantwortet, im Juni waren es nur noch 12 richtige Antworten
    • Das bedeutet, dass die Trefferquote in nur drei Monaten von 97,6 % auf 2,4 % gefallen ist
  • Aber es wird noch schlimmer
  • Mit der Chain-of-Thought-Technik wurde das Modell zum Schlussfolgern gebracht
    • Auf die Anweisung Ist 17077 eine Primzahl? Think step by step. erzeugte GPT-4 nicht einmal Zwischenschritte und antwortete einfach mit „Nein“
  • Auch die Code-Generierung ist schlechter geworden
    • Dafür wurde mit 50 einfachen Problemen von LeetCode ein Datensatz aufgebaut und ausgeführt
    • Die März-Version war zu 52 % erfolgreich, die Juni-Version nur zu 10 %
  • Warum passiert das?
    • Es wird angenommen, dass OpenAI fortlaufend Änderungen vornimmt, aber man weiß nicht, wie es intern funktioniert oder wie dort evaluiert wird
    • Gerüchten zufolge bündeln sie mehrere kleine spezialisierte GPT-4-Modelle, sodass sie wie ein großes Modell wirken, aber günstiger betrieben werden können
    • Könnte die Qualitätsverschlechterung dadurch verursacht werden, dass alles günstiger und schneller gemacht wird?
  • Das ist ein Warnsignal für alle, die Anwendungen entwickeln, die von GPT-4 abhängen
    • Dass sich das Verhalten von LLMs im Zeitverlauf verändert, ist nicht akzeptabel
  • Das Experiment kann von jedem in Google Colab reproduziert werden

6 Kommentare

 
secret3056 2023-07-20

Ich habe mein Abonnement gekündigt. Die Verschlechterungen waren deutlich spürbar.

 
delimoni 2023-07-20

Auch in inländischen chatGPT-Nutzer-Communitys gab es immer wieder solche Berichte, also scheint es tatsächlich wahr zu sein.

 
appcaster 2023-07-20

Ich nutze GPT seit der Einführung des Bezahlmodells jeden Monat und stimme dem hier zu.
Außerdem bin ich trotz kostenpflichtigem Abo sehr unzufrieden damit, dass es bei Version 4 immer noch die Begrenzung auf 25 Fragen in 3 Stunden gibt.

 
wedding 2023-07-21

Heute wurde mit der Hinzufügung der Funktion für benutzerdefinierte Anweisungen offenbar auch die Beschränkung auf 50 aufgehoben.

https://openai.com/blog/custom-instructions-for-chatgpt