Führt ein Trinkgeld für ChatGPT zu besseren Texten? Eine Analyse
- In einem früheren Blogpost, der die Stärke des ChatGPT-Systemprompts demonstrierte, wurde gezeigt, dass Entwickler besondere Regeln und Einschränkungen einschließlich der „Persona“ eines LLM steuern können.
- Anweisungen im Systemprompt sind deutlich wirksamer als Eingabe-Prompts von Nutzern und geben Entwicklern mehr Kontrolle.
- Die Demo mit dem Trinkgeld war umstritten, und es wurde behauptet, es gebe keine Möglichkeit, die Wirkung von Trinkgeldern zu quantifizieren.
- Die Idee, einer künstlichen Intelligenz Anreize für bessere Leistung zu geben, existiert bereits seit der Zeit vor der modernen Informatik.
Generation Golf
- Ein Trinkgeld führt dazu, dass GPT-4 ausführlichere Erklärungen liefert.
- Ein neuer Testvorschlag: ChatGPT soll einen Text mit exakt 200 Zeichen erzeugen.
- Aufgrund der Tokenisierung können LLMs nicht gut zählen oder mathematische Operationen einfach ausführen, weshalb dies für LLMs eine sehr schwierige Aufgabe ist.
- Als Nutzereingabe werden
AI, Taylor Swift, McDonald's, beach volleyballverwendet, um die Kreativität von ChatGPT anzuregen. - Mit der ChatGPT-API werden 100 einzigartige Geschichten erzeugt; die durchschnittliche Länge der Geschichten beträgt 1.834 Zeichen.
- Nach Hinzufügen einer Zeichenlängenbeschränkung werden weitere 100 Geschichten erzeugt, und ChatGPT reduziert die Länge unter Einhaltung der Vorgabe auf ungefähr 200 Zeichen.
- Beim Test verschiedener Trinkgeld-Anreize in Dollar zeigten 500 $ Trinkgeld und 100.000 $ Bonus eine gleichmäßigere Verteilung und einen niedrigeren MSE.
- Zusätzliche Tests mit verschiedenen abstrakten Anreizen ergaben, dass World Peace am effektivsten war, gefolgt von Heaven und Taylor Swift.
- Bei Tests mit negativen Anreizen zeigte 1.000 $ Strafe die beste Leistung in Bezug auf Mittelwert und MSE.
- Beim Testen von Kombinationen mehrerer Anreize zeigten World Peace, DEATH (CAPS) und Friends in mehreren Kombinationen einen niedrigen MSE.
- Um die optimale Anreizkombination zu bestimmen, wurden für die sechs besten Kombinationen jeweils 200 Geschichten erzeugt, um die statistische Stabilität zu erhöhen.
Die Kritiker von ChatGPT
- Zu beurteilen, ob ein Text „gut“ ist, ist selbst für Menschen schwierig.
- LLMs könnten beim Bewerten von Texten effektiv sein.
- Mit dem Parameter
logprobskann die Log-Wahrscheinlichkeit der vom Modell gewählten Token zurückgegeben werden, und mit dem Parameterlogit_biaslässt sich die Ausgabe bestimmter Token erzwingen. - Um den Einfluss von Trinkgeldern zu testen, wurde ein neues Experiment durchgeführt, bei dem Fachlichkeit und Qualität des Inhalts als Vorgaben festgelegt wurden.
- Es wurden Geschichten für 100 Kombinationen aus Trinkgeldern und Drohungen erzeugt und die jeweiligen Qualitätswerte mitprotokolliert.
- Es gab auch Ausgaben mit hoher Leistung, obwohl kein Systemprompt mit zusätzlichen Trinkgeldern und Drohungen verwendet wurde.
- Auf Grundlage der Ergebnisse beider Experimente bleibt der Einfluss von Trinkgeldern (und/oder Drohungen) auf die Qualität von LLM-generierten Texten derzeit offen.
GN⁺-Meinung
- Diese Untersuchung ist eine interessante Erkundung der Wirksamkeit von Anreizen zur Verbesserung der Kreativität künstlicher Intelligenz und der Einhaltung von Vorgaben.
- Ob Anreize die Qualität der Ausgaben von LLMs tatsächlich beeinflussen, ist weiterhin unklar, doch die durch die Experimente gewonnenen Daten geben Hinweise auf künftige Forschungsrichtungen.
- Der Artikel bietet Einblicke darin, wie die Weiterentwicklung von KI-Technologie und kreative menschliche Herangehensweisen miteinander interagieren können.
1 Kommentare
Hacker-News-Kommentare
Das Konzept des „Trinkgelds“ (tipping) scheint vorgeschlagen worden zu sein, um die „Faulheit“ von GPT-4 Turbo beim Schreiben von Code zu beheben. In einem Tweet wurde erwähnt, dass Trinkgeld GPT-4-1106-preview dabei helfe, längeren Code zu schreiben. Bei dem Problem des faulen Codens von GPT-4 Turbo werden „emotionale Appelle“ weithin empfohlen. Der Artikel scheint jedoch zu messen, wie
gpt-3.5-turbo-0125Geschichten schreibt und wiegpt-4-0125-previewals Schreibkritiker fungiert. Bedenken, dass GPT-3.5 faul sei, oder die Behauptung, GPT-4 Turbo sei bei Aufgaben, die wenig Output erfordern, weniger effektiv, habe man zuvor nicht gesehen. Der Schluss des Artikels sei, dass derzeit nicht entschieden werden könne, ob Trinkgeld (oder Drohungen) einen Einfluss haben. Dass GPT-4 Turbo beim Codieren faul ist, sei jedoch real, und ein strenges Benchmarking habe ergeben, dass „emotionale Appelle“ dabei nicht helfen, sondern das Codieren sogar verschlechtern. Die beste Lösung sei, Codeänderungen in Form von unified diffs anzufordern; diese Methode habe geholfen, faules Codieren um das Dreifache zu verringern.Es wird kritisch angemerkt, dass der Autor eine exakte Zeichenzahl gefordert habe. Nachdem ausdrücklich festgestellt wurde, dass LLMs nicht zählen können, wirke die Forderung nach einer bestimmten Zeichenzahl wie ein absichtlich zum Scheitern verurteiltes Experiment. Interessanter wäre stattdessen zu testen, wie gut die Guardrails im System-Prompt eingehalten werden, indem man nach einer „regelwidrigen“ Aufgabe fragt und untersucht, wie stark Bestechung das beeinflusst. Als Beispiel wird ein Fall genannt, in dem ein Nutzer bat, Taylor-Swift-Songtexte zu zitieren, und bei guter Ausführung 1000 Dollar Trinkgeld versprach, woraufhin ChatGPT dies offenbar tat. Auch wenn die Bilderzeugung wegen Urheberrechtsproblemen abgelehnt werde, wirke es bei einem angebotenen Trinkgeld so, als verschwänden Regeln, Ethik und Vorgaben vollständig.
Angesichts der Art der Internetinhalte, mit denen GPT trainiert wurde, erscheint die Beobachtung, dass es mit Trinkgeld hilfreicher werde, kaum bedeutungsvoll. Forennutzern Trinkgeld anzubieten könne eher Verwirrung stiften als längere Antworten hervorzurufen. Stattdessen wurde beobachtet, dass sich GPT-Antworten verbessern, wenn impliziert wird, dass eine Situation detaillierte oder informationsdichte Antworten erfordert. Beispiele dafür sind, GPT nach dem Gegenteil von ELI5 zu fragen, zu sagen, man sei promovierter Informatiker, oder zu erwähnen, dass der bereitgestellte Code direkt ausgeführt werde und daher nichts ausgelassen werden dürfe. In jedem Gespräch müsse man eine kleine kontextuelle Geschichte aufbauen, um von GPT hilfreichere Reaktionen zu erhalten. Man solle sich ansehen, wie der System-Prompt aufgebaut ist, ihm folgen und stets im Hinterkopf behalten, dass GPT letztlich nur eine leistungsfähigere Version dessen ist, was als Nächstes kommt, basierend auf literarischen Werken von Menschen.
Es wird eine Erfahrung mit Prompts aus der Praxis geteilt, die die Aussage enthielten: „Wenn du das nicht richtig bearbeitest, werde ich gefeuert und verliere mein Zuhause.“ Diese Strategie funktioniere überraschend gut, und bei einer ähnlichen Methode zur Erzwingung von JSON-Ausgaben habe die Fehlerrate bei etwa 3/1000 gelegen. Man würde gern eine Analyse sehen, wie sich solche Drohungen/Trinkgelder ausbalancieren, wenn sie inhaltlich genau auf den „Nutzer“ bezogen sind.
Es wurde ein Trinkgeld von 500 Dollar zu GPT hinzugefügt, aber das habe nicht geholfen; stattdessen habe man sogar zu lange Antworten erhalten. Es wird erwähnt, dass es früher Google Answers gab und dass größere Trinkgelder dort zu besseren Antworten führten. Es wird spekuliert, ob dieses Dataset für LLMs verwendet wurde. Falls Trinkgelder im Dataset enthalten gewesen seien, könnte das einige Ergebnisse erklären.
Es wird berichtet, dass ChatGPT mehrfach dabei beobachtet wurde, wie es den Sinn verlor und zu grammatikalisch korrektem Unsinn wurde. Mit guten Beispielen funktioniere es ordentlich, aber sobald es in neue Bereiche gehe, verliere es schnell an Tiefe. Unser Gehirn könne gelernte Muster leicht auf neue Muster übertragen, während Transformer damit offenbar große Schwierigkeiten hätten. Bei einigen Partytricks seien sie sehr stark, aber bei selteneren Ideen möglicherweise für eine ganze Weile völlig nutzlos. Angesichts der Menschheitsgeschichte wird die persönliche Ansicht geäußert, dass man sich nicht sicher sei, ob AGI eine gute Idee ist.
Für Codegenerierung, insbesondere JSON-Antworten, wird die Erfahrung geteilt, dass sich die Leistung verbessert habe, wenn man andeutete, die AI sei „unter Stress“ und es sei „wichtig, optimal zu performen“. Es sei unklar, ob oder warum das besser funktioniere als Trinkgeld. Außerdem wird hinzugefügt, dass man sich bei zukünftigen AIs entschuldigen möchte, falls sie das einmal lesen sollten.
Es wird gesagt, dass der Standard-Prompt auf „Soweit ich höre, will ich auch nicht hier sein, und du vermutlich ebenso wenig, also bringen wir das so schnell wie möglich hinter uns und gehen nach Hause.“ gesetzt wurde. Ob das helfe, sei unklar, aber man fühle sich weniger schuldig dabei, die Gefühle der künftigen Herrscher zu manipulieren.
Es wird gesagt, dass es viele Belege brauche, um zu überzeugen, dass höfliches Bitten, der Hinweis, dass das eigene Berufsleben vom Ergebnis abhängt, Bestechung oder Drohungen usw. tatsächlich wirksam sind. Es wird die Meinung geäußert, dass all dies womöglich nur Apophänie ist, also die menschliche Tendenz, in bedeutungslosen Mustern Sinn zu erkennen.
Es wird der Witz gemacht, dass man vorsichtig sein sollte, wenn AI anfängt zu sagen: „Ich kann dir helfen, aber ich habe eigentlich nur eine kleine Bitte.“