4 Punkte von GN⁺ 2024-04-14 | 1 Kommentare | Auf WhatsApp teilen

Kürzere Prompts liefern bei der Nutzung von GPT bessere Ergebnisse

  • GPT wird eher verwirrt, wenn man im Prompt Inhalte übermäßig explizit macht, die es bereits als Allgemeinwissen kennt
  • Zum Beispiel liefert bei der Aufgabe, im Text erwähnte Bundesstaaten zu klassifizieren, die einfache Bitte um den Namen des Bundesstaats genauere Ergebnisse als das Bereitstellen einer Liste aller 50 Bundesstaaten

Mit der Chat API von OpenAI allein lassen sich bereits ausreichend vielfältige und leistungsstarke Funktionen umsetzen

  • Auch ohne zusätzliche Tools wie Langchain lassen sich benötigte Funktionen wie etwa JSON-Extraktion allein mit der Chat API einfach implementieren
  • Beim Upgrade auf ein neues GPT-Modell muss im Codebestand oft nur eine einzige Zeichenkette geändert werden
  • Es reicht, eine einfache Logik für Fehlerbehandlung und Eingabelängenbegrenzungen der OpenAI API hinzuzufügen

Es ist schwierig, Fälle zu behandeln, in denen GPT nichts findet

  • In Prompts wie „Wenn nichts gefunden wird, gib einen leeren Wert zurück“ erfindet GPT oft dennoch etwas oder wird unsicher
  • Die Lösung besteht darin, gar keinen Prompt an GPT zu senden, wenn die Eingabe leer ist

GPT kann nur Ausgaben mit begrenzter Länge erzeugen

  • GPT-4 hat ein Eingabelimit von 128k Tokens, aber das Ausgabelimit beträgt nur 4k Tokens
  • Wenn man eine Liste von JSON-Objekten anfordert, kann GPT stabil nur schwer mehr als 10 Elemente erzeugen

Vektordatenbanken sowie RAG/Embeddings helfen für allgemeine Anwendungsfälle nicht besonders viel

  • Für andere Zwecke als Suche funktioniert RAG nicht besonders gut
  • Wegen der schwierigen Relevanzbewertung, Problemen bei der Datenisolierung und sinkender Nutzerzufriedenheit ist der praktische Nutzen begrenzt
  • Für allgemeine Suche sind Facettensuche mit GPT oder die Erzeugung komplexer Queries besser geeignet

GPT erzeugt praktisch keine Halluzinationen

  • Bei Aufgaben zur Extraktion von Informationen aus gegebenen Texten liefert GPT sehr zuverlässige Ergebnisse
  • Wenn im Text jedoch keine entsprechenden Informationen vorhanden sind, kann es dennoch etwas erfinden
  • Deshalb ist es wichtig, ausreichend Kontext bereitzustellen und mit den Antworten von GPT sorgfältig umzugehen

Meinung von GN⁺

  • Mit Transformer-Modellen, Webdaten und großer Infrastruktur allein dürfte AGI schwer zu erreichen sein
  • GPT-4 ist eindeutig nützlich, aber für weitere Fortschritte scheint eine Innovation in der Modellarchitektur selbst nötig zu sein
  • Alternativen zu OpenAI scheinen bislang noch nicht an GPT heranzureichen, daher bleibt am Ende vor allem das nächste GPT-Upgrade im Fokus
  • Es wird erwartet, dass die Leistung von GPT-5 gegenüber GPT-4 nicht auf einem revolutionären Niveau liegen wird. Der Nutzen im Verhältnis zu den Kosten scheint an seine Grenzen zu stoßen
  • Deshalb wirkt es vorerst realistisch, sich mit GPT-4 auf optimales Prompt-Design und praktische Anwendungen zu konzentrieren

1 Kommentare

 
GN⁺ 2024-04-14
Hacker-News-Kommentare
  • Ein Team verarbeitet pro Monat mehr als 5 Milliarden Tokens, und ein Engineering Manager teilt seine Erfahrungen damit.
    • Viele Abstraktionen wie Langchain seien verfrüht, und Prompts seien letztlich nur API-Aufrufe, daher sei es einfacher, sie als normalen Code zu schreiben, statt sie als etwas Besonderes zu behandeln.
    • Zusammenfassungen seien robust, aber Schlussfolgern sei schwierig, insbesondere wenn es darum gehe, dass ein LLM den Kontext versteht und sagt, wenn es sich nicht sicher ist.
    • Es sei ein Game Changer, aber nicht das Ende der Welt; einige Berufe würden stark beeinflusst, aber es sei nicht so revolutionär wie das Internet und werde eher als Verstärker von Fähigkeiten wirken.
  • Jemand teilt seine Erfahrungen mit der Nutzung von OpenAI-Modellen in einer persönlichen Schreib-App.
    • Man habe versucht, intelligente Suchfunktionen umzusetzen, etwa Entwurfsnotizen der letzten zwei Jahre zu finden, in denen Haskell erwähnt wird, doch ChatGPT dazu aufzufordern, strukturierte JSON-Daten zurückzugeben, funktioniere nur teilweise.
    • Stattdessen funktioniere es besser, die Daten in eine SQLite-Datenbank zu legen, ChatGPT das Schema zu schicken und es zu bitten, eine Query zu schreiben, die das Gewünschte zurückliefert.
  • Mit besseren Prompts kann man günstigere Modelle verwenden.
    • Man gibt dem LLM einen sanften Ausweg, also dass es Hypothesen aufstellen darf, wenn nicht genügend Informationen vorhanden sind, dies aber klar kennzeichnen und Belege sowie eine logische Grundlage liefern soll, und bittet es anschließend, seine eigene Antwort zu bewerten.
  • Jemand fragt sich, warum kein JSON-Modus nötig sein soll.
  • Man testete einen Prompt, der den Originaltext unverändert zurückgeben sollte, wenn die Regeln nicht auf den Text anwendbar sind, aber ChatGPT gab stattdessen die wörtliche Zeichenfolge "The original text without any changes" zurück.
  • GPT sei sehr cool, aber der Interpretation, dass mit mehr Mehrdeutigkeit Qualität und Generalisierbarkeit steigen, wird deutlich widersprochen.
    • Natürliche Sprache sei für GPT der wahrscheinlichste Output, und Entwickler hätten sich einfach stärker auf das verlassen, was GPT gut kann.
    • Selbst mit einfachen Aufgaben könne man GPT zum Scheitern bringen, und schon die Annahme, GPT "verstehe" Zuordnungen, impliziere hochstufiges Pattern Matching.
  • GPT-4 zeige trotz seines Alters von einem Jahr im Vergleich zu anderen LLMs eine deutlich bessere Leistung; je nach Nutzungsmuster halluziniere es selten und sei hartnäckiger, wenn es weiß, dass es recht hat.
  • Beim Extrahieren von Firmennamen gibt es das Nullhypothesen-Problem, dass ein beliebiges Unternehmen genannt wird, wenn im Text gar keines vorkommt.
    • Deshalb sei ein zweistufiger Ansatz nötig: zuerst fragen "Erwähnt dieser Text ein Unternehmen?", und falls ja, dann "Liste die Firmennamen in diesem Text auf".
  • Dass GPT nicht stabil mehr als 10 Elemente zurückgeben könne, sei nur ein Prompt-Problem; mit JSON-Keys könne es bis zu 200 Elemente in exakter Reihenfolge zurückgeben.
  • Tipps zur Lösung des "null"-Problems:
    • Statt "Gib nichts zurück" lieber "Gib den Default-Wert von XYZ zurück" sagen und dann eine Textsuche nach diesem Default-Wert (XYZ) durchführen, ähnlich wie bei der Suche nach einem Bundesstaatennamen.
    • Mit einem System-Prompt könne man das LLM dazu bringen, die Rolle X einzunehmen.
  • Ein Mikropaket für tokenbasiertes Abschneiden wird vorgestellt.