1 Punkte von GN⁺ 2024-11-01 | Noch keine Kommentare. | Auf WhatsApp teilen

Chain-of-Thought und Leistungsabfall

  • Überblick über Chain-of-Thought (CoT)

    • CoT ist eine weit verbreitete Strategie in großen Sprach- und multimodalen Modellen.
    • Es ist bekannt, dass sie bei vielen Aufgaben die Leistung verbessert, doch welche Einstellungen tatsächlich davon profitieren, ist weiterhin Gegenstand laufender Forschung.
  • Ziel der Studie

    • Es soll ermittelt werden, welche Eigenschaften Aufgaben haben, bei denen CoT die Modellleistung verschlechtern kann.
    • Inspiriert von der kognitiven Psychologie wird untersucht, (i) in welchen Fällen sprachliches Denken oder Nachdenken die menschliche Leistung beeinträchtigt und (ii) wann die für menschliche Leistung bestimmenden Einschränkungen auf Sprachmodelle verallgemeinert werden können.
  • Wichtige Untersuchungsfälle

    • Es werden drei Fallbeispiele getestet: implizites statistisches Lernen, visuelle Wahrnehmung und Musterklassifikation mit Ausnahmen.
    • Dabei wurde festgestellt, dass die Leistung bei verschiedenen aktuellen Modellen deutlich sinkt, wenn beim Schlussfolgern Thinking verwendet wird (z. B. verzeichnet OpenAI o1-preview im Vergleich zu GPT-4o einen Rückgang der absoluten Genauigkeit von bis zu 36,3 %).
  • Weitere Erkenntnisse

    • Es wurden drei Aufgaben identifiziert, bei denen Bedingung (i) erfüllt ist, Bedingung (ii) jedoch nicht.
    • Bei diesen Aufgaben verschlechtert sprachliches Denken zwar die menschliche Leistung, CoT erhält oder verbessert jedoch die Modellleistung.
  • Fazit

    • Zwar gibt es keine exakte Parallele zwischen den kognitiven Prozessen von Modellen und denen des Menschen, doch die Betrachtung von Denkprozessen, die die menschliche Leistung negativ beeinflussen, hilft dabei, Einstellungen zu identifizieren, in denen auch Modelle negativ beeinflusst werden.
    • Durch die Verknüpfung der Literatur über menschliches Nachdenken mit der Bewertung von CoT liefert die Arbeit ein neues Werkzeug, um die Auswahl von Prompts und die Auswirkungen von Thinking beim Schlussfolgern besser zu verstehen.

Zusammenfassung von GN⁺

  • Diese Studie zeigt, dass CoT die Modellleistung nicht in jeder Situation verbessert.
  • Sie zeigt die Möglichkeit auf, Leistungsabfälle von Modellen anhand von Fällen vorherzusagen, in denen menschliches Denken die Leistung negativ beeinflusst.
  • Es ist interessant, die Einsichten der kognitiven Psychologie zu nutzen, um die Wirkung von CoT besser zu verstehen.
  • Als Projekte mit ähnlichen Funktionen werden verschiedene Sprachmodelle von OpenAI empfohlen.

Noch keine Kommentare.

Noch keine Kommentare.