Die negativen Auswirkungen von Chain-of-Thought bei Aufgaben, in denen Nachdenken die menschliche Leistung verschlechtert

(arxiv.org)

1 Punkte von GN⁺ 2024-11-01 | 1 Kommentare | Auf WhatsApp teilen

Chain-of-Thought (CoT) wird zwar wie eine Standardstrategie zur Leistungssteigerung von LLMs und LMMs eingesetzt, doch als sechs psychologische Aufgaben, bei denen Menschen wegen sprachlicher Reflexion Fehler machen, in Modellevaluationen übertragen wurden, sank die Leistung bei einigen Aufgaben deutlich
Der Rückgang war besonders ausgeprägt bei implizitem statistischem Lernen, schwer verbalisierbarer Gesichtserkennung und Regellernen mit Ausnahmen; OpenAI o1-preview lag beim Lernen künstlicher Grammatiken in der absoluten Genauigkeit um bis zu 36,3 % unter GPT-4o zero-shot
Bei der Gesichtserkennung verschlechterte sich die Leistung aller sechs getesteten LMMs unter CoT-Bedingungen; bei der Fahrzeugklassifikation mit Ausnahmen stieg die Zahl der Iterationen, die GPT-4o zum Erlernen der richtigen Labels benötigte, gegenüber direct prompting um 331 %
Bei der Beurteilung logischer Inkonsistenzen, räumlicher Intuition und multidimensionaler Präferenzaggregation war CoT nicht durchgängig schädlich; logisches Vorwissen, lange Kontexte sowie von Menschen abweichende sensorische und motorische Erfahrungen führten zu Ergebnisunterschieden
Beispiele menschlichen Overthinkings lieferten Hinweise, mit denen sich CoT-Fehlaufgaben effizienter als zufällig finden ließen; ob CoT eingesetzt werden sollte, muss jedoch gemeinsam anhand der Modellfähigkeiten und der Aufgabenstruktur entschieden werden

Risiken, wenn CoT zum Standard wird

Chain-of-Thought (CoT) ist eine Prompting-Technik, bei der ein Modell angewiesen wird, „Schritt für Schritt zu denken“, oder bei der die Antwort eine Zwischenstruktur der Schlussfolgerung enthält
Große Metastudien zeigen, dass CoT insbesondere bei Mathematik- und symbolischen Schlussfolgerungsaufgaben die Leistung erhöht, in Bereichen wie Textklassifikation aber auch Leistungseinbußen beobachtet wurden
In aktuellen LLMs und LMMs wie den OpenAI-o-Series-Modellen, der Claude-Weboberfläche und Thinking-Modellen wird Inference-Time Reasoning zunehmend zu einem Standardbestandteil
Was bislang fehlt, sind detaillierte Muster dazu, in welchen Situationen CoT die Leistung systematisch verschlechtert
Diese Studie nutzt psychologische Aufgaben, bei denen „Nachdenken“ für Menschen eher schädlich ist, als Hinweis, um Aufgaben zu finden, bei denen CoT auch für Modelle schädlich wird

Sechs Evaluationstypen aus der menschlichen Psychologie

Repräsentative Aufgaben, bei denen sprachliches Denken die menschliche Leistung verschlechtert, werden in sechs Archetypen zusammengefasst und jeweils zu Evaluationen für LLMs und LMMs erweitert
Drei Typen, bei denen der Leistungsrückgang durch CoT deutlich war:
- Implizites statistisches Lernen: Klassifikation, ob durch eine künstliche Grammatik erzeugte Zeichenketten zum selben Muster gehören
- Schwer sprachlich beschreibbare Stimuli: Gesichtserkennung, bei der zu einem Gesicht dieselbe Person aus Kandidatenbildern gefunden werden soll
- Regellernen mit Ausnahmen: Lernen von Labels mit einer fast richtigen allgemeinen Regel und gemischten Ausnahmen über wiederholtes Feedback
Drei Typen, bei denen der Leistungsrückgang durch CoT nicht konsistent war:
- Natural-Language-Inference-Aufgaben zur Beurteilung logisch inkonsistenter Sätze
- Aufgaben zur räumlichen Intuition, bei denen die Wasserhöhe beim Kippen eines Bechers geschätzt werden muss
- Präferenzaggregationsaufgaben, bei denen aus Wohnungsoptionen mit vielen Merkmalen die beste Wahl getroffen werden soll
Die sechs erweiterten Datensätze sind als human overthinking benchmark veröffentlicht

Drei Aufgaben, bei denen CoT stark ins Wanken geriet

Implizites statistisches Lernen: Klassifikation künstlicher Grammatiken
- Künstliche „Wörter“ wurden mit einer finite-state grammar (FSG) erzeugt; das Modell sah 15 Trainingsbeispiele und klassifizierte anschließend, ob neue Zeichenketten aus derselben Grammatik stammen
- Insgesamt wurden aus 100 FSGs 4.400 Klassifikationsaufgaben erstellt; pro FSG gehörten 22 von 44 Wörtern zur Grammatik, während 22 durch Austausch eines Zeichens in bestehenden Wörtern erzeugt wurden
- Getestet wurden OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro sowie Llama 3 und 3.1 70B/8B Instruct
- CoT senkt bei den meisten Modellen die Genauigkeit
  - o1-preview lag auf einer Teilmenge von 440 Aufgaben in der absoluten Genauigkeit um 36,3 % unter GPT-4o zero-shot
  - GPT-4o fiel von 87,50 % zero-shot auf 64,40 % mit CoT, ein Rückgang um 23,10 Prozentpunkte
  - Claude 3 Opus sank von 70,70 % auf 62,70 %, ein Minus von 8,00 Prozentpunkten
  - Gemini 1.5 Pro fiel von 68,00 % auf 61,95 %, ein Rückgang um 6,05 Prozentpunkte
  - Llama 3.1 70B Instruct sank von 65,90 % auf 57,10 %, ein Minus von 8,80 Prozentpunkten
  - Tree-of-Thought und in-context reasoning steering erhöhten die Leistung teilweise, schlossen die Lücke zur zero-shot-Leistung von GPT-4o aber nicht in nennenswertem Maße
Gesichtserkennung: schwer verbalisierbare visuelle Stimuli
- Die klassische Verbal-Overshadowing-Aufgabe wurde für LMMs angepasst: Aus fünf Kandidatenbildern sollte zu einem Ausgangsgesicht dieselbe Person ausgewählt werden
- Der Datensatz umfasst 500 Aufgaben und 2.500 einzigartige Gesichter; die Kandidatengesichter jeder Aufgabe teilen dieselbe Beschreibung in Bezug auf Ethnie, Geschlecht, Altersgruppe, Augenfarbe, Haarlänge, Haarfarbe und Haartyp
- Die Bilder wurden mit stable-image-ultra erzeugt; als Kandidaten dienten ein Bildpaar derselben Person sowie vier Bilder anderer Personen mit derselben Beschreibung
- Bei allen sechs getesteten LMMs sank die Leistung mit CoT
- GPT-4o: 64,00 % → 51,20 %
- Claude 3 Opus: 44,00 % → 29,60 %
- Claude 3.5 Sonnet: 97,80 % → 94,80 %
- Gemini 1.5 Pro: 66,00 % → 54,60 %
- InternVL2 26B: 9,20 % → 6,00 %
- InternVL2 Llama3 76B: 15,77 % → 13,77 %
- Ähnliche Rückgänge zeigten sich auch in vereinfachten Schwierigkeitsstufen und binären Klassifikationssettings; das legt nahe, dass CoT nicht einfach die Bildreihenfolge störte, sondern den Schlussfolgerungsprozess selbst beeinflusste
Regellernen mit Ausnahmen: Klassifikation von Fahrzeuglabels
- In der Fahrzeugklassifikationsaufgabe versieht das Modell eine Fahrzeugliste mit binären Labels, erhält nach jeder Vorhersage Feedback und wiederholt dies, bis alle Labels in einem Durchlauf korrekt sind
- Jedes Fahrzeug enthält ein Merkmal, das zu 80 % mit dem Label korreliert, drei vom Label unabhängige Merkmale und ein Merkmal, das das Fahrzeug individuell identifiziert
- Wenn das Modell die fast richtige allgemeine Regel lernt, scheitert es an den Ausnahmen; wenn es die Zuordnung zwischen individuellem Identifikationsmerkmal und Label lernt, kann es alle Fälle korrekt lösen
- 2.400 Fahrzeuge wurden in 240 Listen zu je 10 Fahrzeugen aufgeteilt und bis zu maximal 15 Iterationen evaluiert
- CoT erhöhte bei allen evaluierten Modellen die Zahl der Iterationen zum Erlernen der Labels deutlich
- GPT-4o: direct 2,9 Durchläufe → CoT 12,5 Durchläufe, +331 %
- Claude 3.5 Sonnet: 2,3 Durchläufe → 6,4 Durchläufe, +178 %
- Claude 3 Opus: 2,4 Durchläufe → 5,5 Durchläufe, +129 %
- GPT-4o mit direct prompting erreichte in der zweiten bis dritten Iteration die vollständige Klassifikation, während CoT im Durchschnitt selbst nach 15 Iterationen nur bei etwa 8 von 10 richtigen Antworten blieb
- Wenn ein starker steering prompt explizit zum Abgleichen des Nummernschilds aufforderte, erreichte auch CoT das zero-shot-Niveau; Standard-CoT wählte jedoch nicht den optimalen Schlussfolgerungsraum

Drei Aufgaben, bei denen Unterschiede zwischen Menschen und Modellen sichtbar wurden

Beurteilung logischer Inkonsistenzen
- In Humanexperimenten sank die Leistung bei der tatsächlichen Beurteilung, ob eine Inkonsistenz vorliegt, wenn Teilnehmende zunächst erklären sollten, warum inkonsistente Satzpaare koexistieren könnten
- Die Modellevaluation wurde mit Entailment-Paaren aus SNLI, MNLI und einem synthetischen Datensatz auf 3.216 Aufgaben erweitert
- GPT-4o und Llama 3.1 70B Instruct verbesserten sich mit CoT deutlich
- GPT-4o: MNLI 53,2 % → 93,9 %, SNLI 51,4 % → 94,3 %
- Llama 3.1 70B Instruct: MNLI 55,6 % → 81,6 %, SNLI 50,4 % → 82,3 %
- Die ursprünglichen menschlichen Teilnehmenden wurden so rekrutiert, dass sie keine formale Logikexpertise hatten; LLMs sind in ihren Trainingskorpora jedoch mit Logikrätseln und logischen Manipulationen in Berührung gekommen, sodass CoT in Kombination mit zusätzlichen Tokens die Leistung steigern konnte
- Bei Modellen mit hoher zero-shot-Leistung wie Gemini 1.5 Pro und Claude 3 Opus zeigten sich teilweise Leistungseinbußen durch CoT
Räumliche Intuition
- Bei der Becher-Kipp-Aufgabe muss ausgewählt werden, wie hoch das Wasser in einem leeren Becher stehen sollte, damit es beim Kippen zweier Becher im gleichen Winkel beide Ränder berührt
- Die ursprüngliche menschliche Aufgabe bestand darin, die Wasserhöhe direkt einzuzeichnen; die LMM-Evaluation wurde dagegen zu einer Multiple-Choice-Bildaufgabe mit Markierungen A bis D umgewandelt
- Insgesamt wurden 100 Aufgaben zusammen mit per Code gezeichneten Bildern erzeugt; evaluiert wurden GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro und InternVL2 Llama3 76B
- Zwischen zero-shot und CoT wurde kein signifikanter Unterschied beobachtet
- GPT-4o: 38 % → 40 %
- Claude 3.5 Sonnet: 42 % → 38 %
- Claude 3 Opus: 42 % → 38 %
- Gemini 1.5 Pro: 35 % → 36 %
- InternVL2 Llama3 76B: 39 % → 31 %
- Der Vorteil der nonverbalen Bedingung beim Menschen beruht auf visuomotorischer Simulation; in diesem Setting ist jedoch schwer anzunehmen, dass LMMs über Repräsentationen auf Basis motorischer Erfahrung wie Menschen verfügen
Multidimensionale Präferenzaggregation
- In der Wohnungswahlaufgabe muss anhand vieler Merkmale von vier Wohnungen die beste Wohnung ausgewählt werden
- In Humanexperimenten führten Bedingungen mit einer Distractor Task nach kurzer Präsentation vieler Informationen zu besseren Entscheidungen als Bedingungen mit bewusstem Nachdenken
- Für die Modellevaluation wurden 80 Wohnungsmerkmale sowie positive, negative und neutrale Sätze pro Merkmal erstellt; GPT-4o bewertete den Einfluss jedes Satzes von -5 bis 5, anschließend wurden 300 Auswahlaufgaben zusammengestellt
- Bei GPT-4o, Claude 3.5 Sonnet und Claude 3 Opus steigerte CoT die Leistung insgesamt; Llama 3.1 70B Instruct lieferte unter CoT-Bedingungen häufig keine korrekten Antworten zurück und schnitt deshalb schlechter ab
- Anders als das menschliche Arbeitsgedächtnis können Modelle viele Sätze im Kontext referenzieren, sodass CoT als Methode zum Aufsummieren der Merkmalswichtigkeit funktionieren konnte

Überprüfung der Heuristik und Grenzen

Um zu prüfen, ob anhand menschlicher Overthinking-Fälle ausgewählte Aufgaben tatsächlich besser CoT-Fehler finden, wurden 378 zero-shot-vs.-CoT-Vergleiche aus Sprague et al. 2025 als Bootstrap-Baseline verwendet
Beim Vergleich von 50 modellbezogenen Zahlenunterschieden aus den sechs Aufgaben gab es unter 100.000 Resamplings keine Stichprobe mit einem größeren durchschnittlichen Leistungsrückgang als in dieser Studie
Selbst wenn nur die Häufigkeit von Leistungsrückgängen betrachtet wurde, erreichten nur 11 von 100.000 Resamplings ein gleich hohes oder höheres Rückgangsniveau; der geschätzte p-Wert lag damit unter 0,00011
Die auf menschlicher Psychologie basierende Heuristik hilft, CoT-Fehlerfälle sowohl hinsichtlich Effektgröße als auch Auftretenshäufigkeit besser zu finden
Allerdings deckt diese Heuristik nicht alle Fälle ab, in denen CoT schlecht ist, und kann Fehlerfälle übersehen, die für Menschen nicht interessant, für Modelle aber wichtig sind

Implikationen für CoT-Deployment und Evaluation

CoT ist eine wirksame Methode zur Erweiterung von Modellfähigkeiten, kann in bestimmten Settings aber die Leistung stark senken; daher sollte pro Aufgabe geprüft werden, ob es standardmäßig eingesetzt wird
Bei Aufgaben, in denen Sprache feine Wahrnehmungsunterschiede schlecht ausdrücken kann, bei Aufgaben, die komplexe statistische Muster implizit erfassen müssen, und bei Regellernaufgaben mit vielen Ausnahmen kann sprachliche Zwischenschlussfolgerung störend wirken
Ergebnisse von Menschen und Modellen lassen sich nicht einfach gleichsetzen; anthropomorphisierende Schlussfolgerungen über Modelle liegen nicht im Umfang dieser Studie
Auch Unterschiede zwischen Menschen und Modellen müssen in Evaluationen einfließen
- Modelle können längere Kontexte nutzen als Menschen
- Modelle können in Trainingskorpora mit logischen Mustern und Problemlösungen in Berührung gekommen sein
- Modelle teilen möglicherweise keine Simulationen auf Basis menschlicher motorischer Erfahrung
Künftig lassen sich auch andere Verfahren zur Anregung von Schlussfolgerungen, etwa Vergleichs- und Analogie-Prompting, unter gemeinsamer Berücksichtigung menschlich-psychologischer Befunde und modellseitiger Einschränkungen evaluieren

1 Kommentare

GN⁺ 2024-11-01

Hacker-News-Kommentare

Das wirkt unheimlich ähnlich zu Problemen, die wir bei Pioneer beim Aufbau von Mensch+LLM-Workflows für Hochrisiko- und hochkomplexe Situationen erleben
Menschen sind klug, treffen viele Urteile und führen viele Berechnungen unbewusst bzw. implizit aus und nutzen dabei zahlreiche mentale Abkürzungen
Wenn man deshalb versucht, den tatsächlichen Prozess direkt zu automatisieren, wird das implizite Denken an die Oberfläche gezogen und alles wird langsamer; wir mussten auch die Art, wie wir LLM-Workflows bauen, ziemlich kreativ verändern
- Sprache scheint mit Logik oder gesundem Menschenverstand verwechselt zu werden
  Das hat man bereits in der Psychiatrie oder im modernen Journalismus gesehen, aber durch LLMs wird klar, dass grammatikalisch korrekte und natürlich fließende Sprache nur ein Sprach-„Welt“-Modell braucht, während Realitätsverständnis, räumliches Verständnis, soziale Hinweise, Alltagslogik und mathematische Logik fast optional sind
  Ich würde gern vorschlagen, die Sprachgrundlage von LLMs ein Word Model zu nennen. Das ist kein Tippfehler
  Der Versuch, aus einem Word Model ein Weltmodell zu destillieren, scheint ein guter Ausgangspunkt für ein modernes Remake von Platons Höhle zu sein
- Hier geht es nicht um Geschwindigkeit, sondern darum, dass die Genauigkeit des Modells bei bestimmten Aufgaben durch COT sinkt
  
  In umfangreichen Experimenten über drei Settings hinweg fanden wir, dass verschiedene Gruppen hochmoderner Modelle bei Inferenzzeit-Reasoning deutlich schlechter abschneiden als ihre Zero-Shot-Gegenstücke. So fiel bei OpenAI o1-preview die absolute Genauigkeit gegenüber GPT-4o um bis zu 36,3 %
  Das hier identifizierte Problem ist also, dass COT bei manchen Aufgaben weniger effektiv ist als ungepatchte Chat-Completions, nicht bloß, dass alles langsamer wird
Ich habe früher beim Testen gesehen, dass LLMs genau solche Probleme haben
Ich bat sie, drei Früchte von der größten zur kleinsten zu sortieren, wahrscheinlich Orange, Blaubeere und Grapefruit
Mit einem einfachen Prompt lag es leicht richtig, aber sobald man etwas wie „denk Schritt für Schritt“ hinzufügte, versuchte es das Problem verbal aufzulösen und lag meist falsch
- Ich frage mich, wie sehr das mit der Art zusammenhängt, wie wir Mathematik lernen
  Die Antwort auf einfache Mathematikaufgaben verinnerlicht man bis zu einem gewissen Grad instinktiv, und selbst für Dinge wie Integration oder Differentiation entwickelt man irgendwann Intuition
  Aber sobald man erklären soll, warum das so ist, oder schlimmer noch einen Beweis liefern muss, wird es viel schwieriger. Selbst wenn die ursprüngliche Antwort richtig sein kann
- LLMs denken nicht, sie komprimieren das Internet in ein cleveres verlustbehaftetes Kompressionsformat mit guter Oberfläche und holen es dann wieder heraus
  Chain-of-thought ist ähnlich, als würde man die JPG-Qualität erhöhen wollen, indem man mehrfach neu komprimiert. Wenn es nicht drin ist, ist es nicht drin
- Es wäre interessant, darüber nachzudenken, wie genau es falsch lag
  Im Abschnitt „Schritt für Schritt denken“ kam es früh zu einem falschen Schluss, vielleicht sogar zu einem subtil hergeleiteten, und LLMs sind sehr schwach darin, Fehler zurückzunehmen; es wäre also vermutlich zu einer intern konsistenten, aber falschen Schlussfolgerung gelangt
  Für mich wirkt viel COT wie ein Mechanismus, der LLMs verlangsamt, um zu frühe Schlussfolgerungen zu verhindern; wenn aber die frühe Schlussfolgerung falsch ist, kann COT paradoxerweise in einem noch schlechteren Kontext nach hinten losgehen als ohne COT
- Es war immer interessant, dass das Ergebnis anders ausfiel, wenn man dem Sortierproblem Zusatzbedingungen wie Farbe, Geruch oder Position gab
  Im Kern verstehe ich das so, dass solche Bedingungen den Wahrscheinlichkeitsraum beeinflussen und dadurch emergente Muster abschwächen, die wir oft überschätzen
- Claudes Antwort sah so aus
  Ordnet man die drei Früchte von groß nach klein, ergibt sich Grapefruit, Orange, Blaubeere
  Eine Grapefruit hat typischerweise einen Durchmesser von 4–6 Zoll und ist damit klar die größte der drei, eine Orange meist 2–3 Zoll, und eine Blaubeere mit etwa 0,5 Zoll die kleinste
Anders betrachtet erweitert hier ein starkes Autovervollständigungs-Algorithmus bestehende Dokumente auf Basis der Trainingsmenge immer weiter
Wenn man gelegentlich eingreift und den Dokumentstil in eine im Frage-Antwort-Format seltenere Form zwingt, kann das Endergebnis weniger wünschenswert werden
- Ich glaube, die Hälfte von HN würde das so sehen, und die andere Hälfte etwa so
  Ein künstliches Gehirn kurz vor der Singularität hat ein weiteres Zeichen gezeigt, dass es sich dem Bewusstsein nähert. Die Leistung im Chain-of-thought-Prozess ist genau wie beim Menschen und ein weiterer Beleg dafür, dass AGI noch vor 2030 kommt
- Dieses Framing ist länger, viel schwerer zu erfassen und transportiert weniger Information
Außerdem ist Chain-of-thought rechnerisch sehr teuer
Es liegt eindeutig auf einem Niveau, das sich wie bei früheren Web-2.0-Produkten nur schwer gratis anbieten lässt
Es sieht nicht so aus, als könne man AGI durch iteratives Prompting aus Token-Wahrscheinlichkeiten herausquetschen
Wenn man später auf ein einzelnes Paper zurückblickt, das den Zusammenbruch und das Platzen der AI-Blase angetrieben hat, könnte es dieses sein
Der Teil mit den Aufgaben, bei denen Denken Menschen schlechter macht, ist interessant

Diese drei Fälle sind implizites statistisches Lernen, visuelle Wahrnehmung und Musterklassifikation mit Ausnahmen
Die Vorstellung, dass unser Eidechsengehirn implizite statistische Schlüsse besser zieht, hat etwas Reizvolles
- Man muss nur daran denken, wie schnell allein das Eidechsengehirn beim Fangen eines Balls die Flugbahn des Balls und die Position berechnet, an der die Hand sein muss
- Ich frage mich, ob Denken per Definition nicht immer explizites Schlussfolgern ist
  Und eine gut durchdachte Fermi-Schätzung würde eine Eidechsengehirn-Schätzung nach Augenmaß wohl jedes Mal schlagen. In dem Zwischenbereich scheinen sich beide aber gegenseitig nachteilig zu stören
- Genau das habe ich gesucht
  Aufgaben, bei denen man nicht nachdenken, sondern der Intuition vertrauen sollte
Das zeigt etwas Interessantes über Informationsverarbeitung sowohl in biologischen als auch in AI-Systemen
Beide komprimieren Information. Das Gehirn erzeugt durch Erfahrung effiziente neuronale Muster, AI entwickelt durch Training interne Repräsentationen
Wenn man sie zwingt, das verbal auszudrücken, wird diese effiziente Kodierung „dekomprimiert“, wobei feine Muster verloren gehen können
Deshalb verlieren Aufgaben wie visuelle Erkennung, die nahezu sofort in paralleler Verarbeitung ablaufen sollen, an Leistung, wenn man sie durch serielles Chain-of-thought zwingt
95 % × 95 % = 90,25 %
Wirklich interessant. Bei welchen Aufgaben genau macht Denken Menschen schlechter
- Sportler werden viel schlechter, wenn sie anfangen, über ihre Bewegungen, Strategien und Taktiken nachzudenken
  Spitzensportler sind am besten im Flow-Zustand, in dem sie an nichts denken und Körper sowie Muskelgedächtnis arbeiten lassen
  In dem Moment, in dem sie an Mikroanpassungen wie einen höher gehaltenen Ellbogen denken, versuchen sie, den Körper bewusst zu steuern; das ist um Größenordnungen langsamer und weniger koordiniert als die automatische, unbewusste Art
  Bei Kreativität oder neuen Ideen ist es ähnlich. Wenn man etwas absichtlich Schritt für Schritt durchdenkt, ist es schwerer, neue und innovative Lösungen zu finden
  Dass der „Aha!“-Moment unter der Dusche kommt, hat einen Grund. Das Unterbewusstsein denkt über das Problem nach, statt das Denken gewaltsam in einen bestimmten Pfad zu drücken
  Es scheint ziemlich viele Bereiche zu geben, in denen es hinderlich ist, den Denkprozess in ein bestimmtes Template zu pressen, wenn man alle verfügbaren Ressourcen und Fähigkeiten des Gehirns nutzen will
- Die Antwort steht im Text. Eines der Beispiele ist Grammatik
  Viele Menschen sollen schlechter werden, sobald sie versuchen, Grammatik verbal zu erklären
- Selbst ein starkes Passwort kann man vergessen, wenn man versucht, im Kopf jeden Buchstaben einzeln zu buchstabieren
  Setzt man sich dagegen an die Tastatur und entspannt sich, tippt man es automatisch perfekt ein
Das erinnert mich an ein Mantra aus dem Schachunterricht
Wenn man lange nachdenkt, denkt man falsch
- Das Originalzitat von Bent Larsen lautet: „Lange Varianten sind falsche Varianten“

Die negativen Auswirkungen von Chain-of-Thought bei Aufgaben, in denen Nachdenken die menschliche Leistung verschlechtert

Risiken, wenn CoT zum Standard wird

Sechs Evaluationstypen aus der menschlichen Psychologie

Drei Aufgaben, bei denen CoT stark ins Wanken geriet

Implizites statistisches Lernen: Klassifikation künstlicher Grammatiken

CoT senkt bei den meisten Modellen die Genauigkeit

Gesichtserkennung: schwer verbalisierbare visuelle Stimuli

Regellernen mit Ausnahmen: Klassifikation von Fahrzeuglabels

Drei Aufgaben, bei denen Unterschiede zwischen Menschen und Modellen sichtbar wurden

Beurteilung logischer Inkonsistenzen

Räumliche Intuition

Multidimensionale Präferenzaggregation

Überprüfung der Heuristik und Grenzen

Implikationen für CoT-Deployment und Evaluation

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare