3 Punkte von GN⁺ 2024-06-06 | 1 Kommentare | Auf WhatsApp teilen

Alice im Wunderland: Eine einfache Aufgabe, die den vollständigen Zusammenbruch des Schlussfolgerns in modernen großen Sprachmodellen zeigt

Zusammenfassung der wichtigsten Punkte

  • Große Sprachmodelle (LLMs): Modelle, die bei einer Vielzahl von Aufgaben und unter unterschiedlichen Bedingungen starke Leistungen zeigen und dem Skalierungsgesetz folgen, wonach sich die Leistung mit größerem Vortrainingsumfang verbessert.
  • Problem: Moderne große Sprachmodelle zeigen bei einfachen Alltagswissensfragen einen gravierenden Zusammenbruch von Funktionalität und Schlussfolgerungsfähigkeit. Selbst bei Problemen, die Menschen leicht lösen können, geben sie selbstbewusst falsche Antworten und rechtfertigen diese mit unlogischen Erklärungen.
  • Gescheiterte Interventionen: Versuche, die Modelle durch verschiedene Arten von Prompt-Verstärkung oder mehrstufige Neubewertung zur richtigen Antwort zu führen, scheitern.
  • Notwendigkeit einer Neubewertung: Die behaupteten Fähigkeiten der aktuellen Generation großer Sprachmodelle müssen neu bewertet werden, und es braucht standardisierte Benchmarks, die solche grundlegenden Mängel im Schlussfolgern angemessen erkennen können.

Meinung von GN⁺

  • Technische Grenzen: Dies zeigt, dass große Sprachmodelle in bestimmten Situationen weiterhin Grenzen haben. Das deutet darauf hin, dass zusätzliche Forschung und Verbesserungen nötig sind, um die Zuverlässigkeit der Modelle zu erhöhen.
  • Standardisierte Benchmarks: Um die Leistung von Modellen präzise zu bewerten, sind neue standardisierte Benchmarks erforderlich. Sie können Forschenden helfen, die Schwächen der Modelle besser zu verstehen und zu verbessern.
  • Praktische Anwendung: Solche Mängel bedeuten, dass beim Einsatz großer Sprachmodelle in realen Anwendungen Vorsicht geboten ist. Insbesondere bei wichtigen Entscheidungen können Zuverlässigkeitsprobleme auftreten.
  • Alternative Technologien: Es kann sinnvoll sein, andere KI-Technologien oder Modelle in Betracht zu ziehen. Zum Beispiel könnten Reinforcement Learning oder hybride Modelle Alternativen sein.
  • Zukünftige Forschungsrichtungen: Diese Studie zeigt neue Richtungen für die Forschung auf, um die Grenzen großer Sprachmodelle zu überwinden. So braucht es etwa die Entwicklung von Modellen, die menschliches Alltagswissen und menschliche Schlussfolgerungsfähigkeit besser nachahmen können.

1 Kommentare

 
GN⁺ 2024-06-06
Hacker-News-Kommentar
  • Für alle, die das Paper lesen möchten: Der wesentliche Teil lässt sich in den ersten 10 Seiten schnell erfassen.
  • Das im Paper behandelte Beispiel ist recht leicht zu verstehen, aber es ist fraglich, ob die Tools das Problem tatsächlich lösen können.
  • AI-Tools denken oder schlussfolgern in Wirklichkeit nicht, aber viele Menschen neigen dazu, sie als allgemeine AI zu betrachten.
  • Es scheint unwahrscheinlich, dass das Paper großen Einfluss auf den Hype um AI haben wird.
  • Auf die Frage „Alice hat 60 Brüder und 212 Schwestern. Wie viele Schwestern haben Alices Brüder?“ gibt GPT-4 die richtige Antwort.
  • Als im Experiment darauf hingewirkt wurde, dass das Modell nicht „laut denkt“, gab GPT-4 durchgehend falsche Antworten.
  • Bei komplexeren Beispielen scheitert GPT-4 tendenziell.
  • Das Gemini-Modell löste das Problem ohne zusätzliche Anleitung, geriet aber durcheinander, wenn Zahlen vorgegeben wurden.
  • Unter der Annahme, dass Alice nicht Hunderte von Brüdern haben kann, erscheint die Frage unzulässig.
  • Die Bewertungsdatensätze wichtiger LLMs sind in den Trainingsdaten enthalten und daher für die Zuverlässigkeitsbewertung unbrauchbar.
  • Es ist besser, neue Tests zu erstellen, um LLMs zu bewerten.
  • Es ist unwahrscheinlich, dass die breite Öffentlichkeit solche Rätsel in begrenzter Zeit lösen kann.
  • AIW+-Probleme sind schwieriger zu lösen als gewöhnliche AIW-Probleme.
  • Da die Autoren des Papers Hunderte von Familienstammbaum-Problemen erstellt haben, könnten die Antworten eindeutig erscheinen.
  • Die im Paper vorgestellten Probleme sind nur Varianten sehr grundlegender Rätsel.
  • Das Paper scheint selektiv überraschend negative Ergebnisse herauszugreifen.
  • LLMs sind bei relationalem Schlussfolgern weiterhin schwach.
  • LLMs fehlt die Fähigkeit, über längere Zeit konzentriert zu bleiben.
  • Die Vorstellung, dass LLMs AGI umsetzen könnten, ist nichts weiter als Wunschdenken.
  • Es gibt einen guten Vortrag, der zeigt, dass LLMs bei Planung und Schlussfolgern sehr schwach sind.