2 Punkte von GN⁺ 2024-03-24 | 1 Kommentare | Auf WhatsApp teilen

Wie Chain-of-Thought-Reasoning die Berechnung in Transformern unterstützt

  • Wenn große Sprachmodelle beim Lösen von Problemen ihre Arbeitsschritte zeigen, verbessert sich ihre Leistung.
  • Forschende beginnen zu verstehen, warum diese Technik wirksam ist.

Das Training von Transformern

  • Große Sprachmodelle basieren auf mathematischen Strukturen, die als künstliche neuronale Netze bezeichnet werden.
  • Die „Neuronen“ innerhalb eines neuronalen Netzes führen einfache mathematische Operationen auf langen Zahlenfolgen aus, die einzelne Wörter repräsentieren.
  • Transformer verwenden eine besondere mathematische Struktur, sogenannte Attention Heads, um Text schnell zu durchsuchen und relevante Verbindungen zwischen Wörtern zu identifizieren.

Die Komplexität von Transformern

  • Theoretische Forschung zu Transformern untersucht sie als eine Art spezifischen Computer, ohne zu berücksichtigen, was während des Trainings geschieht.
  • Forschende haben bewiesen, dass Transformer so mächtig wie Turing-Maschinen sein können.

Gedankenexperimente

  • Forschende stellen die Frage, wie viel leistungsfähiger Transformer werden, wenn sie ihre Ausgaben wiederverwenden.
  • Chain-of-Thought-Reasoning könnte eine Möglichkeit bieten, die Grenzen von Transformern zu umgehen.

Zurück zur Realität

  • Theoretische Analysen offenbaren vieles über reale Sprachmodelle, lassen aber keine perfekten Vorhersagen zu.
  • Analysen aus der Komplexitätstheorie sind wichtig, um die Grenzen von Transformern zu erkennen.

Meinung von GN⁺

  • Diese Forschung leistet einen wichtigen Beitrag zum Verständnis der Grenzen und des Potenzials von Transformer-Modellen im Bereich der künstlichen Intelligenz. Insbesondere liefert sie Einsichten dazu, wie Chain-of-Thought-Reasoning beim Lösen komplexer Probleme helfen kann.
  • Da theoretische Forschungsergebnisse jedoch nicht immer mit der Leistung realer Modelle übereinstimmen, ist bei der Anwendung in der Praxis Vorsicht geboten. Die Leistung in realen Umgebungen wird von verschiedenen Faktoren beeinflusst, darunter Trainingsdaten, Modellarchitektur und die Abstimmung von Hyperparametern.
  • Dieser Artikel bietet KI-Forschenden nützliche Informationen, indem er die Grenzen von Sprachverarbeitungsmodellen aufzeigt und Forschungsrichtungen für die Entwicklung besserer Modelle vorschlägt.
  • Ein ähnliches Projekt mit vergleichbarer Funktionalität ist die GPT-Serie von OpenAI, die ein gutes Beispiel dafür ist, die Leistungsfähigkeit großer Sprachmodelle in der Praxis zu beobachten.
  • Bei der Einführung neuer Technologien oder Modelle sollten stets Kompatibilität mit bestehenden Systemen, Kosten, Leistung und Wartung berücksichtigt werden, und die in diesem Artikel behandelte Forschung liefert Hintergrundwissen, das bei solchen Entscheidungen helfen kann.

1 Kommentare

 
GN⁺ 2024-03-24
Hacker-News-Kommentare
  • Meinung zur Erfahrung mit der Interaktion mit Chain-of-Thought:

    • Chain-of-Thought ist nicht mit einer strengen Kette aus Mathematik oder Logik vergleichbar.
    • Was das Modell durch schrittweises Schließen ausgibt, hängt von der Stärke des relevanten Kontexts ab, und diese ist deutlich schwächer als bei der von Menschen ausgeführten Mathematik/Logik.
    • Das Modell schlussfolgert nicht logisch wie ein Mensch, sondern springt über relevanten Kontext.
    • Transformer-Modelle führen Berechnungen nur beim Erzeugen von Tokens aus; wenn mit Chain-of-Thought mehr Tokens erzeugt werden, hat das Modell also mehr Zeit zum „Denken“.
  • Zentrale Fragen im Zusammenhang mit der formalen Erforschung der Berechnung:

    • Die formale Erforschung der Berechnung geht auf Alan Turing zurück, der sich 1936 die Turing-Maschine vorstellte.
    • Noch früher, in den 1920er Jahren, entwickelte Moses Schönfinkel die kombinatorische Logik, und Anfang der 1930er Jahre entwickelte Alonzo Church den Lambda-Kalkül.
    • Diese Modelle eignen sich nicht als Grundlage für die Theorie der Berechnungskomplexität.
  • Zwei Perspektiven auf Large Language Models (LLMs):

    • Aussagen über LLMs wie „sie haben Bewusstsein“ oder „sie sind nur Next-Token-Prädiktoren mit einem beeindruckenden Datensatz“ teilen sich oft in Menschen, die nach dem Erlernen der ML-Grundlagen auf LLMs gestoßen sind, und in den umgekehrten Fall.
    • Da grundlegende Konzepte den Blick auf das große Ganze einschränken können, ist die Debatte willkommen.
    • Die Ergebnisse des ursprünglichen Papers zu Chain-of-Thought lassen sich in späteren Versuchen oft nicht reproduzieren.
  • Modelle können nicht denken:

    • Modelle verwenden den Eingabekontext, um die Ausgabe vorherzusagen.
    • Bei Problemen, die iterativ gelöst werden müssen, müssen Zwischenschritte im Kontext erhalten bleiben.
  • Ein einfacher Grund im Hinblick auf Berechnungskomplexität:

    • Wenn man ein LLM als einen Computer betrachtet, der für eine Eingabe einen Vorwärtsdurchlauf in konstanter Zeit ausführt, kann es mehr Berechnung leisten, wenn man ihm mehr Zyklen gibt.
    • Das ist eine Erweiterung des Problems, dass ein einschichtiges Perzeptron kein XOR berechnen kann.
  • Eine einfache Erklärung für das Wunder von Chain-of-Thought:

    • Es wird ein Tweet zitiert, wonach Daten und Prompts überraschend gut funktionieren.
    • Es gibt viele Websites, die Schritt-für-Schritt-Lösungen für Mathematikaufgaben bereitstellen.
  • Meinung zu Chain-of-Thought:

    • Chain-of-Thought ähnelt dem „Zusammenmatschen“, was intuitiv als der richtige Ansatz zur Annäherung an Intelligenz verstanden wird.
  • Fälle, in denen Chain-of-Thought angewendet und mit künstlichem Bewusstsein experimentiert wurde:

    • Wenn Chain-of-Thought über die Beantwortung der Frage hinaus fortgesetzt wird, erscheint eine Form künstlichen Bewusstseins.
  • Fälle, in denen Chain-of-Thought umgekehrt angewendet wurde:

    • Das Modell wird so trainiert, dass es zuerst die Antwort gibt und danach die Schritte dazu erschließt.
    • Forschende von Mistral AI nutzten diese Methode, und das Modell zeigte bei komplexen Fragen das Verhalten, zuerst zu antworten und danach zu schlussfolgern.