5 Punkte von ninebow 2024-09-23 | 3 Kommentare | Auf WhatsApp teilen
  • Ich habe die wöchentlich von DAIR.AI veröffentlichten Beiträge zu ML-Artikeln automatisch übersetzt.

  • Betrachtet man die in dieser Woche ausgewählten Arbeiten, lassen sich einige auffällige Trends erkennen. Erstens nimmt die Forschung zu großen Sprachmodellen (LLMs) einen großen Anteil ein. Verschiedene Arbeiten wie „Training LLMs to Self-Correct via RL“, „Qwen2.5 Coder“ und „A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs“ befassen sich mit Leistungssteigerungen und Anwendungen von LLMs. Das spiegelt wider, dass LLMs derzeit eines der Kernthemen der KI-Forschung sind.

  • Zweitens gibt es viele Studien zum Denkprozess von Künstlicher Intelligenz. Arbeiten wie „Diagram of Thought (DoT)“, „Iteration of Thought“ und „To CoT or not to CoT?“ untersuchen die Denkweise bzw. den Schlussfolgerungsprozess von KI eingehend. Daran zeigt sich das Bemühen, Genauigkeit und Effizienz von KI-Systemen zu erhöhen.

  • Warum diese Trends auftreten, lässt sich auf mehrere Gründe zurückführen. Zunächst stehen große Sprachmodelle wegen ihrer vielfältigen Einsatzmöglichkeiten und ihrer hohen Leistungsfähigkeit in Industrie und Wissenschaft stark im Fokus. Insbesondere werden unterschiedliche Methoden zur Selbstkorrektur oder zur Leistungsverbesserung von Modellen intensiv erforscht. Darüber hinaus hängt die Forschung zum Denkprozess von KI mit dem langfristigen Ziel zusammen, KI mit menschenähnlichen Denkfähigkeiten zu entwickeln. Das gilt als wesentlicher Baustein, um komplexere und intelligentere Aufgaben zu automatisieren.

  • Zusammengefasst lassen sich die wichtigsten Trends der dieswöchigen Arbeiten als Leistungssteigerung großer Sprachmodelle und Forschung zu den Denkprozessen von KI beschreiben. Das zeigt anschaulich, in welche Richtung sich die aktuelle KI-Forschung entwickelt.


Moshi

Einführung in die Arbeit

Vorgestellt werden ein Speech-Text-Foundation-Model und ein Full-Duplex-Framework für gesprochene Dialoge, mehrere Komponenten des Systems, Helium als Text-LLM mit 7B Parametern, Mimi als semantisch-akustischer neuronaler Audio-Code mit State-of-the-Art-Leistung bei der Audioqualität sowie eine hierarchische Multistream-Architektur, die beliebige Gespräche in Speech-to-Speech-Form erzeugen kann.

Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.

Abstract

Vorgestellt wird Moshi, ein Speech-Text-Foundation-Model und ein Full-Duplex-Framework für gesprochene Dialoge. Aktuelle Systeme für Sprachdialoge beruhen auf Pipelines unabhängiger Komponenten, darunter Spracherkennungsaktivitätsdetektion, Speech Recognition, textbasierter Dialog und Text-to-Speech. Solche Frameworks können die Erfahrung realer Gespräche nicht nachbilden. Erstens verursacht ihre Komplexität eine Latenz von mehreren Sekunden zwischen Interaktionen. Zweitens geht dadurch, dass Text die Zwischenmodalität des Dialogs ist, nichtsprachliche Information verloren, die Bedeutung verändert — etwa Emotionen oder nichtsprachliche Geräusche. Schließlich beruhen sie auf einer Aufteilung in Sprecherwechsel, die überlappende Sprache, Unterbrechungen und Einwürfe nicht berücksichtigt. Moshi löst all diese separaten Probleme gemeinsam, indem gesprochener Dialog als Speech-to-Speech-Generierung formuliert wird. Ausgehend von einem Text-Language-Model-Backbone erzeugt Moshi Sprache als Token aus dem Residual Quantizer eines neuronalen Audio-Codecs und modelliert dabei die eigene Sprache sowie die des Nutzers getrennt in parallelen Streams. Dadurch entfallen explizite Sprecherwechsel, und beliebige Gesprächsdynamiken können modelliert werden. Darüber hinaus erweitern die Autoren die hierarchische semantisch-zu-akustische Token-Generierung früherer Arbeiten, indem zunächst zeitlich ausgerichtete Text-Token als Präfix für Audio-Token vorhergesagt werden. Diese Methode des „Inner Monologue“ verbessert nicht nur die sprachliche Qualität der erzeugten Sprache deutlich, sondern zeigt auch, wie sie Streaming-Speech-Recognition und Text-to-Speech ermöglichen kann. Das resultierende Modell ist das erste Echtzeit-Full-Duplex-Spoken-Large-Language-Model mit einer theoretischen Latenz von 160 ms und 200 ms in der Praxis und ist unter github.com/kyutai-labs/moshi verfügbar.

We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.

Link zur Arbeit

https://kyutai.org/Moshi.pdf

Weiterführende Links

https://github.com/kyutai-labs/moshi

https://x.com/kyutai_labs/status/1836427396959932492


Sprachmodelle per Reinforcement Learning zur Selbstkorrektur trainieren / Training Language Models to Self-Correct via Reinforcement Learning

Einführung in die Arbeit

Entwickelt ein Multi-Turn-Online-Reinforcement-Learning zur Verbesserung der Selbstkorrekturfähigkeiten eines LLM; basiert vollständig auf selbst erzeugten Daten; SFT erweist sich als ineffektiv für das Erlernen von Selbstkorrektur und leidet unter einer Verteilungsabweichung zwischen Trainingsdaten und Modellantworten; vorgeschlagen wird ein zweistufiger Ansatz, der zunächst das Korrekturverhalten optimiert und dann einen Reward-Bonus nutzt, um die Selbstkorrektur während des Trainings zu verstärken; angewandt auf Gemini 1.0 Pro und 1.5 Flash erreicht es Self-Correction-Leistung auf dem neuesten Stand der Technik und verbessert die Selbstkorrektur der Basismodelle auf den Benchmarks MATH bzw. HumanEval um 15,6 % und 9,1 %.

Develops a multi-turn online reinforcement learning to improve the capabilities of an LLM to self-correct; it’s based entirely on self-generated data; SFT is shown to be ineffective at learning self-correction and suffers from distribution mismatch between training data and model responses; proposes a two-stage approach that first optimizes correction behavior and then uses a reward bonus to amplify self-correction during training; when applied to Gemini 1.0 Pro and 1.5 Flash models, it achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

Abstract

Selbstkorrektur ist eine äußerst wünschenswerte Fähigkeit großer Sprachmodelle (LLMs), doch bei modernen LLMs hat sich wiederholt gezeigt, dass sie weitgehend wirkungslos ist. Bestehende Ansätze zum Training von Selbstkorrektur erfordern entweder mehrere Modelle oder stützen sich auf ein leistungsfähigeres Modell oder andere Formen der Supervision. Zu diesem Zweck hat das Team von Unity SCoRe entwickelt, einen Multi-Turn-Online-Reinforcement-Learning-(RL)-Ansatz, der die Selbstkorrekturfähigkeit eines LLM mithilfe vollständig selbst erzeugter Daten deutlich verbessert. Zum Aufbau von SCoRe zeigen die Autor:innen zunächst, dass Varianten des Supervised Fine-Tuning (SFT) auf offline vom Modell erzeugten Korrektur-Traces nicht ausreichen, um Selbstkorrekturverhalten zu verankern. Insbesondere beobachten sie, dass Training per SFT entweder unter einer Verteilungsabweichung zwischen den Trainingsdaten und den eigenen Antworten des Modells leidet oder implizit nur einen bestimmten Modus des Korrekturverhaltens bevorzugt, der zum Testzeitpunkt oft nicht effektiv ist. SCoRe begegnet diesen Herausforderungen, indem es unter der modellinternen Verteilung selbst erzeugter Korrektur-Traces trainiert und eine geeignete Regularisierung verwendet, um den Lernprozess so zu steuern, dass eine zum Testzeitpunkt wirksame Selbstkorrekturstrategie erlernt wird, anstatt für einen gegebenen Prompt lediglich Antworten mit hohem Reward zu fitten. Diese Regularisierung sieht vor, in einer ersten Phase RL auf einem Basismodell auszuführen, um eine Policy-Initialisierung zu erzeugen, die weniger anfällig für Kollaps ist, und anschließend einen Reward-Bonus zu verwenden, um die Selbstkorrektur während des Trainings zu verstärken. Bei Anwendung auf die Modelle Gemini 1.0 Pro und 1.5 Flash zeigt sich, dass SCoRe Self-Correction-Leistung auf dem neuesten Stand der Technik erreicht und die Selbstkorrektur der Basismodelle auf den Benchmarks MATH bzw. HumanEval um 15,6 % und 9,1 % verbessert.

Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM's self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model's own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model's own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models' self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

Paper-Link

https://arxiv.org/abs/2409.12917

Weiterführende Lektüre

https://x.com/omarsar0/status/1837228446839361984


Qwen2.5-Coder technische Dokumentation / Qwen2.5-Coder Technical Report

Paper-Einführung

Eine Modellreihe mit unter anderem 1,5B und 7B Parametern; aufgebaut auf der Qwen2.5-Architektur, die kontinuierlich auf 5,5 Billionen Tokens vortrainiert wurde; erreicht auf mehr als 10 Benchmarks Leistung auf dem neuesten Stand der Technik; umfasst starke Fähigkeiten in Code-Generierung, Vervollständigung, Reasoning und Reparatur.

A series of models including 1.5B and 7B parameters; it’s built upon the Qwen2.5 architecture which is continuously pretrained on 5.5 trillion tokens; achieves state-of-the-art performance across more than 10 benchmarks; includes strong capabilities in code generation, completion, reasoning, and repairing.

Abstract

In diesem Bericht stellen wir die Qwen2.5-Coder-Serie vor, ein deutliches Upgrade gegenüber der Vorgängerversion CodeQwen1.5. Die Serie umfasst zwei Modelle: Qwen2.5-Coder-1.5B und Qwen2.5-Coder-7B. Als auf Code spezialisiertes Modell basiert Qwen2.5-Coder auf der Qwen2.5-Architektur und setzt das Pretraining auf einem gewaltigen Korpus von mehr als 5,5 Billionen Token fort. Durch sorgfältige Datenbereinigung, skalierbare Erzeugung synthetischer Daten und ausgewogenes Data Mixing zeigt Qwen2.5-Coder beeindruckende Fähigkeiten bei der Codegenerierung und bewahrt zugleich seine allgemeine Vielseitigkeit. Das Modell wurde für eine breite Palette codebezogener Aufgaben evaluiert und erreicht State-of-the-Art-(SOTA)-Leistung in mehr als 10 Benchmarks, darunter Codegenerierung, Vervollständigung, Reasoning und Reparatur, wobei es durchgängig größere Modelle derselben Modellgröße übertrifft. Unity ist überzeugt, dass die Veröffentlichung der Qwen2.5-Coder-Serie nicht nur die Grenzen der Forschung im Bereich Code Intelligence verschieben, sondern durch die freizügige Lizenzierung auch eine breitere Nutzung durch Entwickler in realen Anwendungen fördern wird.
> In diesem Bericht stellen wir die Qwen2.5-Coder-Serie vor, ein deutliches Upgrade gegenüber ihrem Vorgänger CodeQwen1.5. Die Serie umfasst zwei Modelle: Qwen2.5-Coder-1.5B und Qwen2.5-Coder-7B. Als auf Code spezialisiertes Modell basiert Qwen2.5-Coder auf der Qwen2.5-Architektur und wird auf einem gewaltigen Korpus von über 5,5 Billionen Token weiter vortrainiert. Durch sorgfältige Datenbereinigung, skalierbare Erzeugung synthetischer Daten und ausgewogenes Data Mixing demonstriert Qwen2.5-Coder beeindruckende Fähigkeiten zur Codegenerierung und bewahrt zugleich seine allgemeine Vielseitigkeit. Das Modell wurde für ein breites Spektrum codebezogener Aufgaben evaluiert und erreicht State-of-the-Art-(SOTA)-Leistung in mehr als 10 Benchmarks, darunter Codegenerierung, Vervollständigung, Reasoning und Reparatur, wobei es konsistent größere Modelle derselben Modellgröße übertrifft. Wir glauben, dass die Veröffentlichung der Qwen2.5-Coder-Serie nicht nur die Grenzen der Forschung im Bereich Code Intelligence erweitern, sondern durch ihre freizügige Lizenzierung auch eine breitere Akzeptanz bei Entwicklern in realen Anwendungen fördern wird.

Paper-Link

https://arxiv.org/abs/2409.12186

Weiterführende Lektüre

https://x.com/huybery/status/1837170643563073960


Diagram of Thought (DoT) / On the Diagram of Thought

Paper-Einführung

Durch mathematische Strenge verbessert DAT die Reasoning-Fähigkeiten von LLMs. DAT modelliert iteratives Reasoning in LLMs als die Konstruktion eines gerichteten azyklischen Graphen und integriert Aussagen, Kritik, Verfeinerung und Verifikation in eine einheitliche DAG-Struktur, wodurch komplexe logische Schlussfolgerungen über lineare oder baumbasierte Ansätze hinaus erfasst werden können.
> Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.

Paper-Abstract

Wir stellen Diagram of Thought (DoT) vor, ein Framework, das iteratives Reasoning in Large Language Models (LLMs) als die Konstruktion eines gerichteten azyklischen Graphen (DAG) innerhalb eines einzelnen Modells modelliert. Im Gegensatz zu traditionellen Ansätzen, die Reasoning als lineare Ketten oder Bäume darstellen, organisiert DoT Aussagen, Kritik, Verfeinerungen und Verifikationen in einer kohärenten DAG-Struktur, wodurch das Modell komplexe Reasoning-Pfade erkunden kann, während die logische Konsistenz gewahrt bleibt. Jeder Knoten im Diagramm entspricht einer Aussage, die vorgeschlagen, kritisiert, verfeinert oder verifiziert wurde, und ermöglicht es dem LLM, sein Reasoning durch natürlichsprachiges Feedback iterativ zu verbessern. Durch die Nutzung autoregressiver Next-Token-Prediction mit rollenspezifischen Token ermöglicht DoT nahtlose Übergänge zwischen dem Vorschlagen von Ideen und deren kritischer Bewertung und liefert reichhaltigeres Feedback als binäre Signale. Darüber hinaus formalisieren wir das DoT-Framework mithilfe der Topos-Theorie und liefern damit eine mathematische Grundlage, die logische Konsistenz und Korrektheit im Reasoning-Prozess sicherstellt. Dieser Ansatz verbessert sowohl Training als auch Inferenz innerhalb eines einzelnen LLM und macht mehrere Modelle oder externe Steuerungsmechanismen überflüssig. DoT bietet ein konzeptionelles Framework für das Design der nächsten Generation spezialisierter Reasoning-Modelle und betont Trainingseffizienz, robuste Reasoning-Fähigkeiten und theoretische Fundierung. Der Code ist unter https://github.com/diagram-of-thought/diagram-of-thought verfügbar.
> We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.

Paper-Link

https://arxiv.org/abs/2409.10038

Weiterführende Lektüre

https://github.com/diagram-of-thought/diagram-of-thought

https://x.com/omarsar0/status/1835882277563179512


Software-Engineering-Agenten: Überblick, Landschaft und Vision / Agents in Software Engineering: Survey, Landscape, and Vision

Paper-Einführung

Bietet einen umfassenden Überblick über Frameworks für LLM-basierte Agenten im Software Engineering.

Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.

Abstract

In den letzten Jahren haben Large Language Models (LLMs) bemerkenswerte Erfolge erzielt und werden breit in verschiedenen Downstream-Aufgaben eingesetzt, insbesondere bei Aufgaben im Bereich Software Engineering (SE). Wir stellen fest, dass viele Studien, die LLMs mit SE kombinieren, das Konzept von Agenten explizit oder implizit verwenden. Es fehlt jedoch an einer eingehenden Übersicht, die den Entwicklungskontext bestehender Arbeiten ordnet, analysiert, wie bestehende Arbeiten LLM-basierte Agententechnologien kombinieren, um verschiedene Aufgaben zu optimieren, und das Framework von LLM-basierten Agenten in SE klar herausarbeitet. In dieser Arbeit führen wir die erste Übersichtsstudie zu Forschungsarbeiten durch, die LLM-basierte Agenten mit SE verbinden, und präsentieren ein Framework für LLM-basierte Agenten in SE, das drei Kernmodule umfasst: Wahrnehmung, Gedächtnis und Aktion. Außerdem fassen wir die aktuellen Herausforderungen bei der Verbindung der beiden Bereiche zusammen und schlagen als Reaktion auf bestehende Herausforderungen künftige Chancen vor. Ein GitHub-Repository mit den relevanten Arbeiten ist unter https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE verfügbar.

In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.

Paper-Link

https://arxiv.org/abs/2409.09030

Weiterführende Lektüre

https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE

https://x.com/omarsar0/status/1835705359723319702


CoT oder nicht CoT? Chain-of-Thought hilft vor allem bei Mathematik und symbolischem Schließen / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Paper-Einführung

Untersucht, welche Arten von Aufgaben am meisten von Chain-of-Thought-(CoT-)Prompting profitieren; nach einer Metaanalyse von mehr als 100 Artikeln und mehreren Evaluierungen zeigt sich, dass CoT vor allem bei Aufgaben mit Bezug zu Mathematik und Logik starke Leistungsvorteile bringt; außerdem zeigt sich, dass der Großteil des CoT-Gewinns aus einer verbesserten symbolischen Ausführung stammt, ein symbolischer Solver jedoch besser abschneidet.

Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.

Abstract

Chain-of-Thought (CoT) per Prompting ist de facto die einzige Methode, um bei großen Sprachmodellen (LLMs) Reasoning-Fähigkeiten hervorzulocken. Doch bei welchen Arten von Aufgaben hilft dieses zusätzliche „Nachdenken“ tatsächlich? Um das zu analysieren, wurde eine quantitative Meta-Analyse von über 100 Arbeiten durchgeführt, die CoT einsetzen, und zusätzlich eine eigene Evaluation von 20 Datensätzen über 14 Modelle hinweg ausgeführt. Das Ergebnis zeigt, dass CoT vor allem bei Aufgaben mit Bezug zu Mathematik oder Logik starke Leistungsvorteile bringt, bei anderen Aufgabentypen jedoch deutlich weniger. Bei MMLU führt das direkte Generieren der Antwort ohne CoT zu nahezu derselben Genauigkeit wie mit CoT, solange weder die Frage noch die Antwort des Modells ein Gleichheitszeichen enthält, das auf symbolische Operationen und Schlussfolgerungen hinweist. Auf Basis dieses Ergebnisses wird das Verhalten von CoT bei diesen Problemen analysiert, indem Planung und Ausführung getrennt und mit Tool-augmentierten LLMs verglichen werden. Der Nutzen von CoT stammt größtenteils aus Verbesserungen bei der symbolischen Ausführung, bleibt aber hinter der Verwendung eines symbolischen Solvers zurück. Die Ergebnisse zeigen, dass CoT selektiv eingesetzt werden kann, um die Leistung beizubehalten und gleichzeitig die Inferenzkosten zu senken. Außerdem deuten sie darauf hin, dass über promptbasiertes CoT hinaus ein Wechsel zu neuen Paradigmen nötig ist, die Zwischenberechnungen über das gesamte Spektrum von LLM-Anwendungen hinweg besser nutzen.
> Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Link zum Paper

https://arxiv.org/abs/2409.12183

Weiterführende Lektüre

https://x.com/omarsar0/status/1836599280477299013


Umfassende Bewertung quantisierter instruktionstunierter großer Sprachmodelle: Experimentelle Analyse bis 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Paper-Einführung

Die Auswertung der Leistung instruktionstunierter LLMs über verschiedene Quantisierungsmethoden hinweg bei Modellen von 7B bis 405B zeigt: 1) Die Quantisierung eines größeren LLM auf eine ähnliche Größe wie ein kleineres FP16-LLM liefert in den meisten Benchmarks in der Regel bessere Ergebnisse, 2) die Leistung variiert stark je nach Quantisierungsmethode, Modellgröße und Bitbreite, wobei Weight-only-Methoden bei größeren Modellen oft gute Resultate erzielen, und 3) der Schwierigkeitsgrad der Aufgabe hat keinen wesentlichen Einfluss auf den durch Quantisierung verursachten Genauigkeitsverlust.
> Evaluates the performance of instruction-tuned LLMs across various quantization methods on models ranging from 7B to 405B; the key findings are 1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, 2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models, and 3) task difficulty does not significantly impact accuracy degradation due to quantization.

Abstract

Frühere Studien haben quantisierte LLMs anhand begrenzter Metriken wie Perplexität, einiger grundlegender Wissensaufgaben oder veralteter Datensätze evaluiert. Außerdem wurden aktuelle großskalige Modelle wie Llama 3.1 mit bis zu 405B Parametern nicht gründlich untersucht. Dieses Whitepaper bewertet die Leistung instruktionstunierter LLMs über verschiedene Quantisierungsmethoden hinweg (GPTQ, AWQ, SmoothQuant, FP8) bei Modellen von 7B bis 405B. Mithilfe von 13 Benchmarks wurde die Leistung in sechs Aufgabentypen bewertet: Common-Sense-Fragebeantwortung, Wissens- und Sprachverständnis, Befolgen von Anweisungen, Erkennung von Halluzinationen, Mathematik und Dialog. Die wichtigsten Ergebnisse zeigen, dass (1) die Quantisierung eines größeren LLMs auf eine ähnliche Größe wie ein kleineres FP16-LLM in den meisten Benchmarks generell besser abschneidet, mit Ausnahme der Halluzinationserkennung und des Befolgens von Anweisungen, (2) die Leistung je nach Quantisierungsmethode, Modellgröße und Bitbreite stark variiert, wobei Weight-only-Methoden bei größeren Modellen oft bessere Ergebnisse liefern, und (3) die Aufgabenschwierigkeit die durch Quantisierung verursachte Genauigkeitsminderung nicht wesentlich beeinflusst; zudem wurde festgestellt, dass die MT-Bench-Evaluierungsmethode bei aktuellen leistungsstarken LLMs nur begrenzte Trennschärfe besitzt.
> Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Paper-Link

https://arxiv.org/abs/2409.11055

Mehr lesen

https://x.com/omarsar0/status/1836479309390995790


Iteration of Thought: Nutzung innerer Dialoge für autonomes Schlussfolgern großer Sprachmodelle / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning

Paper-Einführung

Zur Verbesserung von LLM-Antworten und -Schlussfolgerungsfähigkeiten durch adaptive Inferenzpfade wird das Framework Iteration of Thought (IoT) vorgeschlagen. Es nutzt einen Inner-Dialogue-Agenten in einer Leitfunktion, der Schlussfolgerungspfade dynamisch anpasst, dadurch adaptive pfadübergreifende Exploration ermöglicht und die Antwortgenauigkeit verbessert. Damit unterscheidet es sich von CoT und ToT (beides starre Prozesse), da die Prompt-Generierung hier ein dynamischer, anpassungsfähiger Prozess ist.
> Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.

Paper-Abstract (Abstract)

Wiederholte menschliche Einbindung ist ein gängiges und wirksames Mittel, um die fortgeschrittenen Sprachverarbeitungsfähigkeiten großer Sprachmodelle (LLMs) zu nutzen. Mit gut strukturierten Prompts in dialogischer Form können menschliche Nutzer ein LLM effektiv dazu beeinflussen, durchdachtere und präzisere Antworten zu entwickeln. Inspiriert von dieser Erkenntnis schlagen wir das Framework Iteration of Thought (IoT) vor, um LLM-Antworten zu verbessern, indem Prompts erzeugt werden, die im Verhältnis zur Eingabeanfrage und zur aktuellen Iteration der LLM-Antwort zum „Denken“ anregen. Im Gegensatz zu statischen oder halbstatistischen Ansätzen wie Chain of Thought (CoT) oder Tree of Thoughts (ToT) passt IoT seinen Argumentationspfad dynamisch an den sich entwickelnden Kontext an und erzeugt dabei keine alternativen explorativen Gedanken, die am Ende verworfen werden. Die drei Komponenten des IoT-Frameworks sind: (1) ein Inner Dialogue Agent (IDA), der informative, kontextspezifische Prompts erzeugt, (2) ein LLM Agent (LLMA), der diese Prompts verarbeitet, um seine Antworten zu verfeinern, und (3) eine iterative Prompt-Schleife, die einen Dialog zwischen den beiden vorherigen Komponenten umsetzt. Wir stellen zwei Varianten dieses Frameworks vor: Autonomous Iteration of Thought (AIoT), bei der ein LLM entscheidet, wann die Iteration beendet wird, und Guided Iteration of Thought (GIoT), bei der stets eine feste Anzahl von Iterationen erzwungen wird. Wir untersuchen die Leistung von IoT auf verschiedenen Datensätzen, darunter komplexe Reasoning-Aufgaben aus dem GPQA-Datensatz, explorative Problemlösung in Game of 24, das Lösen von Rätseln in Mini Crosswords und Multi-Hop-Question-Answering aus dem HotpotQA-Datensatz. Die Ergebnisse zeigen, dass IoT ein praktikables Paradigma für die autonome Verfeinerung von Antworten in LLMs darstellt, mit deutlichen Verbesserungen gegenüber CoT, und damit adaptivere und effizientere Reasoning-Systeme ermöglicht, die menschliche Eingriffe minimieren.
> Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.

Paper-Link

https://arxiv.org/abs/2409.12618

Weiterführende Lektüre

https://x.com/omarsar0/status/1836977595847692671


Schrödingers Gedächtnis: Große Sprachmodelle / Schrodinger's Memory: Large Language Models

Paper-Einführung

Mithilfe des Universal Approximation Theorem wird der Gedächtnismechanismus von LLMs erklärt. Außerdem wird ein neuer Ansatz zur Bewertung der LLM-Leistung vorgeschlagen, indem die Gedächtniskapazitäten verschiedener Modelle verglichen werden; die Transformer-Architektur fungiert als dynamisches UAT-Anpassungsmodell mit einer starken Fähigkeit, Eingaben adaptiv anzupassen, wodurch LLMs in der Lage sind, vollständige Inhalte auf Basis minimaler Eingabeinformationen abzurufen.
> Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.

Paper-Zusammenfassung (Abstract)

Erinnerung ist die Grundlage aller menschlichen Aktivitäten; ohne Erinnerung wäre es nahezu unmöglich, im Alltag irgendeine Aufgabe zu erfüllen. Mit der Entwicklung großer Sprachmodelle (LLMs) werden ihre Sprachfähigkeiten denen des Menschen zunehmend vergleichbar. Aber haben LLMs ein Gedächtnis? Nach dem aktuellen Leistungsstand scheinen LLMs tatsächlich eine Form von Gedächtnis zu zeigen. Was ist also der zugrunde liegende Mechanismus dieses Gedächtnisses? Frühere Forschung hat die Gedächtnisfähigkeiten von LLMs und die zugrunde liegende Theorie nicht tiefgehend untersucht. In dieser Arbeit verwenden wir das Universal Approximation Theorem (UAT), um den Gedächtnismechanismus in LLMs zu erklären. Außerdem führen wir Experimente durch, um die Gedächtnisfähigkeiten verschiedener LLMs zu überprüfen, und schlagen eine neue Methode vor, ihre Fähigkeiten auf Grundlage dieser Gedächtnisleistung zu bewerten. Wir argumentieren, dass das Gedächtnis von LLMs wie Schrödingers Gedächtnis funktioniert, das heißt, es wird nur beobachtbar, wenn eine bestimmte Erinnerung abgefragt wird. Ob das Modell eine Erinnerung gespeichert hat, lässt sich nur anhand seiner Ausgabe als Antwort auf die Abfrage feststellen; andernfalls bleibt sie unbestimmt. Abschließend erweitern wir dieses Konzept, indem wir die Gedächtnisfähigkeiten des menschlichen Gehirns und von LLMs vergleichen und dabei die Gemeinsamkeiten und Unterschiede ihrer Funktionsmechanismen hervorheben.
> Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.

Paper-Link

https://arxiv.org/abs/2409.10482

Weiterlesen

https://x.com/omarsar0/status/1835882330323554321


Große Sprachmodelle mit symbolischer Mathematik jailbreaken / Jailbreaking Large Language Models with Symbolic Mathematics

Paper-Vorstellung

Verwendet GPT-4o, um mathematisch kodierte Prompts zu erzeugen, die als effektive Jailbreaking-Technik dienen; zeigt eine durchschnittliche Angriffserfolgsrate von 73,6 % über 13 State-of-the-Art-Modelle hinweg und unterstreicht damit, dass bestehende Safety-Training-Mechanismen nicht auf mathematisch kodierte Eingaben generalisieren können.
> Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.

Paper-Abstract

Jüngste Fortschritte bei der AI Safety haben zu verstärkten Bemühungen geführt, große Sprachmodelle (LLMs) zu trainieren und per Red-Teaming zu testen, um die Erzeugung unsicherer Inhalte zu verringern. Diese Sicherheitsmechanismen sind jedoch möglicherweise nicht umfassend und können potenzielle Schwachstellen unentdeckt lassen. Dieses Paper stellt MathPrompt vor, eine neue Jailbreaking-Technik, die die fortgeschrittenen Fähigkeiten von LLMs in symbolischer Mathematik ausnutzt, um ihre Sicherheitsmechanismen zu umgehen. Indem schädliche natürlichsprachliche Prompts in mathematische Probleme kodiert werden, zeigen wir eine kritische Schwachstelle aktueller AI-Sicherheitsmaßnahmen auf. Unsere Experimente mit 13 State-of-the-Art-LLMs ergaben eine durchschnittliche Angriffserfolgsrate von 73,6% und verdeutlichen, dass bestehende Safety-Training-Mechanismen nicht auf mathematisch kodierte Eingaben generalisieren können. Die Analyse von Embedding-Vektoren zeigt eine erhebliche semantische Verschiebung zwischen ursprünglichen und kodierten Prompts, was hilft, den Erfolg des Angriffs zu erklären. Diese Arbeit betont die Bedeutung eines ganzheitlichen Ansatzes für AI Safety und fordert eine Ausweitung der Red-Teaming-Bemühungen, um robuste Schutzmechanismen für alle potenziellen Eingabetypen und die damit verbundenen Risiken zu entwickeln.
> Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.

Paper-Link

https://arxiv.org/abs/2409.11445

Weiterlesen

https://x.com/omarsar0/status/1836603922405806501


Originaltext

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-277


Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt; es können also Fehler enthalten sein. Bitte beachten Sie daher auch den Originaltext weiter unten im Artikel. Wenn Ihnen beim Lesen etwas unnatürlich oder fehlerhaft erscheint, teilen Sie uns das bitte in den Kommentaren mit. 🤗

⚠️Werbung⚠️: Fanden Sie diesen von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellten Beitrag nützlich? Wenn Sie Mitglied werden, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standardmäßig wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.

3 Kommentare

 
savvykang 2024-09-23

Der Titel ist auf Juni datiert, und der verlinkte Beitrag ist vom September. Ist das vielleicht wegen der Autovervollständigung so passiert?

 
ninebow 2024-09-23

Huch, stimmt;;; danke für den Hinweis. T_T
Der Titel sollte eigentlich '[2024/09/16 ~ 09/22] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)' lauten, aber ich habe beim Verwenden der Vorlage einen Fehler gemacht. Falls xguru das sieht, wäre ich dankbar, wenn du es ändern könntest. 🙇‍♂️

 
ninebow 2024-09-23

Vielen Dank!!