[2024/06/03 ~ 06/09] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Ich habe den wöchentlich von DAIR.AI veröffentlichten Artikel über ML-Papers automatisch übersetzt.
Ein Blick auf die in dieser Woche ausgewählten Papers zeigt, dass sich die meisten auf Large Language Models (LLMs) konzentrieren. Konkret lassen sie sich als Forschung zu Konzept-Extraktion in Large Language Models (Extracting Concepts from GPT-4), Effizienzsteigerung (MatMul-free LLMs), dem Verständnis der Denkprozesse von Modellen (Buffer of Thoughts), der geometrischen Struktur von LLMs (The Geometry of Concepts in LLMs) sowie deren Alignment (Aligning LLMs with Demonstrated Feedback, Towards Scalable Automated Alignment of LLMs) zusammenfassen. Diese Themen spiegeln die aktuellen Interessen im Bereich der künstlichen Intelligenz wider, nämlich das Verständnis, die Verbesserung und die Erkundung der Anwendungsmöglichkeiten von LLMs. Auch wenn nicht alle Papers im Detail betrachtet wurden, reichen schon die Titel aus, um die Tendenzen der jüngsten Forschung zu erkennen.
Dieser Trend lässt sich aus mehreren Gründen erklären. Erstens ist das Interesse an solchen Modellen in der KI-Forschung seit dem Erfolg von Large Language Models wie GPT-4 stark angestiegen. Diese Modelle spielen nicht nur in der natürlichen Sprachverarbeitung (NLP), sondern auch bei verschiedensten wissensbasierten Aufgaben eine wichtige Rolle, um Leistungen auf menschlichem Niveau zu erreichen. Zweitens bietet das Verständnis und die Weiterentwicklung von LLMs die Chance, KI-Systeme zu entwickeln, die komplexere und kreativere Aufgaben bewältigen können. Schließlich kann diese Forschung auch zur Weiterentwicklung von Techniken beitragen, mit denen sich das Verhalten von Modellen verstehen und steuern lässt – ein wesentlicher Baustein für mehr Sicherheit und einen ethischen Einsatz von KI. Insgesamt spiegeln die in dieser Woche ausgewählten Papers die Forschung und Experimente wider, die an der Spitze der Entwicklung von KI-Technologien, insbesondere von Large Language Models, stattfinden.

NLLB: Neuronale maschinelle Übersetzung auf 200 Sprachen skalieren / Scaling neural machine translation to 200 languages

Paper-Vorstellung

Vorgestellt wird ein groß angelegtes mehrsprachiges Modell, das Transfer Learning über 200 Sprachen hinweg nutzt, auf einer Sparsely Gated Mixture of Experts-Architektur basiert, mit einem auf ressourcenarme Sprachen zugeschnittenen Ansatz auf Daten trainiert wurde und anhand von 40.000 Übersetzungen evaluiert wird, wobei im Durchschnitt eine Verbesserung der Übersetzungsqualität um 44 % erreicht wird.

Proposes a massive multilingual model that leverages transfer learning across 200 languages; it’s based on a sparsely Gated Mixture of Experts architecture and trained on data via an approach tailored for low-resource languages; evaluates on 40K translations and achieves an average of 44% improvement in translation quality.

Paper-Abstract

Die Fortschritte neuronaler Verfahren haben neue Wege für die Forschung im Bereich der maschinellen Übersetzung eröffnet. Heutige Systeme der neuronalen maschinellen Übersetzung (NMT) können hochgradig mehrsprachige Fähigkeiten nutzen und sogar Zero-Shot-Übersetzung durchführen, was vielversprechende Ergebnisse in Bezug auf Sprachabdeckung und Qualität liefert. Die Skalierung hochwertiger NMT erfordert jedoch große Mengen paralleler zweisprachiger Daten, die für die weltweit mehr als 7.000 Sprachen nicht in gleichem Maße verfügbar sind. Wenn man sich darauf konzentriert, die Übersetzungsqualität einer relativ kleinen Gruppe ressourcenstarker Sprachen zu verbessern, geschieht dies zulasten der Forschungsaufmerksamkeit für ressourcenarme Sprachen und verschärft langfristig digitale Ungleichheiten. Um dieses Muster zu durchbrechen, stellen wir hier No Language Left Behind (NLLB) vor – ein einziges massiv mehrsprachiges Modell, das Transfer Learning über Sprachen hinweg nutzt. Wir haben ein bedingt rechnendes Modell entwickelt, das auf der Sparsely Gated Mixture of Experts-Architektur basiert und mit Daten trainiert wurde, die mithilfe neuer, auf ressourcenarme Sprachen zugeschnittener Mining-Techniken gewonnen wurden. Darüber hinaus haben wir mehrere Verbesserungen an Architektur und Training entwickelt, um Overfitting beim Training auf Tausenden von Aufgaben entgegenzuwirken. Wir haben die Leistung unseres Modells über mehr als 40.000 Übersetzungsrichtungen hinweg mit eigens dafür entwickelten Werkzeugen evaluiert – einem automatischen Benchmark (FLORES-200), einer Metrik zur menschlichen Bewertung (XSTS) sowie einem Toxicity-Detektor, der jede Sprache in unserem Modell abdeckt. Im Vergleich zu früheren State-of-the-Art-Modellen erreicht unser Modell eine durchschnittliche Verbesserung der Übersetzungsqualität um 44 %, gemessen mit BLEU. Indem wir demonstrieren, wie sich NMT auf 200 Sprachen skalieren lässt, und alle Beiträge dieser Arbeit für nicht-kommerzielle Nutzung frei verfügbar machen, schaffen wir eine wichtige Grundlage für die Entwicklung eines universellen Übersetzungssystems.

The development of neural techniques has opened up new avenues for research in machine translation. Today, neural machine translation (NMT) systems can leverage highly multilingual capacities and even perform zero-shot translation, delivering promising results in terms of language coverage and quality. However, scaling quality NMT requires large volumes of parallel bilingual data, which are not equally available for the 7,000+ languages in the world. Focusing on improving the translation qualities of a relatively small group of high-resource languages comes at the expense of directing research attention to low-resource languages, exacerbating digital inequities in the long run. To break this pattern, here we introduce No Language Left Behind—a single massively multilingual model that leverages transfer learning across languages. We developed a conditional computational model based on the Sparsely Gated Mixture of Experts architecture, which we trained on data obtained with new mining techniques tailored for low-resource languages. Furthermore, we devised multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. We evaluated the performance of our model over 40,000 translation directions using tools created specifically for this purpose—an automatic benchmark (FLORES-200), a human evaluation metric (XSTS) and a toxicity detector that covers every language in our model. Compared with the previous state-of-the-art models, our model achieves an average of 44% improvement in translation quality as measured by BLEU. By demonstrating how to scale NMT to 200 languages and making all contributions in this effort freely available for non-commercial use, our work lays important groundwork for the development of a universal translation system.

Paper-Link

https://www.nature.com/articles/s41586-024-07335-x

Weiterführende Links

https://github.com/facebookresearch/fairseq/tree/nllb

https://x.com/AIatMeta/status/1798420492774432769

Konzepte aus GPT-4 extrahieren / Extracting Concepts from GPT-4

Forschungsüberblick

Es wird eine neue skalierbare Methode auf Basis von Sparse Autoencoders vorgeschlagen, um aus GPT-4 rund 16 Millionen interpretierbare Muster zu extrahieren. Die Methode zeigt vorhersehbare Skalierbarkeit und ist effizienter als bisherige Techniken.

Proposes a new scalable method based on sparse autoencoders to extract around 16 million interpretable patterns from GPT-4; the method demonstrates predictable scaling and is more efficient than previous techniques.

Paper-Zusammenfassung

SAEs (Sparse AutoEncoder, spärliche Autoencoder) bieten einen vielversprechenden unüberwachten Ansatz, um interpretierbare Merkmale aus Sprachmodellen zu extrahieren, indem Aktivierungen aus einer spärlichen Bottleneck-Schicht rekonstruiert werden. Da Sprachmodelle viele Konzepte lernen, müssen Autoencoder sehr groß sein, um alle relevanten Merkmale zu rekonstruieren. Allerdings ist es schwierig, die Eigenschaften der Skalierung von Autoencodern zu untersuchen, weil Rekonstruktions- und Sparsitätsziele ausbalanciert werden müssen und zudem tote latente Variablen auftreten. Wir schlagen vor, K-sparse Autoencoder [Makhzani and Frey, 2013] zu verwenden, um Sparsität direkt zu steuern, das Tuning zu vereinfachen und die Rekonstruktions-Sparsitäts-Grenze zu verbessern. Außerdem haben wir Anpassungen gefunden, bei denen selbst in den größten von uns getesteten Maßstäben kaum tote latente Variablen auftreten. Mit diesen Techniken fanden wir saubere Skalierungsgesetze in Bezug auf Autoencoder-Größe und Sparsität. Darüber hinaus führen wir mehrere neue Metriken ein, um die Qualität von Merkmalen anhand der Rekonstruktion hypothetisierter Merkmale, der Erklärbarkeit von Aktivierungsmustern und der Sparsität von Downstream-Effekten zu bewerten. Diese Metriken verbessern sich im Allgemeinen mit der Größe des Autoencoders. Um die Skalierbarkeit unseres Ansatzes zu demonstrieren, trainierten wir einen Autoencoder mit 16 Millionen latenten Variablen auf GPT-4-Aktivierungen für 40 Milliarden Tokens. Wir veröffentlichen Code und Autoencoder für Open-Source-Modelle sowie einen Visualizer.

Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since language models learn many concepts, autoencoders need to be very large to recover all relevant features. However, studying the properties of autoencoder scaling is difficult due to the need to balance reconstruction and sparsity objectives and the presence of dead latents. We propose using k-sparse autoencoders [Makhzani and Frey, 2013] to directly control sparsity, simplifying tuning and improving the reconstruction-sparsity frontier. Additionally, we find modifications that result in few dead latents, even at the largest scales we tried. Using these techniques, we find clean scaling laws with respect to autoencoder size and sparsity. We also introduce several new metrics for evaluating feature quality based on the recovery of hypothesized features, the explainability of activation patterns, and the sparsity of downstream effects. These metrics all generally improve with autoencoder size. To demonstrate the scalability of our approach, we train a 16 million latent autoencoder on GPT-4 activations for 40 billion tokens. We release code and autoencoders for open-source models, as well as a visualizer.

Forschungs- und Paper-Links

https://openai.com/index/extracting-concepts-from-gpt-4/

https://cdn.openai.com/papers/sparse-autoencoders.pdf

Weiterführende Links

https://github.com/openai/sparse_autoencoder

https://openaipublic.blob.core.windows.net/sparse-autoencoder/…

https://x.com/OpenAI/status/1798762092528586945

Transformer sind SSMs: Verallgemeinerte Modelle und effiziente Algorithmen durch strukturierte State-Space-Dualität / Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Paper-Vorstellung

Eine neue Architektur, die State Space Models (SSMs) und strukturierte Attention kombiniert, verwendet 8-mal größere Zustände und trainiert 50 % schneller. Die neue State-Space-Duality-Schicht ist effizienter und besser skalierbar als der in Mamba verwendete Ansatz und verbessert zudem die Ergebnisse bei Aufgaben, die große Zustandskapazität erfordern.

A new architecture that combines state space models (SSMs) and structured attention; it uses 8x larger states and trains 50% faster; the new state space duality layer is more efficient and scalable compared to the approach used in Mamba; it also improves results on tasks that require large state capacity.

Paper-Zusammenfassung (Abstract)

Transformer waren die zentrale Architektur hinter dem Erfolg von Deep Learning im Language Modeling, doch in jüngerer Zeit hat sich gezeigt, dass State Space Models (SSMs) wie Mamba im kleinen bis mittleren Maßstab mit Transformern mithalten oder sie sogar übertreffen können. Wir zeigen, dass diese Modellfamilien tatsächlich eng miteinander verwandt sind, und entwickeln einen umfangreichen theoretischen Rahmen für die Verbindungen zwischen SSMs und Varianten von Attention, die über verschiedene Zerlegungen einer gut untersuchten Klasse strukturierter semiseparabler Matrizen verbunden sind. Unser State-Space-Duality-(SSD)-Framework ermöglicht es uns, eine neue Architektur (Mamba-2) zu entwerfen, deren Kernschicht eine Verfeinerung von Mambas selektivem SSM ist, die 2- bis 8-mal schneller ist und zugleich im Language Modeling gegenüber Transformern wettbewerbsfähig bleibt.

While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.

Paper-Link

https://arxiv.org/abs/2405.21060

Weiterführende Lektüre

https://x.com/_albertgu/status/1797651223035904355

Skalierbare, MatMul-freie Sprachmodellierung / Scalable MatMul-free Language Modeling

Paper-Vorstellung

Es wird eine Implementierung vorgeschlagen, die Matrixmultiplikations-Operationen in LLMs entfernt und dabei die Leistung im Maßstab von 1 Milliarde Parametern beibehält. Zudem wird behauptet, dass sich der Leistungsunterschied zwischen Full-Precision-Transformern und MatMul-freien Modellen mit wachsender Modellgröße verringert und dass sich durch optimierte Kernel während der Inferenz der Speicherverbrauch um mehr als das Zehnfache reduzieren lässt.

Proposes an implementation that eliminates matrix multiplication operations from LLMs while maintaining performance at billion-parameter scales; the performance between full precision Transformers and the MatMul-free models narrows as the model size increases; claims that by using an optimized kernel during inference, memory consumption is reduced by more than 10x.

Abstract

Im Allgemeinen macht die Matrixmultiplikation (MatMul) den größten Teil der gesamten Rechenkosten großer Sprachmodelle (LLMs) aus. Diese Kosten steigen nur weiter an, wenn LLMs auf größere Embedding-Dimensionen und Kontextlängen skaliert werden. Diese Arbeit zeigt, dass sich MatMul-Operationen vollständig aus LLMs entfernen lassen, ohne die starke Leistung im Maßstab von 1 Milliarde Parametern zu verlieren. Die Experimente zeigen, dass die vorgeschlagenen MatMul-freien Modelle bei einer Größenordnung von bis zu mindestens 2,7 Milliarden Parametern eine Leistung auf dem Niveau moderner Transformer erreichen, die bei der Inferenz deutlich mehr Speicher benötigen. Die Untersuchung der Skalierungsgesetze zeigt zudem, dass sich die Leistungslücke zwischen den MatMul-freien Modellen und Full-Precision-Transformern mit wachsender Modellgröße verringert. Darüber hinaus wird eine GPU-effiziente Implementierung des Modells vorgestellt, die den Speicherverbrauch beim Training im Vergleich zu einer nicht optimierten Baseline um bis zu 61 % reduziert. Durch den Einsatz eines optimierten Kernels während der Inferenz kann der Speicherverbrauch des Modells im Vergleich zu nicht optimierten Modellen um mehr als das Zehnfache gesenkt werden. Um die Effizienz der Architektur angemessen zu quantifizieren, wurde eine maßgeschneiderte Hardware-Lösung auf einem FPGA aufgebaut, die leichtgewichtige Operationen nutzt, die über die Fähigkeiten von GPUs hinausgehen. Modelle im Maßstab von 1 Milliarde Parametern wurden bei 13 W mit einem Durchsatz jenseits menschlich lesbarer Geschwindigkeit verarbeitet, wodurch LLMs einer gehirnähnlichen Effizienz näherkommen. Diese Arbeit zeigt nicht nur, wie weit sich LLMs reduzieren lassen, ohne ihre Wirksamkeit zu verlieren, sondern weist auch darauf hin, auf welche Operationstypen zukünftige Beschleuniger bei der Verarbeitung der nächsten Generation leichtgewichtiger LLMs optimiert werden sollten. Die Code-Implementierung ist unter \url{https://github.com/ridgerchu/matmulfreellm} verfügbar.

Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at \url{https://github.com/ridgerchu/matmulfreellm}.

Paper-Link

https://arxiv.org/abs/2406.02528

Weiterführende Lektüre

https://github.com/ridgerchu/matmulfreellm

https://x.com/omarsar0/status/1798373841741185261

Denkpuffer: gedankenaugmentiertes Schlussfolgern mit großen Sprachmodellen / Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Paper-Vorstellung

Es wird ein Ansatz für gedankenaugmentiertes Schlussfolgern vorgestellt, der Genauigkeit, Effizienz und Robustheit von LLM-basiertem Reasoning verbessern soll. Dazu wird ein Meta-Puffer mit übergeordneten Gedanken (Gedankentemplates) genutzt, die aus Problemlösungsprozessen destilliert wurden; anschließend wird das relevante Gedankentemplate abgerufen und für den gedankenaugmentierten Schlussfolgerungsprozess mit aufgabenspezifischen Reasoning-Strukturen instanziiert. Auf 10 anspruchsvollen Aufgaben wurde SOTA-Leistung bei nur 12 % der Kosten von Multi-Query-Prompting-Methoden wie Tree-of-Thoughts gezeigt.

Presents a thought-augmented reasoning approach to enhance the accuracy, efficiency, and robustness of LLM-based reasoning; it leverages a meta-buffer containing high-level thoughts (thought templates) distilled from problem-solving processes; the relevant thought template is then retrieved and instantiated with task-specific reasoning structures for the thought-augmented reasoning process; it demonstrates SOTA performance on 10 challenging tasks while requiring 12% of the cost of multi-query prompting methods like Tree-of-Thoughts.

Abstract

Wir stellen Buffer of Thoughts (BoT) vor, einen neuartigen und vielseitigen, gedankenverstärkten Reasoning-Ansatz zur Verbesserung von Genauigkeit, Effizienz und Robustheit großer Sprachmodelle (LLMs). Konkret schlagen wir einen Meta-Buffer vor, der eine Reihe informativer übergeordneter Gedanken speichert, also Thought-Templates, die aus Problemlösungsprozessen über verschiedene Aufgaben hinweg destilliert wurden. Für jedes Problem wird dann ein relevantes Thought-Template abgerufen und adaptiv mit spezifischen Reasoning-Strukturen instanziiert, um effizientes Reasoning durchzuführen. Um Skalierbarkeit und Stabilität zu gewährleisten, schlagen wir außerdem einen Buffer-Manager vor, der den Meta-Buffer dynamisch aktualisiert und so dessen Kapazität erweitert, je mehr Aufgaben gelöst werden. Umfangreiche Experimente mit 10 anspruchsvollen, reasoning-intensiven Aufgaben zeigen deutliche Leistungsverbesserungen gegenüber bisherigen SOTA-Methoden: 11 % bei Game of 24, 20 % bei Geometric Shapes und 51 % bei Checkmate-in-One. Weitere Analysen zeigen die überlegene Generalisierungsfähigkeit und Modellrobustheit von BoT, während im Durchschnitt nur 12 % der Kosten von Multi-Query-Prompting-Methoden (z. B. Tree/Graph of Thoughts) anfallen. Besonders bemerkenswert ist, dass unser Llama3-8B+BoT das Potenzial hat, das Llama3-70B-Modell zu übertreffen. Das Projekt ist unter folgendem Link verfügbar: https://github.com/YangLing0818/buffer-of-thought-llm

We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm

Paper-Link

https://arxiv.org/abs/2406.04271

Weiterlesen

https://github.com/YangLing0818/buffer-of-thought-llm

https://x.com/omarsar0/status/1799113545696567416

SaySelf: LLMs beibringen, Selbstvertrauen mit selbstreflektierenden Begründungen auszudrücken / SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

Paper-Vorstellung

Ein Trainings-Framework, das LLMs beibringt, genauere fein abgestufte Vertrauensschätzungen und selbstreflektierende Begründungen auszudrücken. Dazu wird zunächst überwachtes Fine-Tuning auf einem Datensatz durchgeführt, der Zusammenfassungen der Unterschiede zwischen mehreren Reasoning-Ketten enthält; anschließend wird Reinforcement Learning eingesetzt, um die Vertrauensschätzungen zu kalibrieren, sodass das LLM zu präzisen Vorhersagen mit hoher Zuversicht angeregt wird und übermäßiges Vertrauen bei fehlerhaften Ausgaben bestraft wird.

A training framework to teach LLMs to express more accurate fine-grained confidence estimates and self-reflective rationales; it performs supervised finetuning on a dataset that contains summaries of the difference between multiple reasoning chains; reinforcement learning is then applied to calibrate confidence estimates, encouraging the LLM to produce accurate, high-confidence predictions and penalize overconfidence in erroneous outputs.

Paper-Abstract

Große Sprachmodelle (LLMs) erzeugen häufig ungenaue oder erfundene Informationen und geben in der Regel keinen Hinweis auf ihre Zuverlässigkeit, was ihre breitere Anwendung oft einschränkt. Frühere Arbeiten haben Zuverlässigkeitsschätzungen aus LLMs durch direktes oder Self-Consistency-Prompting oder durch die Konstruktion spezifischer Datensätze für überwachtes Fine-Tuning gewonnen. Prompt-basierte Ansätze liefern eine schlechtere Leistung, und trainingsbasierte Ansätze sind auf binäre oder ungenaue Zuverlässigkeitsschätzungen auf Gruppenebene beschränkt. Diese Studie stellt das erweiterte SaySelf vor, ein Trainings-Framework, das LLMs beibringt, präzisere, fein granulare Zuverlässigkeitsschätzungen auszudrücken. Darüber hinaus stößt SaySelf neben den Zuverlässigkeitswerten einen Prozess an, der LLMs dazu anleitet, selbstreflektierende Begründungen zu erzeugen, die Lücken in ihrem parametrischen Wissen klar identifizieren und ihre Unsicherheit erklären. Dies wird erreicht, indem ein LLM verwendet wird, um die Unsicherheiten in spezifischem Wissen automatisch in natürlicher Sprache zusammenzufassen. Die Zusammenfassung basiert auf der Analyse von Inkonsistenzen in mehreren gesampelten Reasoning-Ketten, und die daraus resultierenden Daten werden für überwachtes Fine-Tuning genutzt. Darüber hinaus wird Reinforcement Learning mit einer sorgfältig entwickelten Belohnungsfunktion eingesetzt, um die Zuverlässigkeitsschätzungen zu kalibrieren. Dadurch werden LLMs motiviert, genaue Vorhersagen mit hoher Zuverlässigkeit zu liefern, und Übervertrauen bei fehlerhaften Ausgaben wird bestraft. Experimentelle Ergebnisse auf In-Distribution- und Out-of-Distribution-Datensätzen zeigen, dass SaySelf effektiv dabei ist, den Kalibrierungsfehler der Zuverlässigkeit zu verringern und die Aufgabenleistung aufrechtzuerhalten. Außerdem wird gezeigt, dass die erzeugten selbstreflektierenden Begründungen plausibel sind und weiter zur Kalibrierung beitragen können. Der Code ist unter https://github.com/xu1868/SaySelf öffentlich verfügbar.

Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at https://github.com/xu1868/SaySelf.

Paper-Link

https://arxiv.org/abs/2405.20974

Weiterlesen

https://github.com/xu1868/SaySelf

https://x.com/omarsar0/status/1797682549608833477

Die Geometrie kategorischer und hierarchischer Konzepte in großen Sprachmodellen / The Geometry of Categorical and Hierarchical Concepts in Large Language Models

Paper-Einführung

Untersucht wird die geometrische Struktur kategorischer Konzepte und wie ihre hierarchischen Beziehungen in LLMs codiert sind; dabei wird festgestellt, dass einfache kategorische Konzepte von LLMs als Simplizes dargestellt werden und komplexe Konzepte als Polytope, die aus direkten Summen von Simplizes konstruiert sind und die hierarchische Struktur widerspiegeln.

Studies the geometry of categorical concepts and how the hierarchical relations between them are encoded in LLMs; finds that simple categorical concepts are represented as simplices by the LLMs and complex concepts are represented as polytopes constructed from direct sums of simplices, which reflect the hierarchical structure.

Paper-Zusammenfassung (Abstract)

Zu verstehen, wie semantische Bedeutung in den Repräsentationsräumen großer Sprachmodelle kodiert wird, ist ein grundlegendes Problem der Interpretierbarkeit. Dieses Paper untersucht zwei fundamentale Fragen in diesem Bereich. Erstens: Wie werden kategoriale Konzepte wie {'Säugetier', 'Vogel', 'Reptil', 'Fisch'} repräsentiert? Zweitens: Wie werden hierarchische Beziehungen zwischen Konzepten kodiert? Zum Beispiel: Wie wird die Tatsache kodiert, dass ein „Hund“ eine Art von „Säugetier“ ist? Um diese Fragen zu beantworten, zeigen die Autor:innen, wie sich die Hypothese der linearen Repräsentation erweitern lässt. Sie finden eine bemerkenswert einfache Struktur: Einfache kategoriale Konzepte werden als Simplizes dargestellt, hierarchisch verwandte Konzepte sind in einem präzise definierten Sinn orthogonal, und komplexe Konzepte werden folglich als Polytope repräsentiert, die aus direkten Summen von Simplizes konstruiert sind und die hierarchische Struktur widerspiegeln. Diese theoretischen Ergebnisse werden am großen Sprachmodell Gemma validiert, wobei mithilfe von Daten aus WordNet Repräsentationen für 957 hierarchisch verwandte Konzepte geschätzt werden.

Understanding how semantic meaning is encoded in the representation spaces of large language models is a fundamental problem in interpretability. In this paper, we study the two foundational questions in this area. First, how are categorical concepts, such as {'mammal', 'bird', 'reptile', 'fish'}, represented? Second, how are hierarchical relations between concepts encoded? For example, how is the fact that 'dog' is a kind of 'mammal' encoded? We show how to extend the linear representation hypothesis to answer these questions. We find a remarkably simple structure: simple categorical concepts are represented as simplices, hierarchically related concepts are orthogonal in a sense we make precise, and (in consequence) complex concepts are represented as polytopes constructed from direct sums of simplices, reflecting the hierarchical structure. We validate these theoretical results on the Gemma large language model, estimating representations for 957 hierarchically related concepts using data from WordNet.

Paper-Link

https://arxiv.org/abs/2406.01506

Weiterführende Lektüre

https://x.com/omarsar0/status/1798010546522103898

Zeigen, nicht sagen: Sprachmodelle an demonstriertem Feedback ausrichten / Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Paper-Vorstellung

Es wird eine Methode vorgeschlagen, um LLMs mit sehr wenigen Demonstrationen als Feedback an eine spezifische Situation anzupassen. Sie richtet die Ausgaben von LLMs an den demonstrierten Verhaltensweisen von Nutzer:innen aus, kann feingranulare Stil- und Task-Anpassung über mehrere Domänen hinweg lernen und erzielt auf den getesteten Benchmarks bessere Ergebnisse als Few-Shot-Prompting-, SFT- und Self-Play-Methoden.

Proposes a method to align LLMs to a specific setting via a very small number of demonstrations as feedback; it aligns LLM outputs to a user’s demonstrated behaviors and can learn fine-grained style and task alignment across domains; outperforms few-shot prompting, SFT, and self-play methods on the tested benchmarks.

Paper-Abstract

Sprachmodelle werden darauf ausgerichtet, die kollektive Stimme vieler zu emulieren, was zu Ausgaben führt, die mit niemandem im Besonderen übereinstimmen. LLMs von generischen Ausgaben wegzulenken ist durch Supervised Finetuning oder RLHF möglich, erfordert für neue Ad-hoc-Aufgaben jedoch prohibitv große Datensätze. Die Autor:innen argumentieren stattdessen, dass es möglich ist, ein LLM an eine spezifische Situation anzupassen, indem eine sehr kleine Zahl ($<10$) von Demonstrationen als Feedback genutzt wird. Ihre Methode, Demonstration ITerated Task Optimization (DITTO), richtet die Ausgaben von Sprachmodellen direkt an den demonstrierten Verhaltensweisen einer Person aus. DITTO wurde aus Ideen des Online-Imitation-Learnings abgeleitet und erzeugt kostengünstig Online-Vergleichsdaten, indem die Demonstrationen von Nutzer:innen gegenüber Ausgaben des LLMs und seiner Zwischen-Checkpoints als bevorzugt behandelt werden. Bewertet wird die Fähigkeit von DITTO, feingranulare Stil- und Task-Ausrichtung über Domänen wie Nachrichtenartikel, E-Mails und Blogposts hinweg zu lernen. Zusätzlich wird eine Nutzerstudie mit Teilnehmenden durchgeführt, bei der verschiedene Demonstrationen erhoben werden ($N=16$). Über Benchmarks und Nutzerstudie hinweg zeigt sich, dass die Win-Rates von DITTO im Durchschnitt um 19 Prozentpunkte besser sind als bei Few-Shot-Prompting, Supervised Finetuning und anderen Self-Play-Methoden. Indem Demonstrationen direkt als Feedback verwendet werden, bietet DITTO eine neuartige Methode zur effektiven Anpassung von LLMs.

Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number ($<10$) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants ($N=16$). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.

Paper-Link

https://arxiv.org/abs/2406.00888

Weiterführende Lektüre

https://x.com/arankomatsuzaki/status/1797833884463472653

Auf dem Weg zu skalierbarer automatisierter Ausrichtung von LLMs: Ein Survey / Towards Scalable Automated Alignment of LLMs: A Survey

Paper-Einführung

Bietet einen Überblick über Methoden zur Ausrichtung von LLMs und untersucht die folgenden vier Richtungen: 1) Ausrichtung durch induktiven Bias, 2) Ausrichtung durch Verhaltensimitation, 3) Ausrichtung durch Modell-Feedback, 4) Ausrichtung durch Umgebungs-Feedback.

Provides an overview of methods used for alignment of LLMs; explores the 4 following directions: 1) aligning through inductive bias, 2) aligning through behavior imitation, 3) aligning through model feedback, and 4) aligning through environment feedback.

Paper-Abstract (Abstract)

Alignment ist der kritischste Schritt beim Aufbau großer Sprachmodelle (LLMs), die menschlichen Anforderungen gerecht werden. Mit der rasanten Entwicklung von LLMs, die menschliche Fähigkeiten zunehmend übertreffen, sind traditionelle Alignment-Methoden auf Basis menschlicher Annotationen immer häufiger nicht mehr in der Lage, die Anforderungen an die Skalierbarkeit zu erfüllen. Daher besteht ein dringender Bedarf, neue Quellen für automatisierte Alignment-Signale und technische Ansätze zu erforschen. In diesem Whitepaper geben wir einen systematischen Überblick über die in jüngster Zeit entstandenen Methoden des automatisierten Alignment und untersuchen, wie sich wirksames, skalierbares, automatisiertes Alignment erreichen lässt, sobald die Fähigkeiten von LLMs die des Menschen übersteigen. Insbesondere klassifizieren wir bestehende Methoden des automatisierten Alignment anhand der Quellen der Alignment-Signale in vier Hauptkategorien und diskutieren den aktuellen Stand sowie das Entwicklungspotenzial jeder Kategorie. Darüber hinaus betrachten wir die zugrunde liegenden Mechanismen, die automatisiertes Alignment ermöglichen, und erörtern ausgehend von der grundlegenden Rolle des Alignment die wesentlichen Faktoren, die automatisierte Alignment-Technologien praktikabel und wirksam machen.

Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment.

Paper-Link

https://arxiv.org/abs/2406.01252

Weiterführende Lektüre

https://x.com/omarsar0/status/1798014572663583165

AgentGym: Entwicklung großer sprachmodellbasierter Agenten über diverse Umgebungen hinweg / AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

Paper-Einführung

Ein neues Framework mit verschiedenen Umgebungen und Aufgaben für breit angelegte, Echtzeit- und gleichzeitige Agentenexploration; es baut einen allgemein leistungsfähigen LLM-basierten Agenten mit Fähigkeiten zur Selbstentwicklung auf und untersucht dessen Potenzial über zuvor gesehene Daten hinweg über Aufgaben und Umgebungen hinweg.

A new framework featuring various environments and tasks for broad, real-time, and concurrent agent exploration; builds a generally capable LLM-based agent with self-evolution abilities and explores its potential beyond previously seen data across tasks and environments.

Paper-Abstract (Abstract)

Der Aufbau von Generalist Agents, die vielfältige Aufgaben bewältigen und sich in verschiedenen Umgebungen selbst weiterentwickeln können, ist ein langfristiges Ziel der KI-Community. Große Sprachmodelle (LLMs) gelten aufgrund ihrer generalisierten Fähigkeiten als vielversprechende Grundlage für den Aufbau solcher Agents. Aktuelle Ansätze erfordern entweder menschliche Aufsicht, indem LLM-basierte Agents von Expert:innen bereitgestellte Trajektorien Schritt für Schritt nachahmen, was schwer zu skalieren ist und die Erkundung der Umgebung einschränkt, oder sie lassen Agents in isolierten Umgebungen erkunden und lernen, wodurch spezialisierte Agents mit begrenzter Generalisierung entstehen. In diesem Paper machen wir einen ersten Schritt hin zum Aufbau allgemein leistungsfähiger LLM-basierter Agents mit der Fähigkeit zur Selbstweiterentwicklung. Wir identifizieren drei Elemente: 1) vielfältige Umgebungen für die Erkundung und das Lernen von Agents, 2) einen Satz von Trajektorien, um Agents mit grundlegenden Fähigkeiten und Vorwissen auszustatten, und 3) eine effektive und skalierbare Evolutionsmethode. AgentGym schlägt ein neues Framework mit vielfältigen Umgebungen und Aufgaben für breite, Echtzeit-, einheitlich formatierte und parallele Agent-Erkundung vor. AgentGym umfasst außerdem eine Datenbank mit erweiterten Anweisungen, eine Benchmark-Suite und hochwertige Trajektorien über verschiedene Umgebungen hinweg. Anschließend schlagen wir mit AgentEvol eine neue Methode vor, um das Potenzial der Selbstweiterentwicklung von Agents über zuvor gesehene Daten hinaus über Aufgaben und Umgebungen hinweg zu untersuchen. Experimente zeigen, dass die weiterentwickelten Agents Ergebnisse erzielen können, die mit SOTA-Modellen vergleichbar sind. Wir veröffentlichen die AgentGym-Suite einschließlich Plattform, Datensatz, Benchmark, Checkpoints und Algorithmus-Implementierungen. Die AgentGym-Suite ist unter https://github.com/WooooDyy/AgentGym verfügbar.

Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.

Dieser Artikel wurde mit einem GPT-Modell zusammengestellt und kann Fehler enthalten. Bitte beachten Sie daher auch den Originaltext weiter unten! Wenn Ihnen beim Lesen unnatürliche Formulierungen oder Fehler auffallen, hinterlassen Sie bitte einen Kommentar. 🤗

⚠️Werbung⚠️: War dieser von der 🔥PyTorch Korean User Group🇰🇷 zusammengestellte Artikel hilfreich? Wenn Sie sich als Mitglied registrieren, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standardmäßig wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.

[2024/06/03 ~ 06/09] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

NLLB: Neuronale maschinelle Übersetzung auf 200 Sprachen skalieren / Scaling neural machine translation to 200 languages

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Links

Konzepte aus GPT-4 extrahieren / Extracting Concepts from GPT-4

Forschungsüberblick

Paper-Zusammenfassung

Forschungs- und Paper-Links

Weiterführende Links

Transformer sind SSMs: Verallgemeinerte Modelle und effiziente Algorithmen durch strukturierte State-Space-Dualität / Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Paper-Vorstellung

Paper-Zusammenfassung (Abstract)

Paper-Link

Weiterführende Lektüre

Skalierbare, MatMul-freie Sprachmodellierung / Scalable MatMul-free Language Modeling

Paper-Vorstellung

Abstract

Paper-Link

Weiterführende Lektüre

Denkpuffer: gedankenaugmentiertes Schlussfolgern mit großen Sprachmodellen / Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Paper-Vorstellung

Abstract

Paper-Link

Weiterlesen

SaySelf: LLMs beibringen, Selbstvertrauen mit selbstreflektierenden Begründungen auszudrücken / SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterlesen

Die Geometrie kategorischer und hierarchischer Konzepte in großen Sprachmodellen / The Geometry of Categorical and Hierarchical Concepts in Large Language Models

Paper-Einführung

Paper-Zusammenfassung (Abstract)

Paper-Link

Weiterführende Lektüre

Zeigen, nicht sagen: Sprachmodelle an demonstriertem Feedback ausrichten / Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Auf dem Weg zu skalierbarer automatisierter Ausrichtung von LLMs: Ein Survey / Towards Scalable Automated Alignment of LLMs: A Survey

Paper-Einführung

Paper-Abstract (Abstract)

Paper-Link

Weiterführende Lektüre

AgentGym: Entwicklung großer sprachmodellbasierter Agenten über diverse Umgebungen hinweg / AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

Paper-Einführung

Paper-Abstract (Abstract)

Paper-Link

Weiterführende Links

Original

Verwandte Beiträge

Noch keine Kommentare.