[2024/05/13 ~ 05/19] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Wir haben den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.
Ein zentraler Trend, der sich in den diese Woche eingereichten Papers beobachten lässt, ist, dass viele Arbeiten einen Schwerpunkt auf Natural Language Processing (NLP) und Reinforcement Learning (RL) legen. So behandeln etwa „GPT-4o“, „Fine-tuning and Hallucinations“ und „Zero-shot Tokenizer Transfer“ neueste Techniken und Methoden im Bereich Natural Language Processing und untersuchen insbesondere Fortschritte bei generativen Modellen und dem Transferlernen von Tokenizern. Darüber hinaus präsentiert „RLHF Workflow“ Forschung zur Gestaltung effizienter Lernprozesse mithilfe von Reinforcement Learning, was als Versuch gesehen werden kann, die praktischen Anwendungsmöglichkeiten im RL-Bereich zu erweitern.
Dieser Trend spiegelt wider, dass die Bedeutung von Natural Language Processing und Reinforcement Learning, die eine Schlüsselrolle für den Fortschritt von KI-Technologien, insbesondere Machine Learning und Deep Learning, spielen, immer weiter zunimmt. Mit dem explosionsartigen Wachstum von Sprachgenerierungsmodellen wie GPT in den vergangenen Jahren hat sich auch ihr Anwendungsspektrum stetig erweitert. Das hat dazu geführt, dass Forschende großes Interesse daran entwickelt haben, diese Modelle noch präziser zu tunen und Schwächen bestehender Modelle auszugleichen. Zugleich hat sich Reinforcement Learning als wichtige Methode etabliert, um Entscheidungsprozesse zu optimieren und die Lernfähigkeit in komplexen Umgebungen zu verbessern, was mit dem aktuellen Forschungstrend zur Maximierung der Lerneffizienz eng zusammenhängt.
Daher zeigen die in dieser Woche eingereichten Papers sehr gut, in welche Richtung sich die Forschungs- und Entwicklungsanstrengungen in Wissenschaft und Industrie bewegen. Natural Language Processing ist ein Kernbereich von Technologien, die die Interaktion zwischen Mensch und Maschine natürlicher und effizienter gestalten sollen, während Reinforcement Learning eine wichtige Rolle bei der Optimierung von Entscheidungsprozessen spielt, die auf solchen Interaktionen basieren. Diese Forschungstrends werden auch künftig ein wichtiger Indikator für die zukünftige Ausrichtung von KI-Technologien sein, die sich weiterentwickeln werden.

GPT-4o

Einführung

Ein neues Modell mit multimodalen Reasoning-Fähigkeiten und Echtzeitunterstützung für Audio, visuelle Eingaben und Text. Es kann beliebige Kombinationen aus Text, Audio, Bild und Video als Eingabe akzeptieren und Kombinationen aus Text-, Audio- und Bildausgaben erzeugen. Über die API soll es bei gleicher Leistung wie GPT-4 Turbo mehr als 50 % schneller und günstiger sein.

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

Relevante Links

https://openai.com/index/hello-gpt-4o/

Weiterführende Links

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963

Gemini 1.5 Flash / Gemini 1.5 Flash

Paper-Einführung

Ein leichtgewichtiges Transformer-Decoder-Modell mit einem 2M-Kontextfenster und multimodalen Fähigkeiten, das auf Effizienz ausgelegt ist und in mehreren evaluierten Sprachen die schnellste Ausgabeerzeugung unter allen Modellen bietet. Insgesamt zeigt Gemini 1.5 Flash gegenüber Gemini 1.0 Pro durchgängig bessere Leistung und erreichte in mehreren Benchmarks sogar ein ähnliches Niveau wie 1.0 Ultra.

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

Paper-Abstract (Abstract)

In diesem Bericht stellen wir die Gemini-1.5-Modellfamilie vor, die die nächste Generation hochgradig recheneffizienter multimodaler Modelle repräsentiert und in der Lage ist, feingranulare Informationen aus Millionen von Kontext-Tokens zu erinnern und darüber zu schlussfolgern, darunter mehrere lange Dokumente sowie stundenlanges Video- und Audiomaterial. Diese Familie umfasst zwei neue Modelle: (1) ein aktualisiertes Gemini 1.5 Pro, das die Februar-Version bei der großen Mehrheit der Fähigkeiten und Benchmarks übertrifft, und (2) Gemini 1.5 Flash, eine leichtere Variante, die auf Effizienz bei minimalem Qualitätsverlust ausgelegt ist. Gemini-1.5-Modelle erreichen bei Long-Context-Retrieval-Aufgaben über mehrere Modalitäten hinweg nahezu perfekte Recall-Werte, verbessern den State of the Art bei Long-Document-QA, Long-Video-QA und Long-Context-ASR und erreichen oder übertreffen die State-of-the-Art-Leistung von Gemini 1.0 Ultra über eine breite Palette von Benchmarks hinweg. Die Untersuchung der Grenzen der Long-Context-Fähigkeiten von Gemini 1.5 zeigt, dass sich Next-Token-Prediction und nahezu perfektes Retrieval (>99 %) bis auf mindestens 10 Millionen Tokens weiter verbessern – ein Sprung von mehr als einer Generation gegenüber bestehenden Modellen wie Claude 3.0 (200k) und GPT-4 Turbo (128k). Abschließend beleuchten wir reale Anwendungsfälle, etwa die Zusammenarbeit von Gemini 1.5 mit Fachkräften bei der Erledigung ihrer Aufgaben, wodurch in 10 verschiedenen Berufskategorien Zeiteinsparungen von 26 bis 75 % erreicht wurden, sowie überraschende neue Fähigkeiten großer Sprachmodelle an der Grenze des Machbaren: Wenn das Modell ein Grammatikhandbuch für Kalamang erhält, eine Sprache mit weltweit weniger als 200 Sprechern, lernt es, Englisch auf einem ähnlichen Niveau wie eine Person, die mit demselben Material gelernt hat, ins Kalamang zu übersetzen.

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Paper-Link

https://storage.googleapis.com/deepmind-media/gemini/…

Weiterführende Lektüre

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515

Veo

Einführung

Das leistungsfähigste Videogenerierungsmodell von Google DeepMind erzeugt hochwertige Videos in 1080p-Auflösung mit einer Länge von mehr als 1 Minute, unterstützt maskiertes Editing in Videos, kann auch Videos aus einem zusammen mit Text eingegebenen Bild generieren und Videoclips mit seinem Latent Diffusion Transformer unter Wahrung der Konsistenz auf 60 Sekunden und mehr erweitern.

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

Zugehörige Links

https://deepmind.google/technologies/veo/

Weiterführende Lektüre

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Paper-Einführung

Eine Familie tokenbasierter Mixed-Modal-Modelle zur Generierung von Bildern und Text in beliebiger Reihenfolge; erzielt State-of-the-Art-Leistung bei der Bildbeschreibung, übertrifft Llama 2 bei reinen Textaufgaben und ist auch gegenüber Mixtral 8x7B und Gemini-Pro konkurrenzfähig; übertrifft Gemini Pro und GPT-4V bei einer neuen Evaluierung zur gemischt-modalen Long-Form-Generierung.

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

Paper-Abstract

Wir präsentieren Chameleon, eine Familie von Early-Fusion-, tokenbasierten Mixed-Modal-Modellen, die Bilder und Text in beliebiger Reihenfolge verstehen und erzeugen können. Wir beschreiben einen von Anfang an stabilen Trainingsansatz, ein Alignment-Rezept sowie eine auf das Early-Fusion-, tokenbasierte Mixed-Modal-Setting zugeschnittene architektonische Parametrisierung. Die Modelle werden anhand eines umfassenden Aufgabenspektrums evaluiert, darunter Visual Question Answering, Bildbeschreibung, Textgenerierung, Bildgenerierung und langformatige Mixed-Modal-Generierung. Chameleon zeigt breite und allgemeine Fähigkeiten, darunter State-of-the-Art-Leistung bei Bildbeschreibungsaufgaben, übertrifft Llama-2 bei reinen Textaufgaben, ist gleichzeitig konkurrenzfähig mit Modellen wie Mixtral 8x7B und Gemini-Pro und beherrscht zudem nicht-triviale Bildgenerierung – alles in einem einzigen Modell. Darüber hinaus erreicht oder übertrifft es laut menschlichen Bewertungen in einer neuen Evaluierung für langformatige Mixed-Modal-Generierung die Leistung deutlich größerer Modelle, darunter Gemini Pro und GPT-4V, wobei entweder der Prompt oder die Ausgaben gemischte Sequenzen aus Bildern und Text enthalten. Chameleon markiert einen bedeutenden Fortschritt hin zu einer einheitlichen Modellierung vollständiger multimodaler Dokumente.

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Paper-Link

https://arxiv.org/abs/2405.09818

Weiterführende Lektüre

https://x.com/AIatMeta/status/1791263344714014733

Fördert das Fine-Tuning von LLMs mit neuem Wissen Halluzinationen? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Paper-Vorstellung

Die Arbeit untersucht die Auswirkungen von Fine-Tuning mit neuem Wissen auf die Halluzinationsneigung von LLMs, verwendet ein Setup mit Fine-Tuning-Beispielen, die neues Wissen enthalten, zeigt, dass LLMs Schwierigkeiten haben, durch Fine-Tuning neues faktisches Wissen zu erwerben, und stellt außerdem fest, dass mit zunehmendem Lernen neuen Wissens auch die Halluzinationsneigung des Modells steigt.

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

Paper-Abstract

Wenn große Sprachmodelle mittels überwachtem Fine-Tuning ausgerichtet werden, können sie auf neue faktische Informationen treffen, die nicht durch das Pre-Training erworben wurden. In diesem Fall wird mitunter vermutet, dass das Modell dadurch das Verhalten erlernt, faktisch falsche Antworten zu halluzinieren, da es darauf trainiert wird, Fakten zu erzeugen, die nicht in seinem bereits vorhandenen Wissen verankert sind. In dieser Arbeit untersuchen wir die Auswirkungen einer solchen Exposition gegenüber neuem Wissen auf die Fähigkeit des feinabgestimmten Modells, sein bereits vorhandenes Wissen zu nutzen. Dazu entwerfen wir ein kontrolliertes Setup mit Fokus auf Closed-Book-QA, in dem wir den Anteil der Fine-Tuning-Beispiele variieren, die neues Wissen einführen. Wir zeigen, dass große Sprachmodelle Schwierigkeiten haben, durch Fine-Tuning neues faktisches Wissen zu erwerben, da Fine-Tuning-Beispiele, die neues Wissen einführen, deutlich langsamer gelernt werden als solche, die mit dem Wissen des Modells übereinstimmen. Wir stellen jedoch auch fest, dass die Halluzinationsneigung des Modells linear zunimmt, sobald die Beispiele mit neuem Wissen schließlich gelernt werden. Zusammengenommen heben unsere Ergebnisse die Risiken hervor, die mit der Einführung neuen faktischen Wissens durch Fine-Tuning verbunden sind, und stützen die Auffassung, dass große Sprachmodelle faktisches Wissen überwiegend im Pre-Training erwerben, während Fine-Tuning ihnen beibringt, es effizienter zu nutzen.

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

Paper-Link

https://arxiv.org/abs/2405.05904

Weiterführende Lektüre

https://x.com/arankomatsuzaki/status/1788859706187882960

Zero-Shot Tokenizer Transfer / Zero-Shot Tokenizer Transfer

Paper-Vorstellung

Es wird ein Hypernetwork trainiert, das einen Tokenizer als Eingabe erhält und die zugehörigen Embeddings vorhersagt; außerdem wird gezeigt, dass es sowohl bei Encoder- als auch bei Decoder-LLMs auf neue Tokenizer generalisiert, und es wird berichtet, dass diese Methode bei mehrsprachigen und Coding-Aufgaben eine Leistung nahe am ursprünglichen Modell erreicht und gleichzeitig die Länge der tokenisierten Sequenz reduziert.

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

Abstract

Sprachmodelle (LMs) sind an ihren Tokenizer gebunden, der Rohtext auf eine Folge von Vokabulareinträgen (Tokens) abbildet. Dadurch ist ihre Flexibilität eingeschränkt: So können beispielsweise primär auf Englisch trainierte LMs in anderen natürlichen Sprachen und Programmiersprachen weiterhin gut funktionieren, sind wegen ihres englischzentrierten Tokenizers jedoch deutlich ineffizienter. Um das zu entschärfen, sollte es möglich sein, den ursprünglichen LM-Tokenizer ohne Leistungsverlust on the fly durch einen beliebigen anderen zu ersetzen. Daher definieren wir in dieser Arbeit ein neues Problem: Zero-Shot Tokenizer Transfer (ZeTT). Die zentrale Herausforderung von ZeTT besteht darin, Embeddings für die Tokens im Vokabular des neuen Tokenizers zu finden. Da frühere Heuristiken zur Initialisierung von Embeddings im ZeTT-Setting oft nur Zufallsniveau erreichen, schlagen wir eine neue Lösung vor: Wir trainieren ein Hypernetwork, das einen Tokenizer als Eingabe erhält und die entsprechenden Embeddings vorhersagt. Wir zeigen empirisch, dass das Hypernetwork sowohl bei Encodern (z. B. XLM-R) als auch bei Decoder-LLMs (z. B. Mistral-7B) auf neue Tokenizer generalisiert. Unsere Methode kommt in mehrsprachigen und Coding-Aufgaben nahe an die Leistung der ursprünglichen Modelle heran und reduziert zugleich die Länge der tokenisierten Sequenz deutlich. Außerdem stellen wir fest, dass sich die verbleibende Lücke durch weiteres Training auf weniger als 1B Tokens schnell schließen lässt. Schließlich zeigen wir, dass ein für ein Basis-(L)LM trainiertes ZeTT-Hypernetwork auch ohne zusätzliches Training auf feinabgestimmte Varianten angewendet werden kann. Insgesamt machen unsere Ergebnisse erhebliche Fortschritte dabei, LMs von ihrem Tokenizer zu entkoppeln.

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

Paper-Link

https://arxiv.org/abs/2405.07883

Weiterführende Lektüre

https://x.com/bminixhofer/status/1790267652587258343

WavCraft: Audiobearbeitung und -generierung mit großen Sprachmodellen / WavCraft: Audio Editing and Generation with Large Language Models

Paper-Vorstellung

Es nutzt LLMs, um aufgabenspezifische Modelle für die Erstellung und Bearbeitung von Audioinhalten zu verbinden, zerlegt Anweisungen der Nutzer in mehrere Aufgaben und bearbeitet jede davon gemeinsam mit dem jeweiligen Modul; so können Nutzer mit Audioinhalten interagieren und sie erstellen, ohne explizite Befehle eingeben zu müssen.

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

Abstract

Wir stellen WavCraft vor, ein umfassendes System, das große Sprachmodelle (LLMs) nutzt, um verschiedene aufgabenspezifische Modelle für die Erstellung und Bearbeitung von Audioinhalten zu verbinden. Konkret beschreibt WavCraft den Inhalt roher Audiomaterialien in natürlicher Sprache und steuert das LLM auf Basis von Audiobeschreibungen und Nutzeranfragen. WavCraft nutzt die In-Context-Learning-Fähigkeit des LLM, um Nutzeranweisungen in mehrere Aufgaben zu zerlegen und jede Aufgabe gemeinsam mit dem jeweiligen Modul zu bearbeiten. Durch Aufgabenzerlegung zusammen mit einer Reihe aufgabenspezifischer Modelle erstellt oder bearbeitet WavCraft Audioinhalte gemäß der Eingabeanweisung mit mehr Details und Begründungen und erleichtert so die Nutzerkontrolle. Darüber hinaus kann WavCraft über dialogbasierte Interaktion mit Nutzern zusammenarbeiten und sogar ohne ausdrückliche Nutzerbefehle Audioinhalte erzeugen. Experimente zeigen, dass WavCraft eine bessere Leistung als bestehende Methoden erzielt, insbesondere bei der Anpassung lokaler Bereiche von Audioclips. Außerdem kann WavCraft komplexen Anweisungen folgen, um Audioinhalte auf Basis eingegebener Aufnahmen zu bearbeiten und zu erstellen, und so Audioproduzenten in einem breiten Anwendungsspektrum unterstützen. Implementierung und Demos sind hier verfügbar (https://github.com/JinhuaLiang/WavCraft).

We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.

Paper-Link

https://arxiv.org/abs/2403.09527v3

Weiterführende Links

https://github.com/JinhuaLiang/WavCraft

RLHF-Workflow: Von Reward Modeling bis zu Online-RLHF / RLHF Workflow: From Reward Modeling to Online RLHF

Paper-Einführung

Es wird ein leicht reproduzierbares Rezept für iteratives Online-RLHF bereitgestellt und theoretische Einsichten, algorithmische Prinzipien sowie die praktische Implementierung von iterativem Online-RLHF erläutert.

Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.

Paper-Abstract

In diesem technischen Bericht stellen wir den Workflow des Online Iterative Reinforcement Learning from Human Feedback (RLHF) vor, das in der jüngeren Literatur zu großen Sprachmodellen (LLMs) weithin als seinem Offline-Gegenstück deutlich überlegen beschrieben wird. Bestehende Open-Source-RLHF-Projekte sind jedoch weiterhin weitgehend auf das Offline-Lernsetting beschränkt. Mit diesem technischen Bericht wollen wir diese Lücke schließen und ein detailliertes, leicht reproduzierbares Vorgehensrezept für Online Iterative RLHF bereitstellen. Da Online-Human-Feedback insbesondere für ressourcenbeschränkte Open-Source-Communities in der Regel nicht praktikabel ist, beginnen wir mit dem Aufbau von Präferenzmodellen anhand eines vielfältigen Satzes von Open-Source-Datensätzen und verwenden das daraus konstruierte Proxy-Präferenzmodell, um Human-Feedback zu approximieren. Anschließend diskutieren wir die theoretischen Einsichten und algorithmischen Prinzipien hinter Online Iterative RLHF und gehen danach auf die detaillierte praktische Implementierung ein. Unser trainiertes LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, erzielt beeindruckende Leistungen auf LLM-Chatbot-Benchmarks, darunter AlpacaEval-2, Arena-Hard und MT-Bench, sowie auf weiteren akademischen Benchmarks wie HumanEval und TruthfulQA. Wir haben gezeigt, dass Supervised Fine-Tuning (SFT) und iteratives RLHF mit vollständig offenen Open-Source-Datensätzen State-of-the-Art-Leistung erreichen können. Darüber hinaus haben wir unsere Modelle, kuratierten Datensätze und umfassenden Schritt-für-Schritt-Code-Guidebooks öffentlich verfügbar gemacht. Weitere Informationen finden sich unter https://github.com/RLHFlow/RLHF-Reward-Modeling und https://github.com/RLHFlow/Online-RLHF.

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Paper-Link

https://arxiv.org/abs/2405.07863v1

Weiterlesen

https://github.com/RLHFlow/RLHF-Reward-Modeling und https://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776

Nur einmal cachen: Decoder-Decoder-Architekturen für Sprachmodelle / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Paper-Einführung

Eine Decoder-Decoder-LLM-Architektur, die Key-Value-Paare nur einmal cached, setzt einen Cross-Decoder auf einen Self-Decoder, der globale Key-Value-Caches effizient kodiert; der Cross-Encoder nutzt den Cache dann per Cross-Attention erneut. Dadurch wird die GPU-Speichernutzung deutlich reduziert, ohne Fähigkeiten einzubüßen, und es wird in verschiedenen Settings beim Skalieren von Modellgröße und Anzahl der Trainingstokens eine mit Transformer vergleichbare Leistung erreicht.

A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.

Paper-Abstract

Wir stellen YOCO vor, eine Decoder-Decoder-Architektur für Large Language Models, die Schlüssel-Wert-Paare nur einmal zwischenspeichert. Sie besteht aus zwei Komponenten: einem Cross-Decoder, der auf einem Self-Decoder aufbaut. Der Self-Decoder kodiert effizient globale Schlüssel-Wert-(KV)-Caches, die vom Cross-Decoder über Cross-Attention wiederverwendet werden. Das Gesamtmodell verhält sich wie ein reiner Decoder-Transformer, obwohl YOCO nur einmal cacht. Dieses Design reduziert den GPU-Speicherbedarf erheblich und behält gleichzeitig die Fähigkeit zu globaler Attention bei. Darüber hinaus ermöglicht der Rechenfluss, das Prefilling per Early Exit zu beenden, ohne die endgültige Ausgabe zu verändern, wodurch die Prefill-Phase deutlich beschleunigt wird. Experimentelle Ergebnisse zeigen, dass YOCO im Vergleich zu Transformer in verschiedenen Settings zur Skalierung von Modellgröße und Anzahl der Trainingstokens eine vorteilhafte Performance erzielt. Zudem wurde YOCO auf eine Kontextlänge von 1M mit nahezu perfekter Needle-Retrieval-Genauigkeit erweitert. Profiling-Ergebnisse zeigen, dass YOCO Inference-Speicher, Prefill-Latenz und Durchsatz über verschiedene Kontextlängen und Modellgrößen hinweg um Größenordnungen verbessert. Der Code ist unter https://aka.ms/YOCO verfügbar.

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

Paper-Link

https://arxiv.org/abs/2405.05254

Weiterführende Links

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098

CAT3D: Alles in 3D erstellen mit Multi-View-Diffusionsmodellen / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Paper-Vorstellung

Es wird eine Methode vorgestellt, mit der sich mithilfe eines Multi-View-Diffusionsmodells durch Simulation des realen Aufnahmeprozesses alles in 3D erzeugen lässt. Dabei werden konsistente neue Ansichten einer Szene generiert, die als Eingabe für 3D-Rekonstruktionstechniken verwendet werden können, um eine in Echtzeit renderbare 3D-Repräsentation zu erzeugen. Szenen mit CAT3D lassen sich in weniger als einer Minute erstellen und sollen bei der 3D-Szenenerzeugung aus einem einzelnen Bild oder wenigen Ansichten bestehende Methoden übertreffen.

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

Paper-Abstract

Fortschritte in der 3D-Rekonstruktion haben hochwertige 3D-Erfassung ermöglicht, doch für die Erstellung einer 3D-Szene müssen Nutzer Hunderte bis Tausende von Bildern sammeln. Unity stellt CAT3D vor, eine Methode, mit der sich durch Simulation dieses realen Erfassungsprozesses mit einem Multi-View-Diffusionsmodell alles in 3D erstellen lässt. Bei beliebig vielen Eingabebildern und einer Menge gewünschter neuer Blickwinkel generiert das Modell von Unity hochgradig konsistente neue Ansichten einer Szene. Diese generierten Ansichten können als Eingabe für robuste 3D-Rekonstruktionsverfahren genutzt werden, um 3D-Repräsentationen zu erzeugen, die aus jedem Blickwinkel in Echtzeit gerendert werden können. CAT3D kann vollständige 3D-Szenen in nur einer Minute erstellen und übertrifft bestehende Verfahren bei der Erzeugung von 3D-Szenen aus Einzelbildern und wenigen Ansichten. Ergebnisse und interaktive Demos finden sich auf der Projektseite unter https://cat3d.github.io.

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt und kann daher Fehler enthalten. Bitte beachten Sie auch den Originaltext am Ende des Beitrags. Wenn Ihnen beim Lesen unnatürliche Formulierungen oder inhaltliche Fehler auffallen, teilen Sie uns dies bitte in den Kommentaren mit. 🤗

⚠️Werbung⚠️: Fanden Sie diesen von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellten Artikel nützlich? Wenn Sie Mitglied werden, schicken wir Ihnen wichtige Beiträge per E-Mail💌! (Standard ist Weekly, aber Sie können auch zu Daily wechseln.)

[2024/05/13 ~ 05/19] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

GPT-4o

Einführung

Relevante Links

Weiterführende Links

Gemini 1.5 Flash / Gemini 1.5 Flash

Paper-Einführung

Paper-Abstract (Abstract)

Paper-Link

Weiterführende Lektüre

Veo

Einführung

Zugehörige Links

Weiterführende Lektüre

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Fördert das Fine-Tuning von LLMs mit neuem Wissen Halluzinationen? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Zero-Shot Tokenizer Transfer / Zero-Shot Tokenizer Transfer

Paper-Vorstellung

Abstract

Paper-Link

Weiterführende Lektüre

WavCraft: Audiobearbeitung und -generierung mit großen Sprachmodellen / WavCraft: Audio Editing and Generation with Large Language Models

Paper-Vorstellung

Abstract

Paper-Link

Weiterführende Links

RLHF-Workflow: Von Reward Modeling bis zu Online-RLHF / RLHF Workflow: From Reward Modeling to Online RLHF

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterlesen

Nur einmal cachen: Decoder-Decoder-Architekturen für Sprachmodelle / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Links

CAT3D: Alles in 3D erstellen mit Multi-View-Diffusionsmodellen / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Links

Originaltext

Verwandte Beiträge

Noch keine Kommentare.