17] Wichtige ML-Papers dieser Woche bei Attention (Top ML Papers of the Week)

(discuss.pytorch.kr)

4 Punkte von ninebow 2024-03-19 | 6 Kommentare | Auf WhatsApp teilen

[2024/03/11 ~ 03/17] Wichtige ML-Papers dieser Woche bei Attention (Top ML Papers of the Week)

Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.
Diese Woche zeichneten sich Papers zu Large Language Models (LLMs) als wichtiger Trend ab. Dass mehrere Arbeiten sich auf LLMs konzentrieren, um verschiedene Probleme zu lösen oder besser zu verstehen, zeigt diese Tendenz deutlich. So beschäftigen sich etwa "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs" und "LLMs Predict Neuroscience Results" mit Large Language Models oder mit Fragen rund um deren Leistung. Auch ein Paper wie "Stealing Part of a Production Language Model" zeigt, dass Sprachmodelle unter Sicherheitsaspekten erforscht werden.
Diese Entwicklung scheint die tiefgreifenden Veränderungen und den Einfluss widerzuspiegeln, die Large Language Models in den vergangenen Jahren in der KI-Forschungsgemeinschaft ausgelöst haben. Large Language Models etablieren sich nicht nur im Natural Language Processing (NLP), sondern auch in vielen anderen Domänen als effektive Foundation Models. Entsprechend zeigen LLMs eine hohe Leistung bei verschiedensten Aufgaben des Sprachverstehens und der Sprachgenerierung und werden darüber hinaus auch in der angewandten Forschung breit untersucht. Zusätzlich verweisen Arbeiten wie "Multimodal LLM Pre-training" auf aktuelle Forschungstrends, bei denen LLMs mit anderen Datenformen wie Bildern und Sprache kombiniert werden, um multimodale Lernfähigkeiten zu stärken.
Auf Grundlage dieser Analyse ist zu erwarten, dass die Forschung zu LLMs auch künftig das Sprachverstehen weiter verbessern, sich auf neue Anwendungsfelder ausdehnen und eine wichtige Rolle für den Fortschritt der KI-Technologie spielen wird. Dabei dürften nicht nur Leistungssteigerungen von LLMs untersucht werden, sondern auch ein breites Spektrum an Fragen aus Anwendungsforschung, Sicherheit und Ethik.

SIMA / SIMA

Paper-Einführung

Ein generalistischer KI-Agent für 3D-virtuelle Umgebungen, der in einem breiten Spektrum von 3D-Welten und Videospielen natürlichsprachige Anweisungen befolgt; bewertet wird SIMA anhand von 600 grundlegenden Fähigkeiten, darunter Navigation, Objektinteraktion und die Nutzung von Menüs. Sprache scheint ein enorm wichtiger Faktor für die Leistung zu sein.

A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.

Abstract

Der Aufbau verkörperter KI-Systeme, die in jeder 3D-Umgebung beliebige sprachliche Anweisungen befolgen können, ist eine zentrale Herausforderung auf dem Weg zu allgemeiner KI. Um dieses Ziel zu erreichen, muss gelernt werden, Sprache in Wahrnehmung und verkörperte Handlungen einzubetten, um komplexe Aufgaben ausführen zu können. Das Projekt Scalable, Instructable, Multiworld Agent (SIMA) geht dieses Problem an, indem Agenten darauf trainiert werden, frei formulierten Anweisungen über eine vielfältige Bandbreite virtueller 3D-Umgebungen hinweg zu folgen. Dazu gehören kuratierte Forschungsumgebungen ebenso wie offene kommerzielle Videospiele. Das Ziel ist es, einen anweisbaren Agenten zu entwickeln, der in jeder simulierten 3D-Umgebung alles ausführen kann, was ein Mensch tun kann. Der Ansatz fokussiert sich auf sprachgetriebene Generalität bei möglichst wenigen Annahmen. Die Agenten interagieren in Echtzeit über eine generische, menschenähnliche Schnittstelle mit den Umgebungen. Eingaben sind Bildbeobachtungen und sprachliche Anweisungen, Ausgaben sind Tastatur- und Mausaktionen. Dieser allgemeine Ansatz ist anspruchsvoll, bietet aber den Vorteil, dass Agenten Sprache über viele visuell komplexe und semantisch reichhaltige Umgebungen hinweg verankern können und sich zugleich leicht in neuen Umgebungen ausführen lassen. In diesem Paper beschreiben wir unsere Motivation und Zielsetzung, die bisherigen Anfangsfortschritte sowie vielversprechende vorläufige Ergebnisse in mehreren unterschiedlichen Forschungsumgebungen und einer Reihe kommerzieller Videospiele.

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Paper-Link

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Weiterführende Links

https://discuss.pytorch.kr/t/gn-google-sima-3d-ai/3764

https://x.com/GoogleDeepMind/status/1767918515585994818

RAT: Long-Horizon-Generierung mit Retrieval-Augmented Thoughts für kontextbewusstes Schlussfolgern / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Paper-Einführung

Es wird gezeigt, dass das iterative Überarbeiten einer Gedankenkette mithilfe von Information Retrieval die Inferenz und Generierung von LLMs bei Long-Horizon-Generierungsaufgaben deutlich verbessern kann. Die Kernidee ist, dass jeder Denkschritt mit abgerufenen Informationen überarbeitet wird, die für die Aufgabenanfrage sowie für aktuelle und frühere Denkschritte relevant sind. Retrieval-Augmented Thoughts (RAT) kann auf verschiedene Modelle wie GPT-4 und CodeLLaMA-7b angewendet werden, um Long-Horizon-Generierungsaufgaben (z. B. kreatives Schreiben und verkörperte Aufgabenplanung) zu verbessern; RAT ist ein Zero-Shot-Prompting-Ansatz und verbessert Baselines wie Zero-Shot-CoT-Prompting, Vanilla RAG und andere Baselines deutlich.

Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.

Paper Abstract

Wir untersuchen, wie das iterative Überarbeiten einer Gedankenkette mit Hilfe von Information Retrieval die Schlussfolgerungs- und Generierungsfähigkeit großer Sprachmodelle bei Long-Horizon-Generierungsaufgaben deutlich verbessert und gleichzeitig Halluzinationen stark reduziert. Insbesondere überarbeitet die vorgeschlagene Methode Retrieval-Augmented Thoughts (RAT) nach der Erzeugung einer initialen Zero-Shot-CoT jeden Denkschritt einzeln anhand abgerufener Informationen, die für die Aufgabenanfrage sowie für den aktuellen und die vergangenen Denkschritte relevant sind. Die Anwendung von RAT auf GPT-3.5, GPT-4 und CodeLLaMA-7b verbessert deren Leistung bei verschiedenen Long-Horizon-Generierungsaufgaben erheblich; im Durchschnitt steigen die Bewertungswerte relativ um 13,63 % bei Code-Generierung, 16,96 % bei mathematischem Schlussfolgern, 19,2 % beim kreativen Schreiben und 42,78 % bei verkörperter Aufgabenplanung. Die Demo-Seite ist unter https://craftjarvis.github.io/RAT zu finden

We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT

Paper Link

https://arxiv.org/abs/2403.05313

Weiterführende Lektüre

https://x.com/omarsar0/status/1767251740443746435

Quiet-STaR: Sprachmodelle können lernen, vor dem Sprechen selbst zu denken / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Paper Intro

Stellt mit Quiet-STaR eine Verallgemeinerung von STaR vor, um Sprachmodellen (LMs) zu ermöglichen, Schlussfolgern auf allgemeinere und besser skalierbare Weise zu lernen; Quiet-STaR ermöglicht es LMs, für jedes Token Begründungen zu erzeugen, um zukünftigen Text zu erklären; vorgeschlagen wird ein tokenweiser paralleler Sampling-Algorithmus, der die Vorhersagen von LMs verbessert, indem er interne Gedanken effizient erzeugt; die Erzeugung von Begründungen wird mit REINFORCE verbessert.

Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.

Paper Abstract

Beim Schreiben und Sprechen halten Menschen manchmal inne, um nachzudenken. In Arbeiten mit Fokus auf Reasoning wird Schlussfolgern oft als Methode zum Beantworten von Fragen oder zum Erledigen agentischer Aufgaben dargestellt, doch tatsächlich ist es in nahezu jedem geschriebenen Text implizit enthalten. Das gilt etwa für nicht ausgeschriebene Zwischenschritte in einem Beweis oder für die Theory of Mind, die einem Gespräch zugrunde liegt. Im Self-Taught Reasoner (STaR, Zelikman et al. 2022) wird nützliches Denken gelernt, indem bei der Beantwortung von Fragen aus wenigen Beispielen Begründungen erschlossen und aus den Beispielen gelernt wird, die zur richtigen Antwort führen. Idealerweise sollte ein Sprachmodell jedoch lernen können, in beliebigem Text nicht explizit genannte Begründungen zu erschließen; das bisherige Setting ist stark eingeschränkt. Wir stellen Quiet-STaR vor, eine verallgemeinerte Version von STaR, bei der LMs lernen, an jedem Token Begründungen zu erzeugen, um zukünftigen Text zu erklären und dadurch ihre Vorhersagen zu verbessern. Wir adressieren zentrale Herausforderungen, darunter 1) die Rechenkosten für das Erzeugen von Fortsetzungen, 2) die Tatsache, dass das LM anfangs nicht weiß, wie es interne Gedanken erzeugen oder nutzen soll, und 3) die Notwendigkeit, über einzelne nächste Tokens hinaus vorherzusagen. Zur Lösung schlagen wir einen tokenweisen parallelen Sampling-Algorithmus vor, der lernbare Tokens zur Markierung von Beginn und Ende eines Gedankens sowie eine erweiterte Teacher-Forcing-Technik verwendet. Ermutigend ist, dass die erzeugten Begründungen überproportional dabei helfen, schwer vorherzusagende Tokens zu modellieren, und die Fähigkeit des LM verbessern, schwierige Fragen direkt zu beantworten. Insbesondere fanden wir nach fortgesetztem Pretraining eines LM auf einem Korpus aus Internettexten mit Quiet-STaR Zero-Shot-Verbesserungen auf GSM8K (5.9% $\rightarrow$ 10.9%) und CommonsenseQA (36.3% $\rightarrow$ 47.2%) und beobachteten eine Verbesserung der Perplexity bei schwierigen Tokens in natürlichem Text. Entscheidend ist, dass diese Verbesserungen kein Fine-Tuning auf diesen Aufgaben erfordern. Quiet-STaR ist ein Schritt hin zu LMs, die auf allgemeinere und skalierbarere Weise Schlussfolgern lernen können.

When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.

Paper-Link

https://arxiv.org/abs/2403.09629

Weiterführende Lektüre

https://x.com/omarsar0/status/1768681638009975088

Wissenskonflikte für LLMs: Eine Umfrage / Knowledge Conflicts for LLMs: A Survey

Vorstellung des Papers

Dieses Survey-Paper klassifiziert das beim Arbeiten mit LLMs häufig auftretende Problem von Wissenskonflikten in Kontext-Speicher-, Kontext-übergreifende und Intra-Speicher-Konflikte und bietet Einblicke in Ursachen sowie mögliche Ansätze zur Abschwächung dieser Wissenskonflikte.

An overview of the common issue of knowledge conflict when working with llms; the survey paper categorizes these conflicts into context-memory, inter-context, and intra-memory conflict; it also provides insights into causes and potential ways to mitigate these knowledge conflict issues.

Abstract des Papers

Diese Übersichtsarbeit bietet eine eingehende Analyse von Wissenskonflikten bei Large Language Models (LLMs) und hebt die komplexen Herausforderungen hervor, die beim Vermischen von kontextuellem und parametrischem Wissen entstehen. Im Fokus stehen dabei drei Kategorien von Wissenskonflikten: Kontext-Speicher-, Inter-Kontext- und Intra-Speicher-Konflikte. Diese Konflikte können die Vertrauenswürdigkeit und Leistung von LLMs erheblich beeinträchtigen, insbesondere in realen Anwendungen, in denen Rauschen und Fehlinformationen häufig vorkommen. Durch die Kategorisierung dieser Konflikte, die Untersuchung ihrer Ursachen, die Analyse des Verhaltens von LLMs unter solchen Konflikten sowie die Sichtung verfügbarer Lösungen will diese Übersichtsarbeit Strategien zur Verbesserung der Robustheit von LLMs aufzeigen und damit als wertvolle Ressource für die Weiterentwicklung der Forschung in diesem sich entwickelnden Bereich dienen.

This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.

Paper-Link

https://arxiv.org/abs/2403.08319

Weiterführende Lektüre

https://x.com/omarsar0/status/1768288774532858003

Einen Teil eines produktiven Sprachmodells stehlen / Stealing Part of a Production Language Model

Paper-Einführung

Es wird der erste Model-Stealing-Angriff vorgestellt, der Informationen aus produktiven Sprachmodellen wie ChatGPT oder PaLM-2 extrahiert, und gezeigt, dass es möglich ist, die Embedding-Projektionsschicht eines transformerbasierten Modells über typischen API-Zugriff zu rekonstruieren; als Beispiel wird gezeigt, dass die gesamte Projektionsmatrix der openai-Modelle ada und babbage für weniger als 20 US-Dollar extrahiert wurde.

Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.

Paper-Abstract

Es wird der erste Model-Stealing-Angriff vorgestellt, der präzise und nichttriviale Informationen aus Blackbox-Produktionssprachmodellen wie OpenAIs ChatGPT oder Googles PaLM-2 extrahiert. Konkret rekonstruiert dieser Angriff die Embedding-Projektionsschicht (bis auf Symmetrien) eines Transformer-Modells bei typischem API-Zugriff. Für weniger als 20 US-Dollar extrahiert der Angriff die gesamte Projektionsmatrix der OpenAI-Sprachmodelle Ada und Babbage. Damit wird erstmals bestätigt, dass diese Blackbox-Modelle eine versteckte Dimension von 1024 bzw. 2048 haben. Außerdem wird die exakte Größe der versteckten Dimension des Modells gpt-3.5-turbo rekonstruiert, und es wird geschätzt, dass die Wiederherstellung der gesamten Projektionsmatrix weniger als 2.000 US-Dollar an Abfragekosten verursachen würde. Abschließend werden potenzielle Abwehr- und Minderungsmaßnahmen vorgestellt und die Implikationen möglicher zukünftiger Arbeiten diskutiert, die diesen Angriff erweitern könnten.

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.

Paper-Link

https://arxiv.org/abs/2403.06634

Weiterführende Lektüre

https://x.com/omarsar0/status/1767641831079067694

Branch-Train-MiX: Experten-LLMs zu einem Mixture-of-Experts-LLM zusammenführen / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Paper-Einführung

Vorgeschlagen wird, Experten-LLMs in ein Mixture-of-Experts-LLM zu überführen, als recheneffizienteren Ansatz für das Training von LLMs. Es zeigt sich, dass dieser Ansatz effizienter ist als das Training eines größeren generalistischen LLMs oder mehrerer separater spezialisierter LLMs. Der Ansatz, BTX, trainiert zunächst parallel mehrere Kopien eines Seed-LLM, die auf unterschiedliche Domänen spezialisiert sind (also Experten-LLMs), führt diese dann mithilfe von MoE-Feed-Forward-Schichten in einem einzelnen LLM zusammen und nimmt anschließend ein Fine-Tuning des gesamten vereinheitlichten Modells vor.

Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.

Paper-Abstract

Wir untersuchen effiziente Methoden, um Large Language Models (LLMs) so zu trainieren, dass sie Fähigkeiten in mehreren spezialisierten Bereichen wie Coding, mathematischem Schlussfolgern und Weltwissen besitzen. Unsere Methode mit dem Namen BTX (Branch-Train-MiX) startet von einem Seed-Modell, das verzweigt wird, um Experten mit hohem Durchsatz und reduzierten Kommunikationskosten in stark parallelisierbarer Weise zu trainieren. Nachdem die einzelnen Experten asynchron trainiert wurden, führt BTX ihre Feedforward-Parameter als Experten in Mixture-of-Experts-(MoE-)Schichten zusammen und mittelt die übrigen Parameter; anschließend folgt eine MoE-Finetuning-Phase, um Token-Level-Routing zu lernen. BTX verallgemeinert zwei Spezialfälle: die Branch-Train-Merge-Methode, die keine MoE-Finetuning-Phase zum Erlernen des Routings besitzt, und Sparse Upcycling, bei dem die Phase des asynchronen Trainings der Experten entfällt. Im Vergleich zu alternativen Ansätzen erreicht BTX den besten Trade-off zwischen Genauigkeit und Effizienz.

We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

Paper-Link

https://arxiv.org/abs/2403.07816

Weiterlesen

https://x.com/jaseweston/status/1767727740952682667

Large Language Models übertreffen menschliche Experten bei der Vorhersage neurowissenschaftlicher Ergebnisse / Large language models surpass human experts in predicting neuroscience results

Paper-Vorstellung

Es wird BrainBench vorgeschlagen, ein Benchmark zur Bewertung der Fähigkeit von Machine Learning, neurowissenschaftliche Ergebnisse vorherzusagen; zudem wird festgestellt, dass Machine Learning Experten bei der Vorhersage experimenteller Resultate übertrifft und dass auf neurowissenschaftliche Literatur abgestimmtes Machine Learning noch bessere Leistung zeigt.

Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.

Paper-Abstract

Wissenschaftliche Entdeckungen hängen oft davon ab, jahrzehntelange Forschung zu synthetisieren — eine Aufgabe, die die menschlichen Informationsverarbeitungskapazitäten potenziell übersteigen kann. Large Language Models (LLMs) bieten hier eine Lösung. Auf der umfangreichen wissenschaftlichen Literatur trainierte LLMs könnten potenziell verrauschte, aber miteinander verknüpfte Erkenntnisse integrieren, um neue Ergebnisse besser vorherzusagen als menschliche Experten. Um diese Möglichkeit zu bewerten, haben wir BrainBench entwickelt, einen zukunftsorientierten Benchmark zur Vorhersage neurowissenschaftlicher Ergebnisse. Wir stellen fest, dass LLMs Experten bei der Vorhersage experimenteller Resultate übertreffen. BrainGPT, ein von uns auf neurowissenschaftlicher Literatur feinabgestimmtes LLM, zeigte eine noch bessere Leistung. Wie menschliche Experten lagen auch LLMs mit ihren Vorhersagen eher richtig, wenn sie sich ihrer Vorhersagen sicher waren — ein Hinweis auf eine Zukunft, in der Menschen und LLMs gemeinsam Entdeckungen machen. Unser Ansatz ist nicht auf die Neurowissenschaften beschränkt und lässt sich auf andere wissensintensive Bereiche übertragen.

Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.

Paper-Link

https://arxiv.org/abs/2403.03230

Weiterlesen

https://x.com/ProfData/status/1765689739682754824

C4AI Command-R

Paper-Vorstellung

command-r ist ein Modell mit 35 Milliarden Parametern und einer Kontextlänge von 128k, optimiert für Anwendungsfälle wie Schlussfolgern, Zusammenfassung und Fragebeantwortung; es verfügt über mehrsprachige Generierungsfähigkeiten, evaluiert in 10 Sprachen, sowie leistungsfähige Tool-Nutzung und RAG-Fähigkeiten und wurde zu Forschungszwecken veröffentlicht.

A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.

Paper-Link

https://huggingface.co/CohereForAI/c4ai-command-r-v01

Weiterlesen

https://x.com/CohereForAI/status/1767275927505977455

Geht es bei der Kosinus-Ähnlichkeit von Embeddings wirklich um Ähnlichkeit? / Is Cosine-Similarity of Embeddings Really About Similarity?

Paper-Vorstellung

Untersucht Embeddings, die aus regularisierten linearen Modellen abgeleitet werden, und leitet analytisch her, wie Kosinus-Ähnlichkeit beliebige und bedeutungslose Ähnlichkeiten erzeugen kann; außerdem wird festgestellt, dass bei einigen linearen Modellen die Ähnlichkeiten nicht einmal eindeutig sind und bei anderen durch die Regularisierung gesteuert werden; die Autoren warnen davor, Kosinus-Ähnlichkeit blind zu verwenden, und stellen Überlegungen sowie Alternativen vor.

Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.

Paper-Abstract (Abstract)

Kosinus-Ähnlichkeit ist der Kosinus des Winkels zwischen zwei Vektoren oder äquivalent das Skalarprodukt zwischen ihren Normalisierungen. Eine verbreitete Anwendung besteht darin, semantische Ähnlichkeit zwischen hochdimensionalen Objekten zu quantifizieren, indem Kosinus-Ähnlichkeit auf ein gelerntes niedrigdimensionales Feature-Embedding angewendet wird. In der Praxis kann dies besser funktionieren als das nicht normalisierte Skalarprodukt zwischen eingebetteten Vektoren, manchmal aber auch schlechter. Um Einsichten in diese empirische Beobachtung zu gewinnen, untersuchen wir Embeddings, die aus regularisierten linearen Modellen abgeleitet werden, bei denen geschlossene Lösungen analytische Einsichten erleichtern. Wir leiten analytisch her, wie Kosinus-Ähnlichkeit beliebige und damit bedeutungslose „Ähnlichkeiten“ erzeugen kann. Bei einigen linearen Modellen sind die Ähnlichkeiten nicht einmal eindeutig, während sie bei anderen Modellen implizit durch die Regularisierung gesteuert werden. Wir diskutieren Implikationen, die über lineare Modelle hinausgehen: Beim Training tiefer Modelle werden verschiedene Kombinationen von Regularisierungen eingesetzt; diese haben implizite und unbeabsichtigte Effekte, wenn die Kosinus-Ähnlichkeiten der resultierenden Embeddings betrachtet werden, wodurch die Ergebnisse intransparent und möglicherweise beliebig werden. Auf Basis dieser Einsichten warnen wir davor, Kosinus-Ähnlichkeit blind zu verwenden, und skizzieren Alternativen.

Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

Paper-Link

https://arxiv.org/abs/2403.05440

Mehr lesen

https://x.com/_reachsumit/status/1767045820384477575

MM1: Methoden, Analyse und Einblicke aus dem multimodalen LLM-Pre-Training / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Paper-Einführung

Bietet einen umfassenden Überblick über Methoden, Analysen und Erkenntnisse zum multimodalen LLM-Pre-Training; untersucht verschiedene Architekturkomponenten und stellt fest, dass eine sorgfältige Mischung aus Bildunterschriften, verflochtenen Bild-Text-Daten und reinen Textdaten entscheidend für Leistung auf dem neuesten Stand der Technik ist; zudem wird eine Familie multimodaler Modelle mit bis zu 30B Parametern vorgeschlagen, die SOTA bei Pre-Training-Metriken erreicht und Eigenschaften wie verbessertes In-Context Learning, Multi-Image-Reasoning und die Ermöglichung von Few-Shot-Chain-of-Thought-Prompting umfasst.

Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.

Paper-Abstract (Abstract)

In dieser Arbeit wird erläutert, wie leistungsstarke multimodale große Sprachmodelle (MLLMs) aufgebaut werden können. Insbesondere wird die Bedeutung verschiedener Architekturkomponenten und der Datenauswahl untersucht. Durch sorgfältige und umfassende Ablationsstudien zum Bild-Encoder, zum Vision-Language-Connector und zu verschiedenen Auswahlmöglichkeiten für Pre-Training-Daten wurden mehrere wichtige Design-Erkenntnisse identifiziert. So wird etwa gezeigt, dass für groß angelegtes multimodales Pre-Training eine sorgfältige Mischung aus Bild-Beschreibung-, verschachtelten Bild-Text- und reinen Textdaten entscheidend ist, um im Vergleich zu anderen veröffentlichten Pre-Training-Ergebnissen auf mehreren Benchmarks Few-Shot-Ergebnisse auf dem Stand der Technik (SOTA) zu erreichen. Darüber hinaus wird gezeigt, dass der Bild-Encoder zusammen mit Bildauflösung und Anzahl der Bild-Token einen erheblichen Einfluss hat, während das Design des Vision-Language-Connectors vergleichsweise kaum von Bedeutung ist. Durch Skalierung des vorgestellten Rezepts wurde MM1 aufgebaut, eine Familie multimodaler Modelle mit bis zu 30B Parametern, bestehend aus dichten Modellen und Mixture-of-Experts-(MoE)-Varianten, die bei Pre-Training-Metriken SOTA sind und nach überwachtem Fine-Tuning auf einer Reihe etablierter multimodaler Benchmarks eine wettbewerbsfähige Leistung erreichen. Dank des groß angelegten Pre-Trainings verfügt MM1 über attraktive Eigenschaften wie verbessertes In-Context-Learning und Multi-Image-Reasoning, wodurch Few-Shot-Chain-of-Thought-Prompting möglich wird.

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt und kann Fehler enthalten. Bitte beachten Sie daher auch den Originaltext weiter unten. Wenn Ihnen beim Lesen unnatürliche Formulierungen oder inhaltliche Fehler auffallen, teilen Sie uns dies bitte in einem Kommentar mit.

⚠️Werbung⚠️: Fanden Sie diesen von der PyTorch Korea User Group zusammengestellten Beitrag nützlich? Wenn Sie Mitglied werden, senden wir Ihnen wichtige Beiträge per E-Mail zu! Standard ist Weekly, aber eine Umstellung auf Daily ist ebenfalls möglich.

6 Kommentare

prelude9903 2024-03-19

Könnten Sie mir bitte sagen, welches automatische Übersetzungstool Sie verwendet haben?

ninebow 2024-03-19

Ja, ich nutze DeepL haha
Kürzlich konnte man auch für Koreanisch ein Übersetzungs-Glossar erstellen, also habe ich es ausprobiert, aber es gab Probleme orz...

libner 2024-03-19

Im RAT-Abschnitt der Einführung zu den Papers wurden rat und rag offenbar als „Ratte“ bzw. „Lappen“ übersetzt. Vermutlich hat das Modell die Kleinbuchstaben einfach wörtlich gelesen.

ninebow 2024-03-20

Wie folgt habe ich es korrigiert. Vielen Dank! :D

Es wird gezeigt, dass die wiederholte Überarbeitung der Chain of Thought (CoT) durch Information Retrieval das Schlussfolgern und die Generierung von LLMs bei lang angelegten Generierungsaufgaben erheblich verbessern kann. Die Kernidee besteht darin, dass jeder Denkschritt anhand der Aufgabenabfrage und der abgerufenen Informationen überarbeitet wird, die für den aktuellen und die vorherigen Denkschritte relevant sind. Retrieval-Augmented Thoughts (RAT) werden auf andere Modelle wie GPT-4 und CodeLlama-7b angewendet und verbessern lang angelegte Generierungsaufgaben (z. B. kreatives Schreiben und die Ausarbeitung konkreter Arbeitspläne) deutlich; RAT ist ein Zero-Shot-Prompting-Verfahren und übertrifft Baselines einschließlich Zero-Shot Chain-of-Thought Prompting, grundlegendem RAG und weiteren Baselines deutlich.

ninebow 2024-03-19

Oh, stimmt; ich werde den Originaltext entsprechend korrigieren haha
Vielen Dank!

ninebow 2024-03-19

Ups, der Titel ... Bitte in „Wichtige ML-Papers dieser Woche“ ändern;;

[2024/03/11 ~ 03/17] Wichtige ML-Papers dieser Woche bei Attention (Top ML Papers of the Week)