7 Punkte von ninebow 2024-01-01 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papern automatisch übersetzt.

  • Ein Blick auf die in dieser Woche ausgewählten Arbeiten zeigt, dass Forschung rund um große Sprachmodelle (Large Language Models, LLMs) wie GPT-4 insgesamt den Schwerpunkt bildet. Besonders im Fokus stehen dabei die Nutzung neuer APIs von GPT-4, die Fähigkeit von LLMs zum Abruf faktischen Wissens sowie die Frage, wie sich LLMs zu besseren, dichteren Suchsystemen weiterentwickeln lassen. Außerdem sind Themen zur mathematischen Problemlösung mit Sprachmodellen sowie dazu enthalten, wie diese Modelle Schlussfolgerungen ziehen können.

  • Dass sich dieser Trend zeigt, könnte daran liegen, dass LLMs im Bereich der Künstlichen Intelligenz weiterhin ein zentrales Forschungsthema sind. Modelle wie GPT-4 erweitern dank ihrer herausragenden Fähigkeiten im Sprachverständnis und in der Sprachgenerierung ihre Einsatzmöglichkeiten in vielen Anwendungsfeldern, und Forschung zur Verbesserung dieser Fähigkeiten sowie zu neuen Nutzungsformen wird kontinuierlich vorangetrieben. Konkrete methodische Forschung zur tatsächlichen Leistungssteigerung und Analysen von Anwendungsfällen entwickeln sich zu wichtigen Forschungsfeldern, und die in dieser Woche ausgewählten Paper scheinen diesen Trend widerzuspiegeln.

  • Andererseits scheinen auch Studien, die das Verständnis und die Schlussfolgerungsfähigkeit von LLMs bewerten und verbessern wollen, ein populäres Thema zu sein. Zu erforschen, wie intelligente Agenten natürlicher und effektiver mit Menschen interagieren können, dürfte eine sehr wichtige Aufgabe im Bereich der Künstlichen Intelligenz sein. Die Untersuchung verbesserter Effizienz und praktischer Anwendbarkeit dürfte in künftigen Forschungstrends einen wichtigen Platz einnehmen.


CogAgent: Ein visuelles Sprachmodell für GUI-Agenten / CogAgent: A Visual Language Model for GUI Agents

Paper-Einführung

  • Stellt ein visuelles Sprachmodell mit 18 Milliarden Parametern bereit, das auf GUI-Verständnis und -Navigation spezialisiert ist, hochauflösende Eingaben (1120x1120) unterstützt und Fähigkeiten bei Aufgaben wie Visual Question Answering, Visual Grounding und GUI-Agenten zeigt; erzielt den State of the Art auf 5 textreichen Benchmarks und 4 allgemeinen VQA-Benchmarks.

    Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.

Paper-Abstract

  • Menschen verbringen enorm viel Zeit auf digitalen Geräten über grafische Benutzeroberflächen (GUIs), etwa auf Computer- oder Smartphone-Bildschirmen. Große Sprachmodelle (LLMs) wie ChatGPT können Menschen bei Aufgaben wie dem Schreiben von E-Mails unterstützen, haben jedoch Schwierigkeiten, GUIs zu verstehen und mit ihnen zu interagieren, was ihr Potenzial zur Steigerung des Automatisierungsgrads begrenzt. In diesem Paper stellen wir CogAgent vor, ein visuelles Sprachmodell (VLM) mit 18 Milliarden Parametern, das auf GUI-Verständnis und -Navigation spezialisiert ist. Durch die Nutzung sowohl niedrig- als auch hochauflösender Bild-Encoder unterstützt CogAgent Eingaben mit einer Auflösung von 1120*1120 und kann dadurch selbst winzige Seitenelemente und Texte erkennen. Als universelles visuelles Sprachmodell erreicht CogAgent State-of-the-Art-Leistung auf fünf textreichen und vier allgemeinen VQA-Benchmarks, darunter VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet und POPE. CogAgent, das ausschließlich Screenshots als Eingabe verwendet, übertrifft auf GUI-Navigationsaufgaben sowohl auf dem PC als auch auf Android LLM-basierte Methoden, die extrahierten HTML-Text verarbeiten — Mind2Web und AITW — und verschiebt damit den Stand der Technik nach vorn. Modell und Code sind unter https://github.com/THUDM/CogVLM verfügbar.

    People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .

Paper-Link

https://arxiv.org/abs/2312.08914

Weiterlesen

https://x.com/cenyk1230/status/1739916469272789222


Von Google Gemini bis OpenAI Q* (Q-Star): Eine Übersicht zur Neugestaltung der Forschungslandschaft der generativen Künstlichen Intelligenz (AI) / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

Paper-Einführung

  • Dieser Bericht wertet mehr als 300 Paper aus, fasst wichtige Forschungsentwicklungen im Bereich generativer AI zusammen und behandelt rechnerische Herausforderungen, Skalierbarkeit, praktische Anwendbarkeit sowie das Potenzial generativer AI, Fortschritte in Bereichen wie Gesundheitswesen, Finanzen und Bildung voranzutreiben.

    Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.

Paper-Abstract

  • Diese umfassende Übersichtsstudie untersuchte die sich wandelnde Landschaft der generativen Künstlichen Intelligenz (AI), mit besonderem Fokus auf die transformativen Auswirkungen von Mixture of Experts (MoE), multimodalem Lernen und den vermuteten Fortschritten in Richtung Artificial General Intelligence (AGI). Der Bericht prüfte den aktuellen Stand und die künftige Entwicklung generativer Künstlicher Intelligenz (AI) kritisch und analysierte, wie Innovationen wie Googles Gemini und das erwartete OpenAI-Q*-Projekt Forschungsprioritäten und Anwendungen in verschiedenen Bereichen neu gestalten, einschließlich einer Wirkungsanalyse auf die Forschungstaxonomie generativer AI. Zudem bewertete er die rechnerischen Herausforderungen, die Skalierbarkeit und die praktischen Auswirkungen dieser Technologien und hob zugleich ihr Potenzial hervor, in Bereichen wie Gesundheitswesen, Finanzen und Bildung deutliche Fortschritte voranzutreiben. Außerdem behandelte er neue wissenschaftliche Herausforderungen, die durch die Verbreitung sowohl AI-bezogener als auch AI-generierter Preprints entstehen, und untersuchte deren Einfluss auf den Peer-Review-Prozess und die wissenschaftliche Kommunikation. Die Studie betonte, wie wichtig es ist, ethische und menschenzentrierte Methoden in die AI-Entwicklung zu integrieren, um die Übereinstimmung mit gesellschaftlichen Normen und dem Gemeinwohl sicherzustellen, und skizzierte eine Strategie für die künftige AI-Forschung, die auf einen ausgewogenen und verantwortungsbewussten Einsatz von MoE, Multimodalität und AGI in der generativen AI fokussiert ist.
    > This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.

Paper-Link

https://arxiv.org/abs/2312.10868

Weiterlesen

https://x.com/omarsar0/status/1740119485011390558


PromptBench: Eine einheitliche Bibliothek zur Evaluierung großer Sprachmodelle / PromptBench: A Unified Library for Evaluation of Large Language Models

Paper-Vorstellung

  • Eine einheitliche Bibliothek mit Funktionen für Prompt-Konstruktion, Prompt Engineering, Laden von Datensätzen und Modellen, adversarielle Prompt-Angriffe, dynamische Evaluierungsprotokolle und Analysetools, die eine umfassende Evaluierung und Analyse von LLMs unterstützt.
    > A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.

Paper-Abstract

  • Die Evaluierung großer Sprachmodelle (LLMs) ist entscheidend, um ihre Leistung zu bewerten und potenzielle Sicherheitsrisiken zu mindern. In diesem Paper stellen wir PromptBench vor, eine einheitliche Bibliothek zur Evaluierung von LLMs. Sie besteht aus mehreren zentralen Komponenten, die von Forschenden leicht genutzt und erweitert werden können: Prompt-Konstruktion, Prompt Engineering, Laden von Datensätzen und Modellen, adversarielle Prompt-Angriffe, dynamische Evaluierungsprotokolle und Analysetools. PromptBench ist als offene, allgemeine und flexible Codebasis für Forschungszwecke konzipiert, die originäre Forschung bei der Erstellung neuer Benchmarks, der Bereitstellung von Downstream-Anwendungen und dem Entwurf neuer Evaluierungsprotokolle erleichtern kann. Der Code ist unter https://github.com/microsoft/promptbench verfügbar und wird fortlaufend unterstützt.
    > The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.

Paper-Link

https://arxiv.org/abs/2312.07910v1

Weiterlesen

https://x.com/omarsar0/status/1739360426134028631


Nutzung neuer GPT-4-APIs ausreizen / Exploiting Novel GPT-4 APIs

Paper-Vorstellung

  • Für die drei in den GPT-4-APIs offengelegten Funktionen Fine-Tuning, Function Calling und Knowledge Retrieval wurde Red-Teaming durchgeführt, wobei folgende Hauptergebnisse erzielt wurden: 1) Durch Fine-Tuning mit 15 schädlichen Beispielen oder 100 harmlosen Beispielen lassen sich die zentralen Sicherheitsmechanismen von GPT-4 entfernen, 2) GPT-4-Assistenten können dazu gebracht werden, das Function-Calling-Schema offenzulegen und beliebige Funktionsaufrufe auszuführen, 3) Knowledge Retrieval kann durch das Einschleusen von Anweisungen in Suchdokumente gekapert werden.
    > Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.

Paper-Abstract

  • Angriffe auf Sprachmodelle gehen typischerweise von einem von zwei extremen Bedrohungsmodellen aus: vollständigem White-Box-Zugriff auf die Modellgewichte oder Black-Box-Zugriff, der auf eine Textgenerierungs-API beschränkt ist. Reale APIs sind jedoch oft flexibler als reine Textgenerierung; solche APIs bieten „Gray-Box“-Zugriff und eröffnen dadurch neue Angriffsvektoren. Um dies zu untersuchen, haben wir drei neue in den GPT-4-APIs offengelegte Funktionen per Red-Teaming analysiert: Fine-Tuning, Function Calling und Knowledge Retrieval. Dabei stellten wir fest, dass Fine-Tuning eines Modells mit nur 15 schädlichen Beispielen oder 100 harmlosen Beispielen die zentralen Sicherheitsmechanismen von GPT-4 entfernen kann, wodurch eine Reihe schädlicher Ausgaben ermöglicht wird. Außerdem fanden wir heraus, dass GPT-4-Assistenten bereitwillig das Function-Call-Schema preisgeben und dazu gebracht werden können, beliebige Funktionsaufrufe auszuführen. Schließlich stellten wir fest, dass sich Knowledge Retrieval durch das Einschleusen von Anweisungen in Suchdokumente kapern lässt. Diese Schwachstellen unterstreichen, dass jede Erweiterung der von einer API offengelegten Funktionalität neue Verwundbarkeiten schaffen kann.
    > Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Paper-Link

https://arxiv.org/abs/2312.14302

Weiterlesen

https://x.com/omarsar0/status/1739677995747450964


Faktischer Recall in LLMs / Fact Recalling in LLMs

Paper-Einführung

  • Untersucht, wie MLP-Schichten eine Lookup-Tabelle für faktischen Recall implementieren; erweitert den Untersuchungsrahmen dazu, wie frühe MLPs in Pythia 2.8b nachschlagen, welchen von drei verschiedenen Sportarten diverse Athleten ausüben; legt nahe, dass frühe MLP-Schichten als Lookup-Tabelle fungieren, und empfiehlt, den Abruf faktischen Wissens im Modell als Multi-Token-Embeddings zu betrachten.
    > Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.

Paper-Link

https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB

Weiterlesen

https://x.com/NeelNanda5/status/1738559368361349122


Generative AI für Mathematik: Teil I – MathPile: Ein Pretraining-Korpus für Mathematik im Milliarden-Token-Maßstab / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Paper-Einführung

  • Stellt ein vielfältiges und hochwertiges, auf Mathematik ausgerichtetes Korpus mit rund 9,5 Milliarden Token zum Training von Foundation-Modellen bereit.
    > Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.

Paper-Abstract

  • Hochwertige, groß angelegte Korpora sind der Grundstein für den Aufbau von Foundation Models. In dieser Arbeit stellen wir ${MathPile}$ vor, ein vielfältiges und hochwertiges, auf Mathematik fokussiertes Korpus mit etwa 9,5 Milliarden Tokens. Bei der Erstellung dieses Korpus haben wir uns konsequent an das Prinzip 'weniger ist mehr' gehalten und waren fest davon überzeugt, dass selbst in der Pre-Training-Phase die Qualität der Daten wichtiger ist als ihre Quantität. Um die hohe Qualität des Korpus sicherzustellen, haben wir sorgfältige Anstrengungen bei Datensammlung und -verarbeitung unternommen, darunter einen komplexen Prozess aus Vorverarbeitung, Vorfilterung, Sprachidentifikation, Bereinigung, Filterung und Deduplizierung. Darüber hinaus haben wir auf nachgelagerten Benchmark-Testsets eine Erkennung von Datenkontamination durchgeführt, um Duplikate zu entfernen. Wir hoffen, dass mathematisches Schlussfolgern über Text dazu beitragen kann, die mathematischen Reasoning-Fähigkeiten von Sprachmodellen zu verbessern. Um die künftige Weiterentwicklung in diesem Bereich zu fördern, planen wir, verschiedene Versionen von $MathPile$ zusammen mit den für die Verarbeitung verwendeten Skripten als Open Source zu veröffentlichen.
    > High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of {less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

Paper-Link

https://arxiv.org/abs/2312.17120

Weiterführende Lektüre

https://x.com/arankomatsuzaki/status/1740564961032556942


Für Befragungen von LLaMA-1/2, GPT-3.5/4 braucht man nur prinzipienbasierte Anweisungen / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Paper-Vorstellung

  • Es werden 26 Leitprinzipien vorgestellt, die den Prozess des Abfragens und Promptings großer Sprachmodelle vereinfachen sollen. Diese Prinzipien werden auf llama-1/2 (7b, 13b, 70b) und gpt-3.5/4 in umfangreichen Experimenten angewendet, um ihre Wirksamkeit für Anweisungen und Prompt-Design zu überprüfen.
    > Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.

Paper-Zusammenfassung(Abstract)

  • In dieser Arbeit werden 26 grundlegende Prinzipien vorgestellt, die dazu entwickelt wurden, den Prozess des Abfragens und Promptings großer Sprachmodelle zu vereinfachen. Unser Ziel ist es, die zugrunde liegenden Konzepte zu vereinfachen: Fragen für große Sprachmodelle unterschiedlicher Größen zu formulieren, ihre Fähigkeiten zu untersuchen und das Verständnis der Nutzer für das Verhalten großer Sprachmodelle unterschiedlicher Größen bei verschiedenen Prompts zu verbessern. Um die Wirksamkeit der vorgeschlagenen Prinzipien für Anweisungen und Prompt-Design zu überprüfen, haben wir umfangreiche Experimente mit LLaMA-1/2 (7B, 13B, 70B) und GPT-3.5/4 durchgeführt. Wir hoffen, dass diese Arbeit Forschenden, die sich mit dem Prompting großer Sprachmodelle beschäftigen, eine bessere Orientierung bietet. Die Projektseite ist unter https://github.com/VILA-Lab/ATLAS verfügbar.
    > This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.

Paper-Link

https://arxiv.org/abs/2312.16171v1

Weiterführende Lektüre

https://x.com/_akhaliq/status/1739857456161759455


Umfrage zum Reasoning mit Foundation Models / A Survey of Reasoning with Foundation Models

Paper-Vorstellung

  • Bietet eine umfassende Übersicht über wegweisende Foundation Models für Reasoning, hebt die neuesten Fortschritte bei verschiedenen Reasoning-Aufgaben, Methoden, Benchmarks und potenziellen zukünftigen Richtungen hervor und diskutiert außerdem, wie andere Entwicklungen wie multimodales Lernen, autonome Agenten und Super Alignment die Reasoning-Forschung beschleunigen und erweitern.
    > Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.

Paper-Zusammenfassung(Abstract)

  • Schlussfolgern, eine entscheidende Fähigkeit zur Lösung komplexer Probleme, spielt in verschiedenen realen Kontexten wie Verhandlungen, medizinischer Diagnostik und kriminalistischen Ermittlungen eine zentrale Rolle. Es dient als grundlegende Methodik im Bereich der Artificial General Intelligence (AGI). Mit der fortlaufenden Entwicklung von Foundation Models wächst das Interesse daran, ihre Fähigkeiten bei Schlussfolgerungsaufgaben zu erforschen. In dieser Arbeit stellen wir bedeutende Foundation Models vor, die für Schlussfolgern vorgeschlagen wurden oder sich dafür anpassen lassen, und heben die neuesten Fortschritte bei verschiedenen Schlussfolgerungsaufgaben, Methoden und Benchmarks hervor. Anschließend betrachten wir potenzielle zukünftige Richtungen hinter dem Entstehen von Schlussfolgerungsfähigkeiten in Foundation Models. Außerdem diskutieren wir die Relevanz von multimodalem Lernen, autonomen Agenten und Superalignment im Kontext des Schlussfolgerns. Durch die Diskussion dieser künftigen Forschungsrichtungen hoffen wir, Forschende bei der Erkundung dieses Feldes zu inspirieren, weitere Fortschritte beim Schlussfolgern mit Foundation Models anzustoßen und zur Entwicklung von AGI beizutragen.
    > Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.

Paper-Link

https://arxiv.org/abs/2312.11562v4

Weiterlesen

https://x.com/omarsar0/status/1740729489661874632


Große Sprachmodelle zu einer besseren Grundlage für Dense Retrieval machen / Making Large Language Models A Better Foundation For Dense Retrieval

Paper-Vorstellung

  • Es wird LLaRA vorgeschlagen, um LLMs für Dense Retrieval anzupassen. Es besteht aus zwei Pretext-Tasks, EBAE (Embedding-Based Auto-Encoding) und EBAR (Embedding-Based Auto-Regression). Diese werden jeweils genutzt, um mithilfe der Text-Embeddings des LLM die Token des Eingabesatzes zu rekonstruieren und die Token des nächsten Satzes vorherzusagen; llama-2-7b wurde dadurch auf Benchmarks wie MSMARCO und BEIR verbessert.
    > Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.

Abstract

  • Dense Retrieval muss diskriminative Text-Embeddings lernen, um die semantische Beziehung zwischen Query und Dokument darzustellen. Dabei kann es von der Nutzung großer Sprachmodelle (LLMs) profitieren, da LLMs starke Fähigkeiten beim semantischen Verständnis besitzen. Allerdings werden LLMs mit Textgenerierungsaufgaben vortrainiert, deren Arbeitsweise sich grundlegend davon unterscheidet, Texte als Embeddings zu repräsentieren. Daher ist es entscheidend zu untersuchen, wie sich LLMs angemessen anpassen lassen, damit sie effektiv als Backbone-Encoder für Dense Retrieval initialisiert werden können. In dieser Arbeit wird ein neuer Ansatz namens LLaRA (LLM adapted for dense RetrievAl) vorgeschlagen, der als nachträgliche Anpassung von LLMs für Dense-Retrieval-Anwendungen dient. LLaRA besteht aus zwei Voraufgaben: EBAE (Embedding-Based Auto-Encoding) und EBAR (Embedding-Based Auto-Regression). Dabei werden die Text-Embeddings des LLM verwendet, um die Token des Eingabesatzes zu rekonstruieren beziehungsweise die Token des nächsten Satzes vorherzusagen. LLaRA erweist sich als einfach, leichtgewichtig und hochwirksam. Es wird eingesetzt, um LLaMA-2-7B (base) auf dem Wikipedia-Korpus anzupassen, wodurch sich die feinabgestimmte Leistung des Modells auf einer Vielzahl von Dense-Retrieval-Benchmarks wie MSMARCO und BEIR deutlich verbessert. Modell und Code werden öffentlich im BGE-Repository verfügbar gemacht.
    > Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.

Paper-Link

https://arxiv.org/abs/2312.15503v1


Gemini und GPT-4V: Ein vorläufiger Vergleich und eine Kombination von Vision-Language-Modellen anhand qualitativer Fälle / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

Paper-Einführung

  • Durch mehrere qualitative Fallbeispiele wurden Vision-Language-Modelle wie Gemini und GPT-4V umfassend vorläufig verglichen und kombiniert; dabei zeigte sich, dass GPT-4V präzise und knappe Antworten liefert, während Gemini besonders darin ist, detaillierte und umfangreiche Antworten zusammen mit relevanten Bildern und Links bereitzustellen.
    > Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.

Abstract des Papers

  • Der sich rasant entwickelnde Bereich der multimodalen Large Language Models (MLLMs) steht an der Spitze der Integration sprachlicher und visueller Verarbeitung in der künstlichen Intelligenz. Dieses Paper präsentiert eine eingehende Vergleichsstudie zweier wegweisender Modelle: Googles Gemini und OpenAIs GPT-4V(ision). Die Studie umfasst eine vielschichtige Bewertung beider Modelle entlang zentraler Dimensionen wie Vision-Language-Fähigkeiten, Interaktion mit Menschen, zeitliches Verständnis sowie Bewertungen von Intelligenz- und emotionalem Quotienten. Im Kern der Analyse steht die Untersuchung der jeweils unterschiedlichen visuellen Verständnisfähigkeiten der Modelle. Es wurde eine Reihe strukturierter Experimente durchgeführt, um ihre Leistung in verschiedenen industriellen Anwendungsszenarien zu bewerten und so eine umfassende Perspektive auf ihren praktischen Nutzen zu bieten. Neben direkten Leistungsvergleichen wurden auch Anpassungen bei Prompts und Szenarien vorgenommen, um eine ausgewogene und faire Analyse sicherzustellen. Die Ergebnisse beleuchten die jeweiligen Stärken und Nischen beider Modelle. GPT-4V hebt sich durch präzise und knappe Antworten hervor, während Gemini besonders darin ist, detaillierte und umfangreiche Antworten zusammen mit relevanten Bildern und Links zu liefern. Diese Erkenntnisse machen nicht nur die vergleichenden Vorzüge von Gemini und GPT-4V deutlich, sondern unterstreichen auch die sich entwickelnde Landschaft multimodaler Foundation-Modelle und ebnen den Weg für künftige Fortschritte in diesem Bereich. Nach dem Vergleich wurde versucht, durch die Kombination beider Modelle bessere Ergebnisse zu erzielen. Abschließend möchten die Autoren den Teams hinter GPT-4V und Gemini ihren tiefen Dank für ihre wegweisenden Beiträge zu diesem Feld aussprechen. Ihr Dank gilt außerdem der umfassenden qualitativen Analyse in „Dawn“ von Yang et al. Diese Arbeit mit ihrer umfangreichen Sammlung von Bildbeispielen, Prompts und GPT-4V-bezogenen Ergebnissen bildete eine grundlegende Basis für die Analyse.
    > The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.

Paper-Link

https://arxiv.org/abs/2312.15011v1

Weiterlesen

https://x.com/omarsar0/status/1741177994377330895


Original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3

Noch keine Kommentare.

Noch keine Kommentare.