3 Punkte von ninebow 2024-01-29 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • Ich habe den wöchentlich von DAIR.AI veröffentlichten Artikel zu ML-Papers automatisch übersetzt.

  • Ein Blick auf die in dieser Woche ausgewählten Papers zeigt ein deutliches Interesse an Bereichen wie Large Language Models (LLMs), Multimodal Models und Visual Language Models. Papers wie "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" und "Red Teaming Visual Language Models" spiegeln diese zentralen Trends wider und präsentieren Forschung und Entwicklung zu großen Modellen und deren Effizienz sowie zu multimodalem Lernen und verbesserten Fähigkeiten bei der Verarbeitung visueller Daten.

  • Dieser Trend ist vor dem Hintergrund der in den letzten Jahren gewachsenen Bedeutung der Fähigkeit zu sehen, komplexe Daten zu verstehen und zu verarbeiten, insbesondere in den Bereichen Natural Language Processing (NLP) und Computer Vision, entstanden. Large Language Models erzielen bei einer Vielzahl von Sprachverständnisaufgaben hohe Leistungen, und Multimodal Models haben sich als wesentlicher Bestandteil von Forschung etabliert, die durch die Kombination verschiedener Datentypen (Text, Bild, Audio usw.) ein menschenähnliches Verständnis anstrebt. Darüber hinaus ermöglichen Visual Language Models einen sprachlichen Zugang zu Bildern und visuellen Inhalten und spielen damit eine wichtige Rolle beim Aufbau reichhaltigerer und interaktiverer AI-Systeme.

  • Der durch Titel und Einleitung erkennbare Trend deutet darauf hin, dass sich zunehmend Forschung darauf konzentriert, nicht nur die Leistung fortschrittlicher AI-Modelle zu verbessern, sondern auch neue Maßstäbe für Produktivität und Effizienz zu setzen. Papers, die sich mit der Verbesserung der Ressourceneffizienz großer Modelle befassen, spiegeln die aktuelle Forschungsrichtung wider, eine nachhaltige Weiterentwicklung von AI im Hinblick auf Energieverbrauch und Rechenkosten zu verfolgen. Zugleich unterstreicht dies die Bemühungen von Wissenschaft und Industrie, Probleme anzugehen, die gelöst werden müssen, damit AI in realen industriellen und gesellschaftlichen Anwendungen noch breiter eingesetzt werden kann.


Depth Anything: Die Kraft großskaliger unbeschrifteter Daten entfesseln / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Paper-Einführung

  • Eine robuste Lösung zur monokularen Tiefenschätzung, die jedes Bild unter allen Umständen verarbeiten kann; sie annotiert großskalige unbeschriftete Daten (bis zu 62 Millionen) automatisch, hilft dadurch, den Generalisierungsfehler zu verringern, schlägt effektive Strategien vor, um die Kraft großer unbeschrifteter Datenmengen zu nutzen, und etabliert neben der Generalisierungsfähigkeit durch Fine-Tuning neue State of the Art sowie sogar ein verbessertes depth-conditioned ControlNet.

    A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.

Paper-Abstract

  • Diese Arbeit stellt Depth Anything vor, eine äußerst praktische Lösung für robuste monokulare Tiefenschätzung. Ohne neue technische Module anzustreben, zielt sie darauf ab, ein einfaches, aber leistungsstarkes Foundation Model aufzubauen, das beliebige Bilder unter beliebigen Umständen verarbeiten kann. Zu diesem Zweck wird der Datensatz skaliert, indem eine Daten-Engine entworfen wird, die großskalige unbeschriftete Daten (ca. 62 Millionen) sammelt und automatisch annotiert. Dadurch wird die Datenabdeckung erheblich erweitert und somit der Generalisierungsfehler reduziert. Untersucht werden zwei einfache, aber effektive Strategien, die das Hochskalieren von Daten vielversprechend machen. Erstens wird mithilfe von Data-Augmentation-Tools ein anspruchsvolleres Optimierungsziel geschaffen. Dies zwingt das Modell dazu, aktiv zusätzliches visuelles Wissen zu suchen und robuste Repräsentationen zu erwerben. Zweitens wird eine Auxiliary Supervision entwickelt, die sicherstellt, dass das Modell reichhaltige semantische Priors aus vortrainierten Encodern übernimmt. Die Zero-Shot-Fähigkeiten werden umfassend evaluiert, darunter auf sechs öffentlichen Datensätzen und mit zufällig aufgenommenen Fotos. Das Modell zeigt eine beeindruckende Generalisierungsfähigkeit. Darüber hinaus werden durch Fine-Tuning mit metrischen Tiefeninformationen aus NYUv2 und KITTI neue SOTAs erreicht. Unser besseres Tiefenmodell führt außerdem zu einem besseren depth-conditioned ControlNet. Weitere Details finden sich unter https://github.com/LiheYoung/Depth-Anything.

    This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

Paper-Link

https://arxiv.org/abs/2401.10891v1

Weiterlesen

https://x.com/_akhaliq/status/1749284669936275463


Wissensfusion großer Sprachmodelle / Knowledge Fusion of Large Language Models

Paper-Einführung

  • Es wird FuseLLM vorgeschlagen, dessen Kernidee darin besteht, Wissen aus mehreren Lernorganisationen zu externalisieren und deren Fähigkeiten auf eine Ziel-Lernorganisation zu übertragen. Dabei werden die generativen Verteilungen der Quell-Lernorganisationen genutzt, um sowohl kollektives Wissen als auch individuelle Stärken zu externalisieren und durch kontinuierliches Lernen auf die Ziel-Lernorganisation zu übertragen. Es zeigt sich, dass FuseLLM die Leistung des Zielmodells über verschiedene Fähigkeiten hinweg verbessern kann, etwa bei Schlussfolgerungen, Common Sense und Code-Generierung.
    > Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.

Paper-Abstract

  • Das Training großer Sprachmodelle (LLMs) von Grund auf kann zwar Modelle mit eigenen Funktionen und Stärken hervorbringen, verursacht jedoch erhebliche Kosten und kann zu redundanten Fähigkeiten führen. Alternativ ist das Zusammenführen bereits vortrainierter LLMs zu einem leistungsfähigeren Modell ein kosteneffizienter und attraktiver Ansatz. Aufgrund der unterschiedlichen Architekturen dieser LLMs ist ein direktes Mischen ihrer Gewichte jedoch unpraktisch. In dieser Arbeit führen wir das Konzept der Wissensfusion für LLMs ein, das darauf abzielt, die Fähigkeiten bestehender LLMs zu kombinieren und in ein einzelnes LLM zu übertragen. Durch die Nutzung der generativen Verteilungen der Quell-LLMs externalisieren wir ihr kollektives Wissen und ihre einzigartigen Stärken und heben damit potenziell die Fähigkeiten des Zielmodells über jene jedes einzelnen Quell-LLM hinaus an. Unity validiert den Ansatz mit drei populären LLMs unterschiedlicher Architektur – Llama-2, MPT und OpenLLaMA – über verschiedene Benchmarks und Aufgaben hinweg. Die Ergebnisse bestätigen, dass die Fusion von LLMs die Leistung des Zielmodells über ein breites Fähigkeitsspektrum hinweg verbessern kann, etwa bei Schlussfolgerungen, Common Sense und Code-Generierung. Code, Modellgewichte und Daten sind unter \url{https://github.com/fanqiwan/FuseLLM} öffentlich verfügbar.
    > While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.

Paper-Link

https://arxiv.org/abs/2401.10491

Weiterführende Lektüre

https://github.com/fanqiwan/FuseLLM

https://x.com/omarsar0/status/1749267663900057620


MambaByte: Token-freies selektives State-Space-Modell / MambaByte: Token-free Selective State Space Model

Paper-Vorstellung

  • Mamba SSM wird so angepasst, dass es direkt auf Rohbytes lernt. Bytes führen zu längeren Sequenzen, bei denen autoregressive Transformer schlecht skalieren. Diese Arbeit berichtet von großen Vorteilen beim schnelleren Inferenztempo und übertrifft sogar Subword-Transformer.
    > Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.

Paper-Abstract

  • Token-freie Sprachmodelle lernen direkt aus Rohbytes und beseitigen die Verzerrung der Subword-Tokenisierung. Die Arbeit auf Byte-Ebene führt jedoch zu deutlich längeren Sequenzen, und standardmäßige autoregressive Transformer skalieren in solchen Szenarien schlecht. Wir haben MambaByte untersucht, eine token-freie Variante des Mamba-State-Space-Modells, die autoregressiv auf Byte-Sequenzen trainiert wird. Die Experimente zeigen, dass MambaByte im Vergleich zu anderen Modellen auf Byte-Ebene eine deutlich höhere Recheneffizienz aufweist. Außerdem stellen wir fest, dass MambaByte mit modernen Subword-Transformern konkurrieren kann und sie sogar übertrifft. Darüber hinaus profitiert MambaByte aufgrund der linearen Skalierung mit der Sequenzlänge von schnellerer Inferenz im Vergleich zu Transformern. Unsere Ergebnisse belegen die Praxistauglichkeit von MambaByte für token-freies Language Modeling.
    > Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.

Paper-Link

https://arxiv.org/abs/2401.13660

Weiterlesen

https://x.com/omarsar0/status/1750366964759859633


Diffuse to Choose: Bildkonditioniertes Inpainting in latenten Diffusionsmodellen für Virtual Try-All anreichern / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Paper-Vorstellung

  • Ein diffusionsbasiertes bildkonditioniertes Inpainting-Modell, das schnelle Inferenz und hohe Fidelity ausbalanciert und zugleich präzise semantische Manipulationen in gegebenen Szeneninhalten ermöglicht; es übertrifft bestehende Zero-Shot-Diffusions-Inpainting-Methoden und sogar Few-Shot-Diffusions-Personalisierungsalgorithmen wie DreamPaint.
    > A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.

Abstract

  • Mit dem Wachstum des Online-Shoppings ist die Fähigkeit für Käufer, Produkte virtuell in ihrer eigenen Umgebung zu visualisieren – ein Phänomen, das wir als „Virtual Try-All“ bezeichnen – entscheidend geworden. Aktuelle Diffusionsmodelle enthalten inhärent ein World Model und eignen sich daher im Inpainting-Kontext für diese Aufgabe. Herkömmliche bildkonditionierte Diffusionsmodelle erfassen jedoch oft nicht die feingranularen Details von Produkten. Personalisierungsgetriebene Modelle wie DreamPaint bewahren die Details eines Artikels dagegen gut, sind aber nicht für Echtzeit-Anwendungen optimiert. Wir stellen „Diffuse to Choose“ vor, ein neuartiges diffusionsbasiertes bildkonditioniertes Inpainting-Modell, das schnelle Inferenz effizient mit der Beibehaltung hochgradig detailgetreuer Merkmale eines gegebenen Referenzobjekts ausbalanciert und dabei präzise semantische Manipulationen im gegebenen Szeneninhalt sicherstellt. Unser Ansatz basiert darauf, feingranulare Merkmale aus dem Referenzbild direkt in die latenten Feature-Maps des Haupt-Diffusionsmodells zu integrieren und zusätzlich einen Perceptual Loss einzusetzen, um die Details des Referenzobjekts noch besser zu bewahren. Wir führen umfangreiche Tests sowohl auf internen als auch auf öffentlich verfügbaren Datensätzen durch und zeigen, dass Diffuse to Choose bestehenden Zero-Shot-Diffusions-Inpainting-Methoden ebenso wie Few-Shot-Diffusions-Personalisierungsalgorithmen wie DreamPaint überlegen ist.
    > As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.

Paper-Link

https://arxiv.org/abs/2401.13795

Weiterlesen

https://x.com/_akhaliq/status/1750737690553692570


WARM: Über die Vorteile gewichts-gemittelter Reward-Modelle / WARM: On the Benefits of Weight Averaged Reward Models

Paper-Vorstellung

  • Führt gewichts-gemittelte Reward-Modelle (WARM) ein, bei denen mehrere Reward-Modelle feinabgestimmt und anschließend im Gewichtsraum gemittelt werden; die Gewichtsmittelung verbessert die Effizienz im Vergleich zu traditionellem Prediction Ensembling und verbessert die Qualität sowie die Alignment-Eigenschaften von LLM-Vorhersagen.
    > Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.

Abstract

  • Die Abstimmung großer Sprachmodelle (LLMs) auf menschliche Präferenzen durch Reinforcement Learning (RLHF) kann zu Reward Hacking führen, bei dem LLMs Fehler im Reward Model (RM) ausnutzen, um scheinbar hohe Belohnungen zu erzielen, ohne die zugrunde liegenden Ziele zu erfüllen. Unity identifiziert zwei zentrale Herausforderungen beim Entwurf von RMs zur Abschwächung von Reward Hacking: Verteilungsverschiebungen während des RL-Prozesses und Inkonsistenzen in menschlichen Präferenzen. Als Lösung wird zunächst vorgeschlagen, mehrere RMs feinzujustieren und sie anschließend im Gewichtsraum zu mitteln; dieses Verfahren heißt Weight Averaged Reward Models (WARM). Diese Strategie folgt der Beobachtung, dass feinjustierte Gewichte linear mode-connected bleiben, wenn sie dasselbe Pre-Training teilen. Durch das Mitteln der Gewichte verbessert WARM die Effizienz im Vergleich zum traditionellen Ensembling von Vorhersagen und erhöht zugleich die Zuverlässigkeit bei Verteilungsverschiebungen sowie die Robustheit gegenüber Präferenzinkonsistenzen. Experimentelle Ergebnisse bei Zusammenfassungsaufgaben mit Best-of-N- und RL-Methoden zeigen, dass WARM die Gesamtqualität und Alignment der LLM-Vorhersagen verbessert. Beispielsweise erreichte ein mit WARM feinjustiertes Policy-RL eine Gewinnrate von 79,4 % gegenüber einem mit einem einzelnen RM feinjustierten Policy-RL.
    > Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.

Paper-Link

https://arxiv.org/abs/2401.12187

Weiterlesen

https://x.com/ramealexandre/status/1749719471806157304


Umfrage zu ressourceneffizienten LLMs und multimodalen Foundation Models / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Paper-Einführung

  • Eine Untersuchung zu ressourceneffizientem ML und multimodalen Foundation Models, die eine umfassende Analyse und Einblicke in die Forschung zur ML-Effizienz bietet, einschließlich Architekturen, Algorithmen sowie praktischer Systementwürfe und Implementierungen.
    > A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.

Paper-Abstract

  • Große Foundation Models, darunter große Sprachmodelle (LLMs), Vision Transformer (ViTs), Diffusionsmodelle und LLM-basierte multimodale Modelle, revolutionieren den gesamten Machine-Learning-Lebenszyklus von Training bis Deployment. Die erheblichen Fortschritte bei Vielseitigkeit und Leistung gehen jedoch mit beträchtlichen Kosten in Bezug auf Hardware-Ressourcen einher. Um das Wachstum dieser großen Modelle auf skalierbare und ökologisch nachhaltige Weise zu unterstützen, richtet sich erhebliche Aufmerksamkeit auf die Entwicklung ressourceneffizienter Strategien. Diese Übersichtsarbeit beleuchtet die entscheidende Bedeutung solcher Forschung eingehend und untersucht sowohl algorithmische als auch systemische Aspekte. Sie bietet eine umfassende Analyse und wertvolle Einblicke aus der bestehenden Literatur und deckt ein breites Themenspektrum ab, von modernen Modellarchitekturen und Trainings-/Serving-Algorithmen bis hin zu praktischen Systemdesigns und Implementierungen. Ziel dieser Umfrage ist es, ein übergreifendes Verständnis dafür zu vermitteln, wie aktuelle Ansätze die Ressourcenherausforderungen großer Foundation Models adressieren, und potenziell künftige Durchbrüche in diesem Bereich zu inspirieren.
    > Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.

Paper-Link

https://arxiv.org/abs/2401.08092v1

Weiterlesen

https://x.com/omarsar0/status/1749208653926654010


Red Teaming für visuelle Sprachmodelle / Red Teaming Visual Language Models

Paper-Einführung

  • Zunächst wird ein Red-Teaming-Datensatz mit 10 Unteraufgaben vorgestellt, darunter etwa irreführende Bilder, multimodales Jailbreaking und Fairness bei Gesichtern. Dabei wurde festgestellt, dass 10 bekannte Open-Source-VLMs unterschiedlich stark mit Red Teaming zu kämpfen haben und gegenüber gpt-4v eine Leistungslücke von bis zu 31 % aufweisen. Außerdem wurde mithilfe des vorgeschlagenen Red-Teaming-Datensatzes zusammen mit SFT (Supervised Fine-tuning) eine Red-Teaming-Ausrichtung auf llava-v1.5 angewendet, wodurch die Modellleistung im Testset um 10 % verbessert wurde.
    > First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.

Paper-Zusammenfassung (Abstract)

  • VLMs (Vision-Language-Modelle) erweitern die Fähigkeiten von LLMs (Large Language Models), indem sie multimodale Eingaben verarbeiten können. Da bereits bestätigt wurde, dass sich LLMs durch bestimmte Testfälle – sogenanntes Red Teaming – dazu bringen lassen, schädliche oder ungenaue Inhalte zu erzeugen, bleibt die Frage offen, wie VLMs in ähnlichen Szenarien abschneiden, insbesondere bei der Kombination von Text- und Bildeingaben. Um dieses Problem zu untersuchen, stellen wir den neuartigen Red-Teaming-Datensatz RTVLM vor, der 10 Unteraufgaben (z. B. irreführende Bilder, multimodales Jailbreaking, Fairness bei Gesichtern usw.) in 4 Hauptaspekten (Faithfulness, Privacy, Safety, Fairness) umfasst. RTVLM von Criteo ist der erste Red-Teaming-Datensatz, der aktuelle VLMs anhand dieser 4 unterschiedlichen Aspekte benchmarkt. Detaillierte Analysen zeigen, dass 10 prominente Open-Source-VLMs in unterschiedlichem Ausmaß Schwierigkeiten mit Red Teaming haben und eine Leistungslücke von bis zu 31 % zu GPT-4V aufweisen. Darüber hinaus haben wir Red-Teaming-Alignment mithilfe von RTVLM per Supervised Fine-tuning (SFT) auf LLaVA-v1.5 angewendet. Dadurch wurde die Leistung des Modells auf dem RTVLM-Testset um 10 % und auf MM-Hal um 13 % verbessert, ohne einen merklichen Rückgang auf MM-Bench, und andere LLaVA-basierte Modelle mit regulären Alignment-Daten wurden übertroffen. Das zeigt, dass aktuellen Open-Source-VLMs weiterhin Red-Teaming-Alignment fehlt. Der Code und die Datensätze von Unity sollen als Open Source veröffentlicht werden.
    > VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.

Paper-Link

https://arxiv.org/abs/2401.12915

Weiterführende Lektüre

https://x.com/omarsar0/status/1750170361843384790


Lumiere: Ein Space-Time-Diffusion-Modell für Videogenerierung / Lumiere: A Space-Time Diffusion Model for Video Generation

Paper-Vorstellung

  • Ein Text-zu-Video-Space-Time-Diffusion-Modell zur Synthese von Videos mit realistischer und konsistenter Bewegung; führt eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Länge eines Videos in einem einzigen Durchlauf auf einmal generiert; erreicht Ergebnisse auf dem Stand der Technik bei der Text-zu-Video-Generierung und unterstützt eine breite Palette an Content-Erstellungsaufgaben und Video-Editing-Anwendungen, darunter Image-to-Video, Video-Inpainting und stilisierte Generierung.
    > A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Paper-Zusammenfassung (Abstract)

  • Vorgestellt wird Lumiere, ein Text-zu-Video-Diffusionsmodell zur Synthese von Videos, die realistische, vielfältige und konsistente Bewegungen darstellen – eine Kernherausforderung der Videosynthese. Dafür führt Google eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Länge des Videos in einem einzigen Durchlauf des Modells auf einmal erzeugt. Das steht im Gegensatz zu bestehenden Videomodellen, die zunächst weit auseinanderliegende Keyframes synthetisieren und anschließend zeitliche Super-Resolution anwenden – ein Ansatz, bei dem globale zeitliche Konsistenz von Natur aus schwer zu erreichen ist. Durch den Einsatz sowohl räumlicher als auch (entscheidend) zeitlicher Down- und Upsampling-Verfahren sowie die Nutzung eines vortrainierten Text-zu-Bild-Diffusionsmodells lernt das Modell, direkt ein Video mit voller Bildrate und niedriger Auflösung zu erzeugen, indem es auf mehreren Raum-Zeit-Skalen verarbeitet wird. Es demonstriert Ergebnisse der Text-zu-Video-Generierung auf dem neuesten Stand der Technik und zeigt ein Design, das eine breite Palette an Content-Erstellungsaufgaben und Video-Editing-Anwendungen wie Image-to-Video, Video-Inpainting und stilisierte Generierung einfach unterstützt.
    > We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Paper-Link

https://arxiv.org/abs/2401.12945

Mehr lesen

https://discuss.pytorch.kr/t/lumiere-google/3357

https://x.com/GoogleAI/status/1751003814931689487


Medusa: Einfaches Framework zur Beschleunigung der LLM-Inferenz mit mehreren Decoding Heads / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Paper-Einführung

  • Ein einfaches Framework zur Beschleunigung der LLM-Inferenz, das mehrere Decoding Heads nutzt, die mehrere nachfolgende Tokens parallel vorhersagen. Durch diese Parallelisierung wird die Anzahl der Decoding-Schritte erheblich reduziert; ohne Einbußen bei der Generierungsqualität lässt sich eine Beschleunigung um mehr als das 2,2-Fache erreichen, während Medusa-2 die Beschleunigung weiter auf das 2,3- bis 3,6-Fache steigert.
    > A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.

Paper-Abstract

  • Der Inferenzprozess großer Sprachmodelle (LLMs) ist häufig dadurch eingeschränkt, dass dem autoregressiven Decoding-Prozess Parallelität fehlt, wodurch die meisten Operationen durch die Speicherbandbreite der Beschleuniger begrenzt werden. Um dieses Problem zu lösen, wurden Methoden wie Speculative Decoding vorgeschlagen, deren Implementierung jedoch durch die Schwierigkeiten beim Beschaffen und Warten eines separaten Draft-Modells erschwert wird. In diesem Paper wird Medusa vorgestellt, eine effiziente Methode zur Beschleunigung der LLM-Inferenz, die zusätzliche Decoding-Heads hinzufügt, um mehrere nachfolgende Tokens parallel vorherzusagen. Medusa verwendet einen baumbasierten Attention-Mechanismus, um mehrere Kandidaten-Fortsetzungen zu konstruieren und diese in jedem Decoding-Schritt gleichzeitig zu verifizieren. Durch die Nutzung von Parallelverarbeitung verursacht Medusa bei der Latenz einzelner Schritte nur minimalen Overhead und reduziert gleichzeitig die Anzahl der erforderlichen Decoding-Schritte erheblich. Um den Anforderungen verschiedener Anwendungsfälle gerecht zu werden, bietet Medusa zwei Stufen des Fine-Tunings: Medusa-1: Medusa wird direkt auf einem eingefrorenen Backbone-LLM feinabgestimmt und ermöglicht dadurch eine verlustfreie Beschleunigung der Inferenz. Medusa-2: Medusa wird gemeinsam mit dem Backbone-LLM feinabgestimmt, wodurch sich die Vorhersagegenauigkeit der Medusa-Heads erhöht und eine stärkere Beschleunigung möglich wird, allerdings ist dafür ein spezielles Trainingsrezept erforderlich, das die Fähigkeiten des Backbone-Modells bewahrt. Darüber hinaus schlagen wir mehrere Erweiterungen vor, die den Nutzen von Medusa verbessern oder erweitern, darunter Self-Distillation für Situationen ohne Trainingsdaten sowie ein allgemeines Acceptance-Schema, um die Akzeptanzrate zu erhöhen und gleichzeitig die Generierungsqualität zu erhalten. Wir evaluieren Medusa auf Modellen unterschiedlicher Größe und mit verschiedenen Trainingsverfahren. Die Experimente zeigen, dass Medusa-1 eine Beschleunigung von mehr als dem 2,2-Fachen ohne Qualitätsverlust bei der Generierung erreichen kann, während Medusa-2 die Beschleunigung weiter auf das 2,3- bis 3,6-Fache steigern kann.
    > The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.

Paper-Link

https://arxiv.org/abs/2401.10774v1

Weiterführende Lektüre

https://discuss.pytorch.kr/t/…

https://x.com/jiayq/status/1749461664393810350


AgentBoard: Ein analytisches Evaluierungsboard für Multi-Turn-LLM-Agenten / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Paper-Einführung

  • Durch analytische Evaluation mit einem umfassenden Benchmark, der ein Open-Source-Evaluierungsframework umfasst, können die Fähigkeiten und Grenzen von LM-Agenten bewertet und das Verhalten von Agenten besser verstanden werden, was zum Aufbau stärkerer und robusterer LM-Agenten beiträgt.
    > A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.

Paper-Abstract

  • Die Bewertung großer Sprachmodelle (LLMs) als universelle Agenten ist essenziell, um ihre Fähigkeiten zu verstehen und ihre Integration in praktische Anwendungen zu erleichtern. Der Evaluierungsprozess bringt jedoch erhebliche Herausforderungen mit sich. Ein zentrales Hindernis ist das Benchmarking der Agentenleistung über unterschiedliche Szenarien hinweg innerhalb eines einheitlichen Frameworks, insbesondere bei der Aufrechterhaltung teilweise beobachtbarer Umgebungen und der Sicherstellung von Interaktionen über mehrere Runden. Zudem konzentrieren sich aktuelle Evaluierungs-Frameworks meist auf die finale Erfolgsquote, liefern während des Prozesses nur wenige Einblicke und ermöglichen kein tiefes Verständnis der Modellfähigkeiten. Um diese Herausforderungen anzugehen, hat Unity AgentBoard eingeführt, einen wegweisenden umfassenden Benchmark samt begleitendem Open-Source-Evaluierungs-Framework, das auf die analytische Bewertung von LLM-Agenten zugeschnitten ist. AgentBoard bietet eine fein granulare Fortschrittsmetrik, die schrittweise Verbesserungen erfasst, sowie ein umfassendes Evaluierungs-Toolkit, das durch interaktive Visualisierung eine einfache Bewertung von Agenten für vielschichtige Analysen ermöglicht. Dadurch werden nicht nur die Fähigkeiten und Grenzen von LLM-Agenten deutlicher, sondern auch die Interpretierbarkeit ihrer Leistung rückt stärker in den Vordergrund. Letztlich ist AgentBoard ein wichtiger Schritt, um das Verhalten von Agenten besser zu verstehen und die Entwicklung leistungsfähigerer LLM-Agenten zu beschleunigen.
    > Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.

Paper-Link

https://arxiv.org/abs/2401.13178v1

Weiterführende Lektüre

https://x.com/ma_chang_nlp/status/1750369056539218082


Originaltext

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8


⚠️Werbung⚠️: Fanden Sie diesen vom PyTorch Korea User Group zusammengestellten Artikel nützlich? Wenn Sie sich als Mitglied registrieren, senden wir Ihnen wichtige Beiträge per E-Mail zu! Standard ist Weekly, aber eine Umstellung auf Daily ist ebenfalls möglich.

Noch keine Kommentare.

Noch keine Kommentare.