8 Punkte von ninebow 2023-09-18 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • Ich habe den von DAIR.AI wöchentlich veröffentlichten Beitrag zu ML-Papern automatisch übersetzt.
  • Die in dieser Woche ausgewählten Paper konzentrieren sich größtenteils auf das Thema LLM (Large Language Model). Besonders auffällig ist dabei die Vielfalt der Ansätze im Umgang mit LLMs. Diese Arbeiten analysieren LLMs aus unterschiedlichen Perspektiven, darunter Trainingsmethoden für Sprachmodelle, das Entwicklungspotenzial agentenbasierter LLMs, die Verfeinerung von LLMs und ihre Fähigkeit zum selbstständigen Lernen sowie eine Reihe weiterer Untersuchungen zu LLMs.
  • Dieser Trend zeigt, dass Trainingsmethoden für Sprachmodelle im Bereich Künstliche Intelligenz und Machine Learning als besonders wichtig gelten und dass dabei vor allem LLMs im Fokus stehen. Zugleich deutet die Vielfalt der Herangehensweisen an LLMs darauf hin, wie breit diese Technologie eingesetzt werden kann, und macht ihr Potenzial deutlich.

Alles, was man braucht, sind Lehrbücher II: Technischer Bericht zu PHI-1.5 / Textbooks Are All You Need II: phi-1.5 technical report

Paper-Einführung

  • Ein neues Modell mit 1,3 Milliarden Parametern, trainiert auf 30 Milliarden Tokens; der Datensatz besteht aus synthetisch erzeugten Daten in „Lehrbuchqualität“; phi-1.5 ist bei Reasoning-Aufgaben konkurrenzfähig zu anderen größeren Modellen oder übertrifft sie und deutet damit darauf hin, dass Datenqualität eine wichtigere Rolle spielt als bisher angenommen. #llm #llm-alignment

    A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.

Abstract des Papers

  • Wir setzen die Untersuchung zur Leistungsfähigkeit kleinerer Transformer-basierter Sprachmodelle fort, angestoßen durch $TinyStories$ – ein Modell mit 10 Millionen Parametern, das kohärentes Englisch erzeugen kann – sowie die anschließende Arbeit zu $phi-1$, einem Modell mit 1,3 Milliarden Parametern und einer Python-Coding-Performance nahe am Stand der Technik. Letztere Arbeit schlug vor, vorhandene Large Language Models (LLMs) zu nutzen, um Daten in „Lehrbuchqualität“ zu erzeugen und damit den Lernprozess gegenüber herkömmlichen Webdaten zu verbessern. Wir folgen dem Ansatz „Textbooks Are All You Need“, diesmal mit Fokus auf Common-Sense-Reasoning in natürlicher Sprache, und erstellen ein neues Modell mit 1,3 Milliarden Parametern namens \textbf{phi-1.5}, dessen Leistung bei Natural-Language-Aufgaben mit Modellen vergleichbar ist, die 5x größer sind, und das bei komplexeren Reasoning-Aufgaben wie Grundschulmathematik und einfachem Coding die meisten Non-Frontier-LLMs übertrifft. Allgemeiner zeigt $phi-1.5$ viele Eigenschaften deutlich größerer LLMs, sowohl gute – etwa die Fähigkeit, „Schritt für Schritt zu denken“ oder eine rudimentäre In-Context-Learning-Leistung zu zeigen – als auch schlechte, darunter Halluzinationen und das Potenzial für toxische oder verzerrte Ausgaben. Ermutigend ist jedoch, dass wir dank des Fehlens von Webdaten in dieser Hinsicht Verbesserungen sehen. Wir haben $phi-1.5$ als Open Source veröffentlicht, um weitere Forschung zu diesen drängenden Themen zu fördern.

    We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.

Paper-Link

https://arxiv.org/abs/2309.05463

Weiterführende Lektüre

https://x.com/omarsar0/status/1701590130270601422

Der Aufstieg und das Potenzial von auf Large Language Models basierenden Agenten: Ein Survey / The Rise and Potential of Large Language Model Based Agents: A Survey

Paper-Einführung

  • Ein umfassender Überblick über LLM-basierte Agenten; behandelt sowohl den Aufbau dieser Agenten als auch deren sinnvollen Einsatz. #survey-paper

    A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.

Abstract des Papers

  • Die Menschheit strebt seit Langem nach einer künstlichen Intelligenz (AI), die dem Menschen ebenbürtig ist oder ihn übertrifft, und AI-Agenten gelten als vielversprechendes Mittel, dieses Ziel zu erreichen. AI-Agenten sind künstliche Entitäten, die ihre Umgebung wahrnehmen, Entscheidungen treffen und Handlungen ausführen. Seit Mitte des 20. Jahrhunderts wurden viele Anstrengungen unternommen, um intelligente AI-Agenten zu entwickeln. Diese Bemühungen konzentrierten sich jedoch hauptsächlich auf Fortschritte bei Algorithmen oder Trainingsstrategien, um bestimmte Fähigkeiten oder die Leistung bei spezifischen Aufgaben zu verbessern. Tatsächlich fehlt der Community ein hinreichend allgemeines und leistungsfähiges Modell, das als Ausgangspunkt für das Design von AI-Agenten dienen kann, die sich an unterschiedliche Szenarien anpassen lassen. Große Sprachmodelle (LLMs) gelten aufgrund ihrer Vielseitigkeit und ihrer bemerkenswerten Fähigkeiten als potenzielle Funken einer Artificial General Intelligence (AGI) und geben Hoffnung auf den Aufbau allgemeiner AI-Agenten. Viele Forschungsarbeiten haben LLMs als Grundlage für den Aufbau von AI-Agenten genutzt und dabei erhebliche Fortschritte erzielt. Zunächst wird das Konzept des Agenten von seinen philosophischen Ursprüngen bis zu seiner Entwicklung in der AI nachgezeichnet und erläutert, warum LLMs eine geeignete Grundlage für AI-Agenten sind. Darauf aufbauend wird ein konzeptionelles Framework für LLM-basierte Agenten vorgestellt, das aus drei Hauptkomponenten besteht: Gehirn, Wahrnehmung und Handlung; dieses Framework kann an unterschiedliche Anwendungen angepasst werden. Anschließend werden die umfangreichen Einsatzmöglichkeiten von LLM-basierten Agenten unter drei Aspekten untersucht: Single-Agent-Szenarien, Multi-Agent-Szenarien und die Zusammenarbeit zwischen Mensch und Agent. Danach folgt ein vertiefter Blick auf Agentengesellschaften, bei dem das Verhalten und die Persönlichkeit von LLM-basierten Agenten, die sozialen Phänomene, die beim Bilden solcher Gesellschaften entstehen, sowie die Erkenntnisse für die menschliche Gesellschaft betrachtet werden. Abschließend werden verschiedene zentrale Themen und offene Probleme in diesem Bereich diskutiert.
    > For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.

Paper-Link

https://arxiv.org/abs/2309.07864

Weiterlesen

https://x.com/omarsar0/status/1702736490067890239

EvoDiff

Paper-Vorstellung

  • Kombiniert Daten im evolutionären Maßstab mit Diffusionsmodellen für kontrollierbare Proteingenerierung im Sequenzraum; dadurch können Proteine erzeugt werden, die für strukturbasierte Modelle unzugänglich sind. #diffusion
    > Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.

Paper-Link

https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1

Weiterlesen

https://x.com/KevinKaichuang/status/1701953715312136302

RAIN: Sprachmodelle können sich ohne Finetuning selbst ausrichten / RAIN: Your Language Models Can Align Themselves without Finetuning

Paper-Vorstellung

  • Es zeigt sich, dass nicht ausgerichtete llms durch die Integration von Selbstbewertung und Rewind-Mechanismen via Self-Boosting direkt Antworten erzeugen können, die mit menschlichen Präferenzen übereinstimmen.
    > Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.

Paper-Abstract

  • Große Sprachmodelle (LLMs) zeigen oft Inkonsistenzen mit menschlichen Präferenzen. Frühere Arbeiten sammelten Daten zu menschlichen Präferenzen und richteten die vortrainierten Modelle anschließend mittels Reinforcement Learning oder Instruction Tuning, dem sogenannten Fine-Tuning-Schritt, aus. Im Gegensatz dazu ist es attraktiver, eingefrorene LLMs ohne zusätzliche Daten auszurichten. Diese Arbeit untersucht das Potenzial dieses Ansatzes. Die Forschenden stellen fest, dass nicht ausgerichtete LLMs durch die Integration von Selbstbewertung und einem Rewind-Mechanismus über Self-Boosting direkt Antworten erzeugen können, die mit menschlichen Präferenzen übereinstimmen. Unity führt mit Rewindable Auto-regressive INference (RAIN) eine neue Inferenzmethode ein, die es vortrainierten LLMs ermöglicht, ihre eigenen Generierungen zu bewerten und die Bewertungsergebnisse zu nutzen, um Rückwärts-Rewind und Vorwärts-Generierung im Sinne der AI-Sicherheit zu steuern. Besonders bemerkenswert ist, dass RAIN ohne zusätzliche Daten für die Modellausrichtung arbeitet und weder Training noch Gradientenberechnung oder Parameter-Updates benötigt; während der Phase der Selbstbewertung erhält das Modell über einen Prompt mit festem Template Anweisungen dazu, an welchen menschlichen Präferenzen es sich ausrichten soll, sodass der ursprüngliche Prompt nicht verändert werden muss. Von GPT-4 und Menschen bewertete experimentelle Ergebnisse belegen die Wirksamkeit von RAIN. Auf dem HH-Datensatz verbessert RAIN die Harmlessness-Rate von LLaMA 30B gegenüber Vanilla-Inferenz von 82 % auf 97 %, während die Helpfulness-Rate erhalten bleibt. Unter dem führenden adversarialen Angriff llm-attacks auf Vicuna 33B setzt RAIN eine neue Verteidigungs-Baseline, indem es die Angriffserfolgsrate von 94 % auf 19 % senkt.
    > Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.

Paper-Link

https://arxiv.org/abs/2309.07124

Mehr lesen

https://x.com/omarsar0/status/1702131444041011395

Robot Parkour Learning

Paper-Einführung

  • Es wird ein System vorgestellt, das eine end-to-end visuelle Parkour-Policy lernt und diese mithilfe einer egozentrischen Tiefenkamera auf einen vierbeinigen Laufroboter überträgt; gezeigt wird, dass kostengünstige Roboter Parkour-Fähigkeiten in realen Umgebungen automatisch auswählen und ausführen können.
    > Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.

Paper-Abstract

  • Parkour ist eine große Herausforderung für die Fortbewegung mit Beinen, bei der Roboter in komplexen Umgebungen schnell verschiedene Hindernisse überwinden müssen. Bestehende Verfahren können mithilfe von Tierdaten oder komplexen Belohnungen entweder vielfältige, aber blinde Fortbewegungsfähigkeiten oder visuell basierte, aber spezialisierte Fähigkeiten erzeugen. Für autonomes Parkour müssen Roboter jedoch verallgemeinerbare Fähigkeiten erlernen, die sowohl visuell basiert als auch vielfältig sind, damit sie unterschiedliche Szenarien wahrnehmen und darauf reagieren können. In dieser Arbeit schlagen wir ein System vor, das ohne Referenz-Bewegungsdaten und nur mit einer einfachen Belohnung eine einzige End-to-End-visionsbasierte Parkour-Policy für vielfältige Parkour-Fähigkeiten lernt. Wir entwickeln eine von Direct Collocation inspirierte Reinforcement-Learning-Methode, um Parkour-Fähigkeiten zu erzeugen, darunter das Überklettern hoher Hindernisse, das Überspringen großer Lücken, das Kriechen unter niedrigen Barrieren, das Durchquetschen durch schmale Spalten und das Rennen. Diese Fähigkeiten werden in eine einzige visionsbasierte Parkour-Policy destilliert und mithilfe der egozentrischen Tiefenkamera auf einen quadrupeden Roboter übertragen. Wir zeigen, dass unser System zwei unterschiedlichen kostengünstigen Robotern ermöglicht, autonom geeignete Parkour-Fähigkeiten auszuwählen und auszuführen, um anspruchsvolle reale Umgebungen zu durchqueren.
    > Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.

Paper-Link

https://arxiv.org/abs/2309.05665

Weiterlesen

https://x.com/zipengfu/status/1701316023612219445

Umfrage zu Halluzinationen in großen Foundation-Modellen / A Survey of Hallucination in Large Foundation Models

Paper-Vorstellung

  • Klassifiziert verschiedene Arten von Halluzinationsphänomenen und bietet Bewertungskriterien zur Beurteilung von Halluzinationen sowie Strategien zu ihrer Minderung. #survey-paper #foundation-model
    > Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.

Paper-Abstract

  • Halluzinationen in Foundation-Modellen (FM) bezeichnen die Erzeugung von Inhalten, die von der faktischen Realität abweichen oder erfundene Informationen enthalten. Dieses Survey-Paper bietet einen umfassenden Überblick über jüngste Bemühungen, das Problem von Halluzinationen zu identifizieren, zu erklären und anzugehen, mit besonderem Fokus auf „Large“ Foundation Models (LFM). Die Arbeit klassifiziert verschiedene Arten von Halluzinationsphänomenen, die spezifisch für LFMs sind, und etabliert Bewertungskriterien zur Einschätzung des Ausmaßes von Halluzinationen. Außerdem untersucht sie bestehende Strategien zur Minderung von Halluzinationen in LFMs und diskutiert mögliche Richtungen für künftige Forschung in diesem Bereich. Im Kern bietet die Arbeit eine umfassende Untersuchung der Herausforderungen und Lösungsansätze rund um Halluzinationen in LFMs.
    > Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.

Paper-Link

https://arxiv.org/abs/2309.05922

Weiterlesen

https://x.com/omarsar0/status/1701970034711539839

Agents: Open-Source-Framework für autonome Sprachagenten / Agents: An Open-source Framework for Autonomous Language Agents

Paper-Vorstellung

  • Eine Open-Source-Bibliothek zum Aufbau autonomer Sprachagenten mit Unterstützung für Funktionen wie Planung, Gedächtnis, Tool-Nutzung, Multi-Agenten-Kommunikation und mehr.
    > An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.

Paper-Abstract

  • Dank der jüngsten Fortschritte bei Large Language Models (LLMs) können Forschende und Entwickler autonome Sprachagenten entwickeln, die mithilfe natürlicher Sprachschnittstellen verschiedenste Aufgaben automatisch lösen und mit Umgebungen, Menschen sowie anderen Agenten interagieren können. Wir betrachten Sprachagenten als eine vielversprechende Richtung hin zu künstlicher allgemeiner Intelligenz und haben Agents veröffentlicht, eine Open-Source-Bibliothek mit dem Ziel, diese Fortschritte einem breiteren nicht spezialisierten Publikum zugänglich zu machen. Agents wurde sorgfältig entwickelt, um wichtige Funktionen wie Planung, Gedächtnis, Tool-Nutzung, Multi-Agent-Kommunikation und fein abgestufte symbolische Kontrolle zu unterstützen. Agents ist benutzerfreundlich, da es auch Nichtfachleuten ermöglicht, modernste autonome Sprachagenten ohne großen Programmieraufwand zu erstellen, anzupassen, zu testen, abzustimmen und bereitzustellen. Zugleich ist die Bibliothek forschungsfreundlich, da ihr modularer Aufbau eine einfache Erweiterung durch Forschende ermöglicht. Agents ist unter https://github.com/aiwaves-cn/agents verfügbar.
    > Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.

Paper-Link

https://arxiv.org/abs/2309.07870

Weiterlesen

https://x.com/arankomatsuzaki/status/1702497897395396960

Radiology-Llama2: Klassenbester Large Language Model für die Radiologie / Radiology-Llama2: Best-in-Class Large Language Model for Radiology

Paper-Vorstellung

  • Stellt ein auf Llama 2 basierendes, auf die Radiologie zugeschnittenes LLM bereit, das auf einem großen Datensatz radiologischer Berichte abgestimmt wurde, um aus radiologischen Befunden kohärente und klinisch nützliche Impressionen zu erzeugen.
    > Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.

Paper-Abstract

  • In dieser Arbeit wird Radiology-Llama2 vorgestellt, ein durch einen als Instruction Tuning bekannten Prozess auf die Radiologie spezialisiertes Large Language Model. Radiology-Llama2 basiert auf der Llama2-Architektur und wurde zusätzlich auf einem großen Datensatz radiologischer Berichte trainiert, um aus radiologischen Befunden konsistente und klinisch nützliche Impressionen zu generieren. Quantitative Auswertungen mit ROUGE-Metriken auf den Datensätzen MIMIC-CXR und OpenI zeigen, dass Radiology-Llama2 im Vergleich zu anderen generativen Sprachmodellen State-of-the-Art-Leistung erreicht, mit einem Rouge-1-Score von 0.4834 auf MIMIC-CXR und 0.4185 auf OpenI. Zusätzliche Bewertungen durch Radiologie-Expertinnen und -Experten heben die Stärken des Modells bei Verständlichkeit, Kohärenz, Relevanz, Prägnanz und klinischem Nutzen hervor. Die Arbeit veranschaulicht das Potenzial lokalisierter Sprachmodelle, die für spezialisierte Domänen wie die Radiologie entworfen und abgestimmt wurden. Bei angemessener Evaluierung und Bereitstellung können solche Modelle Bereiche wie die Radiologie verändern, indem sie Routinetätigkeiten automatisieren und menschliche Expertise erweitern.
    > This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.

Paper-Link

https://arxiv.org/abs/2309.06419

Weiterlesen

https://x.com/omarsar0/status/1701774444052557965

Kommunikationsagenten für die Softwareentwicklung / Communicative Agents for Software Development

Paper-Vorstellung

  • Stellt chatdev vor, ein virtuelles chatbasiertes Softwareentwicklungsunternehmen nach dem Vorbild des Wasserfallmodells, und zeigt die Effizienz des Agenten bei der Softwareerzeugung, der sogar den gesamten Softwareentwicklungsprozess in weniger als sieben Minuten für weniger als einen Dollar abschließt.
    > Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.

Paper-Abstract

  • Software Engineering ist ein Bereich, der von komplexen Entscheidungsprozessen geprägt ist und sich oft auf feines Gespür und Abstimmung stützt. Die jüngsten Fortschritte im Deep Learning haben begonnen, die Praktiken im Software Engineering durch ausgefeilte Designs zu revolutionieren, die in verschiedenen Phasen der Softwareentwicklung eingesetzt werden. Dieses Paper stellt ein innovatives Paradigma vor, das Large Language Models (LLMs) über den gesamten Softwareentwicklungsprozess hinweg nutzt, zentrale Prozesse durch natürlichsprachliche Kommunikation verschlankt und vereinheitlicht und damit den Bedarf an spezialisierten Modellen in jeder einzelnen Phase beseitigt. Im Zentrum dieses Paradigmas steht ChatDev, ein virtuelles, chatbasiertes Softwareentwicklungsunternehmen, das das etablierte Wasserfallmodell widerspiegelt und den Entwicklungsprozess sorgfältig in vier klar getrennte zeitliche Phasen unterteilt: Design, Codierung, Testen und Dokumentation. In jeder Phase arbeitet ein Team von Agenten wie Programmierern, Code-Reviewern und Testingenieuren zusammen, fördert kollaborativen Dialog und sorgt für einen reibungslosen Workflow. Die Chat-Kette fungiert dabei als Vermittler, indem sie jede Phase in atomare Teilaufgaben zerlegt. Dadurch übernimmt sie eine Doppelrolle: Lösungen können über kontextbewusste Kommunikation vorgeschlagen und validiert werden, was die effiziente Bearbeitung spezifischer Teilaufgaben ermöglicht. Die instrumentelle Analyse von ChatDev zeigt eine bemerkenswerte Effizienz bei der Softwareerstellung: Der gesamte Softwareentwicklungsprozess lässt sich in weniger als sieben Minuten zu Kosten von unter einem Dollar abschließen. ChatDev identifiziert und entschärft nicht nur potenzielle Schwachstellen, sondern korrigiert auch mögliche Halluzinationen und bewahrt dabei eine hohe Effizienz und Kosteneffektivität. Das Potenzial von ChatDev eröffnet neue Möglichkeiten für die Integration von LLMs in die Softwareentwicklung.
    > Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.

Paper-Link

https://arxiv.org/abs/2307.07924v3

Weiter lesen

https://x.com/KevinAFischer/status/1702355125418045860

MAmmoTH: Aufbau von Math-Generalist-Modellen durch hybrides Instruction Tuning / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning

Paper-Vorstellung

  • Eine Reihe von Open-Source-ML-Modellen, die auf allgemeines mathematisches Problemlösen zugeschnitten sind, mit einem kuratierten Instruction-Tuning-Datensatz trainiert werden und bestehende Open-Source-Modelle auf mehreren Datensätzen zum mathematischen Schlussfolgern übertreffen. #mathglm
    > A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.

Paper-Abstract

  • Vorgestellt wird MAmmoTH, eine Reihe von Open-Source Large Language Models (LLMs), die speziell für allgemeines mathematisches Problemlösen zugeschnitten sind. Die MAmmoTH-Modelle werden auf MathInstruct trainiert, einem sorgfältig kuratierten Instruction-Tuning-Datensatz. MathInstruct wird aus 13 Mathematik-Datensätzen mit Zwischenschritten der Begründung zusammengestellt, von denen sechs neu von den Autoren kuratierte Begründungen enthalten. Diese Lösung bietet eine einzigartige Hybridform aus Chain-of-Thought-(CoT)- und Program-of-Thought-(PoT)-Begründungen und deckt zugleich ein breites Spektrum mathematischer Teilgebiete ab. Die Kombination aus CoT und PoT erschließt nicht nur das Potenzial des Tool-Einsatzes, sondern erlaubt auch unterschiedliche Denkprozesse für unterschiedliche mathematische Probleme. Dadurch übertrifft die MAmmoTH-Reihe bestehende Open-Source-Modelle bei neun Datensätzen für mathematisches Schlussfolgern über alle Größenordnungen hinweg deutlich, mit einer durchschnittlichen Genauigkeitssteigerung von 13 % bis 29 %. Bemerkenswert ist, dass das Modell MAmmoTH-7B auf MATH, einem Datensatz auf Wettbewerbsniveau, 35 % erreicht und damit das beste Open-Source-7B-Modell (WizardMath) um 25 % übertrifft; MAmmoTH-34B erzielt auf MATH eine Genauigkeit von 46 % und übertrifft damit sogar das CoT-Ergebnis von GPT-4. Die Studie unterstreicht die Bedeutung einer breiten Problemabdeckung und des Einsatzes hybrider Begründungen für die Entwicklung überlegener allgemeiner Mathematikmodelle.
    > We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.

Paper-Link

https://arxiv.org/abs/2309.05653

Weiterlesen

https://x.com/xiangyue96/status/1701710215442309323

Original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461

Noch keine Kommentare.

Noch keine Kommentare.