[2023/12/11 ~ 12/17] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)
(discuss.pytorch.kr)Überblick
-
Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.
-
Ein Blick auf die in dieser Woche ausgewählten Papers zeigt auffällig, dass Forschungsarbeiten zu „LLM (Large Language Models)“ den Schwerpunkt bilden. Konkret scheint die Nutzung von LLMs und die Analyse ihrer Leistungsverbesserungen über verschiedenste Themen hinweg untersucht worden zu sein, darunter Entdeckungen im Bereich Mathematik, Generalisierungsprobleme, Anwendungen in der Medizin sowie Lernmethoden jenseits menschlicher Daten.
-
Dieser Trend spiegelt wider, dass die Fortschritte von LLMs in der KI in den letzten Jahren stark im Fokus stehen. Insbesondere mit dem Aufkommen großer Sprachmodelle wie OpenAIs GPT-3 hat sich das Potenzial dieser Modelle für Anwendungen in verschiedensten Bereichen erheblich erweitert. Das deutet darauf hin, dass LLMs über reine Textverarbeitung hinaus auch bei der Lösung komplexer Probleme eine wichtige Rolle spielen können, und die Papers dieser Woche zeigen, dass ihr Einfluss inzwischen sogar auf traditionelle Disziplinen wie Mathematik und Medizin übergreift. Zugleich unterstreicht der Trend zu Transparenz und Offenheit die Bedeutung von Vertrauen und Zusammenarbeit in Forschung und Anwendung.
-
Auch Papers wie „Weak-to-strong Generalization“ oder „Beyond Human Data for LLMs“ deuten auf Forschung zur Generalisierungsfähigkeit und zu Lernmethoden von LLMs hin. Das lässt sich als Versuch verstehen, die derzeit begrenzten Lernumgebungen von LLMs zu überwinden und leistungsfähigere Lernmechanismen zu entwickeln. Dieser Trend zeigt, dass sich die LLM-Forschung nicht mehr nur auf reine Leistungssteigerung konzentriert, sondern darauf abzielt, Generalisierungsfähigkeit und Nutzwert der Modelle grundlegend zu verbessern.
LLMs für Entdeckungen in den mathematischen Wissenschaften / LLMs for Discoveries in Mathematical Sciences
Paper-Einführung
- Einsatz von LLMs, um in Mathematik und Informatik neue Lösungswege zu finden; vorgeschlagen wird funsearch, das ein vortrainiertes LLM mit einem systematischen Evaluator kombiniert und beide iterativ nutzt, um niedrig bewertete Programme zu hoch bewerteten Programmen weiterzuentwickeln, die neues Wissen entdecken; eines der Kernergebnisse dieser Arbeit ist, dass der Schutz vor LLM-Halluzinationen wichtig ist, um mathematische Entdeckungen und andere reale Probleme zu bearbeiten.
Uses llms to search for new solutions in mathematics & computer science; proposes funsearch which combines a pre-trained llm with a systematic evaluator and iterates over them to evolve low-scoring programs into high-scoring ones discovering new knowledge; one of the key findings in this work is that safeguarding against llm hallucinations is important to produce mathematical discoveries and other real-world problems.
Paper-Link
https://www.nature.com/articles/s41586-023-06924-6
Mehr dazu
https://x.com/GoogleDeepMind/status/1735332722208284797
Schwach-zu-stark-Generalisierung / Weak-to-strong Generalization
Paper-Einführung
- Untersucht wird, ob die Überwachung durch ein schwächeres Modell die vollen Fähigkeiten eines stärkeren Modells hervorbringen kann. Dabei wurde festgestellt, dass stark vortrainierte Modelle bei naivem Fine-Tuning auf von schwachen Modellen erzeugten Labels besser abschneiden können als ihre schwachen Supervisoren. Außerdem wird berichtet, dass sich beim Fine-Tuning von GPT-4 mit einem Supervisor auf GPT-2-Niveau bei NLP-Aufgaben eine Leistung nahe dem Niveau von GPT-3.5 wiederherstellen lässt.
Studies whether weak model supervision can elicit the full capabilities of stronger models; finds that when naively fine-tuning strong pretrained models on weak model generated labels they can perform better than their weak supervisors; reports that finetuning gpt-4 with a gpt-2-level supervisor it’s possible to recover close to gpt-3.5-level performance on nlp tasks.
Paper-Link
https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
Mehr dazu
https://x.com/OpenAI/status/1735349718765715913
Audiobox / Audiobox
Paper-Einführung
- Ein einheitliches, auf Flow-Matching basierendes Modell, das verschiedene Audio-Modalitäten erzeugen kann; es entwirft beschreibungsbasierte und beispielbasierte Prompting-Methoden, um die Steuerbarkeit zu erhöhen und Paradigmen der Sprach- und Klangerzeugung zu vereinheitlichen; es passt ein selbstüberwachtes Infilling-Ziel an, um auf großen Mengen unbeschrifteter Audiodaten vorzutrainieren; es erzielt starke Ergebnisse bei Sprach- und Klangerzeugung und eröffnet neue Methoden zur Erzeugung von Audio mit neuartigen vokalen und akustischen Stilen.
A unified model based on flow-matching capable of generating various audio modalities; designs description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms; adapts a self-supervised infilling objective to pre-train on large quantities of unlabeled audio; performs well on speech and sound generation and unlocks new methods for generating audio with novel vocal and acoustic styles.
Paper-Link
https://ai.meta.com/research/publications/…
Mehr dazu
https://x.com/AIatMeta/status/1734257634008531453
Mathematische Sprachmodelle: Eine Umfrage / Mathematical Language Models: A Survey
Paper-Einführung
- Eine Übersicht über die Fortschritte von LLMs bei mathematischen Aufgaben; behandelt Papers und Ressourcen zur LLM-Forschung rund um Prompting-Techniken und Aufgaben wie das Lösen mathematischer Textaufgaben und das Beweisen von Theoremen.
A survey on the progress of llms on mathematical tasks; covers papers and resources on llm research around prompting techniques and tasks such as math word problem-solving and theorem proving.
Paper-Abstract
- In den letzten Jahren gab es bemerkenswerte Fortschritte bei der Nutzung von Sprachmodellen (LMs), darunter Pre-trained Language Models (PLMs) und Large-scale Language Models (LLMs), im Bereich der Mathematik. Dieses Paper führt eine umfassende Untersuchung mathematischer LMs durch und klassifiziert zentrale Forschungsarbeiten systematisch aus zwei unterschiedlichen Perspektiven: Aufgaben und Methodologien. Dabei zeigt sich eine große Zahl vorgeschlagener mathematischer LLMs, die sich weiter in Instruction Learning, toolbasierte Methoden, grundlegende CoT-Techniken und fortgeschrittene CoT-Methodologien unterteilen lassen. Darüber hinaus umfasst diese Übersicht die Zusammenstellung von mehr als 60 mathematischen Datensätzen, darunter Trainingsdatensätze, Benchmark-Datensätze und augmentierte Datensätze. Indem sie die wichtigsten Herausforderungen adressiert und zukünftige Entwicklungen im Bereich mathematischer LMs skizziert, positioniert sich diese Übersicht als wertvolle Ressource, die künftige Innovationen unter Forschenden fördern und inspirieren kann, die in die Weiterentwicklung dieses Feldes investieren.
> In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.
Paper-Link
https://arxiv.org/abs/2312.07622
Weiterführende Lektüre
https://x.com/omarsar0/status/1735323577392542084
LLM360: Der Weg zu vollständig transparenten Open-Source-LLMs / LLM360: Towards Fully Transparent Open-Source LLMs
Paper-Vorstellung
- Vorgestellt wird LLM360, um offene und kollaborative KI-Forschung zu unterstützen, indem der End-to-End-Trainingsprozess von maschinellem Lernen transparent und reproduzierbar gemacht wird; veröffentlicht werden die von Grund auf vortrainierten 7B-Parameter-Modelle Amber und CrystalCoder einschließlich Trainingscode, Daten, Zwischen-Checkpoints und Analysen.
> Proposes llm360 to support open and collaborative ai research by making the end-to-end llm training process transparent and reproducible; releases 7b parameter llms pre-trained from scratch, amber and crystalcoder, including their training code, data, intermediate checkpoints, and analyses.
Paper-Abstract
- Der jüngste Anstieg von Open-Source Large Language Models (LLMs) wie LLaMA, Falcon und Mistral bietet KI-Praktikern und Forschenden eine Vielzahl von Optionen. Die meisten LLMs veröffentlichen jedoch nur teilweise Artefakte wie die finalen Modellgewichte oder Inferenz-Code, und technische Berichte beschränken sich zunehmend auf übergeordnete Designentscheidungen und oberflächliche Statistiken. Diese Entscheidungen behindern den Fortschritt im Feld, indem sie die Transparenz des LLM-Trainings verringern und Teams dazu zwingen, viele Details des Trainingsprozesses erneut zu entdecken. Unity stellt LLM360 vor, eine Initiative zur vollständigen Open-Source-Veröffentlichung von LLMs, die dafür eintritt, sämtlichen Trainingscode und alle Daten, Modell-Checkpoints sowie Zwischenergebnisse der Community verfügbar zu machen. Das Ziel von LLM360 ist es, offene und kollaborative KI-Forschung zu unterstützen, indem der End-to-End-Trainingsprozess von LLMs für alle transparent und reproduzierbar gemacht wird. Als ersten Schritt von LLM360 veröffentlicht Unity zwei von Grund auf vortrainierte 7B-Parameter-LLMs, Amber und CrystalCoder, einschließlich Trainingscode, Daten, Zwischen-Checkpoints und Analysen (unter https://www.llm360.ai). Unity verpflichtet sich, durch diese Open-Source-Initiative die Grenzen von LLMs kontinuierlich weiter zu verschieben. Noch größere und leistungsfähigere Modelle sind in Entwicklung und sollen künftig veröffentlicht werden.
> The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
Paper-Link
https://arxiv.org/abs/2312.06550
Weiterführende Lektüre
https://x.com/omarsar0/status/1734591071575744820
Überblick über Large Language Models in der Medizin: Prinzipien, Anwendungen und Herausforderungen / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges
Paper-Vorstellung
- Eine umfassende Umfrage zum Einsatz von Machine Learning in der Medizin (Analyse von mehr als 300 Papers), einschließlich eines Überblicks über die Prinzipien, Anwendungen und Herausforderungen, mit denen Machine Learning in der Medizin konfrontiert ist.
> A comprehensive survey (analyzing 300+ papers) on llms in medicine; includes an overview of the principles, applications, and challenges faced by llms in medicine.
Paper-Zusammenfassung
- Große Sprachmodelle (LLMs) wie ChatGPT haben aufgrund ihrer beeindruckenden Fähigkeiten beim Verstehen und Generieren menschlicher Sprache große Aufmerksamkeit erhalten. Daher entwickelt sich die Anwendung von LLMs in der Medizin zur Unterstützung von Ärztinnen und Ärzten sowie der Patientenversorgung zu einer vielversprechenden Forschungsrichtung sowohl in der künstlichen Intelligenz als auch in der klinischen Medizin. Vor diesem Hintergrund bietet diese Übersicht eine umfassende Darstellung der Prinzipien, Anwendungen und Herausforderungen von LLMs in der Medizin. Konkret sollen die folgenden Fragen beantwortet werden: 1) Wie können medizinische LLMs aufgebaut werden? 2) Wie leistungsfähig sind medizinische LLMs in Downstream-Aufgaben? 3) Wie können medizinische LLMs in der realen klinischen Praxis eingesetzt werden? 4) Welche Probleme entstehen beim Einsatz medizinischer LLMs? 5) Wie lassen sich medizinische LLMs besser entwickeln und nutzen? Insgesamt soll diese Übersicht Einblicke in die Chancen und Herausforderungen von LLMs in der Medizin geben und als wertvolle Ressource für den Aufbau praktischer und effektiver medizinischer LLMs dienen. Eine regelmäßig aktualisierte Liste praktischer Leitfäden zu medizinischen LLMs findet sich unter https://github.com/AI-in-Health/MedLLMsPracticalGuide.
> Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.
Paper-Link
https://arxiv.org/abs/2311.05112
Weiterführende Lektüre
https://x.com/omarsar0/status/1734599425568231513
Mehr als menschliche Daten: Selbsttraining mit Sprachmodellen für Problemlösung skalieren / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
Paper-Einführung
- Vorgeschlagen wird ein Selbsttrainingsansatz mit Feedback, der die Abhängigkeit von menschengenerierten Daten deutlich reduzieren kann; modellgenerierte Daten in Kombination mit einer Belohnungsfunktion verbessern die Leistung von Machine Learning bei Problemlösungsaufgaben.
> Proposes an approach for self-training with feedback that can substantially reduce dependence on human-generated data; the model-generated data combined with a reward function improves the performance of llms on problem-solving tasks.
Paper-Zusammenfassung
- Das Fine-Tuning von Sprachmodellen (LMs) auf menschengenerierten Daten ist weiterhin weit verbreitet. Allerdings wird die Leistung solcher Modelle oft durch die Menge und Vielfalt hochwertiger menschlicher Daten begrenzt. In diesem Paper untersuchen die Autorinnen und Autoren, ob sich auf Aufgaben mit skalarem Feedback über menschliche Daten hinausgehen lässt, etwa bei Mathematikaufgaben, bei denen die Korrektheit überprüfbar ist. Dazu betrachten sie eine einfache, auf Expectation-Maximization basierende Methode des Selbsttrainings namens ReST $^{EM}$, bei der (1) Samples aus dem Modell erzeugt und mithilfe binären Feedbacks gefiltert werden, (2) das Modell auf diesen Samples feinabgestimmt wird und (3) dieser Prozess einige Male wiederholt wird. Beim Testen fortgeschrittener Benchmarks für mathematisches Schlussfolgern und APPS-Coding mit PaLM-2-Modellen zeigt sich, dass ReST $^{EM}$ günstig mit der Modellgröße skaliert und das Fine-Tuning ausschließlich auf menschlichen Daten deutlich übertrifft. Insgesamt legen die Ergebnisse nahe, dass Selbsttraining mit Feedback die Abhängigkeit von menschengenerierten Daten erheblich verringern kann.
> Fine-tuning language models(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST $^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST $^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
Paper-Link
https://arxiv.org/abs/2312.06585
Weiterführende Lektüre
https://x.com/omarsar0/status/1734953578274386002
Gaussian-SLAM
Paper-Einführung
- Eine neuronale RGBD-SLAM-Methode, die reale Szenen fotorealistisch rekonstruieren kann, ohne Geschwindigkeit und Effizienz zu beeinträchtigen; sie erweitert den klassischen 3D-Gauß-Ansatz zur Szenendarstellung, um die Grenzen bisheriger Methoden zu überwinden.
> A neural rgbd slam method capable of photorealistically reconstructing real-world scenes without compromising speed and efficiency; extends classical 3d gaussians for scene representation to overcome the limitations of the previous methods.
Paper-Link
https://vladimiryugay.github.io/gaussian_slam/
Weiterführende Informationen
https://x.com/vlyug/status/1734683948440252480
Pearl: Ein sofort produktionsreifer Reinforcement-Learning-Agent / Pearl: A Production-ready Reinforcement Learning Agent
Paper-Vorstellung
- Vorgestellt wird ein neues produktionsreifes Softwarepaket für KI-Agenten, mit dem Forschende und Praktiker KI-Agenten auf Basis von Reinforcement Learning entwickeln können, die sich an Umgebungen mit eingeschränkter Beobachtbarkeit, spärlichem Feedback und hoher Stochastizität anpassen.
> Introduces a new production-ready rl agent software package that enables researchers and practitioners to develop rl ai agents that adapt to environments with limited observability, sparse feedback, and high stochasticity.
Abstract
- Reinforcement Learning (RL) bietet ein vielseitiges Framework zum Erreichen langfristiger Ziele. Seine Allgemeingültigkeit erlaubt es, eine breite Palette von Problemen zu formalisieren, mit denen intelligente Systeme in der realen Welt konfrontiert sind, etwa den Umgang mit verzögerten Belohnungen, die Verarbeitung partieller Beobachtbarkeit, die Lösung des Dilemmas zwischen Exploration und Exploitation, die Nutzung von Offline-Daten zur Verbesserung der Online-Performance sowie die Sicherstellung der Einhaltung von Sicherheitsbeschränkungen. Trotz erheblicher Fortschritte der RL-Forschungsgemeinschaft bei der Bewältigung dieser Herausforderungen konzentrieren sich bestehende Open-Source-RL-Bibliotheken meist nur auf einen engen Teil der RL-Lösungspipeline und lassen andere Aspekte weitgehend unberücksichtigt. Dieses Paper stellt Pearl vor, ein produktionsreifes Softwarepaket für RL-Agenten, das ausdrücklich dafür entwickelt wurde, diese Herausforderungen modular aufzugreifen. Neben vorläufigen Benchmark-Ergebnissen zeigt das Paper anhand von Industrieanwendungen von Pearl auch dessen Bereitschaft für den produktiven Einsatz. Pearl ist auf Github unter github.com/facebookresearch/pearl als Open Source verfügbar, die offizielle Website befindet sich unter pearlagent.github.io.
> Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
Paper-Link
https://arxiv.org/abs/2312.03814
Weiterführende Informationen
https://x.com/ZheqingZhu/status/1732880717263352149
Quip / Quip
Paper-Vorstellung
- Komprimiert trainierte Modellgewichte in ein Format mit geringerer Präzision, um den Speicherbedarf zu senken; der Ansatz kombiniert Gitter-Codebooks mit Incoherence-Verarbeitung, um 2-Bit-quantisierte Modelle zu erzeugen; und verringert die Lücke zwischen 2-Bit-quantisierten LLMs und nicht quantisierten 16-Bit-Modellen deutlich.
> Compresses trained model weights into a lower precision format to reduce memory requirements; the approach combines lattice codebooks with incoherence processing to create 2 bit quantized models; significantly closes the gap between 2 bit quantized llms and unquantized 16 bit models.
Paper-Link
https://cornell-relaxml.github.io/quip-sharp/
Weiterführende Informationen
https://x.com/tsengalb99/status/1733222467953422702
Originaltext
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c22
Noch keine Kommentare.