[2023/09/25 ~ 10/01] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)
(discuss.pytorch.kr)Überblick
- Ich habe den wöchentlich von DAIR.AI veröffentlichten Artikel über ML-Papers automatisch übersetzt.
- Die Papers dieser Woche scheinen sich überwiegend auf LLMs (Large Language Models) zu konzentrieren. Dabei werden verschiedenste Themen behandelt, darunter verbesserte Algorithmen für die Prozesseffizienz von LLMs in unterschiedlichen Umgebungen, Graph Neural Prompting für LLMs sowie die Anwendung logischer Denkprozesse.
- Unter den diese Woche ausgewählten Papers zeigen Arbeiten wie „Boolformer“ und „Vision Transformers Need Registers“ zudem einen Trend zu Forschung, die mit anderen KI-Bereichen verschmilzt.
- Daran lässt sich erkennen, dass die Weiterentwicklung von KI-Technologien nicht nur darin besteht, einzelne Bereiche isoliert zu erschließen, sondern auch verschiedene Disziplinen zu verbinden, um neue Ansätze und Lösungen zu finden.
Der Fluch der Umkehrung / The Reversal Curse
Paper-Einführung
- Es wird festgestellt, dass künstliche neuronale Netze, die auf Sätze der Form „a ist b“ trainiert wurden, nicht automatisch auf die umgekehrte Richtung „b ist a“ generalisieren, also dem Fluch der Umkehrung unterliegen; der Effekt wird durch Finetuning von neuronalen Netzen mit fiktiven Aussagen gezeigt und über verschiedene Modellgrößen und Modellfamilien hinweg als robust nachgewiesen. #llm-reasoning
> Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.
Paper-Link
https://owainevans.github.io/reversal_curse.pdf
Mehr dazu
https://x.com/OwainEvans_UK/status/1705285631520407821
Effektive Long-Context-Skalierung von Foundation Models / Effective Long-Context Scaling of Foundation Models
Paper-Einführung
- Es wird eine
70b-Variante vorgeschlagen, die in einer Suite von Long-Context-Aufgaben bereits die Gesamtleistung vongpt-3.5-turbo-16kübertreffen kann. Dazu gehört ein kosteneffizientes Verfahren für Instruction Tuning, das keine von Menschen annotierten Long-Instruction-Daten benötigt. #1b-context-window #100k-context-window
> Propose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.
Paper-Abstract
- Wir stellen eine Reihe von Long-Context-LLMs vor, die effektive Kontextfenster von bis zu 32.768 Token unterstützen. Unsere Modellreihe wird durch kontinuierliches Pretraining auf Basis von Llama 2 mit längeren Trainingssequenzen und auf einem Datensatz aufgebaut, in dem lange Texte hochgewichtet werden. Wir führen umfassende Evaluierungen für Language Modeling, synthetische Context-Probing-Aufgaben und eine breite Palette von Forschungs-Benchmarks durch. In den Forschungs-Benchmarks erzielen unsere Modelle bei den meisten regulären Aufgaben konsistente Verbesserungen und bei Long-Context-Aufgaben deutliche Verbesserungen gegenüber Llama 2. Besonders bemerkenswert ist, dass die 70B-Variante mit einem kosteneffizienten Verfahren für Instruction Tuning, das keine von Menschen annotierten Long-Instruction-Daten benötigt, bereits die Gesamtleistung von gpt-3.5-turbo-16k bei einer Suite von Long-Context-Aufgaben übertreffen kann. Zusätzlich zu diesen Ergebnissen liefern wir eine tiefgehende Analyse der einzelnen Komponenten unserer Methode. Wir gehen detailliert auf Llamas Positionskodierungen ein und diskutieren deren Grenzen bei der Modellierung langer Abhängigkeiten. Außerdem untersuchen wir die Auswirkungen verschiedener Designentscheidungen im Pretraining-Prozess, darunter die Datenmischung und das Trainings-Curriculum für Sequenzlängen. Unsere Ablationsexperimente deuten darauf hin, dass eine große Menge langer Texte im Pretraining-Datensatz nicht der Schlüssel zu starker Leistung ist, und wir verifizieren empirisch, dass kontinuierliches Pretraining für lange Kontexte effizienter und ähnlich wirksam ist wie Pretraining von Grund auf mit langen Sequenzen.
> We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
Paper-Link
https://arxiv.org/abs/2309.16039
Mehr dazu
https://x.com/omarsar0/status/1707780482178400261
Graph Neural Prompting mit Large Language Models / Graph Neural Prompting with Large Language Models
Paper-Einführung
- Es wird eine Plug-and-Play-Methode vorgeschlagen, die vortrainierte LLMs dabei unterstützt, nützliches Wissen aus Knowledge Graphs (KGs) zu lernen; enthalten sind verschiedene Designs wie ein Standard-Encoder für Graph Neural Networks, ein Cross-Modality-Pooling-Modul, ein Domain-Projector und ein selbstüberwachtes Ziel zur Link-Vorhersage. #knowledge-graph
> Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.
Paper-Abstract
- Große Sprachmodelle (LLMs) haben mit herausragender Leistung bei verschiedenen Language-Modeling-Aufgaben eine bemerkenswerte Generalisierungsfähigkeit gezeigt. Dennoch weisen sie weiterhin inhärente Einschränkungen auf, wenn es darum geht, fundiertes Wissen präzise zu erfassen und wiederzugeben. Frühere Arbeiten haben untersucht, wie sich Wissensgraphen nutzen lassen, um Language Modeling durch gemeinsames Training und angepasste Modellarchitekturen zu verbessern, doch die Anwendung auf LLMs ist aufgrund der großen Zahl an Parametern und der hohen Rechenkosten schwierig. Zudem bleibt offen, wie sich vortrainierte LLMs nutzen lassen, ohne ein angepasstes Modell von Grund auf neu zu trainieren. In dieser Arbeit schlagen wir Graph Neural Prompting (GNP) vor, eine neue Plug-and-Play-Methode, die vortrainierte LLMs dabei unterstützt, nützliches Wissen aus KGs zu lernen. GNP umfasst verschiedene Komponenten, darunter einen Standard-Graph-Neural-Network-Encoder, ein Cross-Modality-Pooling-Modul, einen Domain-Projector und ein selbstüberwachtes Link-Prediction-Ziel. Umfangreiche Experimente auf mehreren Datensätzen zeigen die Überlegenheit von GNP sowohl bei Commonsense- als auch bei biomedizinischen Reasoning-Aufgaben über verschiedene LLM-Größen und -Setups hinweg.
> Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.
Paper-Link
https://arxiv.org/abs/2309.15427
Weiterführende Lektüre
https://x.com/omarsar0/status/1707211751354212382
Vision Transformers brauchen Register / Vision Transformers Need Registers
Paper-Vorstellung
- Identifiziert Artefakte in Feature-Maps von Vision-Transformer-Netzwerken, die für interne Berechnungen umfunktioniert wurden, und schlägt als Lösung vor, der Eingabesequenz zusätzliche Token bereitzustellen, die diese Rolle übernehmen. Diese Lösung behebt das Problem, sorgt für glattere Feature- und Attention-Maps und setzt neue State-of-the-Art-Ergebnisse bei dichten visuellen Vorhersageaufgaben. #vision-transformer #transformer
> Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.
Paper-Abstract
- Transformer haben sich in jüngster Zeit als leistungsstarkes Werkzeug zum Lernen visueller Repräsentationen etabliert. In dieser Arbeit identifizieren und charakterisieren wir Artefakte in den Feature-Maps sowohl überwachter als auch selbstüberwachter ViT-Netzwerke. Diese Artefakte entsprechen High-Norm-Token, die während der Inferenz vor allem in informationsarmen Hintergrundbereichen von Bildern auftreten und für interne Berechnungen umfunktioniert werden. Wir schlagen eine einfache, aber effektive Lösung vor, die darauf basiert, der Eingabesequenz des Vision Transformers zusätzliche Token bereitzustellen, die diese Rolle übernehmen. Wir zeigen, dass diese Lösung das Problem sowohl bei überwachten als auch bei selbstüberwachten Modellen vollständig behebt, einen neuen State of the Art für selbstüberwachte visuelle Modelle bei dichten visuellen Vorhersageaufgaben setzt, Object-Discovery-Methoden mit größeren Modellen ermöglicht und vor allem zu glatteren Feature-Maps und Attention-Maps für die nachgelagerte visuelle Verarbeitung führt.
> Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
Paper-Link
https://arxiv.org/abs/2309.16588
Weiterführende Lektüre
https://x.com/TimDarcet/status/1707769575981424866
Boolformer: Symbolische Regression logischer Funktionen mit Transformern / Boolformer: Symbolic Regression of Logic Functions with Transformers
Paper-Vorstellung
- Stellt die erste Transformer-Architektur vor, die darauf trainiert wurde, eine End-to-End-symbolische Regression boolescher Funktionen durchzuführen; sie kann kompakte Formeln für komplexe Funktionen vorhersagen und auf die Modellierung der Dynamik von Genregulationsnetzwerken angewendet werden. #transformer
> Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.
Paper-Abstract
- In dieser Arbeit stellen wir Boolformer vor, die erste Transformer-Architektur, die darauf trainiert wurde, End-to-End-symbolische Regression von Booleschen Funktionen durchzuführen. Zunächst zeigen wir, dass das Modell kompakte Formeln für komplexe Funktionen vorhersagen kann, die während des Trainings nicht gesehen wurden, wenn eine saubere Wahrheitstabelle gegeben ist. Anschließend demonstrieren wir seine Fähigkeit, ungefähre Ausdrücke zu finden, wenn unvollständige und verrauschte Beobachtungen vorliegen. Wir evaluieren Boolformer auf einem breiten Spektrum realer binärer Klassifikationsdatensätze und zeigen damit sein Potenzial als interpretierbare Alternative zu klassischen Machine-Learning-Methoden. Abschließend wenden wir es auf die weit verbreitete Aufgabe an, die Dynamik von Genregulationsnetzwerken zu modellieren. Mithilfe eines aktuellen Benchmarks zeigen wir, dass Boolformer mit dem Stand der Technik bei genetischen Algorithmen konkurrieren kann und dabei um mehrere Größenordnungen schneller ist. Code und Modelle sind öffentlich verfügbar.
> In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.
Paper-Link
https://arxiv.org/abs/2309.12207
Mehr lesen
https://x.com/stephanedascoli/status/1706235856778834015
Große multimodale Modelle mit faktisch augmentiertem RLHF ausrichten / Aligning Large Multimodal Models with Factually Augmented RLHF
Paper-Vorstellung
- Wendet faktisch augmentiertes RLHF auf die Ausrichtung großer multimodaler Modelle an. Dieser Ansatz mildert Reward Hacking in RLHF und verbessert die Leistung auf dem LLaVA-Bench-Datensatz auf 94 % des Leistungsniveaus des textbasierten GPT-4. #llm-alignment #multimodal #rlhf
> Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.
Paper-Abstract
- Large Multimodal Models (LMMs) werden über mehrere Modalitäten hinweg aufgebaut, und eine Fehlanpassung zwischen zwei Modalitäten kann zu „Halluzinationen“ führen, also zu Textausgaben, die nicht in den multimodalen Informationen des Kontexts verankert sind. Um dieses Problem der multimodalen Fehlanpassung zu lösen, übertragen wir Reinforcement Learning from Human Feedback (RLHF) aus dem Textbereich auf die Aufgabe der Vision-Language-Ausrichtung. Dabei werden menschliche Annotatoren gebeten, zwei Antworten zu vergleichen und die stärker halluzinierte zu identifizieren, während das Vision-Language-Modell darauf trainiert wird, simulierte menschliche Belohnungen zu maximieren. Wir schlagen einen neuen Ausrichtungsalgorithmus namens Factually Augmented RLHF vor, der das Reward-Modell mit zusätzlichen Faktinformationen wie Bildunterschriften und Ground-Truth-Multiple-Choice-Optionen erweitert. Dadurch wird das Phänomen des Reward Hacking in RLHF gemildert und die Leistung weiter verbessert. Außerdem ergänzen wir die von GPT-4 generierten Trainingsdaten (für Vision Instruction Tuning) mit zuvor verfügbaren, von Menschen verfassten Bild-Text-Paaren, um die allgemeinen Fähigkeiten unseres Modells zu verbessern. Um den vorgeschlagenen Ansatz in realen Szenarien zu evaluieren, entwickeln wir mit MMHAL-BENCH einen neuen Evaluationsbenchmark, der speziell darauf ausgerichtet ist, Halluzinationen zu bestrafen. Als erstes mit RLHF trainiertes LMM erzielt unser Ansatz eine bemerkenswerte Verbesserung auf dem LLaVA-Bench-Datensatz und erreicht 94 % des Leistungsniveaus des textbasierten GPT-4 (während frühere Bestmethoden nur 87 % erreichen konnten) sowie eine um 60 % bessere Leistung auf MMHAL-BENCH gegenüber anderen Baselines. Code, Modell und Daten sind unter https://llava-rlhf.github.io Open Source verfügbar.
> Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
Paper-Link
https://arxiv.org/abs/2309.14525
Mehr lesen
https://x.com/arankomatsuzaki/status/1706839311306621182
Alignment großer Sprachmodelle: Eine Umfrage / Large Language Model Alignment: A Survey
Einführung zum Paper
- Ein umfassendes Survey-Paper zur Alignment-Forschung bei LLMs; behandelt werden Outer Alignment, Inner Alignment, mechanistische Interpretierbarkeit, Angriffe auf ausgerichtete LLMs, Alignment-Evaluierung, zukünftige Richtungen und Diskussionen. #survey-paper #llm-alignment
> A comprehensive survey paper on llm alignment; topics include outer alignment, inner alignment, mechanistic interpretability, attacks on aligned llms, alignment evaluation, future directions, and discussions.
Abstract
- In den vergangenen Jahren haben große Sprachmodelle (LLMs) bemerkenswerte Fortschritte erzielt. Diese Entwicklungen haben große Aufmerksamkeit erregt, zugleich aber auch verschiedene Bedenken ausgelöst. Das Potenzial dieser Modelle ist unbestreitbar enorm; sie können jedoch Texte erzeugen, die ungenau, irreführend oder sogar schädlich sind. Daher ist es von zentraler Bedeutung, Alignment-Techniken einzusetzen, damit diese Modelle Verhaltensweisen zeigen, die mit menschlichen Werten im Einklang stehen. Diese Umfrage versucht, eine umfassende Untersuchung der für LLMs entwickelten Alignment-Methoden zu liefern, zusammen mit der bestehenden Fähigkeitsforschung in diesem Bereich. Aus der Perspektive des AI Alignment ordnen wir gängige Methoden und neue Vorschläge zur Ausrichtung von LLMs in Outer Alignment und Inner Alignment ein. Außerdem untersuchen wir wichtige Fragen wie die Interpretierbarkeit der Modelle und potenzielle Anfälligkeiten gegenüber adversarialen Angriffen. Zur Bewertung des LLM-Alignments stellen wir eine große Bandbreite an Benchmarks und Evaluierungsmethoden vor. Nach einer Diskussion des aktuellen Stands der Alignment-Forschung für LLMs werfen wir schließlich einen Blick in die Zukunft und betrachten vielversprechende Forschungsrichtungen, die vor uns liegen. Unser Anspruch an diese Umfrage geht über das bloße Wecken von Forschungsinteresse in diesem Bereich hinaus. Wir möchten auch die Kluft zwischen der AI-Alignment-Forschungsgemeinschaft und Forschenden überbrücken, die sich mit der Erforschung der Fähigkeiten von LLMs befassen, um sowohl leistungsfähige als auch sichere LLMs zu ermöglichen.
> Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.
Link zum Paper
https://arxiv.org/abs/2309.15025
Weiterführende Lektüre
https://x.com/omarsar0/status/1706845285064818905
Qwen Technical Report / Qwen Technical Report
Einführung zum Paper
- Schlägt eine Reihe von LLMs vor, die die Stärke von RLHF bei Aufgaben im Zusammenhang mit Tool-Nutzung und Planungsfähigkeiten für die Entwicklung von Sprachagenten demonstrieren. #qwen-vl #rlhf
> Proposes a series of llms demonstrating the strength of rlhf on tasks involving tool use and planning capabilities for creating language agents.
Abstract
- Große Sprachmodelle (LLMs) haben das Feld der künstlichen Intelligenz revolutioniert und Aufgaben der natürlichen Sprachverarbeitung ermöglicht, die zuvor als ausschließlich dem Menschen vorbehalten galten. In diesem Beitrag stellen wir Qwen vor, das erste Produkt unserer Serie großer Sprachmodelle. Qwen ist eine umfassende Sprachmodellreihe, die verschiedene Modelle mit unterschiedlicher Parameterzahl umfasst. Dazu gehören Qwen, die vortrainierten Basis-Sprachmodelle, und Qwen-Chat, die mit Human-Alignment-Techniken feinabgestimmten Chat-Modelle. Die Basis-Sprachmodelle zeigen durchgängig überlegene Leistung bei einer Vielzahl von Downstream-Aufgaben, und die Chat-Modelle, insbesondere jene, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, sind äußerst wettbewerbsfähig. Die Chat-Modelle verfügen über fortgeschrittene Tool-Nutzung und Planungsfähigkeiten zum Erstellen von Agent-Anwendungen und zeigen selbst im Vergleich zu größeren Modellen bei komplexen Aufgaben wie der Nutzung eines Code Interpreters beeindruckende Leistung. Darüber hinaus wurden mit Code-Qwen und Code-Qwen-Chat auf den Basis-Sprachmodellen aufbauende, auf Programmierung spezialisierte Modelle sowie mit Math-Qwen-Chat ein auf Mathematik fokussiertes Modell entwickelt. Diese Modelle zeigen im Vergleich zu Open-Source-Modellen eine deutlich verbesserte Leistung und liegen nur leicht hinter proprietären Modellen zurück.
> Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
Paper-Link
https://arxiv.org/abs/2309.16609
Weiterführende Lektüre
https://x.com/omarsar0/status/1707776749042364729
MentalLLaMA: Interpretierbare Analyse psychischer Gesundheit in sozialen Medien mit großen Sprachmodellen / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models
Paper-Vorstellung
- Eine Open-Source-LLM-Serie für interpretierbare Analysen psychischer Gesundheit mit Instruction-Following-Fähigkeit; außerdem wird ein multitask- und multiquellenfähiger, interpretierbarer Instruction-Datensatz zur psychischen Gesundheit in sozialen Medien mit 105.000 Datensätzen vorgeschlagen. #medical #llm-for-clinical-task #llama
> An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.
Paper-Abstract
- Mit der Entwicklung von Webtechnologien werden Texte aus sozialen Medien zu einer reichhaltigen Quelle für die automatische Analyse psychischer Gesundheit. Da herkömmliche diskriminative Methoden das Problem einer geringen Interpretierbarkeit haben, werden in jüngerer Zeit Large Language Models für eine interpretierbare Analyse psychischer Gesundheit in sozialen Medien erforscht, mit dem Ziel, neben Vorhersagen auch detaillierte Erklärungen bereitzustellen. Die Ergebnisse zeigen, dass ChatGPT für korrekte Klassifikationen menschenähnliche Erklärungen erzeugen kann. Allerdings erreichen LLMs im Zero-Shot-/Few-Shot-Setting bei der Klassifikation weiterhin keine zufriedenstellende Leistung. Domänenspezifisches Finetuning ist eine wirksame Lösung, steht jedoch vor zwei Herausforderungen: 1) Es fehlt an hochwertigen Trainingsdaten. 2) Es wurden keine Open-Source-LLMs für interpretierbare Analysen psychischer Gesundheit veröffentlicht, die die Kosten des Finetunings senken könnten. Um diese Probleme zu entschärfen, hat Facebook den ersten Multi-Task- und Multi-Source-Datensatz für interpretierbare Mental-Health-Instruktionen (IMHI) in sozialen Medien mit 105.000 Datenbeispielen aufgebaut. Die Rohdaten aus sozialen Medien stammen aus 10 bestehenden Quellen und decken 8 Aufgaben der Analyse psychischer Gesundheit ab. Mithilfe von von Expertinnen und Experten verfassten Few-Shot-Prompts und den gesammelten Labels wird ChatGPT aufgefordert, Erklärungen aus seinen Antworten zu liefern. Um die Zuverlässigkeit der Erklärungen sicherzustellen, werden strenge automatische und menschliche Bewertungen hinsichtlich Korrektheit, Konsistenz und Qualität der generierten Daten durchgeführt. Auf Basis des IMHI-Datensatzes und der LLaMA2-Foundation-Modelle wird MentalLLaMA trainiert, die erste Open-Source-LLM-Serie für interpretierbare Analysen psychischer Gesundheit mit Instruction-Following-Fähigkeit. Zudem wird die Leistung von MentalLLaMA auf dem IMHI-Evaluierungsbenchmark mit 10 Test-Sets bewertet, wobei sowohl die Korrektheit der Vorhersagen als auch die Qualität der Erklärungen untersucht werden. Die Ergebnisse zeigen, dass MentalLLaMA bei der Korrektheit an diskriminative State-of-the-Art-Methoden heranreicht und qualitativ hochwertige Erklärungen erzeugt.
> With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
Paper-Link
https://arxiv.org/abs/2309.13567
Weiterlesen
https://x.com/SAnaniadou/status/1707668936634794442
Zero-Shot-Chain-of-Thought-Reasoning in Large Language Models durch Logik verbessern / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
Paper-Einführung
- Ein neues neurosymbolisches Framework zur Verbesserung des Zero-Shot-Chain-of-Thought-Reasoning von LLMs; es nutzt Prinzipien der symbolischen Logik, um den Reasoning-Prozess zu verifizieren und zu überarbeiten und so die Reasoning-Fähigkeiten von LLMs zu verbessern. #chain-of-thought
> A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.
Paper-Abstract
- Die jüngsten Fortschritte bei großen Sprachmodellen haben ihre bemerkenswerte Generalisierungsfähigkeit über verschiedenste Bereiche hinweg gezeigt. Dennoch besteht bei ihren Reasoning-Fähigkeiten weiterhin erheblicher Verbesserungsbedarf, insbesondere in Szenarien, die mehrstufiges Schlussfolgern erfordern. Zwar verfügen große Sprachmodelle über umfangreiches Wissen, doch gelingt es ihnen häufig nicht, dieses Wissen effektiv zu nutzen, um insbesondere im Hinblick auf Reasoning ein kohärentes Denkmuster aufzubauen. Generative Sprachmodelle neigen zudem mitunter zu Halluzinationen, da ihre Schlussfolgerungsprozesse nicht durch logische Prinzipien begrenzt sind. Um die Zero-Shot-Chain-of-Thought-Reasoning-Fähigkeit großer Sprachmodelle zu verbessern, schlagen wir Logical Chain-of-Thought (LogiCoT) vor, ein neurosymbolisches Framework, das Prinzipien der symbolischen Logik nutzt, um Reasoning-Prozesse zu überprüfen und entsprechend zu überarbeiten. Experimentelle Auswertungen von Sprachaufgaben in verschiedenen Bereichen, darunter Arithmetik, Alltagswissen, symbolisches und kausales Schließen sowie soziale Probleme, zeigen die Wirksamkeit des durch Logik verbesserten Reasoning-Paradigmas.
> Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their behavior, particularly in terms of reasoning, often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. Generative language models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming to improve the zero-shot chain-of-thought reasoning ability of large language models, we propose Logical Chain-of-Thought (LogiCoT), a neurosymbolic framework that leverages principles from symbolic logic to verify and revise the reasoning processes accordingly. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of the enhanced reasoning paradigm by logic.
Paper-Link
https://arxiv.org/abs/2309.13339
Weiterlesen
https://x.com/omarsar0/status/1706711389803287019
Original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24
2 Kommentare
Wow … diesen sorgfältig geschriebenen Beitrag habe ich mit großem Vergnügen gelesen.
Danke ^^;