[2024/04/22 ~ 04/28] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)
(discuss.pytorch.kr)-
Ich habe versucht, den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch zu übersetzen.
-
Ein Blick auf die in dieser Woche eingereichten Papers zeigt, dass sich die meisten auf Large Language Models (LLMs) der nächsten Generation und deren Anwendungsfelder konzentrieren. Konkret behandeln „Make Your LLM Fully Utilize the Context“, „Graph Machine Learning in the Era of LLMs“, „Self-Evolution of LLMs“ und „Naturalized Execution Tuning (NExT)“ Forschungsinhalte zu Weiterentwicklung und Optimierung von LLMs sowie zu neuen Einsatzgebieten. Das spiegelt wider, dass die Bedeutung und das Anwendungspotenzial von LLMs im aktuellen KI-Bereich weiter zunehmen.
-
Die Weiterentwicklung von LLMs ist deshalb wichtig, weil diese Modelle nicht nur im Natural Language Processing (NLP), sondern auch bei verschiedenen multimodalen Aufgaben eine herausragende Leistung zeigen. So untersucht etwa das Paper „Make Your LLM Fully Utilize the Context“, wie sich der von LLMs bereitgestellte Kontext maximal nutzen lässt, um Informationen präziser zu extrahieren und zu interpretieren. „Graph Machine Learning in the Era of LLMs“ befasst sich zudem damit, wie graphbasiertes Lernen durch LLMs verbessert werden kann, was beim Verständnis komplexer Beziehungen und Muster sehr hilfreich ist.
-
Diese Entwicklung deutet darauf hin, dass sich die Rolle von LLMs im Bereich der künstlichen Intelligenz nicht mehr nur auf Sprachverständnis und -generierung beschränkt, sondern auf umfassendere Problemlösung und breitere Anwendungsfelder ausweitet. Das lässt sich als Teil der Bemühungen von Forschenden verstehen, unterschiedliche Facetten der künstlichen Intelligenz zu erkunden und insbesondere Modelle zu entwickeln, die menschliche Sprache besser verstehen und nutzen können. Zugleich stützt dieser Forschungstrend die Erwartung, dass der Einsatz von LLMs in verschiedensten Bereichen künftig weiter zunehmen wird.
Phi-3 Technical Report: Ein hochleistungsfähiges Sprachmodell lokal auf Ihrem Smartphone / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Paper-Einführung
phi-3-mini, ein neues Sprachmodell mit 3,8B Parametern, das auf 3,3 Billionen Tokens trainiert wurde, soll mit Mixtral 8x7B und GPT-3.5 konkurrieren. Es hat eine Standard-Kontextlänge von 4K, umfasst aber auch eine auf 128K erweiterte Version (phi-mini-128K). Für das Training des 3,8B-Modells werden stark gefilterte Webdaten mit synthetischen Daten kombiniert. Außerdem werden Ergebnisse für 7B- und 14B-Modelle (phi-3-small und phi-3-medium) berichtet, die auf 4,8T Tokens trainiert wurden.
A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).
Paper-Abstract
Wir stellen phi-3-mini vor, ein Sprachmodell mit 3,8 Milliarden Parametern, das auf 3,3 Billionen Tokens trainiert wurde. Die Gesamtleistung, gemessen sowohl an akademischen Benchmarks als auch an internen Tests, erreicht trotz seiner Größe, die klein genug für die Bereitstellung auf einem Smartphone ist, ein Niveau, das mit Modellen wie Mixtral 8x7B und GPT-3.5 vergleichbar ist (zum Beispiel erreicht phi-3-mini 69 % auf MMLU und 8,38 auf MT-bench). Die Innovation liegt vollständig in unserem Trainingsdatensatz, einer skalierten Version des für phi-2 verwendeten Datensatzes, der aus stark gefilterten Webdaten und synthetischen Daten besteht. Das Modell wurde außerdem weiter auf Robustheit, Sicherheit und Chat-Format ausgerichtet. Darüber hinaus liefern wir erste Ergebnisse zur Parameterskalierung mit 7B- und 14B-Modellen, die auf 4,8T Tokens trainiert wurden und phi-3-small bzw. phi-3-medium heißen; beide sind deutlich leistungsfähiger als phi-3-mini (z. B. jeweils 75 % und 78 % auf MMLU sowie 8,7 und 8,9 auf MT-bench).
We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).
Paper-Link
https://arxiv.org/abs/2404.14219
Weiterführende Lektüre
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1782780923806699716
OpenELM: Eine effiziente Sprachmodellfamilie mit Open-Source-Trainings- und Inferenz-Framework / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
Paper-Einführung
Ein neues offenes Sprachmodell, das eine schichtweise Skalierungsstrategie verwendet, um Parameter effizient zuzuweisen und so Effizienz und Genauigkeit zu verbessern. Es ist in verschiedenen Größen wie 270M, 450M, 1.1B und 3B verfügbar und erzielt gegenüber OLMo eine um 2,36 % höhere Genauigkeit, während es 2× weniger Pre-Training-Tokens benötigt.
A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.
Paper-Abstract
Die Reproduzierbarkeit und Transparenz großer Sprachmodelle sind entscheidend, um offene Forschung voranzubringen, die Vertrauenswürdigkeit von Ergebnissen sicherzustellen und Untersuchungen zu Daten- und Modell-Bias sowie potenziellen Risiken zu ermöglichen. Zu diesem Zweck wird OpenELM veröffentlicht, ein modernes offenes Sprachmodell. OpenELM verwendet eine schichtweise Skalierungsstrategie, um Parameter innerhalb jeder Schicht des Transformer-Modells effizient zuzuweisen und so die Genauigkeit zu verbessern. Bei einem Parameterbudget von etwa 1 Milliarde Parametern verbessert OpenELM beispielsweise die Genauigkeit gegenüber OLMo um 2,36 % und benötigt gleichzeitig $2\times$ weniger Pre-Training-Tokens. Im Unterschied zu früheren Ansätzen, die nur Modellgewichte und Inferenz-Code bereitstellten und auf privaten Datensätzen vortrainierten, umfasst diese Veröffentlichung das vollständige Framework für Training und Evaluierung des Sprachmodells auf öffentlich verfügbaren Datensätzen, einschließlich Trainingslogs, mehrerer Checkpoints und Pre-Training-Konfigurationen. Außerdem wird Code veröffentlicht, um Modelle für Inferenz und Fine-Tuning auf Apple-Geräten in die MLX-Bibliothek zu konvertieren. Diese umfassende Veröffentlichung soll die Open-Research-Community stärken und unterstützen und den Weg für künftige offene Forschungsarbeiten ebnen. Der Quellcode ist zusammen mit den vortrainierten Modellgewichten und Trainingsrezepten unter \url{https://github.com/apple/corenet} verfügbar. Zusätzlich sind die Modelle auf HuggingFace zu finden: \url{https://huggingface.co/apple/OpenELM}.
The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}.
Paper-Link
https://arxiv.org/abs/2404.14619
Weiterführende Lektüre
https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204
https://github.com/apple/corenet
https://huggingface.co/apple/OpenELM
https://x.com/rasbt/status/1783480053847736713
Snowflake Arctic
Paper-Vorstellung
Ein Open-Source-LLM (Apache-2.0-Lizenz), das eine einzigartige Dense-MoE-Hybrid-Transformer-Architektur verwendet. Es soll bei Enterprise-Metriken wie Coding (HumanEval+ und MBPP+), SQL (Spider) und Instruction Following (IFEval) eine mit Llama3 70B vergleichbare Leistung erzielen, dabei aber ein 17-fach geringeres Compute-Budget als Llama3 70B benötigen; die Trainings-Compute-Kosten liegen Schätzungen zufolge bei unter 2 Millionen US-Dollar (weniger als 3K GPU-Wochen).
An open-source LLM (Apache 2.0 license.) that uses a unique Dense-MoE Hybrid transformer architecture; performs on par with Llama3 70B in enterprise metrics like coding (HumanEval+ & MBPP+), SQL (Spider) and instruction following (IFEval); claims to use 17x less compute budget than Llama 3 70B; the training compute is roughly under $2 million (less than 3K GPU weeks).
Paper-Link
Weiterführende Lektüre
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1783176059694821632
Ein LLM entwickeln, das den Kontext vollständig nutzt / Make Your LLM Fully Utilize the Context
Paper-Vorstellung
Es wird ein Ansatz vorgestellt, um das bei LLMs häufig auftretende Lost-in-the-Middle-Problem zu überwinden. Dazu wird auf Mistral-7B ein explizites „informationsintensives“ Trainingsverfahren angewendet, damit das LLM den Kontext vollständig nutzen kann. Das Modell nutzt 1) ein synthetisches langes Kontextfenster (4K–32K Tokens), in dem feingranulare Informationswahrnehmung für kurze Segmente (∼128 Tokens) erforderlich ist, und 2) einen synthetischen Datensatz, der die Integration und das Schlussfolgern über Informationen aus zwei oder mehr kurzen Segmenten erfordert. Das resultierende Modell FILM-7B (Fill-in-the-Middle) zeigt, dass es Informationen aus unterschiedlichen Positionen innerhalb seines 32K-Kontextfensters robust abrufen kann.
Presents an approach to overcome the lost-in-the-middle challenge common in LLMs. It applies an explicit "information-intensive" training procedure on Mistral-7B to enable the LLM to fully utilize the context. It leverages a synthetic dataset where the answer requires fine-grained information awareness on a short segment (∼128 tokens) within a synthesized long context (4K−32K tokens), and 2) the integration and reasoning of information from two or more short segments. The resulting model, FILM-7B (Fill-in-the-Middle), shows that it can robustly retrieve information from different positions in its 32K context window.
Paper-Abstract
Viele moderne große Sprachmodelle (LLMs) können zwar lange Eingaben verarbeiten, haben aber weiterhin Schwierigkeiten, Informationen innerhalb langer Kontexte vollständig zu nutzen – ein Problem, das als „lost in the middle“ bekannt ist. Wir stellen die Hypothese auf, dass dies auf unzureichende explizite Supervision während des Long-Context-Trainings zurückzuführen ist, wodurch nicht ausreichend hervorgehoben wird, dass jede Position in einem langen Kontext wichtige Informationen enthalten kann. Auf Basis dieser Intuition präsentiert diese Studie information-intensive (IN2) training, eine rein datengesteuerte Lösung zur Überwindung des Lost-in-the-Middle-Problems. Konkret nutzt IN2-Training einen synthetischen Long-Context-Frage-Antwort-Datensatz, bei dem die Antwort erfordert, (1) feingranular Informationen in einem kurzen Segment (~128 Token) innerhalb eines synthetischen langen Kontexts (4K–32K Token) zu erkennen und (2) Informationen aus zwei oder mehr kurzen Segmenten zu integrieren und darüber zu schlussfolgern. Durch die Anwendung dieses information-intensiven Trainings auf Mistral-7B stellen wir FILM-7B (FILl-in-the-Middle) vor. Um die Fähigkeit von FILM-7B zur Nutzung langer Kontexte gründlich zu bewerten, entwerfen wir drei Probing-Aufgaben, die verschiedene Kontextstile (Dokument-, Code- und strukturierte Datenkontexte) sowie Muster des Informationsabrufs (vorwärts, rückwärts und bidirektional) abdecken. Die Probing-Ergebnisse zeigen, dass FILM-7B Informationen aus verschiedenen Positionen innerhalb seines 32K-Kontextfensters robust abrufen kann. Über diese Probing-Aufgaben hinaus verbessert FILM-7B die Leistung bei realen Long-Context-Aufgaben deutlich (z. B. F1-Score auf NarrativeQA von 23.5->26.9), während eine vergleichbare Leistung bei Short-Context-Aufgaben erhalten bleibt (z. B. Genauigkeit auf MMLU von 59.3->59.2). GitHub-Link: https://github.com/microsoft/FILM.
While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
Paper-Link
https://arxiv.org/abs/2404.16811
Weiterführende Links
https://github.com/microsoft/FILM
https://x.com/omarsar0/status/1783905514578980949
FineWeb
Paper-Vorstellung
Ein groß angelegter Web-Datensatz mit 15 Billionen Token für das Training von Sprachmodellen; CommonCrawl zwischen 2013 und 2024 wird gefiltert und dedupliziert, um die Datenqualität zu verbessern.
A large-scale web dataset containing 15 trillion tokens for training language models; filters and deduplicates CommonCrawl between 2013 and 2024 and the goal is to improve the quality of the data.
Paper-Link
https://huggingface.co/datasets/HuggingFaceFW/fineweb
Weiterführende Links
https://x.com/gui_penedo/status/1781953413938557276
KI-basierte Gen-Editoren / AI-powered Gene Editors
Paper-Vorstellung
Ein von einem LLM angetriebenes KI-System, das auf großskaliger biologischer Vielfalt trainiert wurde und durch das Design programmierbarer Gen-Editoren eine präzise Bearbeitung des menschlichen Genoms ermöglicht.
Achieves precision editing of the human genome with a programmable gene editor design with an AI system powered by an LLM trained on biological diversity at scale.
Paper-Link
https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1
Weiterführende Links
https://x.com/thisismadani/status/1782510590839406904
AutoCrawler: Ein Web-Agent mit progressivem Verständnis zur Erzeugung von Web-Crawlern / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation
Paper-Vorstellung
Kombiniert LLMs mit Crawlern, um Crawlern zu helfen, vielfältige und sich verändernde Web-Umgebungen effizienter zu bewältigen; der Web-Crawler-Agent nutzt die hierarchische Struktur von HTML für ein schrittweises Verständnis, verwendet Top-down- und Step-back-Operationen und greift auf die DOM-Baumstruktur zurück, um einen vollständigen und ausführbaren Crawler zu erzeugen.
Combines LLMs with crawlers with the goal of helping crawlers handle diverse and changing web environments more efficiently; the web crawler agent leverages the hierarchical structure of HTML for progressive understanding; employs top-down and step-back operations, and leverages the DOM tree structure, to generate a complete and executable crawler.
Paper-Abstract
Web-Automatisierung ist eine wichtige Technik, die komplexe Web-Aufgaben bewältigt, indem sie allgemeine Web-Aktionen automatisiert, die betriebliche Effizienz erhöht und den Bedarf an manuellen Eingriffen reduziert. Herkömmliche Methoden wie Wrapper leiden beim Umgang mit einer neuen Website unter begrenzter Anpassungsfähigkeit und Skalierbarkeit. Generative Agenten, die durch große Sprachmodelle (LLMs) angetrieben werden, zeigen dagegen in Open-World-Szenarien eine schwache Leistung und Wiederverwendbarkeit. In dieser Arbeit führen wir eine Aufgabe zur Generierung von Crawlern für Web-Seiten mit vertikalen Informationen sowie das Paradigma ein, LLMs mit Crawlern zu kombinieren, wodurch Crawler vielfältige und sich verändernde Web-Umgebungen effizienter bewältigen können. Wir schlagen AutoCrawler vor, ein zweistufiges Framework, das die hierarchische Struktur von HTML für ein schrittweises Verständnis nutzt. Durch Top-down- und Step-back-Operationen kann AutoCrawler aus fehlerhaften Aktionen lernen und HTML kontinuierlich bereinigen, um eine bessere Aktionsgenerierung zu ermöglichen. Wir führen umfassende Experimente mit mehreren LLMs durch und zeigen die Wirksamkeit unseres Frameworks. Die Ressourcen zu diesem Paper finden Sie unter \url{https://github.com/EZ-hwh/AutoCrawler}
Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}
Paper-Link
https://arxiv.org/abs/2404.12753
Weiterlesen
https://github.com/EZ-hwh/AutoCrawler
https://x.com/omarsar0/status/1782462314983071757
Graph Machine Learning im Zeitalter großer Sprachmodelle (LLMs) / Graph Machine Learning in the Era of Large Language Models (LLMs)
Paper-Einführung
Bietet einen umfassenden Überblick über die neuesten Fortschritte von Graph ML im Zeitalter der LLMs; behandelt die jüngsten Entwicklungen in Graph ML, wie LLM Graph-Features verbessern kann und wie sich Probleme wie OOD und Graph-Heterogenität angehen lassen.
Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.
Paper-Abstract
Grafen spielen eine wichtige Rolle bei der Darstellung komplexer Beziehungen in verschiedenen Bereichen wie sozialen Netzwerken, Wissensgraphen und der Wirkstoffforschung. Mit dem Aufkommen des Deep Learning haben sich Graph Neural Networks (GNNs) als Grundpfeiler des Graph Machine Learning (Graph ML) etabliert und erleichtern die Repräsentation und Verarbeitung von Graphstrukturen. In jüngster Zeit haben LLMs beispiellose Fähigkeiten bei Sprachaufgaben gezeigt und werden in einer Vielzahl von Anwendungen wie Computer Vision und Empfehlungssystemen breit eingesetzt. Dieser bemerkenswerte Erfolg hat auch das Interesse geweckt, LLMs im Graph-Bereich anzuwenden. Zunehmend wird versucht, das Potenzial von LLMs zur Verbesserung der Generalisierung, Übertragbarkeit und Few-Shot-Lernfähigkeit von Graph ML zu erforschen. Gleichzeitig sind Graphen, insbesondere Wissensgraphen, reich an verlässlichem Faktenwissen, das genutzt werden kann, um die Schlussfolgerungsfähigkeiten von LLMs zu verbessern und mögliche Einschränkungen wie Halluzinationen oder mangelnde Erklärbarkeit zu mildern. Angesichts der rasanten Fortschritte in dieser Forschungsrichtung ist ein systematischer Review, der die neuesten Entwicklungen von Graph ML im Zeitalter der LLMs zusammenfasst, notwendig, um Forschenden und Praktikern ein tiefgehendes Verständnis zu vermitteln. Daher betrachten wir in diesem Survey zunächst die jüngsten Entwicklungen im Graph ML. Anschließend untersuchen wir, wie LLMs genutzt werden können, um die Qualität von Graph-Features zu verbessern, die Abhängigkeit von gelabelten Daten zu verringern und Herausforderungen wie Graph-Heterogenität und Out-of-Distribution-(OOD-)Generalisierung zu bewältigen. Danach gehen wir darauf ein, wie Graphen LLMs verbessern können, und heben ihre Fähigkeiten hervor, das Pre-Training und die Inferenz von LLMs zu verbessern. Darüber hinaus untersuchen wir verschiedene Anwendungsfälle und diskutieren mögliche zukünftige Richtungen in diesem vielversprechenden Feld.
Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.
Paper-Link
https://arxiv.org/abs/2404.14928
Weiterführende Lektüre
https://x.com/omarsar0/status/1783171591020392886
Survey zur Selbst-Evolution großer Sprachmodelle / A Survey on Self-Evolution of Large Language Models
Paper-Einführung
Bietet einen umfassenden Survey zu Self-Evolution-Ansätzen in LLMs.
Provides a comprehensive survey on self-evolution approaches in LLMs.
Paper-Zusammenfassung (Abstract)
Große Sprachmodelle (LLMs) haben in verschiedenen Bereichen und bei Anwendungen intelligenter Agenten erhebliche Fortschritte gemacht. Allerdings sind aktuelle LLMs, die unter Aufsicht von Menschen oder externen Modellen lernen, kostspielig und können an Leistungsgrenzen stoßen, wenn die Komplexität und Vielfalt der Aufgaben zunimmt. Um dieses Problem zu lösen, wachsen Self-Evolution-Ansätze, die es LLMs ermöglichen, selbst erzeugte Erfahrungen autonom zu erwerben, zu verfeinern und daraus zu lernen, derzeit schnell. Dieses neue Trainingsparadigma, das vom menschlichen erfahrungsbasierten Lernprozess inspiriert ist, bietet das Potenzial, LLMs in Richtung Superintelligenz zu skalieren. In diesem Beitrag stellen wir einen umfassenden Survey zu Self-Evolution-Ansätzen in LLMs vor. Zunächst schlagen wir ein konzeptionelles Framework für Self-Evolution vor und skizzieren den Evolutionsprozess als iterativen Zyklus aus vier Phasen: Erfahrungserwerb, Erfahrungsverfeinerung, Aktualisierung und Evaluierung. Zweitens klassifizieren wir die Evolutionsziele von LLMs und LLM-basierten Agenten, fassen anschließend die Literatur zusammen und liefern für jedes Modul eine Taxonomie sowie Erkenntnisse. Abschließend benennen wir bestehende Herausforderungen präzise und schlagen künftige Richtungen zur Verbesserung von Self-Evolution-Frameworks vor, um Forschenden entscheidende Einblicke zu geben, mit denen sich die Entwicklung selbst-evolvierender LLMs beschleunigen lässt.
Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.
Paper-Link
https://arxiv.org/abs/2404.14387
Weiterführende Lektüre
https://x.com/omarsar0/status/1782777977526231440
NExT: Großen Sprachmodellen beibringen, über Codeausführung zu schlussfolgern / NExT: Teaching Large Language Models to Reason about Code Execution
Paper-Vorstellung
Trainiert ein LLM darauf, Ausführungsspuren von Programmen zu untersuchen und mithilfe synthetischer Chain-of-Thought-Begründungen über Laufzeitverhalten zu schlussfolgern; verbessert die Fix-Rate eines PaLM-2-Modells auf MBPP und Human um 26,1 % bzw. 14,3 % und zeigt, dass das Modell auch auf unbekannte Szenarien generalisieren kann.
Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.
Paper-Abstract
Eine grundlegende Fähigkeit menschlicher Entwickler ist es, Programmausführung zu verstehen und darüber zu schlussfolgern. So kann ein Programmierer etwa die Codeausführung in natürlicher Sprache mental simulieren, um Code zu debuggen und zu reparieren (auch bekannt als Rubber-Duck-Debugging). Große Sprachmodelle (LLMs) für Code werden jedoch typischerweise auf der oberflächlichen Textform von Programmen trainiert und verfügen daher möglicherweise nicht über ein semantisches Verständnis davon, wie Programme zur Laufzeit ausgeführt werden. Um dieses Problem zu lösen, schlagen wir NExT vor, eine Methode, mit der LLMs lernen, die Ausführungsspuren von Programmen (Variablenzustände der ausgeführten Zeilen) zu untersuchen und über Chain-of-Thought-(CoT)-Begründungen auf ihr Laufzeitverhalten zu schließen. Konkret nutzt NExT Self-Training, um einen synthetischen Trainingssatz aus ausführungssensitiven Begründungen zu bootstrappen, die ohne aufwendige manuelle Annotation zu korrekten Aufgabenlösungen (z. B. reparierten Programmen) führen. Experimente zu Programmreparaturaufgaben auf Basis von MBPP und HumanEval zeigen, dass NExT die Fix-Rate eines PaLM-2-Modells absolut um 26,1 % bzw. 14,3 % verbessert und zugleich die Qualität der Begründungen deutlich steigert, wie durch automatisierte Metriken und menschliche Bewerter verifiziert wurde. Darüber hinaus kann das Modell auch auf Szenarien generalisieren, in denen zur Testzeit keine Programmausführungsspuren vorhanden sind.
A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.
Paper-Link
https://arxiv.org/abs/2404.14662
Weiterführende Lektüre
https://x.com/AnsongNi/status/1783311827390070941
Originaltext
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c
Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt; er kann daher Fehler enthalten. Bitte beachten Sie deshalb auch den Originaltext weiter unten im Beitrag! Wenn Ihnen beim Lesen unnatürliche Formulierungen oder inhaltliche Fehler auffallen, teilen Sie uns diese bitte in den Kommentaren mit.
⚠️Werbung⚠️: Fanden Sie diesen von der PyTorch Korea User Group zusammengestellten Beitrag nützlich? Wenn Sie Mitglied werden, schicken wir Ihnen wichtige Beiträge per E-Mail! Standard ist wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.
Noch keine Kommentare.