[2023/10/30 ~ 11/07] Die wichtigsten ML-Artikel dieser Woche (Top ML Papers of the Week
(discuss.pytorch.kr)Überblick
-
Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.
-
Die in dieser Woche eingereichten Arbeiten konzentrieren sich auf Large Language Models (LLMs) und die Bewertung ihrer Leistungsfähigkeit. Insbesondere in Arbeiten wie „Evaluating LLMs“, „LLMs for Chip Design“, „Efficient Context Window Extension of LLMs“ und „Enhancing LLMs by Emotion Stimuli“ zeigte sich, dass unterschiedliche Anwendungen und Optimierungsansätze für LLMs diskutiert werden.
-
Dieser Trend spiegelt wider, wie stark die Bedeutung von LLMs im Bereich der künstlichen Intelligenz in den letzten Jahren zugenommen hat. Vor allem führende Modelle wie die GPT-Serie von OpenAI haben bei verschiedensten Aufgaben der natürlichen Sprachverarbeitung (NLP) beeindruckende Ergebnisse erzielt, weshalb sich Forschende darauf konzentrieren, diese Modelle weiterzuentwickeln oder auf neue Problemstellungen anzuwenden. Zugleich wächst das Interesse an Möglichkeiten, die Effizienz der Modelle zu steigern und ihre Ein- und Ausgaben durch Faktoren wie Emotionen oder situativen Kontext weiter anzureichern.
-
Darüber hinaus scheinen Arbeiten wie „Next Generation AlphaFold“ einen innovativen Ansatz zu verfolgen, indem Methoden des maschinellen Lernens in spezialisierten Fachgebieten wie der Strukturbiologie eingesetzt werden, also in einem anderen Kontext als LLMs. Diese Forschungstrends deuten darauf hin, dass sich Machine Learning und Deep-Learning-Technologien über rein theoretische Fortschritte hinaus zu konkreten Anwendungen in Industrie, Wissenschaft, Medizin und vielen weiteren Bereichen entwickeln.
Deep Learning für Tagesvorhersagen aus spärlichen Beobachtungen / Deep Learning for Day Forecasts from Sparse Observations
Einführung in die Arbeit
- Ein hochmoderner neuronaler Wettervorhersageansatz, der sowohl den Vorhersagehorizont als auch die Variablen erweitert, die ein beobachtungsbasiertes Modell zuverlässig vorhersagen kann; er lernt aus sowohl dichten als auch spärlichen Datensensoren und erstellt Vorhersagen bis zu 24 Stunden im Voraus für Niederschlag, Wind, Temperatur und Taupunkt.
A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.
Abstract der Arbeit
- Tiefe neuronale Netze bieten ein alternatives Paradigma zur Modellierung von Wetterbedingungen. Die Fähigkeit neuronaler Modelle, Vorhersagen in weniger als einer Sekunde zu erzeugen, sobald die Daten verfügbar sind, dies mit sehr hoher zeitlicher und räumlicher Auflösung zu tun und direkt aus atmosphärischen Beobachtungen zu lernen, sind nur einige der besonderen Vorteile dieser Modelle. Mit atmosphärischen Beobachtungen trainierte neuronale Modelle – also mit den Daten höchster Genauigkeit und geringster Latenz – konnten bislang im Vergleich zu hochmodernen probabilistischen Numerical Weather Prediction-Modellen nur für die einzelne Variable Niederschlag und nur bis zu einem Vorhersagehorizont von zwölf Stunden gute Leistungen erzielen. In dieser Arbeit stellen wir MetNet-3 vor, das sowohl den Bereich der Variablen als auch den Vorhersagehorizont, die ein beobachtungsbasiertes neuronales Modell zuverlässig abdecken kann, deutlich erweitert. MetNet-3 lernt aus sowohl dichten als auch spärlichen Datensensoren und erstellt Vorhersagen bis zu 24 Stunden im Voraus für Niederschlag, Wind, Temperatur und Taupunkt. MetNet-3 führt eine zentrale Densification-Technik ein, die implizit Datenassimilation erfasst und trotz des Trainings des Netzwerks auf extrem spärlichen Zielwerten räumlich dichte Vorhersagen erzeugt. MetNet-3 bietet eine hohe zeitliche und räumliche Auflösung von jeweils bis zu 2 Minuten und 1 km sowie eine geringe operative Latenz. Wir stellen fest, dass MetNet-3 in der CONUS-Region für Vorhersagen bis zu 24 Stunden im Voraus die besten Einzel- und Multi-Member-NWPs wie HRRR und ENS übertrifft und damit einen neuen Leistungsmeilenstein für beobachtungsbasierte neuronale Modelle setzt. MetNet-3 ist bereits im produktiven Einsatz, und seine Vorhersagen werden zusammen mit anderen Modellen in der Google Search bereitgestellt.
Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.
Link zur Arbeit
https://arxiv.org/abs/2306.06079
Weiterführende Lektüre
https://x.com/GoogleAI/status/1719774923294687636
Large Language Models bewerten: Eine umfassende Survey-Arbeit / Evaluating Large Language Models: A Comprehensive Survey
Einführung in die Arbeit
- Bietet eine umfassende Survey-Arbeit (mehr als 100 Seiten) zur Bewertung von LLMs, einschließlich Diskussionen über verschiedene Arten von Evaluierungen, Datensätze, Techniken und mehr. #llm-survey #llm-evaluation
A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.
Abstract der Arbeit
- Große Sprachmodelle (LLMs) haben über ein breites Spektrum von Aufgaben hinweg bemerkenswerte Fähigkeiten gezeigt. Sie haben große Aufmerksamkeit auf sich gezogen und werden in zahlreichen Downstream-Anwendungen eingesetzt. Dennoch sind LLMs, ähnlich wie ein zweischneidiges Schwert, auch mit potenziellen Risiken verbunden. Es kann zu Lecks privater Daten kommen oder zu unangemessenen, schädlichen oder irreführenden Inhalten. Zudem wirft der rasante Fortschritt bei LLMs Bedenken hinsichtlich des möglichen Auftretens superintelligenter Systeme ohne angemessene Schutzmechanismen auf. Um die Fähigkeiten von LLMs wirksam zu nutzen und zugleich ihre sichere und nützliche Entwicklung zu gewährleisten, ist es entscheidend, LLMs streng und umfassend zu evaluieren. Diese Survey-Arbeit versucht, eine umfassende Perspektive auf die Evaluierung von LLMs zu bieten. Sie teilt die Evaluierung von LLMs in drei Hauptgruppen ein: Wissens- und Fähigkeitsbewertung, Alignment-Bewertung und Sicherheitsbewertung. Zusätzlich zu einem umfassenden Review der Evaluierungsmethoden und Benchmarks in diesen drei Bereichen stellt sie einen Überblick über Evaluierungen der Leistung von LLMs in spezialisierten Domänen zusammen und diskutiert den Aufbau umfassender Evaluierungsplattformen, die LLM-Bewertungen in Bezug auf Fähigkeiten, Alignment, Sicherheit und Anwendbarkeit abdecken. Mit diesem umfassenden Überblick soll weiteres Forschungsinteresse an der Evaluierung von LLMs angeregt werden, mit dem übergeordneten Ziel, dass Evaluierung als Grundpfeiler für die verantwortungsvolle Entwicklung von LLMs dient. Wir hoffen, dass ihre Weiterentwicklung so in eine Richtung gelenkt wird, die den gesellschaftlichen Nutzen maximiert und potenzielle Risiken minimiert. Eine kuratierte Liste relevanter Arbeiten ist unter https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers verfügbar.
> Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
Paper-Link
https://arxiv.org/abs/2310.19736
Weiterführende Lektüre
https://x.com/omarsar0/status/1719351676828602502
Kampf der Backbones: Ein groß angelegter Vergleich vortrainierter Modelle über Computer-Vision-Aufgaben hinweg / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
Paper-Einführung
- Ein groß angelegtes Benchmarking-Framework für ein vielfältiges Spektrum an Computer-Vision-Aufgaben; wir stellen fest, dass zwar Vision Transformer (ViT) und Self-Supervised Learning (SSL) zunehmend an Popularität gewinnen, überwacht auf großen Trainingsdatensätzen vortrainierte Convolutional Neural Networks jedoch bei den meisten Aufgaben die beste Leistung erzielen. #self-supervised #vision-transformer
> A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.
Paper-Abstract
- Neuronale Computer-Vision-Systeme basieren in der Regel auf einem Backbone, also einem vortrainierten oder zufällig initialisierten Feature-Extractor. Noch vor einigen Jahren war die Standardoption ein auf ImageNet trainiertes Convolutional Neural Network. In jüngerer Zeit sind jedoch unzählige Backbones entstanden, die mit verschiedenen Algorithmen und Datensätzen vortrainiert wurden. Diese große Auswahl hat zwar bei vielen Systemen zu Leistungssteigerungen geführt, macht es für Praktikerinnen und Praktiker aber schwierig, fundierte Entscheidungen darüber zu treffen, welches Backbone sie wählen sollen. Battle of the Backbones (BoB) erleichtert diese Auswahl, indem eine vielfältige Sammlung vortrainierter Modelle benchmarked wird, darunter Vision-Language-Modelle, Modelle, die mittels Self-Supervised Learning trainiert wurden, sowie das Stable-Diffusion-Backbone – und das über ein breites Spektrum an Computer-Vision-Aufgaben hinweg, von Klassifikation über Objekterkennung bis zu OOD-Generalisierung und mehr. Darüber hinaus zeigt BoB durch eine umfassende Analyse von mehr als 1.500 Trainingsläufen vielversprechende Richtungen auf, mit denen die Forschungsgemeinschaft Computer Vision voranbringen kann, indem Stärken und Schwächen bestehender Ansätze sichtbar gemacht werden. Obwohl Vision Transformer (ViTs) und Self-Supervised Learning (SSL) zunehmend an Popularität gewinnen, zeigt sich, dass auf großen Trainingssätzen überwacht vortrainierte Convolutional Neural Networks bei den meisten der betrachteten Aufgaben weiterhin die beste Leistung erzielen. Zudem zeigt ein fairer Vergleich bei gleicher Architektur und ähnlich großen Vortrainings-Datensätzen, dass SSL-Backbones sehr wettbewerbsfähig sind. Das deutet darauf hin, dass künftige Arbeiten SSL-Pretraining mit fortschrittlichen Architekturen und größeren Vortrainings-Datensätzen durchführen sollten. Die Rohergebnisse unserer Experimente veröffentlichen wir zusammen mit Code, mit dem Forschende ihre eigenen Backbones testen können, hier: https://github.com/hsouri/Battle-of-the-Backbones
> Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
Paper-Link
https://arxiv.org/abs/2310.19909
Weiterlesen
https://x.com/micahgoldblum/status/1719719308882801045
ChipNeMo: Domain-adaptierte LLMs für Chip-Design / ChipNeMo: Domain-Adapted LLMs for Chip Design
Paper-Einführung
- Schlägt den Einsatz von LLMs für industrielles Chip-Design unter Nutzung von Domain-Adaptation-Techniken vor; bewertet verschiedene Anwendungen für Chip-Design wie Assistant-Chatbots, Electronic Design Automation und Bug-Zusammenfassungen; Domain-Adaptation verbessert die Leistung bei einer Vielzahl von Design-Aufgaben im Vergleich zu General-Purpose-Modellen deutlich; der Einsatz eines domain-adaptierten LLMs für RAG verbessert die Antwortqualität zusätzlich.
> Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.
Paper-Abstract
- ChipNeMo zielt darauf ab, Anwendungsfälle großer Sprachmodelle (LLMs) für das industrielle Chipdesign zu erforschen. Statt handelsübliche kommerzielle oder Open-Source-LLMs direkt einzusetzen, werden Domain-Adaptionsverfahren wie benutzerdefinierte Tokenizer, domänenadaptives fortgesetztes Pretraining, Supervised Fine-Tuning (SFT) mit domänenspezifischen Anweisungen sowie domänenadaptierte Retrieval-Modelle verwendet. Diese Methoden werden für drei ausgewählte LLM-Anwendungen im Chipdesign evaluiert: einen technischen Assistenten-Chatbot, die Generierung von EDA-Skripten sowie die Zusammenfassung und Analyse von Bugs. Die Ergebnisse zeigen, dass diese Domain-Adaptionsverfahren die LLM-Leistung gegenüber allgemeinen Basismodellen in allen drei evaluierten Anwendungen deutlich verbessern und bei ähnlicher oder besserer Leistung für verschiedene Designaufgaben eine Reduktion der Modellgröße um bis zu das Fünffache ermöglichen. Die Ergebnisse dieser Studie zeigen außerdem, dass zwischen den aktuellen Resultaten und idealen Ergebnissen weiterhin Verbesserungspotenzial besteht. Unity erwartet, dass weitere Forschung zu domänengeeigneten LLM-Ansätzen künftig helfen wird, diese Lücke zu schließen.
> ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
Paper-Link
https://arxiv.org/abs/2311.00176
Weiterführende Lektüre
https://x.com/omarsar0/status/1720066328961159387
YaRN: Effiziente Erweiterung des Kontextfensters großer Sprachmodelle / YaRN: Efficient Context Window Extension of Large Language Models
Paper-Einführung
- Es wird eine recheneffiziente Methode vorgeschlagen, um das Kontextfenster von llms effizient über das vortrainierte Kontextfenster hinaus zu erweitern; dabei wird über den begrenzten Kontext des Fine-Tuning-Datensatzes hinaus extrapoliert, und Modelle wurden bis zu einer Kontextlänge von 128k reproduziert. #yarn
> Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.
Paper-Zusammenfassung
- Rotary Position Embeddings (RoPE) haben sich als effektiv erwiesen, um Positionsinformationen in transformerbasierten Sprachmodellen zu kodieren. Diese Modelle schaffen es jedoch nicht, über die Sequenzlänge hinaus zu generalisieren, auf der sie trainiert wurden. Als recheneffiziente Methode zur Erweiterung des Kontextfensters solcher Modelle wird YaRN (Yet another RoPE extensioN method) vorgestellt, das im Vergleich zu früheren Methoden 10x weniger Token und 2.5x weniger Trainingsschritte benötigt. Mit YaRN wird gezeigt, dass LLaMA-Modelle Kontextlängen effektiv nutzen und auf deutlich längere Kontexte extrapolieren können, als ihr ursprüngliches Pretraining erlaubt hätte, und dabei den bisherigen Stand der Technik bei der Erweiterung des Kontextfensters übertreffen. Zusätzlich wird mit YaRN gezeigt, dass eine Extrapolation über den begrenzten Kontext eines Fine-Tuning-Datensatzes hinaus möglich ist. Mit YaRN feinabgestimmte Modelle wurden online (https://github.com/jquesnelle/yarn) bis zu einer Kontextlänge von 128k verfügbar gemacht und reproduziert.
> Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
Paper-Link
https://arxiv.org/abs/2309.00071
Weiterführende Lektüre
https://x.com/theemozilla/status/1720107186850877662
https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…
Open DAC 2023-Datensatz und Herausforderungen für die Entdeckung von Sorbentien in der direkten Luftabscheidung / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture
Paper-Einführung
- Es wird ein Datensatz vorgestellt, der aus mehr als 38 Mio. Dichtefunktionaltheorie-(DFT-)Berechnungen für mehr als 8.800 MOF-Materialien mit adsorbiertem Kohlendioxid und/oder Wasserstoff besteht. Direkt im Datensatz werden Eigenschaften für DAC identifiziert, und mit dem Datensatz werden State-of-the-Art-ML-Modelle trainiert, um Berechnungen auf DFT-Niveau zu approximieren; dies kann zu einer wichtigen Grundlage für künftige Bemühungen werden, MOFs für ein breites Spektrum an Anwendungen einschließlich DAC zu identifizieren.
> Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.
Paper Abstract
- Um dem globalen Klimawandel zu begegnen, werden dringend neue Methoden zur Entfernung von Kohlendioxid benötigt. Direct Air Capture (DAC) ist eine aufkommende Technologie, um Kohlendioxid direkt aus der Umgebungsluft abzuscheiden. Metallorganische Gerüstverbindungen (MOFs) wurden umfassend als potenziell anpassbare Adsorbentien für DAC untersucht. Die Entdeckung vielversprechender MOF-Adsorbentien für DAC ist jedoch schwierig, da der zu erforschende chemische Raum enorm ist und Materialien in Abhängigkeit von Luftfeuchtigkeit und Temperatur verstanden werden müssen. Pure Storage untersucht einen rechnergestützten Ansatz, der von jüngsten Innovationen im Bereich Machine Learning (ML) profitiert, und stellt einen Datensatz mit dem Namen Open DAC 2023 (ODAC23) vor, der aus mehr als 38 Millionen Dichtefunktionaltheorie-(DFT-)Berechnungen an mehr als 8.800 MOF-Materialien mit adsorbiertem CO2 und/oder H2O besteht. ODAC23 ist mit Abstand der größte derzeit verfügbare Datensatz von MOF-Adsorptionsberechnungen mit Genauigkeit auf DFT-Niveau. Neben der Untersuchung der Eigenschaften adsorbierter Moleküle ist der Datensatz auch eine reichhaltige Quelle von Informationen über die strukturelle Relaxation von MOFs, was in vielen Kontexten über spezifische DAC-Anwendungen hinaus nützlich sein wird. Eine große Zahl von MOFs mit vielversprechenden Eigenschaften für DAC wurde direkt in ODAC23 identifiziert. Darüber hinaus haben wir auf Basis dieses Datensatzes State-of-the-Art-ML-Modelle trainiert, um Berechnungen auf DFT-Niveau zu approximieren. Dieser Open-Source-Datensatz und unsere ersten ML-Modelle werden eine wichtige Grundlage für künftige Bemühungen liefern, MOFs für eine breite Palette von Anwendungen einschließlich DAC zu identifizieren.
> New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.
Paper Link
https://arxiv.org/abs/2311.00341
Weiterlesen
https://x.com/AIatMeta/status/1720143486505341128
Ein einheitliches Framework, um Symmetrie in Machine Learning durchzusetzen, zu entdecken und zu fördern / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
Paper Introduction
- Es wird ein einheitliches, methodisches Framework vorgestellt, um Symmetrie in Machine Learning durchzusetzen, zu entdecken und zu fördern; außerdem wird diskutiert, wie sich diese Ideen auf ML-Modelle wie mehrschichtige Perzeptrons und Basisfunktionsregression anwenden lassen.
> Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.
Paper Abstract
- Symmetrie ist in der gesamten Natur präsent und spielt weiterhin eine zunehmend zentrale Rolle in Physik und Machine Learning. Grundlegende Symmetrien wie die Poincaré-Invarianz ermöglichen es, in Laboren auf der Erde entdeckte physikalische Gesetze bis in die fernsten Bereiche des Universums zu extrapolieren. Um diese Extrapolationsfähigkeit in Machine-Learning-Anwendungen zu erreichen, ist Symmetrie essenziell. Beispielsweise erlaubt die Translationsinvarianz bei der Bildklassifikation, Modelle mit weniger Parametern, etwa Convolutional Neural Networks, auf kleineren Datensätzen zu trainieren und dabei State-of-the-Art-Leistung zu erzielen. In dieser Arbeit wird ein einheitlicher theoretischer und methodischer Framework zur Integration von Symmetrie in Machine-Learning-Modelle auf drei Arten vorgestellt: 1. Anwenden bekannter Symmetrien beim Training eines Modells, 2. Entdecken unbekannter Symmetrien eines gegebenen Modells oder Datensatzes, 3. Fördern von Symmetrie während des Trainings durch das Lernen eines Modells, das Symmetrien innerhalb einer vom Nutzer spezifizierten Kandidatengruppe bricht, wenn die Daten dafür hinreichende Evidenz liefern. Mit diesen drei Ansätzen lässt sich Symmetrie beim Training von Machine-Learning-Modellen stärken. Es wird gezeigt, dass sich diese Aufgaben in einen gemeinsamen mathematischen Framework einordnen lassen, dessen zentrales Objekt die Lie-Ableitung ist, die mit faserlinearen Lie-Gruppenwirkungen auf Vektorbündeln verknüpft ist. Durch den Nachweis, dass das Erzwingen und Entdecken von Symmetrie duale lineare algebraische Aufgaben in Bezug auf die bilineare Struktur der Lie-Ableitung sind, werden mehrere bestehende Resultate erweitert und vereinheitlicht. Darüber hinaus wird eine neue Methode zum Fördern von Symmetrie vorgeschlagen, indem eine Klasse konvexer Regularisierungsfunktionen auf Basis der Lie-Ableitung und der Nuclear-Norm-Relaxation eingeführt wird, um Symmetriebrüche während des Trainings von Machine-Learning-Modellen zu bestrafen. Es wird erläutert, wie sich diese Ideen auf eine breite Palette von Machine-Learning-Modellen anwenden lassen, darunter Basisfunktionsregression, die Entdeckung dynamischer Systeme, mehrschichtige Perzeptrons und neuronale Netze, die auf räumliche Felder wie Bilder wirken.
> Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.
Paper-Link
https://arxiv.org/abs/2311.00212
Weiterführende Lektüre
https://x.com/eigensteve/status/1720115655050227911
Next Generation AlphaFold / Next Generation AlphaFold
Paper-Vorstellung
- Berichtet über Fortschritte bei einer neuen Iteration von AlphaFold, die seinen Anwendungsbereich deutlich erweitert, und zeigt die Fähigkeit zur Vorhersage gemeinsamer Strukturen von Komplexen einschließlich Proteinen, Nukleinsäuren, kleinen Molekülen, Ionen und modifizierten Resten; außerdem wird eine höhere Genauigkeit bei Protein-Nukleinsäure-Interaktionen als bei spezialisierten Prädiktoren demonstriert.
> Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.
Paper-Link
https://storage.googleapis.com/deepmind-media/DeepMind.com/…
Weiterführende Lektüre
https://x.com/demishassabis/status/1719345831730368596
Große Sprachmodelle verstehen emotionale Reize und können durch sie verbessert werden / Large Language Models Understand and Can be Enhanced by Emotional Stimuli
Paper-Vorstellung
- Führt automatische Experimente zu 45 Aufgaben mit verschiedenen KI-Modellen durch, darunter Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT und GPT-4; die Aufgaben umfassen deterministische und generative Anwendungen, die umfassende Evaluationsszenarien abbilden; die experimentellen Ergebnisse zeigen, dass KI über ein Verständnis emotionaler Intelligenz verfügt.
> Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.
Paper-Abstract
- Emotionale Intelligenz beeinflusst unser tägliches Verhalten und unsere Interaktionen erheblich. Große Sprachmodelle (LLMs) zeigen bei zahlreichen Aufgaben beeindruckende Leistungen und gelten als ein weiterer Schritt in Richtung künstlicher allgemeiner Intelligenz, doch es ist weiterhin unklar, ob LLMs psychologische emotionale Reize tatsächlich erfassen können. Das Verstehen emotionaler Hinweise und eine angemessene Reaktion darauf verschaffen Menschen bei der Problemlösung einen klaren Vorteil. In dieser Arbeit wird ein erster Schritt unternommen, um die Fähigkeit künstlicher neuronaler Netze zur Verarbeitung emotionaler Reize zu untersuchen. Dazu werden zunächst automatische Experimente zu 45 Aufgaben mit verschiedenen LLMs durchgeführt, darunter Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT und GPT-4. Die Aufgaben umfassen deterministische und generative Anwendungen und bilden damit ein umfassendes Evaluierungsszenario ab. Die automatischen Experimente zeigen, dass LLMs über ein Verständnis emotionaler Intelligenz verfügen und dass sich ihre Leistung durch emotionale Prompts verbessern lässt (eine Kombination aus dem ursprünglichen Prompt und emotionalen Reizen, hier als „EmotionPrompt“ bezeichnet), etwa mit einer relativen Leistungssteigerung von 8,00 % bei Instruction Induction und 115 % bei BIG-Bench. Zusätzlich zu den deterministischen Aufgaben, die sich mit bestehenden Metriken automatisch bewerten lassen, wurde mit 106 Teilnehmenden eine Humanstudie durchgeführt, um die Qualität generativer Aufgaben sowohl mit Vanilla-Prompts als auch mit emotionalen Prompts zu bewerten. Die Ergebnisse der Humanstudie zeigen, dass EmotionPrompt die Leistung bei generativen Aufgaben deutlich verbessert (durchschnittlich 10,9 % Verbesserung bei den Metriken Leistung, Wahrhaftigkeit und Verantwortlichkeit). Der Beitrag diskutiert eingehend, warum EmotionPrompt für LLMs wirksam ist und welche Faktoren seine Leistung beeinflussen können. Wir sind der Ansicht, dass EmotionPrompt einen neuen Weg eröffnet, um interdisziplinäres Wissen für die Interaktion zwischen Menschen und LLMs zu erschließen.
Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
Link zum Paper
https://arxiv.org/abs/2307.11760
Weiterführende Lektüre
https://x.com/emollick/status/1720135672764285176
FP8-LM: Training FP8 Large Language Models / FP8-LM: Training FP8 Large Language Models
Paper-Einführung
- Bei der Nutzung von FP8 für das Training von LLMs wurde festgestellt, dass die meisten Variablen im LLM-Training, etwa Gradienten und Optimizer-Zustände, niedrigpräzise Datenformate verwenden können, ohne die Modellgenauigkeit zu beeinträchtigen und ohne Änderungen an den Hyperparametern zu erfordern.
Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.
Abstract des Papers
- In dieser Arbeit werden FP8-Datenformate mit geringer Bitbreite für das effiziente Training großer Sprachmodelle (LLMs) untersucht. Die zentrale Erkenntnis ist, dass die meisten Variablen beim LLM-Training, etwa Gradienten und Optimizer-Zustände, niedrigpräzise Datenformate nutzen können, ohne die Modellgenauigkeit zu beeinträchtigen und ohne Änderungen an den Hyperparametern zu erfordern. Konkret wird Unity als neues FP8-Framework für automatische Mixed Precision zum Training von LLMs vorgeschlagen. Dieses Framework bietet drei Stufen der FP8-Nutzung, um Mixed-Precision- und verteiltes paralleles Training für LLMs zu vereinfachen. Es integriert schrittweise 8-Bit-Gradienten, Optimizer-Zustände und verteiltes Lernen in inkrementeller Weise. Experimentelle Ergebnisse zeigen, dass beim Training des GPT-175B-Modells auf der H100-GPU-Plattform das FP8-Mixed-Precision-Trainingsframework von Unity nicht nur den tatsächlichen Speicherverbrauch um 42 % reduzierte, sondern auch 64 % schneller lief als das weit verbreitete BF16-Framework (z. B. Megatron-LM) und damit die Geschwindigkeit von Nvidia Transformer Engine um 17 % übertraf. Dadurch lassen sich die Trainingskosten großer Foundation Models erheblich senken. Darüber hinaus ist die FP8-Mixed-Precision-Trainingsmethodik von Unity allgemein einsetzbar. Sie kann nahtlos auch auf andere Aufgaben wie LLM-Instruction-Tuning und Reinforcement Learning mit menschlichem Feedback angewendet werden und so die Kosten des Fine-Tunings senken. Das FP8-Framework für Low-Precision-Training von Unity ist als Open Source unter {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} verfügbar.
> In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Paper-Link
https://arxiv.org/abs/2310.18313
Weiterführende Lektüre
https://x.com/arankomatsuzaki/status/1718813303223222765
Original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0
Noch keine Kommentare.