2 Punkte von ninebow 2024-02-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • Wir haben diese Woche die von DAIR.AI regelmäßig veröffentlichten ML-Papers automatisch übersetzt.

  • Die diese Woche ausgewählten Arbeiten spiegeln die neuesten Forschungstrends in den Bereichen Natural Language Processing, Deep Learning und Reinforcement Learning wider. Außerdem standen Papers zu NLP-bezogenen Technologien diese Woche besonders im Fokus. Darüber hinaus scheinen die Begriffe "World Model" und "neural network trainability" mit theoretischen Aspekten des Reinforcement Learnings bzw. Deep Learnings in Verbindung zu stehen.

  • In der KI-Forschung besteht derzeit ein großes Interesse an der Weiterentwicklung großer Sprachmodelle. Seit Modellen wie GPT-3, die in zahlreichen sprachbasierten Aufgaben beeindruckende Leistungen gezeigt haben, ist NLP sowohl in der theoretischen Forschung als auch in praktischen Anwendungen zu einem zentralen Thema geworden. Große Sprachmodelle können für Aufgaben wie Übersetzung, Zusammenfassung, Fragebeantwortung und generatives Schreiben eingesetzt werden, und die Forschung zu ihrem Verständnis und ihrer Verbesserung ist derzeit sehr aktiv.

  • Begriffe wie "neural network trainability" und "World Model" deuten ebenfalls auf Forschung zu neuen Methoden hin, die ein effizienteres Training tiefer neuronaler Netze ermöglichen und die Modellierung komplexerer Umgebungen erlauben. Im Bereich des Reinforcement Learnings liegt der Fokus darauf, durch ausgefeiltere Umgebungsmodelle die Fähigkeit von Agenten zu entwickeln, auch komplexere Probleme zu lösen – ebenfalls ein wichtiger Trend in der modernen KI-Forschung.

  • Dieser Beitrag wurde von einem GPT-Modell zusammengefasst, daher können Fehler enthalten sein. Bitte beachten Sie daher auch den Originaltext unten. Wenn Sie beim Lesen auf unnatürliche oder falsche Stellen stoßen, lassen Sie es uns bitte in den Kommentaren wissen.


OpenAIs Sora

Paper-Einführung

  • Ein Text-zu-Video-KI-Modell, das auf Grundlage von Texteingaben bis zu einer Minute lange realistische und kreative Szenen als Video generieren kann; es kann komplexe Szenen mit mehreren Figuren, unterschiedlichen Bewegungsarten und Hintergründen erzeugen und verstehen, wie diese miteinander zusammenhängen, und es verfügt über Funktionen wie die Erzeugung mehrerer Einstellungen innerhalb eines einzelnen Videos mit konsistenter Darstellung von Figuren und visuellem Stil über alle Szenen hinweg.

    A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

Paper-Link

https://openai.com/research/…

Weiterlesen

https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519

https://x.com/OpenAI/status/1758192957386342435


Gemini 1.5 / Gemini 1.5

Paper-Einführung

  • Ein rechen-effizientes multimodales Mixture-of-Experts-Modell, das auf Fähigkeiten wie Wiedererinnerung und Schlussfolgerung bei Long-Form-Inhalten ausgerichtet ist; es kann über lange Dokumente mit potenziell Millionen von Tokens, einschließlich Stunden an Video- und Audiodaten, schließen und verbessert die State-of-the-Art-Performance bei Long-Document-QA, Long-Video-QA und Long-Context-ASR. Gemini 1.5 Pro erreicht in Standard-Benchmarks Werte auf dem Niveau von oder besser als Gemini 1.0 Ultra und erreicht bei mindestens 10 Millionen Tokens fast perfekte Retrieval-Genauigkeit (>99 %), was gegenüber anderen Long-Context-LLMs einen deutlichen Fortschritt darstellt.

    A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

Paper-Link

https://storage.googleapis.com/deepmind-media/gemini/…

Weiterlesen

https://discuss.pytorch.kr/t/gn-gemini-1-5/3518

https://x.com/omarsar0/status/1758151923612483839


V-JEPA

Paper-Einführung

  • Eine Sammlung von Vision-Modellen, die auf der Grundlage eines Feature-Prediction-Ziels mit 2 Millionen Videos trainiert wurden; sie basieren auf Self-Supervised Learning und verwenden keine vortrainierten Bildencoder, keinen Text, keine negativen Beispiele, keine Rekonstruktion oder andere Aufsichtsquellen; sie behaupten, vielseitige visuelle Repräsentationen zu erreichen, die sowohl bei Bewegungs- als auch bei Aussehens-basierten Aufgaben gut abschneiden, ohne die Modellparameter anzupassen.

    A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.

Abstract

Diese Arbeit untersucht die Vorhersage von Merkmalen als eigenständiges Ziel für unüberwachtes Lernen aus Videos und stellt V-JEPA vor, eine Sammlung von Vision-Modellen, die ausschließlich mit einem Ziel der Merkmalsvorhersage trainiert werden, ohne vortrainierte Bildencoder, Text, negative Beispiele, Rekonstruktion oder andere Aufsichtsquellen zu nutzen. Die Modelle wurden auf 2 Millionen Videos trainiert, die aus öffentlichen Datensätzen gesammelt wurden, und auf nachgelagerten Bild- und Videoaufgaben evaluiert. Unsere Ergebnisse zeigen, dass das Lernen durch Vorhersage von Video-Features zu vielseitigen visuellen Repräsentationen führt, die sowohl bei Bewegungs- als auch bei aussehensbasierten Aufgaben gut abschneiden, ohne eine Anpassung der Modellparameter; so erreicht unser größtes Modell, ein ViT-H/16, der nur auf Videos trainiert wurde, bei eingefrorenem Backbone 81,9 % auf Kinetics-400, 72,2 % auf Something-Something-v2 und 77,9 % auf ImageNet1K.

This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.

Paper-Links

https://ai.meta.com/research/publications/…

Weiterlesen

https://ai.meta.com/blog/…

https://github.com/facebookresearch/jepa

https://x.com/AIatMeta/status/1758176023588577326


LWM(Large World Model): Ein Modell für Video- und Sprachverarbeitung mit RingAttention bei einer Kontextlänge von einer Million Tokens / World Model on Million-Length Video And Language With RingAttention

Paper-Einführung

  • Ein allgemeines Multimodalmodell mit 1M-Kontext, das mit RingAttention auf langen Videos und Büchern trainiert wurde; es setzt neue Benchmarks bei schwierigen Abrufaufgaben und beim Verständnis langer Videos, nutzt Masked Sequence Packing zum Mischen verschiedener Sequenzlängen, Verlustgewichtung und einem vom Modell generierten QA-Datensatz für Long-Sequence-Chat und stellt eine Open-Source-Modellfamilie mit 7B Parametern bereit, die lange Texte und Videos mit über 1M Tokens verarbeiten kann.

    A general-purpose 1m context multimodal model trained on long videos and books using ringattention; sets new benchmarks in difficult retrieval tasks and long video understanding; uses masked sequence packing for mixing different sequence lengths, loss weighting, and model-generated qa dataset for long sequence chat; open-sources a family of 7b parameter models that can process long text and videos of over 1m tokens.

Paper-Zusammenfassung (Abstract)

  • Aktuelle Sprachmodelle sind unzureichend darin, Aspekte der Welt zu verstehen, die sich nicht leicht in Worten beschreiben lassen, und haben Schwierigkeiten bei komplexen, lange formulierten Aufgaben. Videosequenzen liefern wertvolle zeitliche Informationen, die in Sprache und statischen Bildern fehlen, wodurch sie für eine gemeinsame Modellierung mit Sprache attraktiv sind. Solche Modelle könnten sowohl menschliches Textwissen als auch ein Verständnis der physischen Welt entwickeln und so breitere KI-Fähigkeiten zur Unterstützung des Menschen ermöglichen. Allerdings ist das Lernen aus Millionen von Videosequenzen und Sprachsequenzen wegen Speicherbeschränkungen, Rechenkomplexität und begrenzter Datensätze schwierig. Um diese Herausforderungen zu meistern, kuratieren wir einen großen Datensatz mit vielfältigen Videos und Büchern, nutzen die RingAttention-Technik, um auf langen Sequenzen skalierbar zu trainieren, und erhöhen schrittweise die Kontextgröße von 4K auf 1 Mio. Tokens. Dieses Paper macht folgende Beiträge: (a) Neuronales Netzwerk mit größter Kontextgröße: Wir trainieren einen der größten Transformer mit großem Kontext für lange Video- und Sprachsequenzen und setzen neue Benchmarks bei schwierigen Retrieval-Aufgaben und beim Verständnis langer Videos. (b) Lösungen für Probleme beim Vision-Language-Training, darunter der Einsatz von Masked Sequence Packing für das Mischen verschiedener Sequenzlängen, eine Loss-Gewichtung zur Balance zwischen Sprache und Vision sowie ein modelgenerierter QA-Datensatz für Chat mit langen Sequenzen. (c) Eine hochoptimierte Implementierung mit RingAttention, Masked Sequence Packing und weiteren Schlüsselelementen zum Trainieren von multimodalen Sequenzen mit Millionen Token-Länge. (d) Wir haben eine vollständig als Open Source verfügbare Modellfamilie mit 7B Parametern veröffentlicht, die lange Textdokumente (LWM-Text, LWM-Text-Chat) und Videos (LWM, LWM-Chat) von über 1 Mio. Tokens verarbeiten kann. Diese Arbeit ebnet den Weg für das Training auf massiven Datensätzen aus langen Videos und Sprache, um ein Verständnis sowohl des menschlichen Wissens als auch der multimodalen Welt und weiter gefasster Fähigkeiten zu entwickeln.

    Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Paper-Links

https://arxiv.org/abs/2402.08268

Weiterlesen

https://largeworldmodel.github.io/

https://huggingface.co/LargeWorldModel

https://x.com/haoliuhl/status/1757828392362389999


Die Grenze der Trainierbarkeit neuronaler Netze ist fraktal / The boundary of neural network trainability is fractal

Papervorstellung

  • Es wurde festgestellt, dass die Grenze zwischen trainierbaren und nicht trainierbaren Hyperparameter-Konfigurationen neuronaler Netze fraktal ist; wir beobachten fraktale Hyperparameter-Landschaften für jede Konfiguration neuronaler Netze und tiefen linearer Netze und stellen außerdem fest, dass die bestleistenden Hyperparameter am Ende der Stabilität liegen.

    Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

Abstract (Abstract)

  • Zum Beispiel werden einige Fraktale, etwa jene zur Mandelbrot- und zur quadratischen Julia-Menge, berechnet, indem eine Funktion wiederholt iteriert wird und die Grenze zwischen Hyperparametern bestimmt wird, für die die resultierende Folge divergiert oder beschränkt bleibt. Das Training neuronaler Netze ist ähnlich: Es wird ebenfalls eine Update-Funktion iterativ angewendet (z. B. wiederholte Schritte des Gradientenabstiegs), kann konvergentes oder divergentes Verhalten zeigen und kann äußerst sensibel auf kleine Änderungen der Hyperparameter reagieren. Auf Basis dieser Ähnlichkeit haben wir experimentell die Grenze zwischen Netzwerk-Hyperparametern untersucht, die zu stabilem bzw. divergierendem Training führen. In allen getesteten Konfigurationen fanden wir, dass diese Grenze über mehr als zehn Dekaden hinweg fraktale Eigenschaften besitzt.

    Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

Paper-Link

https://arxiv.org/abs/2402.06184

Weiterlesen

https://x.com/jaschasd/status/1756930242965606582


OS-Copilot: Auf dem Weg zu generalistischen Computer-Agenten durch Selbstverbesserung / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Paper-Überblick

  • OS-Copilot ist ein Framework zum Aufbau generalistischer Computer-Agenten, die mit Kernelementen eines Betriebssystems wie Linux oder macOS interagieren, und schlägt außerdem einen sich selbst verbessernden implementierten Agenten für die Automatisierung allgemeiner Computeraufgaben vor. Dieser Agent erzielt auf dem GAIA-Benchmark für allgemeine KI-Assistenten 35 % bessere Ergebnisse als frühere Methoden.

    a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

Paper-Abstract

  • Die autonome Interaktion mit dem Computer ist eine langjährige Herausforderung mit großem Potenzial, und die jüngste Verbreitung großer Sprachmodelle (LLM) hat den Fortschritt beim Aufbau digitaler Agenten deutlich beschleunigt. Die meisten dieser Agenten sind jedoch dafür ausgelegt, mit engen Domänen wie einer bestimmten Software oder Website zu interagieren. Dieser enge Fokus beschränkt ihre Einsatzmöglichkeiten für allgemeine Computeraufgaben. Daher stellen wir OS-Copilot vor, ein Framework zum Aufbau generalistischer Agenten, die mit umfassenden Elementen eines Betriebssystems (OS) interagieren können, einschließlich Web, Code-Terminals, Dateien, Multimedia und verschiedener Drittanbieter-Anwendungen. Wir haben OS-Copilot genutzt, um FRIDAY zu entwickeln, einen sich selbst verbessernden embodied Agent zur Automatisierung allgemeiner Computeraufgaben. Auf GAIA, einem Benchmark für allgemeine KI-Assistenten, übertrifft FRIDAY frühere Methoden um 35 % und zeigt eine starke Generalisierung zu bislang ungesehenen Anwendungen durch kumulierte Fähigkeiten aus früheren Aufgaben. Wir legen außerdem numerische und quantitative Belege dafür vor, dass FRIDAY mit minimaler Aufsicht lernt, Excel und PowerPoint zu steuern und sich selbst zu verbessern. Unser OS-Copilot-Framework und unsere empirischen Ergebnisse liefern Infrastruktur und Einblicke für künftige Forschung in Richtung leistungsfähigerer und allgemeinerer Computer-Agenten.

    Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

Paper-Link

https://arxiv.org/abs/2402.07456

Weiterlesen

https://x.com/omarsar0/status/1757443594976206885


TestGen-LLM: Verbesserung automatisierter Unit-Tests mit großen Sprachmodellen bei Meta / Automated Unit Test Improvement using Large Language Models at Meta

Paper-Überblick

  • Nach einer Evaluation der Instagram-Produkte Reels und Stories wird berichtet, dass 75 % der Testfälle von TestGen-LLM korrekt aufgebaut wurden, 57 % stabil bestanden und die Abdeckung um 25 % gestiegen ist.

    Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

Paper-Abstract

  • Diese Arbeit beschreibt das Meta-Tool TestGen-LLM, das bestehende, von Menschen geschriebene Tests automatisch mit Hilfe von LLMs verbessert. TestGen-LLM stellt sicher, dass die generierten Testklassen eine Reihe von Filtern erfolgreich durchlaufen, die eine messbare Verbesserung gegenüber der ursprünglichen Testsuite garantieren, und verhindert so Probleme durch Halluzinationen bei LLMs. Außerdem wird beschrieben, wie TestGen-LLM bei den Meta-Test-Athons für die Instagram- und Facebook-Plattformen eingesetzt wurde. Bei einer Evaluation für Instagrams Produkte Reels und Stories wurde festgestellt, dass 75 % der Testfälle von TestGen-LLM korrekt gebaut wurden, 57 % zuverlässig bestanden und die Testabdeckung bei 25 % stieg. Bei den Meta-Test-Athons für Instagram und Facebook verbesserte diese Lösung 11,5 % aller angewandten Klassen, wobei 73 % der von Meta-Softwareingenieuren empfohlenen Maßnahmen für den Produktionseinsatz akzeptiert wurden. Wir halten dies für den ersten Bericht über die industrielle Massenbereitstellung von LLM-generiertem Code, die durch solche Garantien zur Codeverbesserung gestützt ist.

    This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.

Paper-Link

https://arxiv.org/abs/2402.09171

Weiterlesen

https://x.com/nathanbenaich/status/1758036247115608317


ChemLLM: Ein großes Sprachmodell für Chemie / ChemLLM: A Chemical Large Language Model

Paper-Überblick

  • Es ist ein dediziertes LLM für chemisch relevante Aufgaben, das nach eigenen Angaben in wichtigen Aufgaben wie Namenskonvertierung, Molekül-Beschriftung und Reaktionsvorhersage besser als GPT-3.5 ist; bei zwei dieser Aufgaben werdegt GPT-4 übertroffen.

    A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

Abstract

  • Große Sprachmodelle (LLM) haben im Bereich Chemie bemerkenswerte Fortschritte erzielt, beispielsweise in der Vorhersage molekularer Eigenschaften, der Molekülgenerierung und der Gestaltung von Versuchsprotokollen. Es fehlt jedoch ein auf die Chemie zugeschnittenes dialogbasiertes Modell. Dieses Problem ergibt sich daraus, dass die meisten chemischen Daten und wissenschaftlichen Kenntnisse vor allem in strukturierten Datenbanken gespeichert sind und die direkte Nutzung dieser strukturierten Daten die Fähigkeit des Modells verringert, einen kohärenten Dialog aufrechtzuerhalten. Um dieses Problem zu lösen, entwickeln wir eine neuartige, vorlagenbasierte Methode zur Erstellung von Instruktionen, die strukturiertes Wissen in einen einfachen Dialog umwandelt und für das Training von Sprachmodellen geeignet macht. Auf Basis dieses Ansatzes haben wir ChemLLM entwickelt, das erste große Sprachmodell, das sich speziell der Chemie widmet und mit flüssiger Dialoginteraktion verschiedene Aufgaben in verschiedenen chemischen Bereichen ausführen kann. ChemLLM übertrifft GPT-3.5 in allen drei zentralen Aufgaben der Chemie, nämlich Namensumwandlung, Molekülbeschreibung und Reaktionsvorhersage, und liegt bei zwei davon sogar über GPT-4. Bemerkenswerterweise zeigt ChemLLM trotz der primären Schulung auf chemiezentrierten Korpora eine außergewöhnliche Anpassungsfähigkeit bei verwandten mathematischen und physikalischen Aufgaben. Darüber hinaus zeigt ChemLLM auch in spezialisierten NLP-Aufgaben innerhalb der Chemie wie Literaturübersetzung und Cheminformatik-Programmierung große Kompetenz. ChemLLM eröffnet eine neue Erkundungsperspektive in der chemischen Forschung, während unsere Methode zur Integration strukturierten chemischen Wissens in Dialogsysteme eine neue Grenze für die Entwicklung von LLMs in verschiedenen wissenschaftlichen Disziplinen setzt. Code, Datensätze und Modellgewichte sind öffentlich unter hf.co/AI4Chem/ChemLLM-7B-Chat zugänglich.

    Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.

Paper-Links

https://arxiv.org/abs/2402.06852

Weiterlesen

https://hf.co/AI4Chem/ChemLLM-7B-Chat

https://x.com/omarsar0/status/1757246740539773165


Große Sprachmodelle: Survey / Large Language Models: A Survey

Paper-Vorstellung

  • Es werden drei beliebte LLM-Familien (GPT, Llama, PaLM) mit ihren Eigenschaften, Beiträgen und Grenzen untersucht. Außerdem werden die Funktionen und Techniken zusammengefasst, die zur Erstellung und Erweiterung von LLM entwickelt wurden; außerdem werden verbreitete Datensätze für das Training, Fine-Tuning und die Evaluierung von LLM sowie Metriken zur LLM-Bewertung diskutiert. Der Beitrag schließt mit offenen Herausforderungen und zukünftigen Forschungsrichtungen ab.

    Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.

Abstract

  • Große Sprachmodelle (LLM) haben seit der Einführung von ChatGPT im November 2022 viel Aufmerksamkeit erhalten, da sie bei einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung starke Leistungen zeigen. Die allgemein nutzbare Fähigkeit von LLMs zum Sprachverständnis und zur Sprachgenerierung wird durch das Training von Milliarden von Modellparametern auf massiven Textdatenmengen erworben, wie es durch Skalierungsgesetze \cite{kaplan2020scaling,hoffmann2022training} vorhergesagt wird. Das Forschungsfeld der LLMs ist zwar noch sehr jung, entwickelt sich aber auf vielfältige Weise rasant. In diesem Paper besprechen wir einige der auffälligsten LLMs, darunter drei weit verbreitete LLM-Familien (GPT, LLaMA, PaLM), und diskutieren deren Merkmale, Beiträge und Einschränkungen. Außerdem geben wir einen Überblick über Techniken, die entwickelt wurden, um LLMs zu bauen und zu erweitern. Anschließend untersuchen wir beliebte Datensätze für LLM-Training, Feinabstimmung und Evaluierung, prüfen weit verbreitete LLM-Evaluationsmetriken und vergleichen die Leistung mehrerer populärer LLMs auf einer Reihe repräsentativer Benchmarks. Abschließend diskutieren wir offene Herausforderungen und zukünftige Forschungsrichtungen und schließen das Paper ab.

    Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

Paper-Link

https://arxiv.org/abs/2402.06196

Weiterlesen

https://x.com/omarsar0/status/1757049645119799804


LLM-Agenten können Websites autonom hacken / LLM Agents can Autonomously Hack Websites

Papiervorstellung

  • Es wird gezeigt, dass LLM-Agenten Websites automatisch hacken und dabei Aufgaben wie SQL-Injektionen durchführen können, ohne menschliches Feedback oder explizites Vorwissen über die Schwachstelle. Das ist möglich durch die Werkzeugnutzung und die Langkontext-Fähigkeiten von LLMs. GPT-4 kann solche Hacks, einschließlich des Auffindens von Schwachstellen auf Websites in der echten Umgebung, ausführen, während Open-Source-Modelle diese Funktion nicht zeigen konnten.

    Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

Paper-Abstrakt (Abstract)

  • In den letzten Jahren wurden große Sprachmodelle (LLM) zunehmend leistungsfähiger und können nun mit Werkzeugen interagieren (d. h. Funktionsaufrufe), Dokumente lesen und sich selbst rekursiv aufrufen. Dadurch können diese LLMs jetzt autonom als Agenten arbeiten. Mit der Verbesserung der Fähigkeiten dieser Agenten hat die jüngere Forschung darüber spekuliert, wie LLM-Agenten sich auf die Cybersicherheit auswirken würden. Über die offensiven Fähigkeiten von LLM-Agenten ist jedoch nicht allzu viel bekannt.
    In dieser Arbeit zeigen wir, dass LLM-Agenten Websites ohne menschliches Feedback eigenständig hacken können und dabei Aufgaben ausführen, die so komplex sind wie die Blind-Extraktion von Datenbankschemata und SQL-Injektionen. Entscheidend ist dabei, dass der Agent die Schwachstelle nicht vorher kennen muss. Diese Fähigkeit wird einzigartig durch Frontier-Modelle ermöglicht, die über sehr gute Werkzeugnutzung verfügen und erweiterten Kontext nutzen. Konkret zeigen wir, dass GPT-4 zu solchen Hacks fähig ist, aber bestehende Open-Source-Modelle nicht. Schließlich zeigen wir, dass GPT-4 eigenständig Schwachstellen auf Websites in freier Wildbahn finden kann. Unsere Ergebnisse stellen Fragen zur breiten Bereitstellung von LLMs.

    In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

Paper-Link

https://arxiv.org/abs/2402.06664v1

Weiterlesen

https://x.com/emollick/status/1757937829340967240


Originaltext

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-325


⚠️Werbung⚠️: War dieser von der PyTorch Korea User Group zusammengestellte Beitrag hilfreich? Wenn Sie sich als Mitglied anmelden, senden wir Ihnen die wichtigsten Beiträge per E-Mail zu! (Standardmäßig ist es Weekly, aber eine Umstellung auf Daily ist ebenfalls möglich.)

Noch keine Kommentare.

Noch keine Kommentare.