03] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 Punkte von ninebow 2024-03-06 | Noch keine Kommentare. | Auf WhatsApp teilen

Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.
Die in dieser Woche ausgewählten Papers zeigen, dass die Forschung vor allem auf Large Language Models (LLMs) fokussiert ist. An Titeln wie "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs" und "PlanGPT" lässt sich erkennen, wie groß das Interesse an Language Modeling sowie an Ansätzen zur Verbesserung dieser Modelle oder zur Nutzung neuer Datensätze ist. Das dürfte damit zusammenhängen, dass sich Sprachverarbeitungstechnologien in den vergangenen Jahren rasant weiterentwickelt haben und große Sprachmodelle in einer Vielzahl von Natural-Language-Processing-Aufgaben hervorragende Leistungen zeigen.
Sprachmodelle, insbesondere große Modelle wie GPT-4, werden in unterschiedlichsten Branchen und Forschungsfeldern eingesetzt. Dadurch wächst der Bedarf an neuen Techniken, mit denen sich diese Modelle effizienter trainieren, auf vielfältigere Daten anwenden und sogar mit weniger Bits bei hoher Leistung betreiben lassen. Zudem deutet ein Titel wie "On the Societal Impact of Open Foundation Models" darauf hin, dass auch die gesellschaftlichen Auswirkungen von Sprachmodellen untersucht werden. Das zeigt, dass nicht nur der technologische Fortschritt, sondern auch das Bewusstsein für die daraus entstehenden gesellschaftlichen Veränderungen und Verantwortlichkeiten zunimmt.
Daneben fallen auch weniger konkrete Titel wie "LearnAct" oder "EMO" auf; solche Papers könnten sich statt ausschließlich auf Sprachmodelle eher auf breitere Anwendungen oder theoretische Fortschritte konzentrieren. Insgesamt lässt sich feststellen, dass in dieser Woche neue Ansätze für Language Modeling und vielfältige anwendungsorientierte Forschung dazu den zentralen Trend bilden. Das spiegelt die intensive Forschung und Entwicklung zu den vielen wichtigen Herausforderungen im KI-Bereich wider.

Genie: Generative interaktive Umgebungen / Genie: Generative Interactive Environments

Paper-Einführung

Genie ist ein Foundation Model, das anhand von Internetvideos trainiert wurde und aus Bild-Prompts eine Vielzahl von steuerbaren 2D-Welten erzeugen kann. Es verfügt über 11B Parameter und besteht aus einer spatiotemporalen Video-Tokenisierung, einem autoregressiven Dynamikmodell und einem skalierbaren latenten Aktionsmodell. Über den latenten Aktionsraum können trainierte Agenten Verhaltensweisen aus ungesehenen Videos nachahmen, was vielversprechend für den Aufbau allgemeinerer Agenten ist.

A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

Abstract

Wir stellen Genie vor, die erste generative interaktive Umgebung, die in unüberwachter Weise aus unbeschrifteten Internetvideos trainiert wurde. Das Modell kann per Prompt dazu gebracht werden, eine endlose Vielfalt aktionssteuerbarer virtueller Welten zu erzeugen, die durch Text, synthetische Bilder, Fotografien und sogar Skizzen beschrieben werden. Mit 11B Parametern kann Genie als Foundation World Model betrachtet werden. Es besteht aus einer spatiotemporalen Video-Tokenisierung, einem autoregressiven Dynamikmodell und einem einfachen, skalierbaren latenten Aktionsmodell. Mit Genie können Nutzer in den erzeugten Umgebungen Frame für Frame Aktionen ausführen, obwohl das Training ohne Ground-Truth-Aktionslabels oder andere domänenspezifische Anforderungen erfolgte, wie sie in der World-Model-Literatur typischerweise vorkommen. Darüber hinaus erleichtert der erlernte latente Aktionsraum das Training von Agenten, damit diese Verhaltensweisen aus ungesehenen Videos imitieren können, und eröffnet so einen Weg zum Training künftiger Generalist Agents.

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

Paper-Link

https://arxiv.org/abs/2402.15391

Weiterführende Links

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161

Mistral Large / Mistral Large

Paper-Einführung

Die Merkmale dieser neuen Sprach-Engine mit starken Fähigkeiten in den Bereichen Mehrsprachigkeit, Schlussfolgern, Mathematik und Code-Generierung sind: 1) ein Kontextfenster von 32k Tokens, 2) native Mehrsprachigkeit, 3) starke Leistung bei Benchmarks zu Reasoning, Wissen, Mathematik und Coding sowie 4) native Unterstützung für Function Calling und JSON-Format.

A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

Paper-Link

https://mistral.ai/news/mistral-large/

Weiterführende Links

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721

Das Zeitalter der 1-Bit-LLMs: Alle großen Sprachmodelle liegen bei 1,58 Bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper-Einführung

Vorgestellt wird mit BitNet b1.58 eine leistungsstarke und kosteneffiziente 1-Bit-LLM-Variante, bei der alle Parameter ternär {-1, 0, 1} sind. Bei gleicher Modellgröße und derselben Anzahl an Training-Tokens kann BitNet b1.58 in Komplexität und Task-Performance mit einem Full-Precision-Transformer-LLM (d. h. fp16) mithalten; die Vorteile dieses 1-Bit-LLM sind deutlich bessere Latenz, Speichernutzung, Durchsatz und Energieverbrauch.

Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

Paper-Abstract

Jüngere Forschung wie BitNet ebnet den Weg für eine neue Ära von 1-Bit-Large-Language-Models (LLMs). In dieser Arbeit stellen wir eine 1-Bit-LLM-Variante namens BitNet b1.58 vor, bei der jeder einzelne Parameter (oder jedes Gewicht) des LLM ternär {-1, 0, 1} ist. Es erreicht bei gleicher Modellgröße und derselben Anzahl an Training-Tokens sowohl bei der Perplexity als auch bei der End-Task-Performance das Niveau eines Full-Precision-Transformer-LLM (d. h. FP16 oder BF16) und ist dabei in Bezug auf Latenz, Speicher, Durchsatz und Energieverbrauch deutlich kosteneffizienter. Noch grundlegender definiert das 1,58-Bit-LLM ein neues Skalierungsgesetz und ein neues Rezept für das Training neuer Generationen von LLMs, die sowohl leistungsstark als auch kosteneffizient sind. Darüber hinaus ermöglicht es ein neues Rechenparadigma und öffnet die Tür für die Entwicklung spezifischer Hardware, die für 1-Bit-LLMs optimiert ist.

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Paper-Link

https://arxiv.org/abs/2402.17764

Weiterlesen

https://x.com/_akhaliq/status/1762729757454618720

Datensätze für Large Language Models: eine umfassende Survey-Arbeit / Datasets for Large Language Models: A Comprehensive Survey

Paper-Vorstellung

Ein umfassender Überblick (über 180 Seiten) und eine Analyse von LLM-Datensätzen.

A comprehensive overview (180+ pages) and analysis of llm datasets.

Paper-Abstract

Dieses Paper beginnt mit einer Untersuchung von Datensätzen für Large Language Models (LLMs), die eine entscheidende Rolle bei den bemerkenswerten Fortschritten von LLMs spielen. Datensätze dienen als grundlegende Infrastruktur, vergleichbar mit einem Wurzelsystem, das die Entwicklung von LLMs trägt und fördert. Daher rückt die Untersuchung dieser Datensätze als wichtiges Forschungsthema in den Vordergrund. Um den derzeitigen Mangel an einem umfassenden Überblick und einer gründlichen Analyse von LLM-Datensätzen zu beheben und Einblicke in den aktuellen Stand sowie künftige Trends zu gewinnen, bündelt und klassifiziert diese Survey die grundlegenden Aspekte von LLM-Datensätzen aus fünf Perspektiven: (1) Pre-training-Korpora, (2) Datensätze für Instruction Fine-tuning, (3) Präferenz-Datensätze, (4) Evaluierungs-Datensätze und (5) traditionelle Datensätze der natürlichen Sprachverarbeitung (NLP). Die Survey beleuchtet aktuelle Herausforderungen und zeigt potenzielle Richtungen für künftige Untersuchungen auf. Darüber hinaus bietet sie einen umfassenden Überblick über derzeit verfügbare Datensatz-Ressourcen, einschließlich Statistiken zu 444 Datensätzen aus 8 Sprachkategorien und 32 Domänen. Informationen aus 20 Dimensionen wurden in die Datensatzstatistiken integriert. Das insgesamt untersuchte Datenvolumen übersteigt 774,5 TB bei Pre-training-Korpora und 700 Millionen Instanzen bei anderen Datensätzen. Ziel ist es, die gesamte Landschaft der LLM-Textdatensätze darzustellen, als umfassende Referenz für Forschende in diesem Bereich zu dienen und zu künftigen Studien beizutragen. Zugehörige Ressourcen finden sich unter https://github.com/lmmlzn/Awesome-LLMs-Datasets.

This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

Paper-Link

https://arxiv.org/abs/2402.18041

Weiterlesen

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001

Stärkung der Fähigkeiten von Large-Language-Model-Agenten durch Action Learning / Empowering Large Language Model Agents through Action Learning

Paper-Vorstellung

Untersucht wird Open-Action-Learning für Sprachagenten durch eine iterative Lernstrategie, die mithilfe von Python-Funktionen Aktionen erzeugt und verbessert. Das vorgeschlagene Framework (learnact) erweitert in jeder Iteration den Aktionsraum und verbessert die Wirksamkeit der Aktionen, indem es verfügbare Aktionen auf Basis von Ausführungs-Feedback überarbeitet und aktualisiert. In Robotik-Planung und der Alfworld-Umgebung getestet, zeigte learnact eine um 32 % bessere Agentenleistung in Alfworld im Vergleich zu ReAct+Reflexion.

Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

Paper-Abstract (Abstract)

Obwohl das Interesse an Large Language Model (LLM)-Agenten in letzter Zeit stark zugenommen hat, sind ihre Fähigkeiten zum Lernen durch Versuch und Irrtum – einem Kernelement intelligenten Verhaltens – nach wie vor begrenzt. Diese Studie argumentiert, dass die Fähigkeit, durch Erfahrung neue Handlungen zu erlernen, für den Fortschritt des Lernens bei LLM-Agenten essenziell ist. Während Menschen ihren Handlungsraum durch erfahrungsbasiertes Lernen auf natürliche Weise erweitern und Fähigkeiten entwickeln, operieren LLM-Agenten in der Regel innerhalb fester Handlungsräume, was ihr Wachstumspotenzial einschränkt. Um dieses Problem zu lösen, untersucht die Studie Open-Action-Learning für Sprachagenten. Vorgestellt wird das Framework LearnAct, das eine iterative Lernstrategie umfasst, um Aktionen in Form von Python-Funktionen zu erzeugen und zu verbessern. In jeder Iteration überarbeitet und aktualisiert das LLM die aktuell verfügbaren Aktionen auf Basis der in fehlgeschlagenen Trainingsaufgaben identifizierten Fehler und steigert so deren Wirksamkeit. Experimentelle Auswertungen in Robotic-Planning- und AlfWorld-Umgebungen zeigen, dass dieser Ansatz für Open-Action-Learning nach dem Lernen aus einigen Trainingsinstanzen die Leistung des Agenten bei diesem Aufgabentyp deutlich verbessert (z. B. um 32 % in AlfWorld im Vergleich zu ReAct+Reflexion). Das unterstreicht die Bedeutung erfahrungsbasierten Action-Learnings für die Entwicklung intelligenterer LLM-Agenten.

Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

Paper-Link

https://arxiv.org/abs/2402.15809

Weiterführende Links

https://x.com/omarsar0/status/1762533498492010761

EMO: Emote Portrait Alive – Ausdrucksstarke Porträtvideos erzeugen mit einem Audio2Video-Diffusionsmodell unter schwachen Bedingungen / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Paper-Vorstellung

EMO ist ein neues Framework zur Erzeugung ausdrucksstarker Videos, das einen direkten Audio-to-Video-Syntheseansatz auf Basis eines Audio-to-Video-Diffusionsmodells nutzt. Dadurch werden weder ein zwischengeschaltetes 3D-Modell noch Gesichtslandmarken benötigt. Es kann überzeugende Sprech- und Gesangsvideos in unterschiedlichen Stilen erzeugen und übertrifft bestehende Verfahren in Ausdrucksstärke und Realismus.

A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

Paper-Abstract

Diese Studie befasst sich mit der Herausforderung, den Realismus und die Ausdrucksstärke bei der Generierung von Talking-Head-Videos zu verbessern, indem sie sich auf die dynamische und nuancierte Beziehung zwischen Audiosignalen und Gesichtsbewegungen konzentriert. Die Arbeit identifiziert die Grenzen herkömmlicher Techniken, die häufig weder das gesamte Spektrum menschlicher Ausdrucksformen noch die Einzigartigkeit individueller Gesichtsstile erfassen. Um diese Probleme zu lösen, schlagen die Autoren EMO vor, ein neuartiges Framework, das einen direkten Audio-to-Video-Syntheseansatz nutzt und dadurch ohne zwischengeschaltete 3D-Modelle oder Gesichtslandmarken auskommt. Die Methode gewährleistet nahtlose Frame-Übergänge und eine konsistente Wahrung der Identität über das gesamte Video hinweg, was zu hochgradig ausdrucksstarken und lebensechten Animationen führt. Die experimentellen Ergebnisse zeigen, dass EMO nicht nur überzeugende Sprechvideos, sondern auch Gesangsvideos in verschiedenen Stilen erzeugen kann und bestehende State-of-the-Art-Methoden in Bezug auf Ausdrucksstärke und Realismus deutlich übertrifft.

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

Paper-Link

https://arxiv.org/abs/2402.17485

Weiterführende Links

https://x.com/_akhaliq/status/1762686465777999932

Die gesellschaftlichen Auswirkungen offener Foundation Models / On the Societal Impact of Open Foundation Models

Paper-Einführung

Dieses Positionspapier mit Fokus auf offenen Foundation Models sowie deren Auswirkungen, Nutzen und Risiken schlägt ein Risikobewertungs-Framework zur Risikoanalyse vor, erklärt, warum das Grenzrisiko offener Foundation Models in manchen Fällen gering ist, und bietet eine fundiertere Bewertung der gesellschaftlichen Auswirkungen offener Foundation Models.

A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

Paper-Link

https://crfm.stanford.edu/open-fms/

Weiterführende Lektüre

https://x.com/sayashk/status/1762508812370551207

StarCoder 2 / StarCoder 2

Paper-Einführung

Eine Familie offener Machine-Learning-Modelle für Code in drei Größen (3b, 7b, 15b); das 15b-Modell wurde mit 14 Billionen Tokens und mehr als 600 Programmiersprachen trainiert, nutzt ein Kontextfenster von 16k Tokens sowie ein Fill-in-the-Middle-Ziel und erreicht in vielen Evaluierungen wie Code Completion, Code Reasoning und durch PAL unterstütztem mathematischem Schlussfolgern das Niveau von Modellen mit 33b und mehr.

A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

Paper-Link

https://huggingface.co/blog/starcoder2

Weiterführende Lektüre

https://x.com/_philschmid/status/1762843489220296881

Große Sprachmodelle (LLMs) für tabellarische Daten: Vorhersage, Generierung und Verständnis – Survey-Paper / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Paper-Einführung

Ein Überblick über LLMs für Aufgaben mit tabellarischen Daten, einschließlich wichtiger Techniken, Metriken, Datensätze, Modelle und Optimierungsansätze; behandelt werden außerdem Einschränkungen und unerforschte Ideen sowie Einblicke in künftige Forschungsrichtungen.

An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

Paper-Abstract

Jüngste Durchbrüche im Large Language Modeling haben eine rigorose Erforschung ihrer Anwendung auf verschiedene Aufgaben rund um die Modellierung tabellarischer Daten ermöglicht, etwa Vorhersage, Synthese tabellarischer Daten, Fragebeantwortung und Tabellenverständnis. Jede Aufgabe bringt eigene Herausforderungen und Chancen mit sich. Derzeit fehlt jedoch eine umfassende Übersicht, die die wichtigsten Techniken, Metriken, Datensätze, Modelle und Optimierungsansätze in diesem Forschungsgebiet zusammenfasst und vergleicht. Dieses Survey-Paper zielt darauf ab, diese Lücke zu schließen, indem es die jüngsten Fortschritte in diesen Bereichen zusammenführt und eine gründliche Übersicht sowie Taxonomie der verwendeten Datensätze, Metriken und Methodologien bietet. Es identifiziert Stärken, Grenzen, unerforschte Bereiche und Lücken in der bestehenden Literatur und liefert zugleich Einblicke in zukünftige Forschungsrichtungen in diesem wichtigen und sich schnell entwickelnden Feld. Außerdem stellt es Referenzen zu relevantem Code und zu Datensätzen bereit. Mit dieser umfassenden Übersicht hoffen wir, interessierten Leserinnen und Lesern passende Referenzen und aufschlussreiche Perspektiven zu bieten und sie mit den notwendigen Werkzeugen und Kenntnissen auszustatten, um die aktuellen Herausforderungen des Feldes wirksam zu navigieren und anzugehen.

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

Paper-Link

https://arxiv.org/abs/2402.17944

Weiterführende Lektüre

https://x.com/omarsar0/status/1763187964501254492

PlanGPT: Verbesserung der Stadtplanung mit einem maßgeschneiderten Sprachmodell und effizientem Retrieval / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Paper-Einführung

Zeigt, wie sich LLMs nutzen lassen und wie mehrere Ansätze wie Retrieval-Augmentation, Fine-Tuning, Tool-Nutzung und weitere kombiniert werden können; das vorgeschlagene Framework wird auf Stadt- und Raumplanung angewendet, enthält aber viele Einblicke und praktische Tipps, die auch für andere Bereiche relevant sind.

Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

Paper-Abstract

Im Bereich der Stadtplanung haben universelle große Sprachmodelle oft Schwierigkeiten, die spezifischen Anforderungen von Planerinnen und Planern zu erfüllen. Aufgaben wie die Erstellung von Stadtplanungstexten, die Recherche relevanter Informationen und die Bewertung von Planungsdokumenten bringen jeweils eigene Herausforderungen mit sich. Um die Effizienz von Stadtplanungsexpertinnen und -experten zu steigern und diese Hürden zu überwinden, stellen wir PlanGPT vor, das erste spezialisierte große Sprachmodell, das auf Stadt- und Raumplanung zugeschnitten ist. PlanGPT wurde in Zusammenarbeit mit Institutionen wie der Chinese Academy of Urban Planning entwickelt und nutzt ein maßgeschneidertes Framework zum Abruf lokaler Datenbanken, domänenspezifisches Fine-Tuning von Basismodellen sowie fortschrittliche Tooling-Funktionen. Empirische Tests zeigen, dass PlanGPT eine herausragende Leistung erzielt hat und Antworten von hoher Qualität liefert, die präzise auf die Komplexität der Stadtplanung zugeschnitten sind.

In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt; daher kann er Fehler enthalten. Bitte lesen Sie auch den Originaltext am Ende des Beitrags mit! Falls Ihnen beim Lesen unnatürliche Formulierungen oder inhaltliche Fehler auffallen, teilen Sie uns diese bitte in den Kommentaren mit.

⚠️Werbung⚠️: Fanden Sie diesen von der PyTorch Korean User Group zusammengestellten Beitrag hilfreich? Wenn Sie Mitglied werden, schicken wir Ihnen wichtige Beiträge per E-Mail! Standardmäßig wöchentlich, aber ein Wechsel auf täglich ist ebenfalls möglich.

[2024/02/26 ~ 03/03] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Genie: Generative interaktive Umgebungen / Genie: Generative Interactive Environments

Paper-Einführung

Abstract

Paper-Link

Weiterführende Links

Mistral Large / Mistral Large

Paper-Einführung

Paper-Link

Weiterführende Links

Das Zeitalter der 1-Bit-LLMs: Alle großen Sprachmodelle liegen bei 1,58 Bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterlesen

Datensätze für Large Language Models: eine umfassende Survey-Arbeit / Datasets for Large Language Models: A Comprehensive Survey

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterlesen

Stärkung der Fähigkeiten von Large-Language-Model-Agenten durch Action Learning / Empowering Large Language Model Agents through Action Learning

Paper-Vorstellung

Paper-Abstract (Abstract)

Paper-Link

Weiterführende Links

EMO: Emote Portrait Alive – Ausdrucksstarke Porträtvideos erzeugen mit einem Audio2Video-Diffusionsmodell unter schwachen Bedingungen / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Links

Die gesellschaftlichen Auswirkungen offener Foundation Models / On the Societal Impact of Open Foundation Models

Paper-Einführung

Paper-Link

Weiterführende Lektüre

StarCoder 2 / StarCoder 2

Paper-Einführung

Paper-Link

Weiterführende Lektüre

Große Sprachmodelle (LLMs) für tabellarische Daten: Vorhersage, Generierung und Verständnis – Survey-Paper / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

PlanGPT: Verbesserung der Stadtplanung mit einem maßgeschneiderten Sprachmodell und effizientem Retrieval / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterlesen

Original

Verwandte Beiträge

Noch keine Kommentare.