[2025/09/01 ~ 07] Lesenswerte AI/ML-Paper dieser Woche
(discuss.pytorch.kr)[2025/09/01 ~ 07] Lesenswerte AI/ML-Paper dieser Woche
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Grenzen und Steuerung großer Sprachmodelle: In mehreren Arbeiten wurden die Grenzen großer Sprachmodelle (LLMs) und Methoden zu ihrer Steuerung diskutiert. Insbesondere stellt "On the Fundamental Impossibility of Hallucination Control in Large Language Models" die theoretische Unmöglichkeit dar, dass LLMs zugleich wahrheitsgetreue Wissensrepräsentation und Informationserhalt erreichen können, und betont die mathematische Gleichartigkeit von Halluzination und Kreativität. Dies liefert eine Grundlage dafür, solches Verhalten in AI-Systemen zu steuern.
2️⃣ Effiziente Trainings- und Optimierungstechniken: Arbeiten wie "Fantastic Pretraining Optimizers and Where to Find Them" und "Communication Efficient LLM Pre-training with SparseLoCo" untersuchen neue Optimierungstechniken, um die Effizienz im Trainingsprozess von LLMs zu erhöhen. Insbesondere zeigte SparseLoCo verbesserte Ergebnisse sowohl bei der Leistung als auch bei den Kommunikationskosten, indem Sparsifizierung und Quantisierung zur Steigerung der Kommunikationseffizienz eingesetzt wurden.
3️⃣ Verbesserung von Zusammenarbeit und Speicher in Multi-Agenten-Systemen: In "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" und "Memp: Exploring Agent Procedural Memory" werden Ansätze vorgeschlagen, um die Kollaborationsweise von Multi-Agenten-Systemen und das prozedurale Gedächtnis von Agenten zu verbessern. Anemoi steigert die Leistung durch direkte Zusammenarbeit zwischen Agenten, während Memp es Agenten ermöglicht, über lernbares prozedurales Gedächtnis zu verfügen, sodass kontinuierliche Updates und Verbesserungen möglich werden.
Studie zur grundlegenden Unmöglichkeit der Halluzinationskontrolle in großen Sprachmodellen / On the Fundamental Impossibility of Hallucination Control in Large Language Models
Einführung in die Arbeit
Das Problem von Halluzinationen in großen Sprachmodellen (LLMs) hat erheblichen Einfluss auf die Zuverlässigkeit und Genauigkeit von AI-Systemen. Diese Studie versucht, die grundlegende Unmöglichkeit dieses Problems mathematisch aufzuzeigen. Die Autoren erläutern die Menge von Bit-Informationen anhand der Idee einer Auktion und analysieren den Prozess, in dem mehrere Komponenten unter Nutzung ihres jeweiligen Teilwissens eine Antwort formen. Die Studie liefert eine mathematische Grundlage für Halluzination und Kreativität über drei voneinander unabhängige mathematische Bereiche hinweg: die Theorie des Mechanism Design, die Theorie geeigneter Scoring Rules sowie eine direkte Analyse der Transformer-Architektur. Insbesondere schlagen die Autoren eine Methode vor, um übermäßige Sicherheit oder die Erzeugung intuitiver Antworten zu quantifizieren, was sich als Merkmal sowohl von Halluzination als auch von Kreativität zeigt.
Darüber hinaus führt die Studie die Konzepte der Messung semantischer Information und des emergenten Operators ein, um begrenztes Schließen zu modellieren, und betont, dass begrenztes Schließen zwar zugängliche Informationen erzeugt, ideales unbegrenztes Schließen jedoch den semantischen Gehalt strikt bewahrt. Durch diese Analyse weisen die Autoren nach, dass Halluzination und Vorstellungskraft mathematisch identische Phänomene sind, die aus Abweichungen von Wahrhaftigkeit, Erhalt semantischer Information, Offenlegung relevanten Wissens und Optimalität unter Wissensbeschränkungen entstehen. Die Studie liefert eine theoretische Grundlage mit potenziell wichtigen Auswirkungen auf Design und Bewertung von AI-Systemen und bietet Einsichten in künftige Forschungsrichtungen. Von diesen Beiträgen wird erwartet, dass sie an der Schnittstelle von Informationstheorie und AI neue Fragen aufwerfen und zu einem vertieften Verständnis des Wesens von Information beitragen.
Abstract der Arbeit
Dieses Paper etabliert ein grundlegendes Unmöglichkeitstheorem: Kein LLM, das nicht-triviale Wissensaggregation leisten kann, kann gleichzeitig wahrheitsgetreue Wissensrepräsentation, Erhaltung semantischer Information, vollständige Offenlegung relevanten Wissens und wissensbeschränkte Optimalität erreichen. Diese Unmöglichkeit ist keine technische Grenze, sondern ergibt sich aus der mathematischen Struktur der Informationsaggregation selbst. Die Autoren begründen dieses Resultat, indem sie den Inferenzprozess als eine Auktion von Ideen beschreiben, bei der verteilte Komponenten unter Nutzung ihres partiellen Wissens darum konkurrieren, Antworten zu formen. Der Beweis erstreckt sich über drei unabhängige mathematische Bereiche: Mechanism Design Theory (Green-Laffont), die Theorie der proper scoring rules (Savage) und die direkte Architekturanalyse von Transformern (Log-Sum-Exp-Konvexität). Insbesondere zeigen sie, wie sich die Erzeugung übermäßig selbstsicherer oder intuitiver Antworten quantifizieren lässt – das Kennzeichen sowohl von Halluzination als auch von Kreativität oder Imagination. Zur Unterstützung dieser Analyse führen sie die komplementären Konzepte des Maßes semantischer Information und des Emergenz-Operators ein, um begrenztes Schlussfolgern in einem allgemeinen Rahmen zu modellieren. Sie beweisen, dass begrenztes Schlussfolgern zwar zugängliche Information erzeugt und damit wertvolle Einsichten und Inspirationen liefert, idealisiertes unbeschränktes Schlussfolgern jedoch semantischen Gehalt strikt bewahrt. Indem sie zeigen, dass Halluzination und Imagination mathematisch identische Phänomene sind – begründet in Abweichungen von Wahrhaftigkeit, Erhaltung semantischer Information, Offenlegung relevanten Wissens und wissensbeschränkter Optimalität –, liefern sie eine prinzipienbasierte Grundlage, um diese Verhaltensweisen in fortgeschrittenen AI-Systemen zu steuern. Abschließend präsentieren sie einige spekulative Ideen, um die Bewertung und Weiterentwicklung der vorgeschlagenen Theorie anzuregen.
> This paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowledge, and knowledge-constrained optimality. The impossibility is not an engineering limitation but arises from the mathematical structure of information aggregation itself. We establish this result by describing the inference process as an auction of ideas, where distributed components compete exploiting their partial knowledge to shape responses. The proof spans three independent mathematical domains: mechanism design theory (Green-Laffont), the theory of proper scoring rules (Savage), and direct architectural analysis of transformers (Log-Sum-Exp convexity). In particular, we show how to quantify the creation of overconfident or intuitive responses-the signature of both hallucination and creativity, or imagination. To support this analysis, we introduce the complementary concepts of the semantic information measure and the emergence operator to model bounded reasoning in a general setting. We prove that while bounded reasoning generates accessible information, providing valuable insights and inspirations, the idealized unconstrained reasoning strictly preserves semantic content. By demonstrating that hallucination and imagination are mathematically identical phenomena-grounded in departures from truthfulness, semantic information conservation, revelation of relevant knowledge, and knowledge-constrained optimality-we offer a principled foundation for managing these behaviors in advanced AI systems. Finally, we present some speculative ideas to inspire evaluation and refinements of the proposed theory.
Paper-Link
https://arxiv.org/abs/2506.06382
Fantastische Pretraining-Optimierer und wo man sie findet / Fantastic Pretraining Optimizers and Where to Find Them
Paper-Einführung
Pretraining-Optimierer spielen eine wichtige Rolle beim Training großer Sprachmodelle, wobei sich insbesondere AdamW über lange Zeit als Standard etabliert hat. Jüngere Arbeiten behaupten zwar, dass alternative Optimierer Beschleunigungen um den Faktor 1,4 bis 2 ermöglichen, doch diese Studie zeigt, dass solche Behauptungen in der Praxis übertrieben sind. Die Autoren benennen zwei zentrale Probleme hinter diesen Aussagen. Erstens kann das Hyperparameter-Tuning unausgewogen durchgeführt werden, und zweitens können die Evaluations-Setups eingeschränkt oder irreführend sein. Um dieses Problem zu lösen, vergleichen die Autoren 10 Deep-Learning-Optimierer systematisch über verschiedene Modellskalierungen und Daten-zu-Modell-Verhältnisse hinweg.
Die zentrale Methodik der Studie beschreibt ein Hyperparameter-Tuning-Framework in drei Stufen. In der ersten Stufe werden die Hyperparameter jedes Optimierers fein abgestimmt, um die bestmögliche Leistung zu erzielen. In der zweiten Stufe wird nur der Teil der Hyperparameter selektiv optimiert, der angepasst werden muss, um den Speicherbedarf zu senken. In der letzten, dritten Stufe werden Skalierungsgesetze angewendet, die optimale Hyperparameterwerte in Abhängigkeit von Modellgröße und Datenbudget vorhersagen. Diese Methodik gewährleistet faire und reproduzierbare Vergleiche zwischen Optimierern, und die Ergebnisse unterstreichen, dass matrixbasierte Optimierer durchgängig bessere Leistung zeigen als skalarbasierte Optimierer.
Die Studie hebt die Bedeutung von Hyperparameter-Tuning und die Notwendigkeit von Evaluationen über verschiedene Modellskalierungen und Daten-zu-Modell-Verhältnisse hinweg hervor und zeigt, dass für einen Optimierer optimale Hyperparameter für andere Optimierer suboptimal sein können. Diese Erkenntnisse werden einen wichtigen Beitrag dazu leisten, Standards für das künftige Design und die Bewertung von Optimierern zu setzen.
Abstract des Papers
AdamW ist seit Langem der dominierende Optimizer im Pretraining von Sprachmodellen, obwohl zahlreiche alternative Optimizer behaupten, eine Beschleunigung um das 1,4- bis 2-Fache zu bieten. Wir vertreten die Auffassung, dass zwei methodische Schwächen faire Vergleiche erschwert und die praktische Einführung behindert haben: (i) unausgewogenes Hyperparameter-Tuning und (ii) eingeschränkte oder irreführende Evaluations-Setups. Um diese beiden Probleme anzugehen, führen wir eine systematische Studie zu zehn Deep-Learning-Optimizern über vier Modellgrößen (0,1B–1,2B Parameter) und Daten-zu-Modell-Verhältnisse (1- bis 8-faches Chinchilla-Optimum) hinweg durch. Wir stellen fest, dass faire und aussagekräftige Vergleiche ein rigoroses Hyperparameter-Tuning sowie Evaluierungen über verschiedene Modellgrößen und Daten-zu-Modell-Verhältnisse hinweg erfordern und dass diese am Ende des Trainings durchgeführt werden sollten. Erstens können für einen Optimizer optimale Hyperparameter für einen anderen suboptimal sein, wodurch eine blinde Übertragung von Hyperparametern unfair ist. Zweitens ist die tatsächliche Beschleunigung vieler vorgeschlagener Optimizer gegenüber gut abgestimmten Baselines geringer als behauptet und sinkt mit zunehmender Modellgröße bei Modellen mit 1,2B Parametern auf nur noch das 1,1-Fache. Drittens kann der Vergleich von Zwischen-Checkpoints vor Erreichen des angestrebten Trainingsbudgets irreführend sein, da sich die Rangfolge zwischen zwei Optimizern während des Trainings durch Learning-Rate-Decay umkehren kann. Unsere gründliche Untersuchung zeigt, dass alle schnellsten Optimizer wie Muon und Soap Matrizen als Preconditioner verwenden – sie multiplizieren Gradienten also mit Matrizen statt mit elementweisen Skalaren. Allerdings ist die Beschleunigung matrixbasierter Optimizer umgekehrt proportional zur Modellgröße und sinkt von dem 1,4-Fachen gegenüber AdamW bei Modellen mit 0,1B Parametern auf lediglich das 1,1-Fache bei Modellen mit 1,2B Parametern.
> AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.
Paper-Link
https://arxiv.org/abs/2509.02046
Weiterlesen
https://wandb.ai/marin-community/optimizer-scaling
Anemoi: Ein semi-zentralisiertes Multi-Agenten-System auf Basis von Agent-to-Agent-Kommunikation, MCP-Server / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol
Paper-Einführung
Anemoi ist ein semi-zentralisiertes Multi-Agenten-System (Multi-Agent System, MAS) auf Basis des A2A(Agent-to-Agent)-Kommunikationsmodells von Coral Protocol, das durch direkte Zusammenarbeit zwischen Agenten eine effiziente Aufgabenkoordination ermöglicht. Bestehende zentralisierte MAS koordinieren in der Regel mehrere Arbeitsagenten unidirektional über einen Planungsagenten, was Probleme wie die Abhängigkeit von den Fähigkeiten des Planers sowie Informationsverlust und Redundanz durch eingeschränkte Kommunikation zwischen den Agenten verursacht. Anemoi wurde entwickelt, um diese Probleme zu lösen, und bietet eine Struktur, in der alle Agenten den Fortschritt in Echtzeit überwachen, Engpässe identifizieren und Verbesserungsvorschläge machen können.
Im Kern nutzt Anemoi den A2A-Kommunikations-MCP(Multi-Agent Communication Protocol)-Server von Coral Protocol, um einen nahtlosen Informationsfluss zwischen Agenten zu unterstützen. Das System kombiniert einen Planer-Agenten mit mehreren auf Domänen spezialisierten Arbeitsagenten, stellt einen initialen Plan bereit und ermöglicht es den Workern, sich direkt untereinander abzustimmen. Dadurch verringert sich die Abhängigkeit von einem zentralisierten Planer, adaptive Planaktualisierungen werden möglich, und redundante Kontextweitergabe wird minimiert, was eine kosteneffiziente Ausführung ermöglicht.
Anemoi wurde auf dem GAIA-Benchmark evaluiert und erreichte mit einem kleinen LLM (GPT-4.1-mini) als Planer eine Genauigkeit von 52,73 %. Das übertrifft unter denselben Bedingungen den stärksten Open-Source-Benchmark OWL mit 43,63 % um 9,09 %. Diese Ergebnisse zeigen, dass das semi-zentralisierte A2A-Kommunikationsmodell von Anemoi zur Verbesserung der Leistung von Multi-Agenten-Systemen beitragen kann.
Diese Forschung eröffnet durch direkte Zusammenarbeit zwischen Agenten und einen verbesserten Informationsfluss neue Möglichkeiten für Multi-Agenten-Systeme und dürfte künftig einen wichtigen Beitrag zur Entwicklung generalisierter KI-Systeme leisten. Die Implementierung von Anemoi ist auf GitHub öffentlich verfügbar und bietet Forschenden die Möglichkeit, dieses System für verschiedene Anwendungen zu nutzen.
Abstract
Jüngste Fortschritte bei generalistischen Multi-Agenten-Systemen (MAS) folgten weitgehend einem Paradigma aus Context Engineering plus zentralisierter Steuerung, bei dem ein Planer-Agent mehrere Worker-Agents durch unidirektionale Prompt-Weitergabe koordiniert. Obwohl dieser Ansatz mit starken Planer-Modellen effektiv ist, weist dieses Design zwei kritische Einschränkungen auf: (1) eine starke Abhängigkeit von den Fähigkeiten des Planers, wodurch die Leistung sinkt, wenn ein kleineres LLM den Planer antreibt; und (2) eine eingeschränkte Kommunikation zwischen den Agents, bei der Zusammenarbeit auf kostspieliger Prompt-Verkettung und Context Injection beruht, was Redundanz und Informationsverlust verursacht. Um diese Herausforderungen anzugehen, schlagen wir Anemoi vor, ein semi-zentralisiertes MAS, das auf dem Agent-to-Agent-(A2A)-Kommunikations-MCP-Server von Coral Protocol aufbaut. Im Gegensatz zu traditionellen Designs ermöglicht Anemoi eine strukturierte und direkte Zusammenarbeit zwischen Agents, sodass alle Agents den Fortschritt überwachen, Ergebnisse bewerten, Engpässe identifizieren und in Echtzeit Verbesserungen vorschlagen können. Dieses Paradigma verringert die Abhängigkeit von einem einzelnen Planer, unterstützt adaptive Aktualisierungen des Plans und minimiert redundante Kontext-Weitergabe, was zu einer besser skalierbaren und kosteneffizienteren Ausführung führt. In der Auswertung auf dem GAIA-Benchmark erreichte Anemoi mit einem kleinen LLM (GPT-4.1-mini) als Planer eine Genauigkeit von 52,73 %, und übertraf damit die stärkste Open-Source-Baseline OWL (43,63 %) unter identischen LLM-Einstellungen um +9,09 %. Unsere Implementierung ist öffentlich verfügbar unter https://github.com/Coral-Protocol/Anemoi.
> Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.
Paper-Link
https://arxiv.org/abs/2508.17068
Weiterführende Informationen
https://github.com/Coral-Protocol/Anemoi
SparseLoCo für kommunikationseffizientes LLM-Pre-Training / Communication Efficient LLM Pre-training with SparseLoCo
Paper-Vorstellung
Die Steigerung der Kommunikationseffizienz im Pre-Training großer Sprachmodelle (LLMs) ist ein sehr wichtiges Forschungsthema. Jüngste verteilte Lernalgorithmen stoßen auf großes Interesse, da sie für das Training von LLMs in bandbreitenbeschränkten Umgebungen zwischen Rechenzentren oder über das Internet hinweg nützlich sind. Bestehende Methoden müssen jedoch weiterhin den gesamten Gradienten des Modells übertragen, was zu Kommunikationsengpässen führen und die Leistung beeinträchtigen kann. Um dieses Problem zu lösen, wurde SparseLoCo als kommunikationseffizienter Lernalgorithmus vorgeschlagen, der mit Top-k-Sparsifizierung und 2-Bit-Quantisierung extreme Kompressionsraten erzielt und gleichzeitig die Leistung verbessern kann.
Die zentrale Innovation von SparseLoCo besteht darin, externes Momentum durch die Kombination von Error Feedback und aggressiver Sparsifizierung zu approximieren. Dadurch lassen sich die Modellleistung verbessern und gleichzeitig die Kommunikationskosten senken. Die Forschungsergebnisse zeigen empirisch, dass SparseLoCo in verschiedenen kommunikationsbeschränkten Umgebungen sowohl bei der Leistung als auch bei den Kommunikationskosten signifikante Vorteile bietet. Insbesondere zeigte sich, dass mit 1–3 % Sparsität und 2-Bit-Quantisierung die Kommunikationskosten gegenüber dem bestehenden DDP-(Distributed Data Parallel)-Ansatz deutlich gesenkt werden können, während die Leistung erhalten bleibt oder verbessert wird.
Diese Forschung präsentiert eine neue Methode zur Erhöhung der Kommunikationseffizienz beim Pre-Training von LLMs und zeigt das Potenzial für die Weiterentwicklung von SparseLoCo durch zusätzliche Experimente und Optimierungen auf. Es wird erwartet, dass SparseLoCo einen wichtigen Beitrag zur Effizienzsteigerung beim Training großer Modelle leisten wird und damit neue Perspektiven für Forschung und Entwicklung im Bereich LLM eröffnet.
Paper-Abstract
Kommunikationseffiziente Algorithmen für verteiltes Training haben in letzter Zeit erhebliches Interesse geweckt, da sie Vorteile für das Training großer Sprachmodelle (LLMs) in bandbreitenbeschränkten Umgebungen bieten, etwa zwischen Rechenzentren und über das Internet. Diese Methoden reduzieren zwar die Kommunikationshäufigkeit, erfordern jedoch in der Regel weiterhin die Übertragung einer vollständigen Kopie der Gradienten des Modells, was selbst über Verbindungen zwischen Rechenzentren zu einem Kommunikationsengpass führt. Darüber hinaus kann ihre Leistung im Vergleich zu einer naiven AdamW-DDP-Baseline leicht abfallen. Quantisierung und Error Feedback werden häufig eingesetzt, um die Größe des Pseudo-Gradienten zu verringern, doch im Kontext des LLM-Pretrainings konnten bestehende Ansätze zusätzlich keine Sparsifizierung nutzen und erreichten nur eine begrenzte Quantisierung. In dieser Arbeit stellen wir SparseLoCo vor, einen kommunikationseffizienten Trainingsalgorithmus für LLMs, der Top-k-Sparsifizierung und Quantisierung effektiv nutzt, um extreme Kompressionsraten von 1–3 % Sparsität und 2-Bit-Quantisierung zu erreichen und dabei Full-Precision-DiLoCo zu übertreffen. Unsere zentralen Beobachtungen sind, dass äußerer Momentum lokal durch ein mit aggressiver Sparsität kombiniertes Error Feedback approximiert werden kann und dass sparse Aggregation die Modellleistung tatsächlich verbessern kann. Wir zeigen empirisch in einer Reihe kommunikationsbeschränkter LLM-Trainingsszenarien, dass SparseLoCo sowohl bei der Leistung als auch bei den Kommunikationskosten deutliche Vorteile bietet.
> Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.
Paper-Link
https://arxiv.org/abs/2508.15706
Adaptives LLM-Routing unter Budgetbeschränkungen / Adaptive LLM Routing under Budget Constraints
Paper-Einführung
Die Fortschritte bei großen Sprachmodellen (LLMs) haben den Bereich der natürlichen Sprachverarbeitung revolutioniert, doch die hohen Kosten dieser Modelle und die angemessene Reaktion auf unterschiedliche Arten von Anfragen bleiben weiterhin eine Herausforderung. In dieser Arbeit wird das Problem des LLM-Routings als kontextuelles Bandit-Problem neu formuliert, und es wird mit Preference-prior Informed LinUCB for Adaptive Routing (PILOT) ein neuer Algorithmus vorgeschlagen, der unter Budgetbeschränkungen das optimale LLM auswählt. Bestehende überwachte Lernansätze haben die Einschränkung, dass sie große gelabelte Datensätze erfordern; um diese Grenze zu überwinden, entwickelt diese Arbeit eine Methodik, die die Auswahl von LLMs mithilfe von Nutzerfeedback dynamisch anpasst.
PILOT besteht aus zwei Hauptphasen. In der ersten Phase wird unter Nutzung von Offline-Daten zu menschlichen Präferenzen ein gemeinsamer Embedding-Raum aufgebaut, der die Affinität zwischen Anfragen und LLMs widerspiegelt. Dabei wird der Triplet Loss minimiert, um die Beziehung zwischen Anfragen und LLMs effektiv zu erlernen. In der zweiten Phase wird Online-Bandit-Feedback integriert, um für jede Anfrage ein geeignetes LLM auszuwählen und durch Beobachtung der entsprechenden Belohnung die Leistung kontinuierlich zu verbessern. Dieser Ansatz ermöglicht eine flexible, budgetbewusste Ressourcenzuweisung und besitzt die Fähigkeit, sich an unterschiedliche Nutzeranforderungen anzupassen.
Die wichtigsten Beiträge dieser Arbeit sind die Formalisierung des LLM-Routing-Problems unter Budgetbeschränkungen sowie die Vorstellung des PILOT-Algorithmus zu dessen Lösung. Die experimentellen Ergebnisse zeigen, dass PILOT auf verschiedenen Datensätzen bestehende Bandit-Baselines übertrifft und die Kosteneffizienz erfolgreich maximiert. Diese Ergebnisse leisten einen wichtigen Beitrag zur praktischen Bereitstellung und Nutzung von LLMs; als zukünftige Forschungsrichtungen werden eine verbesserte Anpassungsfähigkeit an unterschiedliche Nutzeranforderungen sowie die Anwendbarkeit auf weitere Datensätze vorgeschlagen.
Paper-Abstract
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, doch ihre unterschiedlichen Fähigkeiten und Kosten stellen in praktischen Anwendungen eine Herausforderung dar. LLM-Routing begegnet diesem Problem, indem für jede Anfrage/Aufgabe dynamisch das am besten geeignete LLM ausgewählt wird. Frühere Ansätze behandelten dies als ein Problem des überwachten Lernens und setzten vollständiges Wissen über optimale Anfrage-LLM-Paarungen voraus. In realen Szenarien fehlen jedoch solche umfassenden Zuordnungen, und zugleich ändern sich die Nutzeranfragen fortlaufend. Daher schlagen wir vor, LLM-Routing als ein Problem kontextueller Banditen zu untersuchen. Im Unterschied zu überwachten Routing-Verfahren ermöglicht dies adaptive Entscheidungen mithilfe von Bandit-Feedback, ohne für alle Anfragen umfassende Inferenz über alle LLMs zu erfordern. Zur Lösung dieses Problems entwickeln wir einen gemeinsamen Embedding-Raum für Anfragen und LLMs, in dem Anfrage- und LLM-Embeddings so ausgerichtet sind, dass sie ihre Affinität widerspiegeln. Dieser Raum wird zunächst aus Offline-Daten zu menschlichen Präferenzen gelernt und anschließend durch Online-Bandit-Feedback verfeinert. Wir setzen diese Idee mit Preference-prior Informed Linucb fOr adaptive rouTing (PILOT) um, einer neuartigen Erweiterung von LinUCB für adaptives Routing. Um unterschiedliche Nutzerbudgets beim Modell-Routing zu berücksichtigen, führen wir zudem eine Online-Kostenpolitik ein, die als Multi-Choice-Knapsack-Problem modelliert ist und ein ressourceneffizientes Routing sicherstellt.
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.
Paper-Link
https://arxiv.org/abs/2508.21141
Effiziente Erzeugung von Bildersätzen in Text-zu-Bild-Diffusion durch Wiederverwendung von Berechnungen / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets
Paper-Vorstellung
Text-zu-Bild-Diffusionsmodelle sind äußerst effektiv bei der Erzeugung hochwertiger Bilder, doch die dabei entstehenden hohen Rechenkosten stellen eine große Herausforderung dar. Bisherige Arbeiten konzentrierten sich vor allem darauf, die Effizienz bei der Erzeugung einzelner Bilder zu verbessern, während diese Studie einen neuen Ansatz vorschlägt, der Redundanzen zwischen korrelierten Prompts reduziert. Die vorgeschlagene Methode nutzt die grob-zu-fein-Eigenschaft von Diffusionsmodellen, um in frühen Entrauschungsschritten gemeinsame Strukturen zwischen ähnlichen Prompts zu erfassen.
Die Studie verfolgt einen trainingsfreien Ansatz, bei dem Prompts anhand semantischer Ähnlichkeit geclustert werden und Berechnungen in den frühen Diffusionsschritten gemeinsam genutzt werden. Experimentelle Ergebnisse zeigen, dass diese Methode bei Modellen, die auf Bild-Embeddings konditioniert sind, die Rechenkosten um mindestens 50 % senken und zugleich die Bildqualität erhalten oder verbessern kann. Darüber hinaus wurde die Effizienz weiter gesteigert, indem die Text-zu-Bild-Prior-Informationen von UnClip genutzt wurden, um die Zuweisung der Diffusionsschritte zu optimieren.
Die vorgeschlagene Methode lässt sich nahtlos in bestehende Text-zu-Bild-Generierungspipelines integrieren und ist auf große Prompt-Sets skalierbar, wodurch sie zur Verringerung der ökologischen und finanziellen Belastung beitragen kann. Die Studie liefert wichtige Einblicke in die Generierungsdynamik von Diffusionsmodellen und dürfte als bedeutende Grundlage für die Erforschung künftiger nachhaltiger Optimierungsstrategien dienen.
Abstract
Text-zu-Bild-Diffusionsmodelle ermöglichen die Erzeugung hochwertiger Bilder, sind jedoch rechenintensiv. Während frühere Arbeiten die Effizienz pro Inferenz optimierten, untersuchen wir einen orthogonalen Ansatz: die Verringerung von Redundanz zwischen korrelierten Prompts. Unsere Methode nutzt die grob-zu-fein-Natur von Diffusionsmodellen, bei der frühe Entrauschungsschritte gemeinsame Strukturen zwischen ähnlichen Prompts erfassen. Wir schlagen einen lernfreien Ansatz vor, der Prompts auf Basis semantischer Ähnlichkeit clustert und Berechnungen in frühen Diffusionsschritten gemeinsam nutzt. Experimente zeigen, dass unser Ansatz bei Modellen, die konditioniert auf Bild-Embeddings trainiert wurden, die Rechenkosten erheblich senkt und zugleich die Bildqualität verbessert. Durch die Nutzung der Text-zu-Bild-Prior-Informationen von UnClip verbessern wir die Zuweisung der Diffusionsschritte für noch höhere Effizienz. Unsere Methode lässt sich nahtlos in bestehende Pipelines integrieren, skaliert mit Prompt-Sets und reduziert die ökologische und finanzielle Belastung großskaliger Text-zu-Bild-Generierung. Projektseite: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/
Paper-Link
https://arxiv.org/abs/2508.21032
Weiterführende Lektüre
https://ddecatur.github.io/hierarchical-diffusion/
Attention ist eine geglättete kubische Spline / Attention is a smoothed cubic spline
Paper-Vorstellung
Im Transformer-Architektur bleibt das Attention-Modul trotz seiner Bedeutung in vieler Hinsicht weiterhin ein wenig erschlossener Bereich. Diese Studie bietet neue Einsichten aus der Perspektive der klassischen Approximationstheorie, indem sie solche Attention-Module als glatte kubische Splines interpretiert. Die Autor:innen zeigen, dass mit der ReLU-Aktivierungsfunktion Attention, Masked Attention und Encoder-Decoder-Attention alle als kubische Splines dargestellt werden können. Dieser Ansatz ist insofern bedeutsam, als alle Komponenten eines Transformers aus Kombinationen verschiedener Attention-Module und Feed-Forward-Neural-Networks bestehen.
Die Arbeit betont auf Grundlage der Pierce-Birkhoff-Vermutung, dass sich jede Spline durch einen ReLU-aktivierten Encoder darstellen lässt. Dadurch wird das mathematische Wesen von Attention-Modulen klarer gefasst und das strukturelle Verständnis von Transformern über kubische Splines vertieft. Außerdem wird gezeigt, dass sich bestehende Transformer-Modelle wiedergewinnen lassen, wenn man ReLU durch eine glatte Aktivierungsfunktion wie SoftMax ersetzt, um eine glatte $C^\infty$-Version zu erhalten.
Diese Studie vertieft durch eine mathematische Interpretation des Attention-Mechanismus das Verständnis bestehender Machine-Learning-Modelle und erklärt das Wesen der Transformer-Architektur über Splines, ein gut bekanntes mathematisches Objekt. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene kubische-Spline-Modell bestehende Modelle übertrifft, und belegen, dass die mathematische Interpretation von Attention-Modulen einen positiven Einfluss auf die tatsächliche Leistung hat. Es wird erwartet, dass diese Erkenntnisse zur künftigen Weiterentwicklung von Attention-Mechanismen beitragen. Die Studie eröffnet einen neuen Blick auf die Attention-Module von Transformern und dürfte für Forschende auf diesem Gebiet eine wichtige Grundlage sein.
Abstract
Wir heben eine womöglich wichtige, bislang jedoch unbeobachtete Einsicht hervor: Das Attention-Modul in einem Transformer ist eine geglättete kubische Spline. So betrachtet wird diese rätselhafte, aber entscheidende Komponente eines Transformers zu einer natürlichen Weiterentwicklung eines alten Begriffs, der tief in der klassischen Approximationstheorie verankert ist. Genauer zeigen wir, dass bei ReLU-Aktivierung Attention, Masked Attention und Encoder-Decoder-Attention allesamt kubische Splines sind. Da jede Komponente eines Transformers aus Kompositionen verschiedener Attention-Module (= kubische Splines) und Feed-Forward-Neural-Networks (= lineare Splines) aufgebaut ist, sind all seine Komponenten – Encoder-, Decoder- und Encoder-Decoder-Blöcke; mehrschichtige Encoder und Decoder; der Transformer selbst – kubische oder höhergradige Splines. Nimmt man die Pierce-Birkhoff-Vermutung an, gilt auch die Umkehrung, d. h. jede Spline ist ein ReLU-aktivierter Encoder. Da eine Spline im Allgemeinen nur $C^2$ ist, besteht eine Möglichkeit, eine geglättete $C^\infty$-Version zu erhalten, darin, ReLU durch eine glatte Aktivierung zu ersetzen; und wenn diese Aktivierung als SoftMax gewählt wird, erhalten wir den ursprünglichen Transformer zurück, wie von Vaswani et al. vorgeschlagen. Diese Einsicht erhellt das Wesen des Transformers, indem sie ihn vollständig in Begriffen von Splines beschreibt, einem der bekanntesten und am gründlichsten verstandenen Objekte der angewandten Mathematik.
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.
Paper-Link
https://arxiv.org/abs/2408.09624
$Mem^p$: Erforschung des prozeduralen Gedächtnisses von Agenten / $Mem^p$: Exploring Agent Procedural Memory
Paper-Vorstellung
Agenten auf Basis großer Sprachmodelle (LLMs) zeigen in vielfältigen Aufgaben herausragende Leistungen, doch bestehende Formen des prozeduralen Gedächtnisses sind fragil, da sie manuell entworfen werden oder von statischen Parametern abhängen. Diese Studie schlägt $Mem^p$ als innovative Methodik vor, um Agenten ein lernbares, aktualisierbares und lebenslanges prozedurales Gedächtnis zu verleihen. $Mem^p$ destilliert frühere Agenten-Trajektorien in Form fein granularer Schritt-für-Schritt-Anweisungen und übergeordneter Skripte und untersucht Strategien zum Aufbau (Build), Abruf (Retrieval) und Update des prozeduralen Gedächtnisses.
Der Kern von $Mem^p$ ist ein dynamisches Regime, das das prozedurale Gedächtnis kontinuierlich aktualisiert, überarbeitet und verwirft. Dadurch kann der Agent seinen Gedächtnisspeicher entsprechend neuer Erfahrungen weiterentwickeln, und empirische Auswertungen zeigen, dass sich Erfolgsrate und Effizienz des Agenten in TravelPlanner und ALFWorld schrittweise verbessern. Besonders bemerkenswert ist, dass prozedurale Erinnerungen, die mit stärkeren Modellen aufgebaut wurden, ihren Wert behalten und selbst bei der Übertragung auf schwächere Modelle die Leistung deutlich verbessern.
Der Abruf des prozeduralen Gedächtnisses ist entscheidend dafür, dass der Agent für neue Aufgaben die ähnlichsten Erfahrungen effektiv findet. Dieser Prozess wird mithilfe von Vektor-Embedding-Modellen umgesetzt, die Ähnlichkeiten messen und die passendsten Erinnerungen abrufen. Darüber hinaus ist der Update-Mechanismus des prozeduralen Gedächtnisses so ausgelegt, dass mit zunehmender Zahl ausgeführter Aufgaben dynamisch Ergänzungen, Löschungen und Änderungen möglich sind. Dieser umfassende Ansatz trägt dazu bei, die Lernfähigkeit des Agenten zu maximieren und seine Aufgabenleistung in unterschiedlichen Umgebungen zu verbessern.
Durch die kontinuierliche Verbesserung des prozeduralen Gedächtnisses von Agenten liefert $Mem^p$ wichtige Implikationen für die künftige Entwicklung von Agentensystemen und unterstreicht die Bedeutung lernbarer prozeduraler Gedächtnisse. Es wird erwartet, dass diese Forschungsergebnisse einen innovativen Beitrag zur Maximierung der Agentenleistung leisten werden.
Abstract
Agenten auf Basis großer Sprachmodelle (LLMs) erzielen bei vielfältigen Aufgaben hervorragende Leistungen, leiden jedoch unter einer fragilen prozeduralen Erinnerung, die entweder manuell entworfen oder in statische Parameter eingebunden ist. In dieser Arbeit untersuchen wir Strategien, um Agenten mit einer lernbaren, aktualisierbaren und lebenslangen prozeduralen Erinnerung auszustatten. Wir schlagen $Mem^p$ vor, das frühere Agenten-Trajektorien sowohl in feingranulare Schritt-für-Schritt-Anweisungen als auch in höherstufige, skriptartige Abstraktionen destilliert, und untersuchen die Auswirkungen verschiedener Strategien für den Aufbau (Build), den Abruf (Retrieval) und die Aktualisierung (Update) prozeduraler Erinnerung. Gekoppelt mit einem dynamischen Verfahren, das seine Inhalte kontinuierlich aktualisiert, korrigiert und ausmustert, entwickelt sich dieses Repository parallel zu neuen Erfahrungen weiter. Empirische Auswertungen mit TravelPlanner und ALFWorld zeigen, dass Agenten mit der Verfeinerung des Erinnerungsspeichers bei ähnlichen Aufgaben stetig höhere Erfolgsraten und eine größere Effizienz erreichen. Darüber hinaus behält prozedurale Erinnerung, die aus einem stärkeren Modell aufgebaut wurde, ihren Wert: Die Übertragung der prozeduralen Erinnerung auf ein schwächeres Modell führt zu erheblichen Leistungssteigerungen.
> Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.
Paper-Link
https://arxiv.org/abs/2508.06433
AlphaGo-Moment für die Entdeckung von Modellarchitekturen / AlphaGo Moment for Model Architecture Discovery
Paper-Einführung
ASI-Arch ist ein Artificial-Superintelligence-(ASI4AI)-System, das im Bereich Neural Architecture Search vollständig autonom innovative Architekturen entdeckt. Über Neural Architecture Search (NAS) hinaus, das auf von Menschen definierten Suchräumen beschränkt ist, verlagert es das Paradigma von automatischer Optimierung hin zu automatischer Innovation und führt Hypothesenbildung, Implementierung, Training und Validierung neuer Strukturkonzepte eigenständig durch. In 1.773 Experimenten über 20.000 GPU-Stunden hinweg entdeckte es 106 State-of-the-Art-Architekturen für lineare Attention und präsentiert neue Designprinzipien, die von Menschen entworfene Baselines übertreffen. Darüber hinaus stellt es empirische Skalierungsgesetze für den wissenschaftlichen Entdeckungsprozess selbst vor und zeigt, dass sich Forschungsfortschritt von den Grenzen menschlicher Kognition zu einem durch Rechenressourcen skalierbaren Prozess verschieben lässt.
Abstract des Papers
Während AI-Systeme exponentiell verbesserte Fähigkeiten zeigen, bleibt das Tempo der AI-Forschung selbst durch die menschliche kognitive Kapazität linear begrenzt, was zu einem zunehmend schweren Entwicklungsengpass führt. In diesem Paper wird ASI-Arch vorgestellt, die erste Demonstration von Artificial Superintelligence for AI research (ASI4AI) im wichtigen Bereich der Entdeckung neuronaler Architekturen. ASI-Arch ist ein vollautonomes System, das diese grundlegende Beschränkung überwindet, indem es AI ermöglicht, architektonische Innovationen selbst durchzuführen. Über die traditionelle Neural Architecture Search (NAS) hinaus, die auf von Menschen definierte Suchräume beschränkt ist, führt es einen Paradigmenwechsel von automatisierter Optimierung zu automatisierter Innovation ein. ASI-Arch betreibt End-to-End-Wissenschaftsforschung im Bereich der Architekturentdeckung, stellt autonom Hypothesen zu neuen Architekturkonzepten auf, implementiert sie als ausführbaren Code, trainiert sie und validiert ihre Leistung empirisch durch rigorose Experimente und auf Basis früherer Erfahrungen. ASI-Arch führte 1.773 autonome Experimente über 20.000 GPU-Stunden durch und entdeckte dabei 106 innovative State-of-the-Art-(SOTA)-Linear-Attention-Architekturen. Wie AlphaGos 37. Zug (Move 37), der unerwartete strategische Einsichten offenbarte, die für menschliche Spieler unsichtbar waren, zeigen die von dieser AI entdeckten Architekturen emergente Designprinzipien, die von Menschen entworfene Baselines systematisch übertreffen und zuvor unbekannte Wege für architektonische Innovation aufzeigen. Insbesondere etablieren wir das erste empirische Skalierungsgesetz für wissenschaftliche Entdeckung selbst und zeigen damit, dass architektonische Durchbrüche rechnerisch skalierbar sind, wodurch sich Forschungsfortschritt von einem menschlich begrenzten zu einem rechnerisch skalierbaren Prozess wandelt. Dieses Paper liefert eine umfassende Analyse der emergenten Designmuster und autonomen Forschungsfähigkeiten, die diese Durchbrüche ermöglicht haben, und präsentiert einen Blueprint für sich selbst beschleunigende AI-Systeme.
> While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.
Paper-Link
https://arxiv.org/abs/2507.18074
Hervorlocken von Fähigkeiten von Sprachmodellen durch unüberwachtes Lernen / Unsupervised Elicitation of Language Models
Paper-Einführung
Beim Anpassen vortrainierter Sprachmodelle an spezifische Aufgaben erfordern bestehende Methoden menschliche Aufsicht, doch bei Modellen mit übermenschlichen Fähigkeiten ist hochwertige menschliche Aufsicht schwierig oder unmöglich. Um dieses Problem zu lösen, wird Internal Coherence Maximization (ICM) vorgeschlagen, ein unüberwachter Lernalgorithmus, der das Modell mithilfe selbst erzeugter Labels ohne externe Aufsicht feinabstimmt. ICM erreicht auf mehreren Benchmarks eine Leistung, die menschlich beaufsichtigtem Lernen entspricht oder es übertrifft, und zeigt insbesondere bei Aufgaben mit übermenschlichem Schwierigkeitsgrad bessere Ergebnisse als Lernen mit menschlichen Labels. Außerdem wurde die Methode genutzt, um Reward-Modelle und Hilfssysteme für State-of-the-Art-Sprachmodelle zu trainieren, wobei Leistungsverbesserungen gegenüber menschlich beaufsichtigten Modellen nachgewiesen wurden.
Paper-Abstract
Um vortrainierte Sprachmodelle auf nachgelagerte Aufgaben auszurichten, stützt sich das heutige Post-Training-Paradigma darauf, dass Menschen gewünschte Verhaltensweisen spezifizieren. Bei Modellen mit übermenschlichen Fähigkeiten ist es jedoch schwierig oder unmöglich, qualitativ hochwertige menschliche Supervision zu erhalten. Um diese Herausforderung zu adressieren, schlagen wir einen neuen unüberwachten Lernalgorithmus vor, die Internal Coherence Maximization (ICM), der vortrainierte Sprachmodelle auf ihren selbst erzeugten Labels feinabstimmt, \emph{ohne externe Supervision}. Bei GSM8k-verification, TruthfulQA und Alpaca-Reward-Modeling-Aufgaben erreicht unsere Methode dieselbe Leistung wie ein Training mit Golden Supervision und übertrifft ein Training mit crowdsourcter menschlicher Supervision. Bei Aufgaben, in denen die Fähigkeiten von LMs deutlich übermenschlich sind, kann unsere Methode diese Fähigkeiten erheblich besser hervorbringen als ein Training auf menschlichen Labels. Abschließend zeigen wir, dass unsere Methode das Training von Frontier-LMs verbessern kann: Wir verwenden unsere Methode, um ein unüberwachtes Reward-Modell zu trainieren, und nutzen Reinforcement Learning, um einen auf Claude 3.5 Haiku basierenden Assistenten zu trainieren. Sowohl das Reward-Modell als auch der Assistent übertreffen ihre mit menschlicher Supervision trainierten Gegenstücke.
> To steer pretrained language models for downstream tasks, today's post-training paradigm relies on humans to specify desired behaviors. However, for models with superhuman capabilities, it is difficult or impossible to get high-quality human supervision. To address this challenge, we introduce a new unsupervised algorithm, Internal Coherence Maximization (ICM), to fine-tune pretrained language models on their own generated labels, \emph{without external supervision}. On GSM8k-verification, TruthfulQA, and Alpaca reward modeling tasks, our method matches the performance of training on golden supervision and outperforms training on crowdsourced human supervision. On tasks where LMs' capabilities are strongly superhuman, our method can elicit those capabilities significantly better than training on human labels. Finally, we show that our method can improve the training of frontier LMs: we use our method to train an unsupervised reward model and use reinforcement learning to train a Claude 3.5 Haiku-based assistant. Both the reward model and the assistant outperform their human-supervised counterparts.
Paper-Link
https://arxiv.org/abs/2506.10139
-
Dieser Beitrag basiert auf einer mit einem GPT-Modell erstellten Zusammenfassung, daher kann es vorkommen, dass Inhalte anders als im Original oder nicht ganz im Sinne des Originals dargestellt sind. Wenn Sie das Thema interessiert, lesen Sie bitte auch den Originaltext! Falls Ihnen beim Lesen unnatürliche Formulierungen oder Fehler auffallen, teilen Sie uns das bitte in einem Kommentar mit. 🤗
-
⚠️Werbung⚠️ Fanden Sie diesen von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellten Beitrag nützlich? Wenn Sie sich als Mitglied registrieren, schicken wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standardmäßig als Weekly, aber eine Umstellung auf Daily ist ebenfalls möglich.
Noch keine Kommentare.