[2026/06/08 ~ 14] Lesenswerte AI/ML-Papers dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

Beim Blick auf die 10 in dieser Woche ausgewählten Papers lassen sich drei klare Trends erkennen, die zeigen, dass die KI-Forschung über bloße Verbesserungen der Modellleistung hinaus die Grenzen von Autonomie, Zuverlässigkeit und Effizienz durchbrechen will.

1️⃣ Evolution autonomer Selbstverbesserung und Multi-Agenten-Systeme: In den Papers dieser Woche sticht ein Trend hervor, bei dem sich Agenten über explizite menschliche Anweisungen oder feste Trajektorien hinaus zu autonomen Systemen entwickeln, die sich selbst organisieren und ihre Schwächen eigenständig verbessern. Economy of Minds und AutoScientists schlagen verteilte Kooperationssysteme vor, in denen Agenten ohne zentrale Steuerung durch ökonomische Interaktionen (Auktionen, Kapitalakkumulation) oder gemeinsame Foren freiwillig Rollen aufteilen und langfristige Exploration fortsetzen. Außerdem präsentierte Self-Harness ein Framework, in dem Agenten ihre früheren Fehlermuster analysieren und System-Prompts sowie Betriebsrichtlinien (Harness) wiederholt anpassen, um ihre Leistung selbstständig zu steigern. Das deutet darauf hin, dass KI sich über passive Werkzeuge für Einzelaufgaben hinaus zu aktiven, evolvierenden Akteuren entwickelt, die langfristige Planung und Zusammenarbeit leisten.

2️⃣ Strenge Validierung von KI-Fähigkeiten und komplementäre Nutzung (hybrid): Ebenfalls ein wichtiger Trend sind reflektierte Forschungsarbeiten, die die praktischen Grenzen hinter der oberflächlichen Leistung von KI aufzeigen und diese durch die Kombination mit Menschen oder klassischen Algorithmen zu überwinden versuchen. LiveBrowseComp machte auf den blinden Fleck aufmerksam, dass Suchagenten in der Praxis eher bereits im Modell vorhandenes Vorwissen bestätigen, statt tatsächlich neue Informationen zu entdecken. Die AI-Reviewer-Studie zeigte empirisch, dass KI zwar hervorragend feine Fehler aufspürt, aber Schwächen beim Erfassen langfristiger Zusammenhänge hat und menschliche Gutachter daher nicht vollständig ersetzen kann, sondern ein „komplementäres Hilfsmittel“ bleibt. Darüber hinaus bestätigte die Hyperparameter-Optimierungsstudie (HPO), dass die Zustandsverfolgung von LLMs schwächer ist als die klassischer Algorithmen, und erreichte die beste Leistung mit einem hybriden Ansatz, bei dem der interne Zustand klassischer Methoden (CMA-ES) mit dem LLM geteilt wird. Das ist ein realistischer Versuch, aufgeblähte Benchmarks kritisch zu betrachten, die Schwächen von KI klar zu erkennen und die wirksamsten Kooperationsstrukturen zu entwerfen.

3️⃣ Intelligente Optimierung von Daten-, Umgebungs- und Rechenressourcen: Statt lediglich die Modellgröße zu erhöhen, gewinnt ein infrastruktureller Ansatz an Dynamik, der die Effizienz von Lernumgebungen, Daten und Hardware-Berechnung maximiert, um die Leistungsdichte pro Kosten zu steigern. AutoForge löste das Skalierungsproblem des Trainings, indem es komplexe Simulationsumgebungen für anspruchsvolles Agenten-Reinforcement-Learning automatisch synthetisierte. APEX demonstrierte maximale Dateneffizienz, indem es den Schwierigkeitsgrad von Daten dynamisch klassifiziert und Prompt-Optimierungsrechenleistung nur auf die informationsreichsten Daten konzentriert. Darüber hinaus überwand FP8 is All You Need mithilfe von 8-Bit-Low-Precision-Tensorberechnungen die Grenzen des auf teurer doppelter Genauigkeit (FP64) basierenden High Performance Computing (HPC), und DySIB belegte mathematische Effizienz, indem es aus hochdimensionalen Beobachtungsdaten nur die dynamisch entscheidenden Informationen extrahiert. Dahinter steht der intensive Versuch, begrenzte Ressourcen möglichst intelligent zu nutzen und so die praktische industrielle und wissenschaftliche Anwendbarkeit von KI-Systemen zu erweitern.

Kernaussagen nach Paper

Economy of Minds schlägt ein verteiltes System vor, in dem Agenten ohne zentralisierte Kontrolle auf Basis ökonomischer Interaktionsregeln — sie erwerben per Auktion Handlungsrechte und akkumulieren durch Umweltbelohnungen Vermögen — spontan evolvieren und hochrangige kollektive Intelligenz wie mehrstufiges Schlussfolgern ausbilden.
AutoForge präsentiert eine integrierte Pipeline auf Umgebungsebene, die für effektives Reinforcement Learning großer Sprachagenten automatisch in großem Umfang verifizierbare, hochschwierige Simulationsumgebungen synthetisiert und die Lernstabilität verbessert, indem sie Benutzerinstabilität und Heterogenität zwischen Umgebungen überwindet.
APEX entwickelte eine Methode, die die Ineffizienz beheben soll, bei der bei der Prompt-Optimierung großer Sprachmodelle der gesamte Evaluationsdatensatz verschwendet wird: Dynamisch werden gemischte Bereiche ausgewählt, in denen richtige und falsche Antworten nebeneinander auftreten, um die Dateneffizienz innerhalb eines begrenzten Rechenbudgets zu maximieren.
Self-Harness stellt ein Framework vor, in dem Agenten ohne Eingreifen menschlicher Experten oder Hilfe stärkerer externer Modelle selbst frühere Fehlermuster aus Ausführungsspuren analysieren, Regressionstests durchlaufen und die Betriebsrichtlinien, die ihre Interaktion mit der Umgebung vermitteln, autonom anpassen.
Die autoresearch-Studie zeigt, dass große Sprachmodelle klassische Algorithmen in Hyperparameter-Optimierungsumgebungen wegen Schwierigkeiten bei expliziter Zustandsverfolgung nicht vollständig übertreffen können, und schlägt einen hybriden Ansatz vor, der den internen Zustand der Covariance Matrix Adaptation Evolution Strategy mit dem Sprachmodell teilt und so die beste Leistung erzielt.
FP8 is All You Need widerspricht der verbreiteten Annahme, dass native Hardware für doppelt genaue Fließkommazahlen im High Performance Computing unverzichtbar sei, und belegt, dass sich die Ausführungsleistung ohne Genauigkeitsverlust wiederherstellen lässt, indem der Chinesische Restsatz mit 8-Bit-Low-Precision-Tensorberechnungen kombiniert wird, um den Tensor-Durchsatz zu maximieren.
Die AI-Reviewer-Studie analysierte mehrschichtig, dass künstliche Intelligenz eine hervorragende komplementäre Rolle spielt, indem sie einzigartige Probleme aufdeckt, die Menschen übersehen haben, zugleich aber strukturelle Grenzen wie schwaches Management langer Kontexte oder fehlendes implizites Wissen in bestimmten Fachgebieten besitzt. Grundlage waren Ergebnisse, die 45 Domänenexperten durch groß angelegte Annotation und Validierung von Nature-Papers erarbeitet haben.
LiveBrowseComp diagnostizierte das Phänomen, dass bestehende Suchagenten eher auf die Bestätigung bereits verinnerlichten Vorwissens setzen, statt neue Fakten im externen Web zu erschließen, und führte einen neuen Benchmark ein, der echte Deep-Search-Fähigkeiten für jüngst eingetretene Fakten jenseits der Wissensgrenzen des Modells streng bewertet.
DySIB stellt eine Methodik vor, die in hochdimensionalen Zeitreihen-Beobachtungsdaten die prädiktive gegenseitige Information zwischen vergangenen und zukünftigen Beobachtungsfenstern maximiert, um die geometrischen Koordinaten des niedrigdimensionalen Phasenraums, der die Dynamik des Systems bestimmt, präzise und interpretierbar zu lernen, ohne rohe Bilder direkt rekonstruieren zu müssen.
AutoScientists baute ein autonomes Forschungssystem auf, in dem ein verteiltes Agententeam die sich wiederholenden Zyklen aus Hypothesenbildung, Versuchsdurchführung, Ergebnisanalyse und Überarbeitung in langfristigen rechnergestützten wissenschaftlichen Experimenten selbst diskutiert, organisiert und bearbeitet, wodurch Wissen aus fehlgeschlagenen Explorationen erhalten bleibt und die Zusammenarbeit in vielversprechende Richtungen gelenkt wird.

Die Ökonomie des Geistes: Emergent Multi-Agent Intelligence through Economic Interactions / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Paper-Einführung

Diese Studie darüber, wie sich viele Agenten ohne zentralisierte Kontrolle spontan zu stärkerer kollektiver Intelligenz entwickeln können, ist bemerkenswert, weil sie Friedrich Hayeks Theorie dezentraler Marktkoordination auf Multi-Agenten-KI überträgt. Dazu schlagen die Autoren den Rahmen einer Agent Economy vor, in dem jeder Agent nicht nur kooperiert, sondern über Auktionen Handlungsrechte erwirbt, Zahlungen mit anderen austauscht und mit Belohnungen aus der Umgebung Vermögen akkumuliert. Diese ökonomischen Signale ermöglichen eine dezentrale Credit Assignment zwischen den Agenten auch ohne separate globale Orchestrierung oder explizite Kommunikationsprotokolle und sorgen dafür, dass der Wert jeder Handlung auf natürliche Weise sichtbar wird. Das Ergebnis ist, dass Planung nicht von außen erzwungen wird, sondern sich intern bildet, während jeder Agent seinen eigenen ökonomischen Anreizen folgt. Mit anderen Worten: Statt komplexe Kooperationsmechanismen im Detail zu entwerfen, setzt der Ansatz darauf, kollektives Denken wachsen zu lassen, indem die Regeln der Interaktion selbst gut gestaltet werden.

Ein weiterer zentraler Punkt des Papers ist, dass das System nicht in einer festen Struktur verharrt, sondern sich durch wirtschaftliche Selektion (economic selection) kontinuierlich weiterentwickelt. Effiziente Agenten akkumulieren mehr Vermögen und erhalten Verbesserungsmöglichkeiten mit Schwerpunkt auf Exploitation, während leistungsschwächere Agenten Ressourcen verlieren und durch neue Agenten ersetzt werden, was Wege für Exploration eröffnet. Diese Konstruktion, bei der Vermögen als Zustandsvariable dient, geht über einfache Parameteroptimierung hinaus und schafft einen dezentralen Evolutionsmechanismus, der lokale Anreize einzelner Agenten mit langfristiger globaler Leistung verbindet. Besonders wichtig ist, dass selbst bei einem Start mit schwachen initialen Agenten durch diese ökonomische Dynamik nach und nach ausgefeiltere Verhaltensstrategien akkumuliert und kombiniert werden. Die Autoren zeigen, dass in diesem Prozess hochrangige Verhaltensweisen wie mehrstufiges Schlussfolgern spontan entstehen können, und argumentieren, dass sich Agenten über einfache reaktive Policies hinaus zu Strategien entwickeln, die Planung und Verifikation einschließen.

Experimentell wird die Wirkung dieses Wirtschaftssystems in fünf agentischen Aufgaben überprüft: mathematisches Schlussfolgern, Finanzforschung, wissenschaftliche Forschung, Accelerator-Design und Optimierung verteilter Systeme. Den Ergebnissen zufolge übertrifft die vorgeschlagene Methode eine stärkere einzelne monolithische Baseline, was darauf hindeutet, dass die Skalierung von Multi-Agenten-Intelligenz nicht zwingend auf zentralisierte Koordination angewiesen ist. Die zentrale Botschaft dieser Arbeit lautet, dass man nicht die Koordination selbst direkt entwerfen sollte, sondern Anreizstrukturen, aus denen Koordination auf natürliche Weise entsteht. Einfache ökonomische Mechanismen wie Auktionen, Zahlungen, Vermögen, Bankrott und Ersetzung können demnach Wettbewerb und Zusammenarbeit zugleich organisieren und dabei emergent bessere Strategien für Schlussfolgern und Problemlösung hervorbringen. Darüber hinaus liefern die Autoren auch theoretische Einsichten dazu, wie ökonomische Dynamiken das Verhalten von Agenten prägen, und zeigen damit, dass diese Phänomene keine zufälligen empirischen Ergebnisse sind, sondern ein prinzipienbasiert gestaltbarer Bereich. Letztlich erklärt das Paper, wie verteilte Anreizstrukturen das Wachstum kollektiver Intelligenz antreiben können, und schlägt ein neues Paradigma für das Design künftiger Multi-Agenten-KI vor.

Abstract

Wie kann sich eine Population von Agenten ohne zentralisierte Kontrolle selbst koordinieren und selbst anpassen, um stärkere kollektive Intelligenz zu entwickeln? Inspiriert von Friedrich Hayeks ökonomischer Theorie dezentraler Koordination in Märkten untersuchen wir diese Frage anhand einer Agentenökonomie, in der Agenten über Auktionen um das Recht zu handeln konkurrieren, Zahlungen austauschen und aus Umweltbelohnungen Vermögen ansammeln. Diese einfachen ökonomischen Signale bewirken eine dezentrale Kreditzuweisung und treiben Planung voran, ohne globale Orchestrierung oder explizite Kommunikationsprotokolle. Die Population entwickelt sich durch ökonomische Selektion weiter: Effektive Agenten häufen Vermögen an und werden durch Exploitation mutiert, während ineffektive Agenten bankrottgehen und durch Exploration ersetzt werden. Wir zeigen, dass diese Ökonomie, selbst wenn sie mit schwachen Agenten initialisiert wird, emergente mehrstufige Schlussfolgerungsstrategien erzeugt und stärkere monolithische Baselines in fünf agentischen Aufgaben übertrifft, darunter mathematisches Schlussfolgern, Finanzforschung, wissenschaftliche Forschung, Accelerator-Design und Optimierung verteilter Systeme. Zudem liefern wir theoretische Einsichten dazu, wie ökonomische Dynamiken das Verhalten von Agenten prägen, und verknüpfen lokale Anreize mit langfristiger globaler Leistung. Unsere Ergebnisse deuten auf einen neuen Weg zu Multi-Agenten-Intelligenz hin: Anstatt Koordination direkt zu konstruieren, können wir dezentrale Anreizstrukturen entwerfen, unter denen sie automatisch emergiert.

How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.

Paper-Link

https://arxiv.org/abs/2606.02859

Weiterführende Links

https://zhentingqi.github.io/internal/projects/EoM/

https://github.com/zhentingqi/EoM

AutoForge: Automatisierte Umgebungssynthese für agentisches Reinforcement Learning / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

Paper-Einführung

Um groß angelegte sprachbasierte Agenten realitätsnah zu trainieren, braucht es sowohl eine Methode, kostengünstige und zugleich hinreichend komplexe Simulationsumgebungen stabil in großer Zahl zu erzeugen, als auch ein Trainingsverfahren, das das in diesen Umgebungen auftretende Interaktionsrauschen aushält. AutoForge schlägt zur Lösung dieses Problems eine integrierte Pipeline vor, die Simulationsumgebungen automatisch synthetisiert, die mit verifizierbaren Hochschwierigkeitsaufgaben (high-difficulty but easily verifiable tasks) verknüpft sind, sowie einen auf die Eigenschaften dieser Umgebungen zugeschnittenen Reinforcement-Learning-Algorithmus auf Umgebungsebene. Die Kernidee besteht darin, eine Umgebung nicht als bloße Menge von Prompts, sondern als ausführbares System aus Zustandsstrukturen und einer Menge von Operationsfunktionen zu betrachten und solche Umgebungen auf Basis von Tool-Beschreibungsdokumenten in großem Maßstab zu erzeugen. Insbesondere wurde das System so konzipiert, dass bei der Erzeugung von Zustandsstrukturen Attributnamen und tatsächliche Werte getrennt werden und bei der Erzeugung der Funktionsmenge automatisch Python-Code synthetisiert wird, der von der Zustandsstruktur abhängt, sodass sich verschiedene Aufgaben konsistent auf wiederverwendbare Umgebungsschemata aufsetzen lassen.

In der anschließenden Phase der Tool-Sequenzerzeugung wird nicht einfach eine Liste von Tools erzeugt; vielmehr wird mithilfe graphbasierter Random Walks, Sequenzzusammenführung, dem Einfügen von Reasoning-Knoten und dem Einfügen von Reasoning-Kanten ein gerichteter azyklischer Graph (directed acyclic graph, DAG) aufgebaut, in dem Tool-Aufrufe und höherstufiges Schlussfolgern miteinander verflochten sind. Dieses Verfahren zielt darauf ab, Aufgaben mit deutlich komplexeren Abhängigkeiten als bei einfachen Abfrageaufgaben zu erzeugen, und bietet einen Schwierigkeitsgrad, der dem tatsächlichen Prozess ähnlicher ist, in dem ein Agent Tools aufruft, danach die Ergebnisse interpretiert und die nächste Handlung bestimmt. Der erzeugte Graph wird anschließend an die Phase der Aufgabenerzeugung übergeben und dort erneut zu verifizierbaren Trainingsbeispielen mit sowohl Anfangs- als auch Endzustand verfeinert; die Korrektheit wird nicht an der Übereinstimmung eines bestimmten Tool-Pfads, sondern daran gemessen, ob der Endzustand übereinstimmt. Das spiegelt die Eigenschaft von Agentenumgebungen wider, dass dasselbe Ziel über mehrere Wege erreicht werden kann, und ist insofern bedeutsam, als Datengenerierung und Evaluationskriterien hier konsequent am Zustand ausgerichtet wurden.

Der Lernalgorithmus ERPO erweitert das bestehende GRPO so, dass er sowohl die Instabilität simulierter Nutzer (simulated user) als auch die Heterogenität zwischen Umgebungen gleichzeitig behandeln kann. Der Agent führt seine Rollouts aus, indem er Tool-Aufrufe und Informationsanfragen an den Nutzer abwechselnd durchführt, und setzt dabei über interleaved thinking die langfristige Planung und Neuplanung fort, während frühere Inferenzinhalte beibehalten werden. Zusätzlich wird die Strategie masking erroneous user behaviors (MEU) angewendet, die fehlerhaftes Nutzerverhalten im Voraus identifiziert und aus dem Trainingssignal ausschließt, wodurch das Problem verringert wird, dass Fehler synthetischer Nutzer die Belohnungsschätzung und Policy-Updates verfälschen. Der wichtigste Beitrag ist die Advantage-Schätzung auf Umgebungsebene: Da die Advantage nicht über dieselbe Fragengruppe, sondern durch Normalisierung der Belohnungen innerhalb derselben Umgebung berechnet wird, ist sie weniger empfindlich gegenüber Unterschieden im Schwierigkeitsgrad und Ausreißern zwischen verschiedenen Umgebungen und erhöht die Trainingsstabilität.

Letztlich bündelt dieses Design die drei Ebenen Umgebungsgenerierung, Interaktionsverfahren und Belohnungsschätzung in einem konsistenten Framework und kann als Versuch verstanden werden, zugleich Skalierbarkeit, Stabilität und Generalisierbarkeit zu sichern, die agentisches Reinforcement Learning erfordert. Die Validierung auf tau-bench, tau2-Bench und VitaBench sowie die Analyse der Out-of-Domain-Generalisation deuten darauf hin, dass AutoForge über eine bloße Methode zur Erzeugung synthetischer Daten hinausgeht und als grundlegende Infrastruktur für das Training realer Agenten dienen kann.

Abstract

Die Durchführung von Reinforcement Learning (RL) in simulierten Umgebungen bietet eine kosteneffiziente und hochskalierbare Möglichkeit, sprachbasierte Agenten zu verbessern. Frühere Arbeiten waren jedoch auf halbautomatische Umgebungssynthese oder Aufgaben mit unzureichendem Schwierigkeitsgrad beschränkt und boten daher weder ausreichend Breite noch Tiefe. Darüber hinaus stellen die Instabilität der in diese Umgebungen integrierten simulierten Nutzer sowie die Heterogenität zwischen den simulierten Umgebungen zusätzliche Herausforderungen für agentisches RL dar. In dieser Arbeit schlagen wir vor: (1) eine einheitliche Pipeline für die automatisierte und skalierbare Synthese simulierter Umgebungen, die mit hochschwierigen, aber leicht verifizierbaren Aufgaben verknüpft sind; und (2) einen RL-Algorithmus auf Umgebungsebene, der nicht nur die Nutzerinstabilität wirksam abmildert, sondern auch Advantage-Schätzung auf Umgebungsebene durchführt und dadurch die Trainingseffizienz und -stabilität verbessert. Umfassende Evaluierungen auf agentischen Benchmarks, darunter tau-bench, tau2-Bench und VitaBench, validieren die Wirksamkeit unserer vorgeschlagenen Methode. Zusätzliche eingehende Analysen unterstreichen ihre Out-of-Domain-Generalisation.

Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.

Paper-Link

https://arxiv.org/abs/2512.22857

APEX: Automatisierter Prompt-Engineering-Experte mit dynamischer Datenauswahl / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

Einführung in das Paper

Da Large Language Models (LLMs) äußerst sensibel auf die Formulierung von Prompts reagieren, ist automatische Prompt-Optimierung (automatic prompt optimization) eine zentrale Aufgabe, um ihr Potenzial voll auszuschöpfen. Bestehende Ansätze auf Basis evolutionärer Algorithmen (evolutionary algorithms) zeigten zwar Stärken bei der schrittweisen Veränderung von Prompts, offenbarten jedoch die Grenze, Rechenbudget ineffizient zu verbrauchen, weil sie den Entwicklungsdatensatz wiederholt wie eine feste Evaluierungsressource nutzen. APEX (Automatic Prompt Engineering eXpert) schlägt zur Auflösung dieses Engpasses ein neues Framework vor, das Prompt-Suche und Datennutzung gleichzeitig optimiert. Im Zentrum dieser Methode steht eine Strategie, die den Datensatz entlang der Optimierungs-Lineage dynamisch in drei Ebenen — Easy, Hard und Mixed — neu strukturiert; insbesondere wird die Mixed-Ebene, in der sowohl richtige als auch falsche Antworten des Modells auftreten, als der informationsreichste Bereich betrachtet. Diese Perspektive zeigt klar, dass es wichtiger ist, zu identifizieren, welche Beispiele tatsächlich ein nützliches Signal zur Verbesserung von Prompts liefern, als einfach nur viele Beispiele zu betrachten.

APEX extrahiert aus der Mixed-Ebene zwei hochwertige Frontiers. Die eine ist die addressable frontier, die sich gut dafür eignet, informative Variationen zu erzeugen; die andere ist die rank-sensitive frontier, die sensibel darauf reagiert, Unterschiede zwischen Kandidaten-Prompts herauszuarbeiten. Erstere gibt die Richtung für Prompt-Modifikationen vor, Letztere hilft zu beurteilen, welche Variante tatsächlich zu besserer Leistung führt, sodass sich beide Frontiers in ihren Rollen für Suche und Bewertung gegenseitig ergänzen. Anders als bisherige Verfahren, die den gesamten Datensatz pauschal behandeln, steigert diese Struktur die Dateneffizienz deutlich, weil sie die Rechenressourcen auf die in der aktuellen Optimierungsphase aussagekräftigsten Samples konzentriert. Anders gesagt verändert APEX Prompts nicht einfach möglichst oft, sondern greift strategisch genau die Punkte an, an denen das Verhalten des Modells am instabilsten und damit am informationsreichsten ist. Dieses Design definiert Prompt-Optimierung nicht als bloßes Generierungsproblem, sondern als adaptives Suchproblem neu, in dem Datenauswahl und Kandidatenvergleich zusammenwirken.

Experimentell wurde APEX auf drei Benchmarks mit unterschiedlichem Charakter validiert — IFBench, SimpleQA Verified und FACTS Grounding — und zeigte selbst unter der festen Budgetvorgabe von 5.000 Evaluierungsaufrufen stabile Verbesserungen. Dadurch wurden gegenüber dem initialen Prompt durchschnittliche Leistungssteigerungen von 11,2 % bei Gemini 2.5 Flash und 6,8 % bei Gemma 3 27B erzielt, was belegt, wie wichtig ein datenorientierter Ansatz für effiziente und zugleich leistungsstarke Prompt-Optimierung ist. Diese Ergebnisse sind bedeutsam, weil sie über eine bloße Verbesserung des Suchalgorithmus hinaus empirisch zeigen, dass der Erfolg von Prompt Engineering davon abhängt, welche Daten wann und wie ausgewählt werden. Letztlich verlagert diese Studie den Kern automatischer Prompt-Optimierung von „mehr Evaluierungen“ hin zu „intelligenterer Datennutzung“ und präsentiert eine praktische wie auch gut generalisierbare Methodik, mit der sich innerhalb begrenzter Rechenressourcen höhere Leistung erzielen lässt.

Abstract

Large Language Models (LLMs) sind äußerst empfindlich gegenüber der Formulierung von Prompts, weshalb eine automatische Prompt-Optimierung notwendig ist, um ihr volles Potenzial auszuschöpfen. Obwohl evolutionäre Algorithmen sich als dominierendes Paradigma etabliert haben, leiden sie unter einem kritischen Engpass: Dateneffizienz. Aktuelle Methoden behandeln den Entwicklungsdatensatz als statischen Benchmark und verschwenden dadurch erhebliche Compute-Budgets für wenig informative Daten. In dieser Arbeit stellen wir APEX (Automatic Prompt Engineering eXpert) vor, ein neuartiges Framework, das die Datennutzung parallel zur Prompt-Suche optimiert. APEX schichtet den Datensatz auf Basis der Optimierungsabstammung dynamisch in die Ebenen Easy, Hard und Mixed ein. Indem wir die Mixed-Ebene priorisieren, die Daten identifiziert, bei denen das LLM uneinheitliche Leistung zeigt, bestimmen wir zwei besonders wirkungsvolle Teilmengen: die addressable frontier zur Erzeugung informativer Mutationen und die rank-sensitive frontier zur Unterscheidung der Qualität von Kandidaten. Wir evaluieren APEX auf drei unterschiedlichen Benchmarks: IFBench, SimpleQA Verified und FACTS Grounding. Unter einem festen Budget von 5.000 Evaluierungsaufrufen übertrifft APEX dank seiner Dateneffizienz den initialen Prompt im Durchschnitt um 11,2 % auf Gemini 2.5 Flash und um 6,8 % auf Gemma 3 27B und zeigt damit, dass ein datenzentrierter Ansatz der Schlüssel zu effizienter und effektiver Prompt-Optimierung ist.

Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.

Paper-Link

https://arxiv.org/abs/2606.11459

Self-Harness: Sich selbst verbessernde Harnesses / Self-Harness: Harnesses That Improve Themselves

Paper-Einführung

Die Leistung von agentischen Systemen auf Basis von Large Language Models (LLMs) wird nicht allein durch die Inferenzfähigkeit des zugrunde liegenden Modells bestimmt, sondern maßgeblich durch das Design des Harness, das die Interaktion mit der Umgebung vermittelt. Ein Harness ist eine operative Schicht, die System-Prompt, Art der Tool-Nutzung, Verifikationsverfahren und Richtlinien zur Fehlerbehebung umfasst; je nachdem, welches Harness auf dasselbe Modell angewendet wird, kann es völlig unterschiedliche Verhaltensmuster zeigen. Die Autorinnen und Autoren richten ihren Fokus genau auf diesen Punkt und stellen die Frage, warum ein Harness nicht länger ein starres Asset sein sollte, das ausschließlich manuell von menschlichen Expertinnen und Experten entworfen wird, sondern sich auf Basis der tatsächlichen Fehlermuster des Modells selbst verbessern können müsste. Vor diesem Hintergrund zeigt das vorgeschlagene Self-Harness ein neues Paradigma, in dem ein LLM-basierter Agent sein eigenes operatives Harness iterativ verbessert, ohne auf einen extern stärkeren Agenten oder menschliche Engineers angewiesen zu sein.

Die Kernmethodik von Self-Harness besteht aus einer iterativen Schleife aus Weakness Mining, Harness Proposal und Proposal Validation. Zunächst werden in Execution Traces modellspezifische Fehlermuster identifiziert, um strukturiert zu diagnostizieren, welche Verhaltensweisen die Leistung wiederholt beeinträchtigen. Anschließend werden vielfältige minimale Änderungen am Harness erzeugt, die direkt mit diesen Schwächen verbunden sind; angestrebt werden dabei keine übermäßig großen Eingriffe, sondern lokale Edits auf dem Niveau einer präziseren Ausgestaltung realer Betriebsrichtlinien. Abschließend werden die vorgeschlagenen Änderungen nur dann übernommen, wenn Regression Testing bestätigt, dass die bestehende Leistung nicht beeinträchtigt wird. So entsteht kein bloßes Prompt Tuning, sondern ein sicheres und kumulativ nutzbares Verbesserungssystem. Dieses Design setzt technisch um, dass ein Harness das Verhalten des Modells nicht nur steuert, sondern auch aus den Fehlern des Modells wieder lernen kann.

Die Arbeit validiert dieses Framework in der Terminal-Bench-2.0-Umgebung und wendet es ausgehend von einem sehr einfachen initialen Harness auf drei Basismodelle aus unterschiedlichen Familien an: MiniMax M2.5, Qwen3.5-35B-A3B und GLM-5. Die Experimente zeigen, dass die Holdout-Erfolgsrate von 40,5 % auf 61,9 %, von 23,8 % auf 38,1 % bzw. von 42,9 % auf 57,1 % steigt, was belegt, dass Self-Harness unabhängig vom Modelltyp konsistente Verbesserungen erzielen kann. Besonders die qualitative Analyse zeigt, dass die Verbesserung nicht einfach darin besteht, allgemeine Anweisungen hinzuzufügen, sondern die spezifischen Schwächen jedes Modells in konkrete und umsetzbare Änderungen am Harness zu überführen. Das deutet stark darauf hin, dass der Engpass bei der Leistungssteigerung von Agenten nicht nur in den Modellparametern selbst liegt und dass bereits durch das präzise Erlernen von Betriebsrichtlinien substanzielle Leistungsgewinne möglich sind. Insgesamt weist Self-Harness damit eine neue Forschungsrichtung auf: LLM-basierte Agenten werden nicht nur durch Harnesses geformt, sondern können Harnesses auch selbst wieder formen.

Abstract

Die Leistung von LLM-basierten Agenten wird gemeinsam von ihren Basismodellen und den Harnesses geprägt, die ihre Interaktion mit der Umgebung vermitteln. Da verschiedene Modelle unterschiedliche Verhaltensweisen zeigen, ist ein effektives Harness-Design inhärent modellspezifisch. Dennoch werden Agenten-Harnesses nach wie vor größtenteils von menschlichen Expertinnen und Experten entwickelt – ein Paradigma, das schlecht skaliert, da moderne LLMs immer vielfältiger werden und sich rasant weiterentwickeln. In dieser Arbeit stellen wir Self-Harness vor, ein neues Paradigma, bei dem ein LLM-basierter Agent seinen eigenen operativen Harness verbessert, ohne auf menschliche Ingenieurinnen und Ingenieure oder stärkere externe Agenten angewiesen zu sein. Wir setzen Self-Harness als iterative Schleife mit drei Phasen um. Weakness Mining identifiziert modellspezifische Fehlermuster aus Ausführungsspuren, Harness Proposal erzeugt vielfältige, aber minimale Harness-Modifikationen, die mit diesen Fehlern verknüpft sind, und Proposal Validation akzeptiert Kandidaten-Edits nur dann, wenn sie Regressionstests bestehen. Wir haben Self-Harness auf Terminal-Bench-2.0 mit einem minimalen initialen Harness und drei Basismodellen aus unterschiedlichen Familien angewandt: MiniMax M2.5, Qwen3.5-35B-A3B und GLM-5. Bei allen drei Modellen verbesserte Self-Harness die Leistung konsistent; die Held-out-Pass-Raten stiegen jeweils von 40,5 % auf 61,9 %, von 23,8 % auf 38,1 % und von 42,9 % auf 57,1 %. Qualitative Analysen zeigen zudem, dass Self-Harness nicht einfach nur allgemeine Anweisungen hinzufügt, sondern modellspezifische Schwächen wirksam in konkrete, ausführbare Änderungen am Harness überführt. Diese Ergebnisse weisen auf einen Weg zu LLM-basierten Agenten hin, die nicht nur durch ihre Harnesses geprägt werden, sondern auch an deren Umgestaltung mitwirken können.

The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.

Paper-Link

https://arxiv.org/abs/2606.09498

Können große Sprachmodelle (LLMs) klassische Hyperparameter-Optimierungsalgorithmen schlagen? Eine Studie zu autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Paper-Einführung

Diese Studie prüft, ob Agenten auf Basis großer Sprachmodelle (LLMs) klassische Algorithmen in realen Umgebungen zur Hyperparameter-Optimierung (HPO) übertreffen können, und untersucht anhand des autoresearch-Repositorys direkt die Möglichkeiten und Grenzen codeeditierender Optimierung. Dabei muss der Agent nicht nur numerische Hyperparameter auswählen, sondern den Trainingscode selbst direkt verändern, um die Leistung kleiner Sprachmodelle zu verbessern; das Ziel ist, innerhalb eines festen Rechenbudgets die validation bits-per-byte (val_bpb) zu minimieren. Gerade weil dieses Problem einen großen Code-Suchraum umfasst – einschließlich Architektur, Optimizer, Trainingsschleife und Modellgröße –, ist es weit anspruchsvoller als gewöhnliche Blackbox-Optimierung, da zugleich Sprachverständnis und die Fähigkeit zur Nachverfolgung des Optimierungszustands erforderlich sind. Die Autorinnen und Autoren vergleichen in dieser Umgebung klassische Verfahren wie Covariance Matrix Adaptation Evolution Strategy (CMA-ES) und Tree-structured Parzen Estimator (TPE) direkt mit LLM-basierten Ansätzen und analysieren systematisch, was die tatsächliche Leistung bestimmt. Das Ergebnis: In einem festen Suchraum waren klassische Methoden durchweg überlegen, und insbesondere erwies sich Stabilität zur Verringerung von Ausführungsfehlern als wichtiger als die Vielfalt der erzeugten Kandidaten.

Interessant ist, dass sich der Abstand etwas verringert, wenn man dem LLM erlaubt, den Quellcode direkt zu bearbeiten; selbst mit damals führenden Modellen wie Claude Opus 4.6 und Gemini 3.1 Pro Preview konnten klassische Methoden jedoch nicht vollständig eingeholt werden. Daraus ergibt sich die Beobachtung, dass LLMs zwar in einzelnen Trials nützliche Änderungen vorschlagen können, aber weiterhin Schwächen dabei zeigen, den Optimierungszustand über viele wiederholte Experimente hinweg konsistent aufrechtzuerhalten. Klassische Algorithmen verfügen umgekehrt zwar über weniger Domänenwissen, haben aber den Vorteil, explizite Zustände wie Mittelwertvektor, Schrittweite und Kovarianzmatrix stabil zu aktualisieren. Auf Basis dieser Komplementarität schlagen die Autorinnen und Autoren mit Centaur eine hybride Methode vor, die den interpretierbaren internen Zustand von CMA-ES mit dem LLM teilt, damit das Sprachmodell den Kontext der Suche besser berücksichtigen kann. Centaur erzielte über die Experimente hinweg die beste Leistung und konnte überraschenderweise schon mit einem kleinen LLM der Größe 0.8B sowohl rein klassische als auch rein LLM-basierte Verfahren übertreffen. Im Gegensatz dazu erforderte der uneingeschränkte Ansatz der Codebearbeitung größere Modelle, was darauf hindeutet, dass Optimierungsinterface und Zustandsrepräsentation größeren Einfluss auf die Leistung haben als die reine Modellgröße. Außerdem analysieren die Autorinnen und Autoren detailliert Suchdiversität, Modellskalierung und den Anteil der vom LLM vorgeschlagenen Trials in Centaur und zeigen so differenziert, wann LLMs zur Stärke und wann sie zur Schwäche werden. Insgesamt zeigt diese Studie überzeugend, dass LLMs am wirksamsten nicht als Ersatz für klassische Optimierer eingesetzt werden, sondern als kooperative Komponente, die explizite Suchzustände ergänzt.

Abstract

Das Autoresearch-Repository ermöglicht es einem LLM-Agenten, Hyperparameter zu optimieren, indem er den Trainingscode direkt bearbeitet. Wir haben es als Testbed verwendet, um klassische HPO-Algorithmen mit LLM-basierten Methoden beim Tuning der Hyperparameter eines kleinen Sprachmodells unter festem Compute-Budget zu vergleichen. Wenn über Autoresearch hinweg ein fester Suchraum definiert wird, zeigen klassische Methoden wie CMA-ES und TPE durchgängig eine bessere Leistung als LLM-basierte Agenten; dabei ist das Vermeiden von Out-of-Memory-Fehlern (OOM) wichtiger als Suchdiversität. Wenn man dem LLM erlaubt, den Quellcode direkt zu bearbeiten, verringert sich der Abstand zu den klassischen Methoden, doch selbst mit Frontier-Modellen zum Zeitpunkt der Erstellung wie Claude Opus 4.6 und Gemini 3.1 Pro Preview wird er nicht vollständig geschlossen. Wir haben beobachtet, dass LLMs Schwierigkeiten haben, den Optimierungszustand über mehrere Durchläufe hinweg nachzuverfolgen. Klassischen Methoden fehlt dagegen das Domänenwissen von LLMs. Um die Stärken beider Ansätze zu kombinieren, schlagen wir mit Centaur eine hybride Methode vor, die den interpretierbaren internen Zustand von CMA-ES – einschließlich Mittelwertvektor, Schrittweite und Kovarianzmatrix – mit einem LLM teilt. Centaur erzielte in unseren Experimenten die besten Ergebnisse, und bereits ein 0.8B-LLM reichte aus, um alle klassischen sowie alle rein LLM-basierten Methoden zu übertreffen. Unbeschränktes Code-Editing erfordert größere Modelle, um mit klassischen Methoden konkurrieren zu können. Zusätzlich haben wir Suchdiversität, die Modellskalierung von 0.8B bis zu Frontier-Modellen sowie Ablationsstudien zum Anteil der vom LLM vorgeschlagenen Trials in Centaur analysiert. Insgesamt legen unsere Ergebnisse nahe, dass LLMs am wirksamsten sind, wenn sie klassische Optimierer ergänzen, nicht ersetzen. Der Code ist unter https://github.com/ferreirafabio/autoresearch-automl verfügbar, die interaktive Demo unter https://ferreirafabio.github.io/autoresearch-automl.

Das Autoresearch-Repository ermöglicht es einem LLM-Agenten, Hyperparameter zu optimieren, indem er den Trainingscode direkt bearbeitet. Wir verwenden es als Testbed, um klassische HPO-Algorithmen mit LLM-basierten Methoden beim Tuning der Hyperparameter eines kleinen Sprachmodells unter einem festen Compute-Budget zu vergleichen. Wenn in Autoresearch ein fester Suchraum definiert wird, übertreffen klassische Methoden wie CMA-ES und TPE LLM-basierte Agenten durchgängig; dabei ist das Vermeiden von Out-of-Memory-Fehlern wichtiger als Suchdiversität. Wenn das LLM den Quellcode direkt bearbeiten darf, verringert sich der Abstand zu den klassischen Methoden, aber er wird nicht geschlossen – selbst nicht mit Frontier-Modellen, die zum Zeitpunkt der Erstellung verfügbar waren, etwa Claude Opus 4.6 und Gemini 3.1 Pro Preview. Wir beobachten, dass LLMs Schwierigkeiten haben, den Optimierungszustand über mehrere Trials hinweg zu verfolgen. Klassischen Methoden fehlt dagegen das Domänenwissen von LLMs. Um die Stärken beider Ansätze zu kombinieren, führen wir Centaur ein, einen hybriden Ansatz, der den interpretierbaren internen Zustand von CMA-ES – einschließlich Mittelwertvektor, Schrittweite und Kovarianzmatrix – mit einem LLM teilt. Centaur erzielt in unseren Experimenten das beste Ergebnis, und bereits ein 0.8B-LLM genügt, um alle klassischen und rein LLM-basierten Methoden zu übertreffen. Unbeschränktes Code-Editing erfordert größere Modelle, um mit klassischen Methoden konkurrenzfähig zu sein. Außerdem analysieren wir Suchdiversität, die Modellskalierung von 0.8B bis zu Frontier-Modellen und führen Ablationsstudien zum Anteil der vom LLM vorgeschlagenen Trials in Centaur durch. Insgesamt legen unsere Ergebnisse nahe, dass LLMs am effektivsten als Ergänzung zu klassischen Optimierern sind, nicht als Ersatz. Code ist verfügbar unter https://github.com/ferreirafabio/autoresearch-automl, die interaktive Demo unter https://ferreirafabio.github.io/autoresearch-automl.

Paper-Link

https://arxiv.org/abs/2603.24647

Weiterführende Links

https://github.com/ferreirafabio/autoresearch-automl

https://ferreirafabio.github.io/autoresearch-automl

FP8 reicht aus (Teil 1): Widerlegung von Hardware-FP64 als heiligem Gral des HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

Paper-Vorstellung

Im Bereich High-Performance Computing (HPC) galt die direkt von der Hardware bereitgestellte Double-Precision-Gleitkommaarithmetik (FP64) lange als unverzichtbare Voraussetzung für wissenschaftliches Rechnen. Dieses Paper argumentiert jedoch, dass diese Annahme in der aktuellen Generation KI-optimierter GPUs möglicherweise nicht mehr gilt. Ausgehend davon, dass der native FP64-Durchsatz bei NVIDIA Blackwell Ultra (B300) stark gesunken ist, zeigen die Autoren, dass es in der Praxis sinnvoller sein könnte, den hohen FP8-Tensor-Durchsatz zu nutzen und damit FP64-Genauigkeit wiederherzustellen. Dazu kombinieren sie den Chinesischen Restsatz (CRT, Chinese Remainder Theorem) mit Ozaki Scheme II, zerlegen Werte in mehrere modulare Restkanäle und rekonstruieren sie anschließend exakt. Dieser Prozess ist so ausgelegt, dass die numerische Genauigkeit auf FP64-Niveau erhalten bleibt und zugleich der hohe Durchsatz niedrigpräziser Tensor-Operationen voll ausgenutzt werden kann. Die Kernmethodik zielt also nicht nur auf einfache approximative Beschleunigung, sondern darauf, den Rechenpfad selbst auf niedrigpräzise Tensor Cores zu verlagern und das Ergebnis anschließend durch ganzzahlbasierte Rekonstruktion exakt zurückzuführen. Darin unterscheidet sich der Ansatz klar von herkömmlichen, auf Double Precision zentrierten Verfahren.

Ein weiterer wichtiger Beitrag dieses Papers ist das Tensor-Memory-Equilibrium-(TME)-Modell, eine Erweiterung des klassischen Roofline-Modells. TME betrachtet nicht nur das Gleichgewicht zwischen Rechenleistung und Speicherbandbreite, sondern bezieht auch Rechenmultiplikatoren, Bandbreitenmultiplikatoren und Rekonstruktionslatenz ein, die entstehen, wenn FP8-basierte Emulation in FP64-Workloads überführt wird. Mithilfe dieses Rahmens erläutern die Autoren, dass Register-Level-Fusion verhindert, dass Zwischenergebnisse häufig in den Speicher geschrieben werden müssen, wodurch der Bandbreitenmultiplikator faktisch gegen 1 konvergieren kann. Dadurch entsteht eine Struktur, in der der Rekonstruktions-Overhead hinter der Memory Wall verborgen werden kann. Mit anderen Worten: Auch wenn zusätzliche Transformations- und Rekonstruktionsschritte vorhanden sind, kann die Gesamtleistung in speichergebundenen Bereichen nahezu ohne Verlust erhalten bleiben.

Der aus Implementierungssicht vorgestellte Ozaki-Scheme-II-Kernel zeigt anschaulich, wie diese Idee in der Praxis tatsächlich funktioniert. Die Struktur, bei der Eingabematrix und -vektor in mehrere Residue-Kanäle zerlegt, in jedem Kanal per WMMA-basierten Tensoroperationen akkumuliert und am Ende per Garner-Rekonstruktion zu einem einzelnen double-Wert wiederhergestellt werden, offenbart eine Designphilosophie, die Genauigkeit und Geschwindigkeit trennt und jeweils dem dafür am besten geeigneten Hardware-Pfad zuweist. Dass sich dabei typische HPC-Kernel wie SpMV (sparse matrix-vector multiplication), GEMV (general matrix-vector multiplication) und Stencil alle nach derselben Logik verarbeiten lassen, zeigt, dass dieser Ansatz keine auf einzelne Aufgaben beschränkte Optimierung ist. Auch die Leistungsergebnisse stützen diese Behauptung: Die Autoren erläutern, dass native FP64 auf dem B300 stark abgeschwächt ist, während der Ozaki-II-Pfad mit deutlich höherem effektivem Durchsatz die Speichergrenze erreichen kann und im Vergleich zum H100 gleiche oder sogar bessere Leistung zeigt.

Letztlich lautet die zentrale Botschaft dieser Arbeit, dass die bisherige Konvention, für Double-Precision-Genauigkeit zwingend auf native FP64-Hardware angewiesen zu sein, nicht länger absolut gilt. Kombiniert man FP8-Tensordurchsatz, CRT-basierte Rekonstruktion und Fusion auf Registerebene, lassen sich auch in produktiven HPC-Umgebungen FP64-Genauigkeit und Speichereffizienz zugleich erreichen; mehr noch, das Leistungspotenzial kann sogar höher sein als bei älteren, FP64-zentrierten Designs. Diese These zwingt dazu, die Prioritäten im Hardware-Design neu zu überdenken, und legt stark nahe, dass wissenschaftliches Rechnen der Zukunft nicht länger von einzelnen Double-Precision-Recheneinheiten abhängen muss.

Abstract

Die konventionelle Lehrmeinung im HPC-Bereich sieht natives Hardware-FP64-Silizium als irreduzibles Fundament des wissenschaftlichen Rechnens, als den „heiligen Gral“ der Double-Precision-Simulation. Diese Arbeit behauptet jedoch, dass diese Lehrmeinung falsch ist. Auf AI-optimierten GPUs der B300-Generation und darüber hinaus lässt sich durch die Kombination aus reichlich vorhandenem FP8-Tensordurchsatz und dem auf dem Chinesischen Restsatz (Chinese Remainder Theorem) basierenden Ozaki Scheme II über das gesamte Spektrum typischer HPC-Kernel hinweg Ausführung auf Memory-Roof-Niveau bei voller FP64-Genauigkeit wiederherstellen. NVIDIAs Blackwell Ultra (B300) reduziert natives FP64 auf etwa 1,3 TFLOPS, was gegenüber dem B200 einer 31-fachen Regression entspricht und sogar speichergebundene Kernel (SpMV, GEMV, Stencils) in rechengebundene Workloads verwandelt. Wir leisten vier Beiträge. Erstens schlagen wir mit dem Tensor-Memory-Equilibrium-(TME)-Modell ein einheitliches Analysemodell vor, das das Roofline-Modell um einen Rechen-Multiplikator α, einen Bandbreiten-Multiplikator β und eine Rekonstruktionslatenz γ erweitert. Zweitens zeigen wir, dass Fusion auf Registerebene der Mechanismus ist, der β → 1 treibt, wodurch Emulation hinter der Memory Wall praktisch kostenlos wird. Drittens prognostizieren wir, dass Ozaki II emuliertes FP64 vom nativen unteren Niveau von etwa 1 TFLOPS auf etwa 500 TFLOPS beim B300 und etwa 400 TFLOPS beim Rubin R200 anhebt; im rechengebundenen Bereich übertrifft dies sogar die native FP64-Obergrenze des B200 um mehr als eine Größenordnung und entspricht im bandbreitengebundenen Bereich dem Memory Roof. Viertens zeigt Ozaki II gegenüber einem H100 als Baseline bei allen untersuchten Workloads die gleiche oder bessere Leistung, während natives FP64 auf dem B300 eine Regression um bis zu den Faktor 50 verursacht. In Kombination mit der im begleitenden Part-(2)-Paper berichteten FFT-Analyse (Kulisch-Festkomma-Rekonstruktion auf der verbleibenden INT32-Pipeline) sowie FP32+Kahan-Reduktionen erreicht jede auf dem B300 untersuchte Kernel-Klasse bei voller FP64-Genauigkeit das Memory Roof. Diese Evidenz stützt die Aussage des Titels: FP8 mit Ozaki II und Kulisch-Escape-Routes genügt für produktives HPC; natives FP64-Silizium ist nicht länger der heilige Gral, für den es gehalten wurde.

Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.

Paper-Link

https://arxiv.org/abs/2606.06510

Grenzen und Chancen von AI-Reviewern: Eine Studie, in der 45 Fachwissenschaftler die Reviews von Nature-Family-Papers geprüft haben / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Paper-Einführung

Mit der schrittweisen Einführung von KI-Reviewern in den wissenschaftlichen Begutachtungsprozess wird immer deutlicher, dass ein Ansatz, ihre Leistung allein anhand der Übereinstimmung bei der Endentscheidung zu bewerten, an Grenzen stößt. Die Qualität einer Begutachtung unterscheidet sich tatsächlich stark danach, wie zutreffend die einzelnen Kritikpunkte eines Reviewers sind, wie wichtige Probleme sie aufgreifen und ob genügend Belege zur Untermauerung ihrer Aussagen vorliegen. Deshalb wollten die Autoren durch eine Bewertung auf dieser mikroskopischen Ebene die tatsächlichen Fähigkeiten und Grenzen von KI-Reviewern präzise sichtbar machen. Zu diesem Zweck entwarfen sie eine groß angelegte Annotationstudie mit 45 Fachwissenschaftlern aus Physik, Biologie und Gesundheitswissenschaften und ließen insgesamt 2.960 einzelne Kritikpunkte bewerten, die von Menschen und KI zu 82 Nature-Papers verfasst wurden. Jeder Kritikpunkt wurde entlang dreier Achsen bewertet: correctness (Korrektheit), significance (Bedeutung) und sufficiency of evidence (Ausreichendheit der Belege). Durch insgesamt 469 Stunden Begutachtung ließ sich so mehrschichtig analysieren, was KI-Reviewer tatsächlich gut können und woran sie scheitern. Die Bedeutung dieser Methodik liegt darin, dass sie über die bloße Frage hinausgeht, „ob KI zu ähnlichen Schlussfolgerungen wie Menschen gelangt“, und konkret zeigt, welche Arten von Problemen sie besser erkennt und in welchen Kontexten sie eher zu überzogenen oder ungenauen Urteilen neigt. Die quantitativen Ergebnisse deuten darauf hin, dass heutige KI-Reviewer keineswegs nur oberflächliche Hilfswerkzeuge sind. So erzielte etwa ein auf GPT-5.2 basierender Review-Agent nach einem integrierten Maßstab über alle drei Bewertungsachsen hinweg höhere Werte als der jeweils bestbewertete menschliche Reviewer eines Papers, und auch andere KI-Reviewer wie Gemini 3.0 Pro und Claude Opus 4.5 übertrafen auf allen Achsen den jeweils am schlechtesten bewerteten menschlichen Reviewer. Darüber hinaus wurden korrekte Kritikpunkte von KI-Reviewern häufiger als wichtig und gut belegt eingestuft, und sie erkannten zusätzlich 26 % der Probleme, die von Menschen nicht angesprochen wurden, was auch eine Erweiterung der Erkennungsbreite zeigt. Gleichzeitig neigten KI-Reviewer jedoch stark dazu, sehr ähnliche Kritikpunkte zu wiederholen, und wiesen damit deutlich höhere Überschneidungsraten als Menschen auf. Zudem zeigten sich wiederkehrende Schwächen wie mangelndes implizites Wissen in bestimmten Teilgebieten, Grenzen beim Umgang mit langem Kontext und eine übermäßige Kritik an nebensächlichen Problemen. Die qualitativen Beispiele im Anhang machen deutlich, dass diese Schwächen nicht nur einfache Fehlurteile sind, sondern mit strukturellen Problemen zusammenhängen, etwa Fehlinterpretationen fachspezifischer Praktiken, Fehlern im zeitlichen Kontext, überzogenen Forderungen ohne Berücksichtigung der Korrigierbarkeit sowie dem Übersehen von Inkonsistenzen zwischen Code und Haupttext. Insgesamt zeigt die Studie überzeugend, dass KI-Reviewer weniger als Ersatz für menschliche Gutachter zu verstehen sind, sondern vielmehr als vielversprechende Ergänzung, die ein breiteres Problemspektrum schnell erkennen und detaillierte Prüfungen durchführen kann, und liefert damit eine wichtige Grundlage für eine künftige Neudefinition der Rollenverteilung zwischen Mensch und KI in der wissenschaftlichen Begutachtung.

Abstract

Mit dem Fortschritt der KI-Leistungsfähigkeit beginnen KI-Reviewer Einzug in das wissenschaftliche Peer Review zu halten, doch ihre Fähigkeiten und ihre Vertrauenswürdigkeit bleiben weiterhin umstritten. Viele Wissenschaftler sehen in ihnen lediglich probabilistische Systeme ohne die nötige Expertise zur Bewertung von Forschung, während andere Forscher ihre Einsatzreife ohne konkrete Belege optimistischer einschätzen. Es ist entscheidend zu verstehen, was KI-Reviewer gut leisten, worin sie Defizite haben und welche Herausforderungen offenbleiben. Bisherige Bewertungen von KI-Reviewern konzentrierten sich jedoch vor allem darauf, ob ihre Urteile mit denen von Menschen übereinstimmen, etwa bei Score-Alignment oder Annahmevorhersagen, was nicht ausreicht, um ihre Fähigkeiten und Grenzen zu charakterisieren. Diese Arbeit versucht, diese Lücke durch eine groß angelegte Experten-Annotationstudie zu schließen. 45 Domänenwissenschaftler aus Physik, Lebenswissenschaften und Gesundheitswissenschaften bewerteten über 469 Stunden hinweg 2.960 einzelne Kritikpunkte aus von Menschen verfassten und KI-generierten Reviews zu 82 Nature-Papers hinsichtlich Korrektheit, Bedeutung und Ausreichendheit der Belege, wobei jeder Kritikpunkt genau einen spezifischen Aspekt eines Papers betraf. In einem kombinierten Maß über alle drei Dimensionen übertrifft ein von GPT-5.2 angetriebener Review-Agent den jeweils bestbewerteten menschlichen Reviewer eines Papers (60.0 % gegenüber 48.2 %, p = 0.009), während alle drei KI-Reviewer, darunter Gemini 3.0 Pro und Claude Opus 4.5, in jeder Dimension besser abschneiden als der am niedrigsten bewertete Mensch. Zudem werden korrekte Kritikpunkte von KI-Reviewern häufiger als bedeutend und ausreichend belegt bewertet und bringen zusätzlich 26 % eigenständiger Probleme ans Licht, die von keinem Menschen angesprochen werden. Allerdings überschneiden sich KI-Reviewer untereinander weitaus stärker als Menschen (21 % gegenüber 3 % bei reviewerübergreifenden Paaren) und zeigen 16 wiederkehrende Schwächen, die Menschen so nicht teilen, darunter begrenztes Wissen in Teilgebieten, mangelnde Fähigkeit zum Umgang mit langem Kontext über mehrere Dateien hinweg und eine übermäßig kritische Haltung gegenüber geringfügigen Problemen. Insgesamt positionieren unsere Ergebnisse heutige KI-Reviewer eher als Ergänzung denn als Ersatz für menschliche Reviewer.

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.

Paper-Link

https://arxiv.org/abs/2605.20668

Weiterführende Links

https://prometheus-eval.github.io/cmu-paper-reviewer/

https://github.com/prometheus-eval/cmu-paper-reviewer

https://huggingface.co/datasets/prometheus-eval/peerreview-bench

LiveBrowseComp: Suchen Suchagenten wirklich, oder verifizieren sie nur, was sie bereits wissen? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

Paper-Einführung

LLM-basierte Suchagenten (Large Language Models, LLMs) erhalten viel Aufmerksamkeit, weil sie das externe Web durchsuchen und aktuelle Fakten finden können. Diese Studie geht jedoch von der Beobachtung aus, dass sie in der Praxis oft nicht neue Informationen entdecken, sondern lediglich bereits im Modell verankertes Wissen mit dem Web abgleichen. Die Autoren definieren dieses Phänomen als Intrinsic Knowledge Dependence (IKD) und entwerfen Analysen aus drei Perspektiven, um präzise zu diagnostizieren, inwieweit Suchwerkzeuge das Schlussfolgern eines Agenten tatsächlich erweitern. Erstens messen sie in einem Closed-Book-Setting ohne Werkzeuge, wie viele Antworten das Modell überhaupt geben kann, um zu prüfen, wie stark bestehende Benchmarks von vornherein bereits vom internen Wissen des Modells abgedeckt sind. Zweitens erlauben sie zwar Suche, entfernen aber Belegdokumente, die die richtige Antwort stützen, um zu untersuchen, ob der Agent tatsächlich externe Evidenz nutzt oder sich nur auf die Bestätigung einer bereits gebildeten Hypothese stützt. Drittens verfolgen sie Suchtrajektorien und klassifizieren, ob Anfragen von intern erzeugten Hypothesen ausgehen oder von Hinweisen aus Suchergebnissen, um zu unterscheiden, ob Suche ein Prozess der Entdeckung oder der Verifikation ist. Diese Methodik ist bedeutsam, weil sie über einen bloßen Vergleich der Trefferquote hinausgeht und die tatsächliche Funktionsweise von Suchagenten seziert.

Die Analyse zeigt klar, dass bestehende Such-Benchmarks Suchfähigkeit und gedächtnisbasierte Rückbestätigung verwechseln können. Einige Modelle beantworteten auf BrowseComp bis zu 44,5 % der Fragen auch ohne Werkzeuge, mehr als die Hälfte der Suchanfragen ging nicht von Suchergebnissen, sondern von intern erzeugten Hypothesen aus, und wenn unterstützende Evidenz für die richtige Antwort entfernt wurde, fiel die Leistung sogar unter das Closed-Book-Niveau. Das deutet darauf hin, dass Suchagenten eher dazu neigen, bereits bekannte Inhalte per Suche zu verifizieren, statt neue Fakten aus dem Web zu finden. Um dieses Problem anzugehen, schlagen die Autoren mit LiveBrowseComp einen neuen Deep-Search-Benchmark vor. LiveBrowseComp besteht aus 335 von Menschen formulierten Fragen, die auf Fakten beruhen, die innerhalb der letzten 90 Tage vor Erstellung des Benchmarks veröffentlicht wurden, und basiert auf sechs kontinuierlich aktualisierten Quellen, darunter GDELT, TMDB, RAWG, CVE/NVD, SportsDB und USGS. Dadurch ist der Benchmark so gestaltet, dass er nicht leicht mit Vorwissen bestehender Modelle lösbar ist. Außerdem werden weltweit stark bekannte Ereignisse ausgeschlossen, um die Wahrscheinlichkeit zu senken, dass bloße Erinnerung oder naheliegendes Allgemeinwissen zur richtigen Antwort führen. Infolgedessen blieben alle evaluierten Agenten bei einer Closed-Book-Genauigkeit von unter 2 %, auch die suchgestützten Ergebnisse lagen gegenüber BrowseComp um 25 bis 40 Punkte niedriger, und bisherige Modellrankings konnten die Leistung nicht mehr zuverlässig vorhersagen. Letztlich zeigt die Studie überzeugend, dass bei der Bewertung von Suchagenten nicht entscheidend ist, „wie gut sie bestätigen, was sie bereits wissen“, sondern „wie gut sie unbekannte Fakten jenseits ihrer aktuellen Wissensgrenzen tatsächlich finden“.

Abstract

Führen LLM-basierte Suchagenten wirklich Suche aus, oder nutzen sie das Web, um zu verifizieren, was sie bereits wissen? Wir untersuchen diese Frage auf BrowseComp mit drei diagnostischen Metriken. Unsere Analyse zeigt Intrinsic Knowledge Dependence (IKD): Selbst mit Zugriff auf Werkzeuge stützen sich Agenten oft auf intrinsisches Wissen – also Informationen, die bereits vor der Suche im Modell kodiert waren – statt auf externe Evidenz, die durch Suche gewonnen wurde. Agenten beantworten bis zu 44,5 % der BrowseComp-Fragen ohne Werkzeuge, erzeugen mehr als die Hälfte ihrer Suchanfragen aus intern generierten Hypothesen statt aus bei der Suche gewonnenen Hinweisen und zeigen schlechtere Leistung als Closed-Book-Baselines, wenn Evidenz entfernt wird, die die Antwort stützt. Diese Ergebnisse deuten darauf hin, dass statische Such-Benchmarks eher erinnerungsgestützte Verifikation als evidenzgetriebene Entdeckung belohnen können und damit verwechseln, was Agenten bereits wissen und was sie tatsächlich finden können.

Anschließend stellen wir LiveBrowseComp vor, einen Deep-Search-Benchmark, der darauf ausgelegt ist, Agenten jenseits ihres intrinsischen Wissensbereichs zu bewerten. Der Benchmark besteht aus 335 von Menschen verfassten Fragen, deren Antworten von Fakten abhängen, die innerhalb der 90 Tage vor der Erstellung des Benchmarks veröffentlicht wurden. Die Fragen wurden aus 6 aktualisierten Quellen extrahiert und so gefiltert, dass weltweit stark bekannte Ereignisse ausgeschlossen wurden. Auf LiveBrowseComp bleiben alle evaluierten Agenten unter 2 % Closed-Book-Genauigkeit, suchgestützte Scores fallen gegenüber BrowseComp um 25–40 Punkte, und frühere Modellrankings sagen die Leistung nicht mehr zuverlässig voraus. LiveBrowseComp ist unter https://huggingface.co/datasets/Forival/LiveBrowseComp verfügbar.

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.

Paper-Link

https://arxiv.org/abs/2605.28721

Weiterlesen

https://huggingface.co/datasets/Forival/LiveBrowseComp

Informationsengpass zum Erlernen des Phasenraums von Dynamiken aus hochdimensionalen experimentellen Daten / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

Paper-Einführung

Die Frage, aus hochdimensionalen Bild- oder Zeitreihenbeobachtungen die Zustandsvariablen zu identifizieren, die die tatsächliche Dynamik eines Systems bestimmen, gilt in der Physik, Biologie und der Forschung zu komplexen Systemen seit Langem als äußerst wichtige Aufgabe. Die Beobachtungswerte selbst enthalten oft viel Rauschen und redundante Information, doch dahinter liegt häufig eine vergleichsweise niedrigdimensionale Phasenraumstruktur (phase space). Der Kern des Problems besteht daher nicht darin, die Beobachtungen unverändert zu rekonstruieren, sondern die latenten Koordinaten zu finden, die diese Dynamik am besten beschreiben. Auf Grundlage dieser Perspektive schlagen die Autoren DySIB (Dynamical Symmetric Information Bottleneck) vor, das niedrigdimensionale Repräsentationen lernt, indem es die prädiktive wechselseitige Information (predictive mutual information) zwischen vergangenen und zukünftigen Beobachtungsfenstern maximiert und zugleich die Komplexität der latenten Repräsentation begrenzt. Ein wichtiges Merkmal dieses Ansatzes ist, dass das Lernen – anders als bei Autoencodern, die den Rekonstruktionsfehler direkt minimieren – ausschließlich im latenten Raum erfolgt, ohne die Eingabebilder zu rekonstruieren. Dadurch können Detailvariationen, die für die Vorhersage der Dynamik irrelevant sind, konsequent entfernt werden.

Die Methodik von DySIB erweitert das Information-Bottleneck-Prinzip auf das Problem des Dynamiklernens. Die latente Repräsentation ist dabei nicht bloß ein komprimierter Vektor, sondern so ausgelegt, dass sie eher die Rolle einer hinreichenden Statistik (sufficient statistic) übernimmt, die die Zukunft gut vorhersagt. Dazu verwendet der Ansatz eine Struktur, die Vergangenheit und Zukunft symmetrisch behandelt, schätzt die prädiktive Information mithilfe der InfoNCE-Untergrenze und steuert die Komplexität der Repräsentation über eine gaußsche Priorverteilung. Zusätzlich werden Time-Delay-Embedding und ein Shared Encoder eingesetzt, um vergangene und zukünftige Fenster anhand desselben geometrischen Bezugsrahmens abzubilden, was Vergleichbarkeit und Interpretierbarkeit im latenten Raum erhöht. Diese Gestaltung unterscheidet sich von bestehenden Vorhersagemodellen dadurch, dass sie nicht auf die Erzeugung zukünftiger Frames abzielt, sondern auf das Erlernen eines Koordinatensystems, das die wesentliche Struktur der Dynamik trägt.

Die empirische Validierung erfolgte mit experimentellen Videodaten eines physikalischen Pendels. Da bei diesem System der tatsächliche Zustandsraum bereits bekannt ist, stellt es einen idealen Prüfstand dar, um die Konsistenz der gelernten latenten Koordinaten streng zu bewerten. Im Ergebnis wählte DySIB die latente Dimension und die Länge des Zeitfensters selbstkonsistent passend zu den Daten und rekonstruierte eine zweidimensionale Darstellung, die mit den tatsächlichen Freiheitsgraden des Pendels übereinstimmt. Die gelernten Koordinaten entsprachen dabei glatt dem Winkel und der Winkelgeschwindigkeit. Darüber hinaus reproduzierte diese Repräsentation stabile Gleichgewichtspunkte, instabile Sättel, die Separatrix sowie die ringförmige topologische Struktur, die Rotation und Schwingung voneinander trennt. Damit zeigte sich, dass das Verfahren über bloße visuelle Ähnlichkeit hinaus zugleich Dimensionalität, Topologie und Geometrie erfasst. Dass diese Rekonstruktion sogar bei Videos mit geringer Auflösung möglich war, stützt zusätzlich, dass DySIB unnötige Beobachtungsdetails verwirft und nur dynamisch relevante Information extrahiert.

Die Bedeutung dieser Arbeit liegt darin, zu zeigen, dass sich aus hochdimensionalen Beobachtungen direkt interpretierbare dynamische Koordinaten gewinnen lassen. Insbesondere weil damit die in der Physik seit Langem verwendeten Konzepte von Zustandsvariablen, effektiven Variablen und Ordnungsparametern datengetrieben rekonstruiert werden, kann DySIB als methodische Brücke zwischen traditioneller theoretischer Physik und modernem Representation Learning verstanden werden. Zugleich macht die Arbeit Grenzen wie die Nicht-Eindeutigkeit latenter Repräsentationen, Gauge Freedom und die Frage der Übertragbarkeit auf komplexere nichtlineare Systeme deutlich und lässt Raum für eine künftige Generalisierung auf stark verrauschte Daten, chaotische Systeme und Multiskalensysteme. Dennoch weist diese Arbeit experimentell nach, dass sich mithilfe prädiktiver Information allein Koordinaten des realen Phasenraums rekonstruieren lassen, und eröffnet damit einen neuen Forschungsweg von Rohbeobachtungen hin zu interpretierbaren Bewegungsgleichungen.

Abstract

Die Identifikation dynamischer Zustandsvariablen eines Systems aus hochdimensionalen Beobachtungen ist ein zentrales Problem in den gesamten Physical Sciences. Die Herausforderung besteht darin, dass die Zustandsvariablen nicht direkt beobachtbar sind und ohne Supervision aus rohen hochdimensionalen Daten erschlossen werden müssen. Hier stellen wir DySIB (Dynamical Symmetric Information Bottleneck) vor, eine Methode zum Erlernen niedrigdimensionaler Repräsentationen von Zeitreihendaten, die die prädiktive wechselseitige Information zwischen vergangenen und zukünftigen Beobachtungsfenstern maximiert und zugleich die Komplexität der Repräsentation bestraft. Diese Zielfunktion arbeitet vollständig im latenten Raum und erfordert keine Rekonstruktion der Beobachtungen. Wir wenden DySIB auf einen experimentellen Video-Datensatz eines physikalischen Pendels an, bei dem der zugrunde liegende Zustandsraum bekannt ist. Mit Hyperparametern der Lernarchitektur, die durch die Daten selbstkonsistent festgelegt werden, rekonstruiert die Methode eine zweidimensionale Repräsentation, die mit Dimensionalität, Topologie und Geometrie des Pendel-Phasenraums übereinstimmt, wobei sich die gelernten Koordinaten glatt an den kanonischen Winkel und die Winkelgeschwindigkeit anpassen. Diese Ergebnisse zeigen an einem gut charakterisierten experimentellen System, dass prädiktive Information im latenten Raum genutzt werden kann, um interpretierbare dynamische Koordinaten direkt aus hochdimensionalen Daten zu rekonstruieren.

Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.

Paper-Link

https://arxiv.org/abs/2604.24662

AutoScientists: Selbstorganisierende Agenten-Teams für langfristige wissenschaftliche Experimente / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

[IMG] AutoScientists: Selbstorganisierende Agenten-Teams für langfristige wissenschaftliche Experimente / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
|1028x488

Paper-Einführung

In langfristigen wissenschaftlichen Experimenten wiederholt sich ein Zyklus aus Hypothesenbildung, Versuchsdesign, Durchführung und anschließender Kurskorrektur auf Basis der Ergebnisse. AutoScientists formalisiert diesen Prozess als ein iteratives Suchproblem und schlägt dafür ein verteiltes Agentensystem vor. Während bestehende KI-Agenten meist einer einzelnen Forschungsbahn folgen oder nur von einem zentralen Planer vorgegebene Ziele ausführen, ist dieser Ansatz so ausgelegt, dass mehrere Agenten einen gemeinsamen Zustand (shared state) lesen und schreiben und sich dabei selbst zu Teams formieren und neu organisieren. Die Kernidee besteht darin, nicht zentral gebündelte Anweisungen zu geben, sondern die Agenten sich entsprechend der Art und Weise, wie sich Evidenz ansammelt, autonom um vielversprechende Hypothesen sammeln zu lassen, ihre Vorschläge vor dem Einsatz experimenteller Ressourcen gegenseitig kritisch zu prüfen und sowohl Erfolge als auch Fehlschläge zu teilen, um unnötig redundante Suche zu verringern. Dazu definiert die Arbeit auf Basis von Aufgabenbeschreibung, initialem Programm, Trainingsdatensatz und Bewertungsmetriken ein Optimierungsproblem, bei dem im Suchraum ein Programm gefunden werden soll, das die Evaluierungsleistung maximiert, und trennt dabei Trainingsdaten und Validierungsdaten sowie bei Bedarf Cross-Validation (CV), um die Bewertungskriterien langfristiger Experimente klar festzulegen. Diese Problemformulierung ist insofern bedeutsam, als sie wissenschaftliche Entdeckung nicht als bloße einmalige Vorhersage, sondern als Forschungsprozess versteht, in dem Änderungen und Validierungen auf Programmebene fortlaufend akkumuliert werden.

Die Funktionsweise von AutoScientists besteht hauptsächlich aus einem Zyklus von Diskussions- und Ausführungsphasen. In der Diskussionsphase erörtern die Agenten auf Grundlage des aktuellen Champion-Modells als bestes Kandidatenmodell, vergangener Experimentaufzeichnungen und der Inhalte des gemeinsamen Forums, welche Hypothesen vielversprechend sind; anfangs schlagen sie breit verschiedene Suchrichtungen vor, kritisieren anschließend gegenseitig ihre Ideen und identifizieren blinde Flecken im Suchraum. In der anschließenden Ausführungsphase führen die so gebildeten Teams parallel Experimente durch und protokollieren die Ergebnisse jedes Experiments in Experimentlogs und im gemeinsamen Forum, sodass andere Teams sie sofort nutzen können. Besonders hervorzuheben ist, dass das System die Funktionen trennt, indem Agenten in der Rolle von Analysten bislang unversuchte Richtungen aufspüren und vorschlagen, während Agenten in der Rolle von Experimentatoren tatsächliche Codeänderungen und das Training ausführen; so werden Engpässe reduziert, die in langen Experimentzyklen häufig auftreten. Außerdem speichert es fehlgeschlagene Experimente in einer separaten Liste, um Wiederholungen derselben Richtung zu vermeiden, und sieht ein Verfahren vor, bei dem Leistungsverbesserungen, die möglicherweise nur statistisches Rauschen sind, erst nach erneuter Prüfung mit zusätzlichen Seeds hochgestuft werden, damit zufällige Verbesserungen nicht fälschlich als echter Fortschritt gelten.

Die größte Stärke dieses Ansatzes liegt nicht einfach darin, mehr Ideen zu erzeugen, sondern darin, eine Struktur für die systematische Akkumulation experimentellen Wissens zu schaffen. Die Agenten behalten internen Zustand und Gedächtnis bei und lernen über lange Zeiträume hinweg, analysieren die Mechanismen erfolgreicher Änderungen und verknüpfen sie mit Folgehypothesen; selbst fehlgeschlagene Richtungen bleiben als Lernressource des Gesamtsystems erhalten. Dadurch liefert AutoScientists als Forschungsartefakte nicht nur das Programm mit der besten Leistung, sondern auch eine Model Card (model card) und einen Forschungsbericht, wodurch Reproduzierbarkeit und Interpretierbarkeit zugleich gesichert werden. Dieses Design unterscheidet sich klar von bisherigen Agentenansätzen, weil es für langfristige wissenschaftliche Experimente entscheidende Eigenschaften wie Adaptivität, Parallelität und Lernen aus Fehlschlägen in einem einzigen System zusammenführt. Tatsächlich erzielte die Methode im biomedizinischen Machine Learning, bei der Optimierung des Trainings von Sprachmodellen und bei der Vorhersage der Proteinfunktion bessere Ergebnisse als bestehende Agenten und erreichte in BioML-Bench über 24 Aufgaben hinweg einen durchschnittlichen Leaderboard-Perzentilwert von 74,4 % sowie eine um 8,33 % bessere Leistung als der stärkste Einzelagent. Auch bei der Optimierung des GPT-Trainings erreichte sie das Ziel bei den Validierungs-Bits-per-Byte 1,9-mal schneller als Autoresearch; in ProteinGym übertraf sie sowohl beim ACE2-Spike-Bindungsproblem als auch über alle 217 Assays hinweg die bisher beste Leistung und belegt damit, dass verteilte, selbstorganisierende Agenten bei langfristiger wissenschaftlicher Exploration einen praktischen Effekt erzielen können.

Abstract

Wissenschaftliche Forschung verläuft in iterativen Zyklen aus Hypothesengenerierung, Versuchsplanung, Durchführung und Überarbeitung. AI-Agenten können Teile dieses Prozesses automatisieren, doch bestehende Ansätze folgen meist einer einzelnen Forschungsbahn oder werden über einen zentralen Planer mit festen Zielen koordiniert. Dadurch fällt es ihnen schwer, parallele Exploration aufrechtzuerhalten, sich an verändernde experimentelle Evidenz anzupassen oder Wissen über erfolglose Richtungen in lang laufenden Experimenten zu bewahren. Wir stellen AutoScientists vor, ein dezentrales Team von AI-Agenten für lang laufende computergestützte wissenschaftliche Experimente. Die Agenten interpretieren einen geteilten Experimentzustand, organisieren sich selbst in Teams um vielversprechende Hypothesen, hinterfragen Vorschläge, bevor sie experimentelle Rechenressourcen einsetzen, und teilen Erfolge wie Misserfolge, um redundante Exploration zu verringern. Bei gleichem Experimentbudget zeigt AutoScientists bessere Leistung als frühere AI-Agenten in biomedizinischem Machine Learning, Optimierung des Trainings von Sprachmodellen und Vorhersage von Proteinf Fitness. In BioML-Bench, das biomedizinische Bildgebung, Protein Engineering, Single-Cell-Omics und Wirkstoffforschung umfasst, erreicht AutoScientists über 24 Tasks hinweg einen durchschnittlichen Leaderboard-Perzentilwert von 74,4 % und verbessert sich damit gegenüber dem stärksten AI-Agenten um +8,33 %. Bei der Optimierung des GPT-Trainings erreicht AutoScientists die angestrebten Validation Bits-per-Byte 1,9-mal schneller als Autoresearch und findet auch von einem anfänglichen Champion-Startpunkt aus weitere Verbesserungen, wo ein Single-Agent-Ansatz keine findet (7 gegenüber 0 akzeptierten Verbesserungen). Bei der ProteinGym-Fitnessvorhersage entdeckt AutoScientists eine Methode für die ACE2-Spike-Bindung, die das aktuelle State-of-the-Art-Modell bei der Spearman-Korrelation um +12,5 % übertrifft. Ohne Anpassungen auf alle 217 ProteinGym-Assays angewendet, verbessert dieselbe Methode den bisherigen State of the Art um +6,5 % bei der Spearman-Korrelation.

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).

Paper-Link

https://arxiv.org/abs/2605.28655

Weiterführende Links

https://autoscientists.openscientist.ai/

https://github.com/mims-harvard/AutoScientists

⚠️Werbung⚠️: War dieser von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellte Beitrag hilfreich? Wenn Sie Mitglied werden, schicken wir Ihnen wichtige Beiträge per E-Mail💌 zu! Über Telegram oder Slack/Discord/Teams/Dooray/GoogleChat usw. können Sie sich auch über neue Beiträge benachrichtigen lassen. :D

[2026/06/08 ~ 14] Lesenswerte AI/ML-Papers dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

Kernaussagen nach Paper

Die Ökonomie des Geistes: Emergent Multi-Agent Intelligence through Economic Interactions / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Paper-Einführung

Abstract

Paper-Link

Weiterführende Links

AutoForge: Automatisierte Umgebungssynthese für agentisches Reinforcement Learning / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

Paper-Einführung

Abstract

Paper-Link

APEX: Automatisierter Prompt-Engineering-Experte mit dynamischer Datenauswahl / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

Einführung in das Paper

Abstract

Paper-Link

Self-Harness: Sich selbst verbessernde Harnesses / Self-Harness: Harnesses That Improve Themselves

Paper-Einführung

Abstract

Paper-Link

Können große Sprachmodelle (LLMs) klassische Hyperparameter-Optimierungsalgorithmen schlagen? Eine Studie zu autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Paper-Einführung

Abstract

Paper-Link

Weiterführende Links

FP8 reicht aus (Teil 1): Widerlegung von Hardware-FP64 als heiligem Gral des HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

Paper-Vorstellung

Abstract

Paper-Link

Grenzen und Chancen von AI-Reviewern: Eine Studie, in der 45 Fachwissenschaftler die Reviews von Nature-Family-Papers geprüft haben / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Paper-Einführung

Abstract

Paper-Link

Weiterführende Links

LiveBrowseComp: Suchen Suchagenten wirklich, oder verifizieren sie nur, was sie bereits wissen? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

Paper-Einführung

Abstract

Paper-Link

Weiterlesen

Informationsengpass zum Erlernen des Phasenraums von Dynamiken aus hochdimensionalen experimentellen Daten / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

Paper-Einführung

Abstract

Paper-Link

AutoScientists: Selbstorganisierende Agenten-Teams für langfristige wissenschaftliche Experimente / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

Paper-Einführung

Abstract

Paper-Link

Weiterführende Links

Verwandte Beiträge

Noch keine Kommentare.