- Tongyi DeepResearch ist der erste vollständig Open-Source-Web-Agent, der eine mit OpenAI DeepResearch vergleichbare Leistung zeigt, und erzielt Spitzenergebnisse bei komplexen Benchmarks zur Informationssuche
- Tongyi Lab ist einer der KI-Forschungs- und Entwicklungsbereiche der Alibaba Group und konzentriert sich auf große Sprachmodelle (LLMs), multimodale Modelle und Agenten-Technologien; dort wurde auch das QWEN-Modell entwickelt
- Aufbau einer End-to-End-Trainingspipeline, die Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) integriert
- Stärkung von langfristigem Schlussfolgern und Planungsfähigkeiten durch großskalige QA-Erzeugung auf Basis vollständig synthetischer Daten und das IterResearch-Paradigma
- Unterstützt ReAct-Modus und Heavy-Modus für alles von einfachem Schlussfolgern bis hin zu komplexer mehrstufiger Recherche; stabile Leistung durch Reinforcement Learning auf Basis des GRPO-Algorithmus
- Wird bereits tatsächlich in internen und externen Alibaba-Diensten wie Gaode Mate und Tongyi FaRui eingesetzt und belegt damit die Praxistauglichkeit und Skalierbarkeit von Open-Source-KI-Forschungsagenten
Vom Chatbot zum autonomen Agenten
- Tongyi DeepResearch ist der erste vollständig Open-Source-Web-Agent, der das Leistungsniveau von OpenAI DeepResearch erreicht
- Erreichte 32.9 bei Humanity’s Last Exam(HLE), 43.4 bei BrowseComp, 46.7 bei BrowseComp-ZH und 75 Punkte bei xbench-DeepSearch
- Übertrifft alle bisherigen kommerziellen und Open-Source-Deep-Research-Agenten
- Neben dem Modell wird auch die gesamte datensynthesebasierte Trainingsmethodik offengelegt
- Bereitgestellt werden automatisierte Datengenerierung und Reinforcement-Learning-Infrastruktur für den gesamten Prozess einschließlich Agentic CPT, SFT und RL
- Das ReAct-Framework entfaltet auch ohne Prompt Engineering starke inhärente Fähigkeiten
- Im Heavy Mode wird die Leistungsgrenze komplexer Planungs- und Schlussfolgerungsfähigkeiten demonstriert
Kontinuierliches Pre-Training und Post-Training auf Basis synthetischer Daten
- Einführung von Agentic CPT zum Aufbau eines agentischen Basismodells
- Über das AgentFounder-System werden großskalige Datensynthese und ein zyklisches Data-Flywheel umgesetzt
- In den Phasen Datenrekonstruktion und Fragengenerierung werden Dokumente, Crawling-Daten, Wissensgraphen und Tool-Call-Protokolle integriert
- Diese werden zu einem entitätszentrierten Open-World-Wissensspeicher rekonstruiert und in vielfältige (Frage, Antwort)-Paare überführt
- Durch Action Synthesis werden primäre und höherstufige Aktionsdaten erzeugt
- Durch Modellierung mehrstufiger Entscheidungsstrukturen werden Entscheidungsfähigkeiten gestärkt
-
Post-Training-Daten
- Aufbau einer vollautomatisierten Pipeline zur Erzeugung synthetischer QA-Daten
- Über eine Reihe von Forschungsarbeiten wie WebWalker, WebSailor und WebShaper werden graphbasierte synthetische QA-Daten mit gesteuerter Schwierigkeit erzeugt
- Realistische Informationsstrukturen durch random-walk-basierte Wissensgraphen und Fusion tabellarischer Daten
- Über „atomare Operationen“ wie Entity-Merging wird die Schwierigkeit systematisch gesteuert
- Mengenlehrebasierte Problemformalisierung minimiert Diskrepanzen zwischen Informationsstruktur und Schlussfolgerungsstruktur
- Steigert die Effizienz der QA-Konsistenzprüfung
- Eine automatisierte Data Engine erzeugt Forschungsfragen auf Promotionsniveau
- Ausgehend von interdisziplinären Wissensbasen werden über iterative Schleifen steigender Komplexität hochschwierige QA-Daten generiert
- Mit den Frameworks ReAct und IterResearch werden vielfältige Schlussfolgerungsmuster erlernt
- IterResearch rekonstruiert in jeder Runde den Arbeitsbereich neu und stärkt dadurch langfristige Planungsfähigkeiten
Rollout-Modi
- Das Modell unterstützt zwei Ausführungsmodi: ReAct-Modus und Heavy-Modus
-
Native ReAct Mode
- Folgt einer Thought–Action–Observation-Schleifenstruktur und liefert auch ohne Prompt Engineering starke Leistung
- Mit 128K Kontextlänge sind viele Interaktionsrunden möglich
- Einfachheit und Allgemeingültigkeit bieten einen klaren Maßstab zur Bewertung der inhärenten Fähigkeiten des Modells
- Gemäß dem Prinzip von “The Bitter Lesson” wird eine skalierbare allgemeine Methodik verfolgt
-
Heavy Mode
- Führt auf Basis des IterResearch-Paradigmas komplexe mehrstufige Rechercheaufgaben aus
- In jeder Runde werden nur die Kernergebnisse beibehalten und ein neuer Arbeitsbereich rekonstruiert
- Ein zentraler Bericht wird fortlaufend aktualisiert, um hochwertiges Schlussfolgern aufrechtzuerhalten
- Über das Research–Synthesis-Framework werden die Ergebnisse mehrerer Forschungsagenten parallel erkundet und anschließend integriert
- So werden innerhalb begrenzter Kontexte breitere Suchpfade erschlossen
End-to-End-Trainingspipeline für Agenten
- Aufbau einer vollständig integrierten Trainingsschleife von Agentic CPT → SFT → RL
- In der On-policy-RL-Phase wird der Algorithmus Group Relative Policy Optimization (GRPO) verwendet
- Stabilität wird durch tokenbasierte Policy-Gradient-Losses, Leave-one-out-Strategie und Filterung negativer Samples sichergestellt
- Während des Trainings steigen die Belohnungen, und eine hohe Policy-Entropie bleibt erhalten, sodass die Exploration fortgesetzt wird
- Synthetische Daten liefern eine konsistentere Verteilung als von Menschen annotierte Daten wie BrowseComp und verbessern so die Trainingseffizienz
-
Infrastruktur
- Synthetische Trainingsumgebung: Aufbau einer Simulationsumgebung mit einer Offline-Wikipedia-DB und einem angepassten Tool-Set
- Stabile Tool-Sandbox: Verhindert Fehler bei Tool-Aufrufen durch Caching, Retries und Backup-APIs
- Automatisierte Datenkuratierung: Echtzeit-Datensynthese und -Filterung entsprechend der Trainingsdynamik verbessern Stabilität und Leistung
- Asynchrones On-policy-Framework: Implementierung einer schrittweisen asynchronen RL-Schleife auf Basis von rLLM
- Dadurch wird eine selbst-evolvierende Trainingsschleife für KI-Agenten vervollständigt, die auch in komplexen dynamischen Umgebungen stabile Problemlösung ermöglicht
Praxisbeispiele
- Gaode Mate (Karten- und Navigationsagent)
- In Zusammenarbeit mit dem Amap-Team wurde der KI-Copilot „Xiao Gao“ entwickelt
- Führt mit mehrstufigem Schlussfolgern komplexe Planungen aus, etwa Reiserouten inklusive haustierfreundlicher Unterkünfte
- Tongyi FaRui (Agent für juristische Recherche)
- Führt mehrstufige Recherchen auf Anwaltsniveau durch, darunter Suche nach Präzedenzfällen, Cross-Checking von Gesetzen und Integration von Analysen
- Alle Schlussfolgerungen basieren auf verifizierbaren juristischen Materialien und enthalten präzise Zitate
Grenzen und nächste Aufgaben
- Die 128K-Kontextgrenze schränkt die Bearbeitung extrem langfristiger Aufgaben ein
- Die Skalierbarkeit über MoE-Modelle mit mehr als 30B Parametern hinaus muss noch validiert werden
- Geplant ist Forschung zu teilweisen Rollouts und Off-policy-Training zur Verbesserung der Reinforcement-Learning-Effizienz
Forschungsserie
- Veröffentlichung von 11 verwandten Arbeiten, darunter WebWalker, WebDancer, WebSailor, WebShaper und WebWatcher
- In den vergangenen sechs Monaten wurden monatlich technische Berichte veröffentlicht; diesmal erscheinen zusammen mit dem Tongyi DeepResearch‑30B‑A3B-Modell sechs neue Berichte gleichzeitig
- Die Entwicklung der nächsten Generation agentischer Modelle soll fortgesetzt werden
1 Kommentare
Hacker-News-Kommentare
Eine Architektur, bei der mehrere Agenten parallel laufen und leichte Modelle Suche und Extraktion übernehmen, während das 30B-Modell Planung, Tool-Routing und Verifikation erledigt, ist effizient.
Die Spezialisierungsstruktur von MoE passt gut zu dezentraler Agenten-KI, allerdings ist Orchestrierung für Retries, Konsens und die Auswertung mehrstufiger Web-Recherche nötig.
Wenn große Modelle zu groß werden und beim Pretraining an Grenzen stoßen, könnte es mehr zweckgebundene Modelle geben.
Dass GPT‑3.5 stark in Schach war, neuere Modelle aber nicht, deutet darauf hin, dass es Trade-offs bei den Trainingsdaten gibt.
Kleine Modelle für bestimmte Aufgaben feinzujustieren ist teuer, und die Entwicklung großer Modelle ist so schnell, dass man rasch zurückfällt.
Wenn sich das Entwicklungstempo aber verlangsamt, wird das Training kleiner Modelle wieder sinnvoller.
Ich dachte schon früher, dass es schön wäre, ein 4B- bis 8B-Modell zu haben, das nur ein bestimmtes Framework wie SvelteKit wirklich gut kennt.
Ich bin nicht sicher, dass die Qualität großer Modelle immer besser ist, und wenn ein kleines Modell auf einer einzigen GPU läuft, wäre das viel praktischer.
Ich hatte meinem Bruder früher einmal die Idee für eine Website zum Vergleich von Schach-LLMs vorgeschlagen, aber sie wurde noch nicht umgesetzt.
Als ich es tatsächlich ausprobierte, gab es viele halluzinierte Züge.
Der Vorteil ist doch, dass sich nur die nötigen Teile individuell trainieren und verbessern lassen.
Meiner Erfahrung nach kommen sie nicht über das Niveau von Suchmaschinen-Zusammenfassungen hinaus und erzeugen nur fade Berichte.
Es ist nicht auf dem Niveau eines Anwalts, aber für Projekte ohne Budget eine große Hilfe.
Es wirkt eher wie ein Consulting-Bericht, der „qualitativ hochwertig aussehen“ soll, als etwas für Menschen, die wirklich lernen wollen, daher ist der praktische Nutzen gering.
Bei Fragen wie „Wurde dieses Thema schon einmal erforscht?“ hilft es dabei, Beispiele als Referenz zu finden.
Es ersetzt eigene Recherche nicht vollständig, hilft aber sehr bei der ersten Informationsaufbereitung.
Qwen3 4B lief sogar auf meiner integrierten Intel-GPU gut, was mich beeindruckt hat.
Früher hatte ich die Idee eines „ultragünstigen Modells zur Erkennung schädlicher Inhalte“, und so ein kleines LLM könnte diese Rolle übernehmen.
Außerdem könnte man es wohl auch für Routing einsetzen.
Allerdings ist das Lesen wegen der CSS-Eigenschaft
word-break: break-word;sehr anstrengend.Ich würde es gern auf einer 2080Ti mit 128 GB VRAM (?) ausprobieren, selbst wenn es langsam läuft.
Ich finde gerade die Einschränkungen reizvoll.
Die 32-GB-Version bekommt man bei AliExpress für 150 bis 250 Dollar, und mit mehreren Karten sind 128 GB VRAM möglich.
Sie ist nicht so schnell wie aktuelle GPUs, aber durchaus brauchbar.
Sie lässt sich über ollama.com installieren.
Aber wie man eine 2080Ti mit 128 GB VRAM haben soll, würde mich interessieren.
Es ist langsam, funktioniert aber auch offline gut und lässt sich sogar im Café nutzen.
Da ich Ollama nutze, muss ich bei neueren Modellen warten, bis sie portiert werden.
Ryzen 9 9950X, 96 GB RAM, zwei RTX 3090, 1600W-PSU.
Damit lassen sich FP8-quantisierte 30B-Modelle problemlos betreiben.
Dieses Modell ist zwar ein 30B-MoE, hat aber nur etwa 3B aktive Parameter und ist damit Qwen3 MoE ähnlich.
Ich betreibe auf einem 11 Jahre alten i5‑6600 und einer Radeon 6600 (8 GB) ein 4-Bit-quantisiertes Modell und komme bei 16k Kontext auf etwa 12 tps.
Ein Beispiel für ein Ausführungsskript wurde ebenfalls geteilt.
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Es klingt zwar wie 同意 („zustimmen“), hat aber eine andere Bedeutung.
Siehe die offizielle Alibaba-Qwen-Seite.
Das Ergebnis hängt davon ab, ob GPT‑5, GPT‑4o, o3 oder ein anderes Modell verwendet wird.
Das sind suchbasierte Long-Running-Tasks, die 5 bis 10 Minuten lang Material sammeln und anschließend einen Bericht mit Zitaten erzeugen.
Das Tongyi-Modell ist auf solche schleifenartigen Such- und Berichtserstellungsprozesse spezialisiert.