10 Punkte von GN⁺ 2025-11-04 | 1 Kommentare | Auf WhatsApp teilen
  • Tongyi DeepResearch ist der erste vollständig Open-Source-Web-Agent, der eine mit OpenAI DeepResearch vergleichbare Leistung zeigt, und erzielt Spitzenergebnisse bei komplexen Benchmarks zur Informationssuche
    • Tongyi Lab ist einer der KI-Forschungs- und Entwicklungsbereiche der Alibaba Group und konzentriert sich auf große Sprachmodelle (LLMs), multimodale Modelle und Agenten-Technologien; dort wurde auch das QWEN-Modell entwickelt
  • Aufbau einer End-to-End-Trainingspipeline, die Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) integriert
  • Stärkung von langfristigem Schlussfolgern und Planungsfähigkeiten durch großskalige QA-Erzeugung auf Basis vollständig synthetischer Daten und das IterResearch-Paradigma
  • Unterstützt ReAct-Modus und Heavy-Modus für alles von einfachem Schlussfolgern bis hin zu komplexer mehrstufiger Recherche; stabile Leistung durch Reinforcement Learning auf Basis des GRPO-Algorithmus
  • Wird bereits tatsächlich in internen und externen Alibaba-Diensten wie Gaode Mate und Tongyi FaRui eingesetzt und belegt damit die Praxistauglichkeit und Skalierbarkeit von Open-Source-KI-Forschungsagenten

Vom Chatbot zum autonomen Agenten

  • Tongyi DeepResearch ist der erste vollständig Open-Source-Web-Agent, der das Leistungsniveau von OpenAI DeepResearch erreicht
    • Erreichte 32.9 bei Humanity’s Last Exam(HLE), 43.4 bei BrowseComp, 46.7 bei BrowseComp-ZH und 75 Punkte bei xbench-DeepSearch
    • Übertrifft alle bisherigen kommerziellen und Open-Source-Deep-Research-Agenten
  • Neben dem Modell wird auch die gesamte daten­synthesebasierte Trainingsmethodik offengelegt
    • Bereitgestellt werden automatisierte Datengenerierung und Reinforcement-Learning-Infrastruktur für den gesamten Prozess einschließlich Agentic CPT, SFT und RL
  • Das ReAct-Framework entfaltet auch ohne Prompt Engineering starke inhärente Fähigkeiten
    • Im Heavy Mode wird die Leistungsgrenze komplexer Planungs- und Schlussfolgerungsfähigkeiten demonstriert

Kontinuierliches Pre-Training und Post-Training auf Basis synthetischer Daten

  • Einführung von Agentic CPT zum Aufbau eines agentischen Basismodells
    • Über das AgentFounder-System werden großskalige Datensynthese und ein zyklisches Data-Flywheel umgesetzt
  • In den Phasen Datenrekonstruktion und Fragengenerierung werden Dokumente, Crawling-Daten, Wissensgraphen und Tool-Call-Protokolle integriert
    • Diese werden zu einem entitätszentrierten Open-World-Wissensspeicher rekonstruiert und in vielfältige (Frage, Antwort)-Paare überführt
  • Durch Action Synthesis werden primäre und höherstufige Aktionsdaten erzeugt
    • Durch Modellierung mehrstufiger Entscheidungsstrukturen werden Entscheidungsfähigkeiten gestärkt
  • Post-Training-Daten

    • Aufbau einer vollautomatisierten Pipeline zur Erzeugung synthetischer QA-Daten
      • Über eine Reihe von Forschungsarbeiten wie WebWalker, WebSailor und WebShaper werden graphbasierte synthetische QA-Daten mit gesteuerter Schwierigkeit erzeugt
    • Realistische Informationsstrukturen durch random-walk-basierte Wissensgraphen und Fusion tabellarischer Daten
      • Über „atomare Operationen“ wie Entity-Merging wird die Schwierigkeit systematisch gesteuert
    • Mengenlehrebasierte Problemformalisierung minimiert Diskrepanzen zwischen Informationsstruktur und Schlussfolgerungsstruktur
      • Steigert die Effizienz der QA-Konsistenzprüfung
    • Eine automatisierte Data Engine erzeugt Forschungsfragen auf Promotionsniveau
      • Ausgehend von interdisziplinären Wissensbasen werden über iterative Schleifen steigender Komplexität hochschwierige QA-Daten generiert
    • Mit den Frameworks ReAct und IterResearch werden vielfältige Schlussfolgerungsmuster erlernt
      • IterResearch rekonstruiert in jeder Runde den Arbeitsbereich neu und stärkt dadurch langfristige Planungsfähigkeiten

Rollout-Modi

  • Das Modell unterstützt zwei Ausführungsmodi: ReAct-Modus und Heavy-Modus
  • Native ReAct Mode

    • Folgt einer Thought–Action–Observation-Schleifenstruktur und liefert auch ohne Prompt Engineering starke Leistung
      • Mit 128K Kontextlänge sind viele Interaktionsrunden möglich
    • Einfachheit und Allgemeingültigkeit bieten einen klaren Maßstab zur Bewertung der inhärenten Fähigkeiten des Modells
    • Gemäß dem Prinzip von “The Bitter Lesson” wird eine skalierbare allgemeine Methodik verfolgt
  • Heavy Mode

    • Führt auf Basis des IterResearch-Paradigmas komplexe mehrstufige Rechercheaufgaben aus
      • In jeder Runde werden nur die Kernergebnisse beibehalten und ein neuer Arbeitsbereich rekonstruiert
      • Ein zentraler Bericht wird fortlaufend aktualisiert, um hochwertiges Schlussfolgern aufrechtzuerhalten
    • Über das Research–Synthesis-Framework werden die Ergebnisse mehrerer Forschungsagenten parallel erkundet und anschließend integriert
      • So werden innerhalb begrenzter Kontexte breitere Suchpfade erschlossen

End-to-End-Trainingspipeline für Agenten

  • Aufbau einer vollständig integrierten Trainingsschleife von Agentic CPT → SFT → RL
  • In der On-policy-RL-Phase wird der Algorithmus Group Relative Policy Optimization (GRPO) verwendet
    • Stabilität wird durch tokenbasierte Policy-Gradient-Losses, Leave-one-out-Strategie und Filterung negativer Samples sichergestellt
    • Während des Trainings steigen die Belohnungen, und eine hohe Policy-Entropie bleibt erhalten, sodass die Exploration fortgesetzt wird
  • Synthetische Daten liefern eine konsistentere Verteilung als von Menschen annotierte Daten wie BrowseComp und verbessern so die Trainingseffizienz
  • Infrastruktur

    • Synthetische Trainingsumgebung: Aufbau einer Simulationsumgebung mit einer Offline-Wikipedia-DB und einem angepassten Tool-Set
    • Stabile Tool-Sandbox: Verhindert Fehler bei Tool-Aufrufen durch Caching, Retries und Backup-APIs
    • Automatisierte Datenkuratierung: Echtzeit-Datensynthese und -Filterung entsprechend der Trainingsdynamik verbessern Stabilität und Leistung
    • Asynchrones On-policy-Framework: Implementierung einer schrittweisen asynchronen RL-Schleife auf Basis von rLLM
    • Dadurch wird eine selbst-evolvierende Trainingsschleife für KI-Agenten vervollständigt, die auch in komplexen dynamischen Umgebungen stabile Problemlösung ermöglicht

Praxisbeispiele

  • Gaode Mate (Karten- und Navigationsagent)
    • In Zusammenarbeit mit dem Amap-Team wurde der KI-Copilot „Xiao Gao“ entwickelt
    • Führt mit mehrstufigem Schlussfolgern komplexe Planungen aus, etwa Reiserouten inklusive haustierfreundlicher Unterkünfte
  • Tongyi FaRui (Agent für juristische Recherche)
    • Führt mehrstufige Recherchen auf Anwaltsniveau durch, darunter Suche nach Präzedenzfällen, Cross-Checking von Gesetzen und Integration von Analysen
    • Alle Schlussfolgerungen basieren auf verifizierbaren juristischen Materialien und enthalten präzise Zitate

Grenzen und nächste Aufgaben

  • Die 128K-Kontextgrenze schränkt die Bearbeitung extrem langfristiger Aufgaben ein
  • Die Skalierbarkeit über MoE-Modelle mit mehr als 30B Parametern hinaus muss noch validiert werden
  • Geplant ist Forschung zu teilweisen Rollouts und Off-policy-Training zur Verbesserung der Reinforcement-Learning-Effizienz

Forschungsserie

  • Veröffentlichung von 11 verwandten Arbeiten, darunter WebWalker, WebDancer, WebSailor, WebShaper und WebWatcher
  • In den vergangenen sechs Monaten wurden monatlich technische Berichte veröffentlicht; diesmal erscheinen zusammen mit dem Tongyi DeepResearch‑30B‑A3B-Modell sechs neue Berichte gleichzeitig
  • Die Entwicklung der nächsten Generation agentischer Modelle soll fortgesetzt werden

1 Kommentare

 
GN⁺ 2025-11-04
Hacker-News-Kommentare
  • Es ist erfreulich, dass ein 30B-MoE-Modell für „Deep Research“ veröffentlicht wurde.
    Eine Architektur, bei der mehrere Agenten parallel laufen und leichte Modelle Suche und Extraktion übernehmen, während das 30B-Modell Planung, Tool-Routing und Verifikation erledigt, ist effizient.
    Die Spezialisierungsstruktur von MoE passt gut zu dezentraler Agenten-KI, allerdings ist Orchestrierung für Retries, Konsens und die Auswertung mehrstufiger Web-Recherche nötig.
  • Ich frage mich, ob spezialisierte LLMs derzeit explosionsartig zunehmen werden.
    Wenn große Modelle zu groß werden und beim Pretraining an Grenzen stoßen, könnte es mehr zweckgebundene Modelle geben.
    Dass GPT‑3.5 stark in Schach war, neuere Modelle aber nicht, deutet darauf hin, dass es Trade-offs bei den Trainingsdaten gibt.
    • Derzeit sind große allgemeine Modelle in fast jeder Hinsicht überlegen.
      Kleine Modelle für bestimmte Aufgaben feinzujustieren ist teuer, und die Entwicklung großer Modelle ist so schnell, dass man rasch zurückfällt.
      Wenn sich das Entwicklungstempo aber verlangsamt, wird das Training kleiner Modelle wieder sinnvoller.
    • Ich würde gern einen Benchmark für schachstarke LLMs sehen.
      Ich dachte schon früher, dass es schön wäre, ein 4B- bis 8B-Modell zu haben, das nur ein bestimmtes Framework wie SvelteKit wirklich gut kennt.
      Ich bin nicht sicher, dass die Qualität großer Modelle immer besser ist, und wenn ein kleines Modell auf einer einzigen GPU läuft, wäre das viel praktischer.
      Ich hatte meinem Bruder früher einmal die Idee für eine Website zum Vergleich von Schach-LLMs vorgeschlagen, aber sie wurde noch nicht umgesetzt.
    • Ich stimme der Aussage nicht zu, dass GPT‑3.5 gut in Schach war.
      Als ich es tatsächlich ausprobierte, gab es viele halluzinierte Züge.
    • Es wird der Link seed‑tars.com/game‑tars geteilt.
    • Ist das nicht genau der Kern der MoE-Architektur?
      Der Vorteil ist doch, dass sich nur die nötigen Teile individuell trainieren und verbessern lassen.
  • Ich frage mich, ob solche Deep-Research-Tools in der Praxis wirklich nützlich sind.
    Meiner Erfahrung nach kommen sie nicht über das Niveau von Suchmaschinen-Zusammenfassungen hinaus und erzeugen nur fade Berichte.
    • Ich betreibe in Großbritannien eine kleine Website und habe es für Compliance mit rechtlichen Vorgaben verwendet; wenn man Kontext mitgibt, liefert es ziemlich maßgeschneiderte Ergebnisse.
      Es ist nicht auf dem Niveau eines Anwalts, aber für Projekte ohne Budget eine große Hilfe.
    • Ich habe eine ähnliche Erfahrung gemacht.
      Es wirkt eher wie ein Consulting-Bericht, der „qualitativ hochwertig aussehen“ soll, als etwas für Menschen, die wirklich lernen wollen, daher ist der praktische Nutzen gering.
    • Die Berichte sind zwar fad, aber für die Suche nach Quellen nützlich.
      Bei Fragen wie „Wurde dieses Thema schon einmal erforscht?“ hilft es dabei, Beispiele als Referenz zu finden.
    • Ich nutze ChatGPT oft, und wenn ich eine Frage stelle, ordnet es die relevanten Quellen gut.
      Es ersetzt eigene Recherche nicht vollständig, hilft aber sehr bei der ersten Informationsaufbereitung.
    • Selbst wenn es nur Zusammenfassungen auf Suchmaschinen-Niveau sind, reicht das durchaus aus, um neue Ideen oder unknown unknowns zu finden.
  • Ich habe mein früher erstelltes Qwen3-4B-Distill-Modell und einen synthetischen Datensatz auf Hugging Face veröffentlicht.
    • Es wäre schön, wenn dafür ein Hugging Face Space erstellt würde, das direkt im Browser nutzbar ist.
      Qwen3 4B lief sogar auf meiner integrierten Intel-GPU gut, was mich beeindruckt hat.
      Früher hatte ich die Idee eines „ultragünstigen Modells zur Erkennung schädlicher Inhalte“, und so ein kleines LLM könnte diese Rolle übernehmen.
      Außerdem könnte man es wohl auch für Routing einsetzen.
    • Ich habe es mit meiner Websuche-MCP laufen lassen, und bei einem so kleinen Modell habe ich eine solche Deep-Research-Qualität zum ersten Mal gesehen.
  • Insgesamt ist es eine interessante Serie.
    Allerdings ist das Lesen wegen der CSS-Eigenschaft word-break: break-word; sehr anstrengend.
    • Ich habe auch versucht, es zu lesen, aber es fühlt sich an, als würden Wörter nicht zusammenhängen.
  • An einem Sonntagmorgen frage ich mich als hobbymäßig selbsthostender Engineer, wie man das betreiben könnte.
    Ich würde es gern auf einer 2080Ti mit 128 GB VRAM (?) ausprobieren, selbst wenn es langsam läuft.
    Ich finde gerade die Einschränkungen reizvoll.
    • Wenn man günstig an VRAM kommen will, ist die AMD MI50 nicht schlecht.
      Die 32-GB-Version bekommt man bei AliExpress für 150 bis 250 Dollar, und mit mehreren Karten sind 128 GB VRAM möglich.
      Sie ist nicht so schnell wie aktuelle GPUs, aber durchaus brauchbar.
    • Wenn du es lokal schnell ausprobieren willst, ist die Ollama-App am einfachsten.
      Sie lässt sich über ollama.com installieren.
      Aber wie man eine 2080Ti mit 128 GB VRAM haben soll, würde mich interessieren.
    • Ich lasse Modelle auf einem MacBook Pro mit 128 GB Unified Memory laufen.
      Es ist langsam, funktioniert aber auch offline gut und lässt sich sogar im Café nutzen.
      Da ich Ollama nutze, muss ich bei neueren Modellen warten, bis sie portiert werden.
    • Mein aus Budgetgründen zusammengestelltes Setup sieht so aus:
      Ryzen 9 9950X, 96 GB RAM, zwei RTX 3090, 1600W-PSU.
      Damit lassen sich FP8-quantisierte 30B-Modelle problemlos betreiben.
    • Vermutlich war eher RAM als VRAM gemeint.
      Dieses Modell ist zwar ein 30B-MoE, hat aber nur etwa 3B aktive Parameter und ist damit Qwen3 MoE ähnlich.
      Ich betreibe auf einem 11 Jahre alten i5‑6600 und einer Radeon 6600 (8 GB) ein 4-Bit-quantisiertes Modell und komme bei 16k Kontext auf etwa 12 tps.
      Ein Beispiel für ein Ausführungsskript wurde ebenfalls geteilt.
  • Tongyi-Modelle sind auch über OpenRouter verfügbar, einschließlich einer kostenlosen Version.
    openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
  • Jemand macht den Witz, ob „Deep research“ vielleicht als „Zustimmung“ übersetzt worden sei.
    • Tatsächlich lautet der chinesische Name 通义千问(Tongyi Qianwen) und bedeutet so viel wie „alle Fragen kennen“.
      Es klingt zwar wie 同意 („zustimmen“), hat aber eine andere Bedeutung.
      Siehe die offizielle Alibaba-Qwen-Seite.
  • Die Gewichte dieses Modells wurden bereits vor einem Monat veröffentlicht.
    • Trotzdem verfolgt nicht jeder alles in Echtzeit, daher kann auch ein Monat altes Modell noch nützlich sein.
    • Dann würde mich interessieren, wie der Leistungsvergleich mit anderen Modellen ausfällt.
  • OpenAIs „Deep research“ ist weniger ein bestimmtes Modell als vielmehr ein funktionales Muster.
    Das Ergebnis hängt davon ab, ob GPT‑5, GPT‑4o, o3 oder ein anderes Modell verwendet wird.
    • Inzwischen bieten fast alle, darunter OpenAI, Perplexity, Google Gemini, Anthropic und Grok, ähnliche Recherche-Muster an.
      Das sind suchbasierte Long-Running-Tasks, die 5 bis 10 Minuten lang Material sammeln und anschließend einen Bericht mit Zitaten erzeugen.
      Das Tongyi-Modell ist auf solche schleifenartigen Such- und Berichtserstellungsprozesse spezialisiert.