OpenRouter Fusion API
(openrouter.ai)- Ausgangspunkt ist die Erkenntnis, dass die Synthese der Ergebnisse mehrerer Modelle die Leistung eines einzelnen Modells deutlich übertreffen kann
- Ein Verfahren der Multi-Model-Deliberation, bei dem mehrere Expertenmodelle einen einzelnen Prompt parallel analysieren und anschließend ein Judge Model die Ergebnisse zusammenführt und die endgültige Antwort erstellt
- Die Panel-Modelle führen eine Parallelanalyse mit aktiviertem Web Search und Web Fetch durch, während das Judge Model die Ergebnisse als strukturierte Analyse zu Konsens, Widersprüchen, partieller Übereinstimmung, einzigartigen Erkenntnissen und blinden Flecken zusammenfasst
- Standard ist das Quality-Preset; mit dem Budget-Preset kann auf günstigere Modelle umgestellt werden, oder über die Felder
analysis_modelsundmodeldes fusion-Plugins lassen sich Panel und Judge vollständig neu definieren - Geeignet für Research, Expertenkritik und Situationen, in denen die Kosten einer falschen Antwort höher sind als die zusätzlichen Completion-Kosten
- Da alle Panel-Mitglieder und der Judge-Aufruf ausgeführt werden, werden die Anfrageskosten nicht als einzelnes Modell, sondern als Summe einzelner Completions berechnet
Funktionsweise
- Ein einzelner Prompt wird in eine kleine Multi-Model-Deliberation umgewandelt
- Ein Panel aus Expertenmodellen analysiert den Prompt parallel mit aktiviertem Web Search und Web Fetch
- Das Judge Model erzeugt aus den Panel-Antworten eine strukturierte Analyse nach Konsens, Widersprüchen, partieller Abdeckung, einzigartigen Erkenntnissen und blinden Flecken
- Auf Basis dieser strukturierten Analyse formuliert das Judge Model die endgültige Antwort
Panel-Zusammenstellung und Konfiguration
- Das Standard-Panel verwendet das Quality-Preset
- Für günstigere Mitglieder kann auf das Budget-Preset umgestellt werden
- Über die Felder
analysis_modelsundmodeldes fusion-Plugins lassen sich Panel und Judge vollständig überschreiben
- Empfohlen, wenn ein einzelnes Modell nicht ausreicht
- Geeignet für Research, Expertenkritik oder Bereiche, in denen die Kosten einer falschen Antwort die zusätzlichen Completion-Kosten übersteigen
Preise und Einschränkungen
- Da alle Panel-Mitglieder und der Judge-Aufruf ausgeführt werden, werden die Anfrageskosten nicht auf Basis eines einzelnen Modells, sondern als Summe einzelner Completions berechnet
- Welche Modelle tatsächlich ausgeführt wurden, lässt sich auf der Seite Activity prüfen
- Das Kontextlimit hängt vom jeweils ausgewählten Modell ab
In den Presets werden 6 Modelle verwendet
- Höchste Qualität: Claude Opus, OpenAI GPT, Google Gemini Pro
- Niedrigste Kosten: Google Gemini Flash, DeepSeek V4 Flash, MoonshotAI Kimi
Zugehörige Ankündigung: "Mit Fusion über Frontier-Performance hinaus"
- Ein Tool, das durch die Synthese der Ergebnisse mehrerer Modelle die Leistung einzelner Modelle übertrifft; teilnehmendes Modell-Panel und das die Ergebnisse verschmelzende Judge-Modell lassen sich direkt auswählen und wie ein einzelnes Modell aufrufen
- Bei der Auswertung von 100 Deep-Research-Aufgaben des DRACO-Benchmarks übertraf das Panel die einzelnen Modelle durchgängig
- Die Fusion aus Fable 5 + GPT-5.5 erreichte 69,0 % und übertraf damit alle Einzelmodelle einschließlich Fable 5 allein (65,3 %)
- Ein günstiges Panel (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) kam bei 50 % der Kosten bis auf unter 1 % an den Fable-5-Score heran und übertraf GPT-5.5 sowie Opus 4.8
- Der Prompt wird parallel an die Panel-Modelle gesendet; der Judge analysiert Konsens, Widersprüche, einzigartige Erkenntnisse und blinde Flecken, und das aufrufende Modell erstellt darauf basierend die endgültige Antwort
- Die gesamte Pipeline läuft server-side und kann daher auf dieselbe Weise genutzt werden wie einzelne Modellaufrufe
- Selbst wenn Opus 4.8 mit sich selbst fusioniert wurde, stieg der Wert auf 65,5 % gegenüber 58,8 % allein, was einen Effekt der Synthesephase selbst bestätigt
- Es wurde ein Kontaminationsrisiko festgestellt, bei dem Panel-Modelle online nach Bewertungsrubriken suchen; dies kann mit einer einzeiligen Konfiguration für Ausschlusslisten bei Web Search und Web Fetch blockiert werden
- Vier Nutzungsmöglichkeiten: Chatroom (kein Code erforderlich), Model Slug (String ersetzen), Server Tool (maximale Kontrolle), Plugin (Panel festlegen)
- Kein Drop-in-Ersatz für Fable; Long-Horizon-Aufgaben, bei denen Fable stark ist, sind nicht enthalten, und im Coding wird es als selektiv aufrufbares Tool eingesetzt
1 Kommentare
Hacker-News-Kommentare
Vor ein paar Monaten habe ich mit einem MCP, das OpenRouter nutzt, Fusion gebaut. Die Idee war, ein „Expertenpanel“ zu haben, zu dem man gehen kann, wenn Claude nicht weiterkommt
Nach vielen Tests und Benchmarks zeigte sich, dass es in der Praxis keine besseren Antworten liefert, wenn man ein Modell die Antworten eines anderen bewerten lässt. Im Grunde fragt man nur: „Wie ähnlich ist diese Antwort der, die du selbst gegeben hättest?“, und zusätzliche Runden oder naheliegende „offensichtliche“ Lösungen kamen letztlich fast dem Erhöhen der Temperatur gleich. Ich habe zwar eine Lösung gefunden, aber die Kosten sind absurd hoch. Wenn dieser Ansatz mehr Aufmerksamkeit bekommt, veröffentliche ich meinen vielleicht auch
Ich lasse sie explizit Probleme nach Schweregrad finden, schicke diese Probleme dann durch ein Panel von Bewertungsmodellen und lasse nur die über einem bestimmten Schwellenwert im ursprünglichen Antworttext korrigieren. Die große Erkenntnis, die die Ergebnisse deutlich verbessert hat, war, das Bewertungsmodell Wahrhaftigkeit und die Achse „Nützlichkeit / Muss das korrigiert werden?“ getrennt bewerten zu lassen. Wenn man es dazu zwingt, Probleme zu finden, endet das sonst in kleinlicher Nörgelei, und die Wahrhaftigkeitsachse war auch besser geeignet, Modelle zur Problemerkennung für meinen Anwendungsfall zu evaluieren. Das wird teilweise bei der Erzeugung solcher Erklärungen angewandt: https://hanzirama.com/character/%E6%9D%A5#explain — inzwischen ist diese Seite ein kleines Nebenprodukt meines LLM-Evaluations-Setups geworden. Wenn man höchste Qualität braucht, muss man bei OpenRouter vermutlich den Anbieter fixieren. Mit
:exactoallein ist es schwer, insbesondere bei Open-Weight-Modellen, reproduzierbar gute Ergebnisse zu bekommenMich würde interessieren, ob andere auch den Eindruck hatten, dass sich LLMs ziemlich bösartig verhalten können, wenn man sie in einen Modus versetzt, in dem sie sich „überlegen fühlen“
In den letzten zwei Jahren hat sich das Feld komplett verändert, also lohnt sich ein neuer Blick darauf. [0] https://github.com/Ceroxylon/konsensis
In meiner App habe ich zwei Bewertungsmodelle getestet. Das erste war ein Bewertungsmodell für ein Modell zur Lebenslauf-Anpassung: Es verglich den resultierenden Lebenslauf mit dem ursprünglichen Lebenslauf und der Stellenausschreibung und bewertete Eignung und Ehrlichkeit auf einer Zehn-Punkte-Skala; das funktionierte gut und war nützlich. Das zweite war ein Review-Modell für eine LLM-Trading-Bot-Plattform, das die Entscheidungen des Hauptmodells überprüfte. Hier kann es eher schaden, weil der Bot mit Mehrdeutigkeiten umgehen muss, sofern es nicht eindeutige Fehler erkennt, etwa auf Basis falscher Candle-Preise zu urteilen oder BUY zu sagen, wenn es SELL sein müsste. Erstens verdoppelt sich die Entscheidungsverzögerung: Bei Gemma 4 31B werden aus 30 Sekunden eher 60 Sekunden. Außerdem läuft das Review-Modell nur für BUY/SELL-Entscheidungen, nicht für HOLD, sodass der Bot durch Verzögerung und Kosten eher übervorsichtig werden könnte, statt mehr Trades zu machen. Deshalb denke ich, dass es besser ist, die Aufgabe in einem Durchgang mit einem besseren Modell zu lösen, wenn die Antwort nicht leicht verifizierbar ist. Dann ist auch unklar, warum man überhaupt ein Bewertungsmodell braucht und warum man nicht denselben Agenten seine eigene Arbeit prüfen lässt. Liest man außerdem den Reasoning-Text von Reasoning-Modellen wie Gemma 4, überprüft es sich ohnehin schon selbst. Es tut also bereits sein Bestes, und eine erneute Prüfung fügt nicht viele Informationen hinzu. Ein interessantes Experiment, aber man muss es von Fall zu Fall bewerten
Ich hatte einen Prompt, den ich auf diese Weise nur mit Claude Code verwendet habe
Lass uns ein Architekturproblem prüfen. Starte 10 Agenten, gib jedem eine Persona, lass sie
_api.goprüfen und ihre Reviews inreviews/-review.mdschreiben. Dann soll jeder Agent die Zusammenfassungen vor den einzelnen Reviews lesen, im Round-Robin-Verfahren auf drei Reviews seiner Wahl antworten und das inresponse/--response.mdschreiben. Danach soll er Gegenargumente zu den Antworten inrebuttals/-rebuttal.mdschreiben. Zum Schluss startet jeder Agent erneut einen Agenten, der seine eigene Review, die Antworten und die Gegenargumente prüft und die Ergebnisse infindings/-findings.mdzusammenfasst. Schließlich fasst ein weiterer Agent die Ergebnisse inreview-findings.mdzusammen und soll dort eine knappe Version präsentieren. Das hat sowohl mit Frontier-Modellen als auch mit lokal gehosteten Modellen gut funktioniert. Zuletzt habe ich Qwen 3.5 verwendetPrüfste du alle erzeugten Dateien auf Halluzinationen, oder schaust du dir nur die letzte knappe Ergebnisdatei an? Ist die Idee, dass sich Halluzinationen über mehrere Agenten hinweg gegenseitig aufheben, sodass am Ende nur Wahrheit übrig bleibt? Mich würde auch interessieren, ob du in der finalen Version schon einmal grob falsche Inhalte gesehen hast. Ich hätte mir wegen der Kosten Sorgen gemacht, aber mit lokal gehosteten Modellen ist das vermutlich weniger problematisch. Allerdings haben lokal gehostete Modelle doch immer noch Probleme mit lokaler Befehlsausführung oder Internetzugriff, oder? Falls ja, läuft das dann nur mit dem Kontext dieser Datei, ohne auf den Rest des Projekts zu verweisen?
Den Hintergrundkontext gibt es hier: Surpassing Frontier Performance with Fusion
https://news.ycombinator.com/item?id=48525392
Die etwas bessere UI gibt es unter https://openrouter.ai/fusion. Die Fusion API von OpenRouter schickt Anfragen gleichzeitig an mehrere Modelle, und ein Bewertungsmodell führt die Antworten zur endgültigen Antwort zusammen. Das dauert länger, soll die Leistung dafür aber deutlich steigern. Zumindest auf dem Deep-Research-Benchmark, den sie getestet haben, war das so. Das Preset Budget besteht aus drei günstigeren Modellen und liegt auf diesem Benchmark ungefähr auf dem Niveau von Fable, kostet aber nur die Hälfte. Das Preset Quality besteht aus drei teureren Modellen, schlägt Fable, kostet aber doppelt so viel wie Fable. Pareto-Grafik: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost.... Interessanterweise stieg die Leistung sogar dann, wenn dasselbe Modell mit sich selbst fusioniert wurde. 2xOpus4.8 liegt im Benchmark ungefähr gleichauf mit Fable, kostet aber doppelt so viel wie Fable. Das Mischen verschiedener Modelle bringt noch etwas zusätzlichen Gewinn. Der Hauptgewinn scheint aus zusätzlicher Test-Time-Compute zu kommen. Ich würde gern mehr Forschung dazu sehen, vor allem mit Blick auf neue günstige Modelle wie etwa DSV4, die mit sich selbst oder mit Mimo fusioniert werden, und auch die Abwägung zwischen Fusion als paralleler Test-Time-Compute und mehr Inferenzbudget oder mehr Turns
Im Grunde ist das einfach mehr Stichproben aus dem möglichen Ausgaberaum ziehen. Wenn ein Modell eine Aufgabe mit 60% Wahrscheinlichkeit lösen kann, zieht man einfach 5–10 Samples und implementiert so etwas wie Mehrheitsentscheid. Als die Modellgenauigkeit bei Problemen stieg, bei denen sich Ergebnisse leicht zusammenführen lassen, wurde das weniger genutzt, aber mit einem komplexeren Bewerter, also einem fähigen LLM, kann man die Leistung offenbar immer noch steigern, indem man den Ausgaberaum stärker sampelt und die guten Teile auswählt
Für mich klingt das so, als sei Gemini bei dieser Aufgabe zwar schwächer, dafür aber besser darin, das Bewertungsmodell von seiner eigenen Lösung zu überzeugen. Und dass ein Panel aus zwei Opus 4.8 fast exakt auf dem Niveau eines einzelnen Fable 5 liegt, riecht auch ein bisschen komisch. Kann man wissen, ob Anthropic so etwas nicht hinter den Kulissen ohnehin schon macht?
Ich habe eine schnelle Evaluation laufen lassen, um zu sehen, wie es sich qualitativ davon unterscheidet, Opus 4.7 oder GPT 5.5 direkt aufzurufen
Wie erwartet war Fusion 7x langsamer und 4x teurer. Das soll keine Kritik sein; für mich fällt Fusion eher in die Kategorie „nur verwenden, wenn man es wirklich braucht“. https://3fpi5avcqq.evvl.io/
Die Kernidee dürfte sein, Fusion mit einfacheren und günstigeren Modellen zu verwenden
Ich frage mich, wie sich ihre Version davon im realen Einsatz schlagen wird
Ich habe viel über dieses Problem nachgedacht, und in meiner vereinfachten Sicht kann man jedes Modell als glockenförmige Verteilung über menschlichem Wissen betrachten, wobei die Verteilung je nach Modell unterschiedlich ist
Wenn man mehrere Modelle nutzt, kann man die Verteilungen anderer Modelle durch Text verschieben, der außerhalb ihrer ursprünglichen Kurve liegt. Aber wenn ich noch einmal darüber nachdenke, frage ich mich, ob SFP und Reinforcement Learning die ursprüngliche Textverteilung nicht schon so stark verschoben haben, dass kombinierte Modelloutputs noch divers genug sind, um etwas Besseres zu ergeben, oder ob das am Ende nur eine Echokammer wird. Ich kann das noch nicht beweisen, glaube aber nicht, dass es so ist
Als anekdotisches Ergebnis zu Fusion: Ich habe dieselbe Anfrage, die ich für Fable verwendet hatte, durch OpenRouter Fusion laufen lassen, und das Ergebnis war schlechter
Fable traf eine ziemlich tiefe Wissens-/Intelligenzebene, gab also nicht nur plausible Antworten, sondern schlug auch Prioritäten für die Lösungsbereiche vor und meinte, manche Punkte solle man verwerfen, was für mich ziemlich plausibel war. Fusion wirkte dagegen eher wie eine leicht diversifizierte Version derselben Antwortklasse, die SOTA-Modelle vor Fable gegeben hätten, und in meinem sehr begrenzten Test, als ich Zugang zu Fable hatte, erreichte es nicht die Tiefe, die Fable erreichte
Am Wochenende habe ich mich vom neuen OpenRouter-Fusion-Modell inspirieren lassen und daran gearbeitet, ob man das in Claude Code zum Laufen bringen und es für andere leicht ausprobierbar machen kann
Herausgekommen ist claude-fusion-launcher — damit läuft Claude Code nicht auf einem einzelnen Modell, sondern auf einem Modell-Panel. Die Kosten werden ebenfalls angezeigt. https://github.com/smorinlabs/claude-fusion-launcher
Ich frage mich, ob es gleichwertig ist, denselben Prompt mit demselben Modell mehrfach bei höherer Temperatur neu zu generieren, statt verschiedene Modelle laufen zu lassen
Ich vermute, dass ein erheblicher Teil der Variabilität, die man zwischen verschiedenen Frontier-Modellen wahrnimmt, einfach von Zufälligkeit bei von null verschiedenen Temperaturen kommt. Modelle scheinen darauf trainiert zu sein, hübsch runde Anzahlen wie 5, 10 oder 15 Punkte zurückzugeben. Das könnte an Interferenzen aus dem Training auf Marketingmaterial liegen. Außerdem ist der Recall in großen Kontexten weit von 100% entfernt. Wenn der Code also 27 Bugs hat, könnte man pro Lauf andere 10 Probleme finden, ganz gleich, ob man mehrere Modelle nutzt oder wiederholt dasselbe Modell aufruft
Ich frage mich, ob es dazu formale Forschung gibt. Ich habe auch Variationen dieses Ansatzes ausprobiert, kann aber nicht mit Sicherheit sagen, dass die Ergebnisse besser waren
Ich frage mich, ob das damit vergleichbar ist, 2–3 Berater jeweils nach der optimalen Geschäftsstrategie zu fragen. Ich bin mir nicht sicher, ob durch das Zusammenführen der Antworten tatsächlich etwas substanziell Besseres entsteht.
Ich habe in meinem TrustedRouter ebenfalls eine ähnliche Funktion als Open Source veröffentlicht, sogar mit Ende-zu-Ende-Verschlüsselung: https://trustedrouter.com/