OpenRouter Fusion API

(openrouter.ai)

15 Punkte von GN⁺ 2026-06-16 | 1 Kommentare | Auf WhatsApp teilen

Ausgangspunkt ist die Erkenntnis, dass die Synthese der Ergebnisse mehrerer Modelle die Leistung eines einzelnen Modells deutlich übertreffen kann
Ein Verfahren der Multi-Model-Deliberation, bei dem mehrere Expertenmodelle einen einzelnen Prompt parallel analysieren und anschließend ein Judge Model die Ergebnisse zusammenführt und die endgültige Antwort erstellt
Die Panel-Modelle führen eine Parallelanalyse mit aktiviertem Web Search und Web Fetch durch, während das Judge Model die Ergebnisse als strukturierte Analyse zu Konsens, Widersprüchen, partieller Übereinstimmung, einzigartigen Erkenntnissen und blinden Flecken zusammenfasst
Standard ist das Quality-Preset; mit dem Budget-Preset kann auf günstigere Modelle umgestellt werden, oder über die Felder analysis_models und model des fusion-Plugins lassen sich Panel und Judge vollständig neu definieren
Geeignet für Research, Expertenkritik und Situationen, in denen die Kosten einer falschen Antwort höher sind als die zusätzlichen Completion-Kosten
Da alle Panel-Mitglieder und der Judge-Aufruf ausgeführt werden, werden die Anfrageskosten nicht als einzelnes Modell, sondern als Summe einzelner Completions berechnet

Funktionsweise

Ein einzelner Prompt wird in eine kleine Multi-Model-Deliberation umgewandelt
- Ein Panel aus Expertenmodellen analysiert den Prompt parallel mit aktiviertem Web Search und Web Fetch
- Das Judge Model erzeugt aus den Panel-Antworten eine strukturierte Analyse nach Konsens, Widersprüchen, partieller Abdeckung, einzigartigen Erkenntnissen und blinden Flecken
- Auf Basis dieser strukturierten Analyse formuliert das Judge Model die endgültige Antwort

Panel-Zusammenstellung und Konfiguration

Das Standard-Panel verwendet das Quality-Preset
- Für günstigere Mitglieder kann auf das Budget-Preset umgestellt werden
- Über die Felder analysis_models und model des fusion-Plugins lassen sich Panel und Judge vollständig überschreiben
Empfohlen, wenn ein einzelnes Modell nicht ausreicht
- Geeignet für Research, Expertenkritik oder Bereiche, in denen die Kosten einer falschen Antwort die zusätzlichen Completion-Kosten übersteigen

Preise und Einschränkungen

Da alle Panel-Mitglieder und der Judge-Aufruf ausgeführt werden, werden die Anfrageskosten nicht auf Basis eines einzelnen Modells, sondern als Summe einzelner Completions berechnet
- Welche Modelle tatsächlich ausgeführt wurden, lässt sich auf der Seite Activity prüfen
Das Kontextlimit hängt vom jeweils ausgewählten Modell ab

In den Presets werden 6 Modelle verwendet

Höchste Qualität: Claude Opus, OpenAI GPT, Google Gemini Pro
Niedrigste Kosten: Google Gemini Flash, DeepSeek V4 Flash, MoonshotAI Kimi

Zugehörige Ankündigung: "Mit Fusion über Frontier-Performance hinaus"

Ein Tool, das durch die Synthese der Ergebnisse mehrerer Modelle die Leistung einzelner Modelle übertrifft; teilnehmendes Modell-Panel und das die Ergebnisse verschmelzende Judge-Modell lassen sich direkt auswählen und wie ein einzelnes Modell aufrufen
Bei der Auswertung von 100 Deep-Research-Aufgaben des DRACO-Benchmarks übertraf das Panel die einzelnen Modelle durchgängig
- Die Fusion aus Fable 5 + GPT-5.5 erreichte 69,0 % und übertraf damit alle Einzelmodelle einschließlich Fable 5 allein (65,3 %)
- Ein günstiges Panel (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) kam bei 50 % der Kosten bis auf unter 1 % an den Fable-5-Score heran und übertraf GPT-5.5 sowie Opus 4.8
Der Prompt wird parallel an die Panel-Modelle gesendet; der Judge analysiert Konsens, Widersprüche, einzigartige Erkenntnisse und blinde Flecken, und das aufrufende Modell erstellt darauf basierend die endgültige Antwort
Die gesamte Pipeline läuft server-side und kann daher auf dieselbe Weise genutzt werden wie einzelne Modellaufrufe
Selbst wenn Opus 4.8 mit sich selbst fusioniert wurde, stieg der Wert auf 65,5 % gegenüber 58,8 % allein, was einen Effekt der Synthesephase selbst bestätigt
Es wurde ein Kontaminationsrisiko festgestellt, bei dem Panel-Modelle online nach Bewertungsrubriken suchen; dies kann mit einer einzeiligen Konfiguration für Ausschlusslisten bei Web Search und Web Fetch blockiert werden
Vier Nutzungsmöglichkeiten: Chatroom (kein Code erforderlich), Model Slug (String ersetzen), Server Tool (maximale Kontrolle), Plugin (Panel festlegen)
Kein Drop-in-Ersatz für Fable; Long-Horizon-Aufgaben, bei denen Fable stark ist, sind nicht enthalten, und im Coding wird es als selektiv aufrufbares Tool eingesetzt

1 Kommentare

GN⁺ 2026-06-16

Hacker-News-Kommentare

Vor ein paar Monaten habe ich mit einem MCP, das OpenRouter nutzt, Fusion gebaut. Die Idee war, ein „Expertenpanel“ zu haben, zu dem man gehen kann, wenn Claude nicht weiterkommt
Nach vielen Tests und Benchmarks zeigte sich, dass es in der Praxis keine besseren Antworten liefert, wenn man ein Modell die Antworten eines anderen bewerten lässt. Im Grunde fragt man nur: „Wie ähnlich ist diese Antwort der, die du selbst gegeben hättest?“, und zusätzliche Runden oder naheliegende „offensichtliche“ Lösungen kamen letztlich fast dem Erhöhen der Temperatur gleich. Ich habe zwar eine Lösung gefunden, aber die Kosten sind absurd hoch. Wenn dieser Ansatz mehr Aufmerksamkeit bekommt, veröffentliche ich meinen vielleicht auch
- Der Prompt ist wichtig. Wenn man die Meinung anderer Modelle will, sollte man sie natürlich von Anfang an mit demselben Prompt generieren lassen und dann zusammenführen; wenn man möchte, kann man sie aber auch auf bestehende Antworten ansetzen
  Ich lasse sie explizit Probleme nach Schweregrad finden, schicke diese Probleme dann durch ein Panel von Bewertungsmodellen und lasse nur die über einem bestimmten Schwellenwert im ursprünglichen Antworttext korrigieren. Die große Erkenntnis, die die Ergebnisse deutlich verbessert hat, war, das Bewertungsmodell Wahrhaftigkeit und die Achse „Nützlichkeit / Muss das korrigiert werden?“ getrennt bewerten zu lassen. Wenn man es dazu zwingt, Probleme zu finden, endet das sonst in kleinlicher Nörgelei, und die Wahrhaftigkeitsachse war auch besser geeignet, Modelle zur Problemerkennung für meinen Anwendungsfall zu evaluieren. Das wird teilweise bei der Erzeugung solcher Erklärungen angewandt: https://hanzirama.com/character/%E6%9D%A5#explain — inzwischen ist diese Seite ein kleines Nebenprodukt meines LLM-Evaluations-Setups geworden. Wenn man höchste Qualität braucht, muss man bei OpenRouter vermutlich den Anbieter fixieren. Mit :exacto allein ist es schwer, insbesondere bei Open-Weight-Modellen, reproduzierbar gute Ergebnisse zu bekommen
- Ich habe schon gesehen, dass ein Bewertungsmodell eine Antwort extrem hart auseinandernimmt, wenn man ihm sagt, sie stamme von einem kleinen, schwachen lokalen LLM. Ich habe das allerdings nicht systematisch untersucht, daher weiß ich nicht, ob das über mein Bauchgefühl hinaus verallgemeinerbar ist
  Mich würde interessieren, ob andere auch den Eindruck hatten, dass sich LLMs ziemlich bösartig verhalten können, wenn man sie in einen Modus versetzt, in dem sie sich „überlegen fühlen“
- Ich habe 2024 eine grobe Version dieser Idee gebaut[0], und es ist interessant, dass dieser Gedanke immer noch weiterlebt. Man konnte einen Qualitätsschwellenwert setzen, aber das schien kaum einen Unterschied zu machen, und die Frontier-Modelle stimmten einander fast immer zu und gaben der Antwort hohe Bewertungen
  In den letzten zwei Jahren hat sich das Feld komplett verändert, also lohnt sich ein neuer Blick darauf. [0] https://github.com/Ceroxylon/konsensis
- Ich denke, es hängt davon ab, ob die Antwort verifizierbar ist
  In meiner App habe ich zwei Bewertungsmodelle getestet. Das erste war ein Bewertungsmodell für ein Modell zur Lebenslauf-Anpassung: Es verglich den resultierenden Lebenslauf mit dem ursprünglichen Lebenslauf und der Stellenausschreibung und bewertete Eignung und Ehrlichkeit auf einer Zehn-Punkte-Skala; das funktionierte gut und war nützlich. Das zweite war ein Review-Modell für eine LLM-Trading-Bot-Plattform, das die Entscheidungen des Hauptmodells überprüfte. Hier kann es eher schaden, weil der Bot mit Mehrdeutigkeiten umgehen muss, sofern es nicht eindeutige Fehler erkennt, etwa auf Basis falscher Candle-Preise zu urteilen oder BUY zu sagen, wenn es SELL sein müsste. Erstens verdoppelt sich die Entscheidungsverzögerung: Bei Gemma 4 31B werden aus 30 Sekunden eher 60 Sekunden. Außerdem läuft das Review-Modell nur für BUY/SELL-Entscheidungen, nicht für HOLD, sodass der Bot durch Verzögerung und Kosten eher übervorsichtig werden könnte, statt mehr Trades zu machen. Deshalb denke ich, dass es besser ist, die Aufgabe in einem Durchgang mit einem besseren Modell zu lösen, wenn die Antwort nicht leicht verifizierbar ist. Dann ist auch unklar, warum man überhaupt ein Bewertungsmodell braucht und warum man nicht denselben Agenten seine eigene Arbeit prüfen lässt. Liest man außerdem den Reasoning-Text von Reasoning-Modellen wie Gemma 4, überprüft es sich ohnehin schon selbst. Es tut also bereits sein Bestes, und eine erneute Prüfung fügt nicht viele Informationen hinzu. Ein interessantes Experiment, aber man muss es von Fall zu Fall bewerten
- Habe dieselbe Erfahrung gemacht. Eine objektiv bessere Antwort zu finden war schwieriger als gedacht, außerdem war es teuer und langsam
Ich hatte einen Prompt, den ich auf diese Weise nur mit Claude Code verwendet habe
Lass uns ein Architekturproblem prüfen. Starte 10 Agenten, gib jedem eine Persona, lass sie _api.go prüfen und ihre Reviews in reviews/-review.md schreiben. Dann soll jeder Agent die Zusammenfassungen vor den einzelnen Reviews lesen, im Round-Robin-Verfahren auf drei Reviews seiner Wahl antworten und das in response/--response.md schreiben. Danach soll er Gegenargumente zu den Antworten in rebuttals/-rebuttal.md schreiben. Zum Schluss startet jeder Agent erneut einen Agenten, der seine eigene Review, die Antworten und die Gegenargumente prüft und die Ergebnisse in findings/-findings.md zusammenfasst. Schließlich fasst ein weiterer Agent die Ergebnisse in review-findings.md zusammen und soll dort eine knappe Version präsentieren. Das hat sowohl mit Frontier-Modellen als auch mit lokal gehosteten Modellen gut funktioniert. Zuletzt habe ich Qwen 3.5 verwendet
- Ich bin nicht daran gewöhnt, mehrere Agenten in einem Ablauf zu verwenden, daher hätte ich ein paar Fragen
  Prüfste du alle erzeugten Dateien auf Halluzinationen, oder schaust du dir nur die letzte knappe Ergebnisdatei an? Ist die Idee, dass sich Halluzinationen über mehrere Agenten hinweg gegenseitig aufheben, sodass am Ende nur Wahrheit übrig bleibt? Mich würde auch interessieren, ob du in der finalen Version schon einmal grob falsche Inhalte gesehen hast. Ich hätte mir wegen der Kosten Sorgen gemacht, aber mit lokal gehosteten Modellen ist das vermutlich weniger problematisch. Allerdings haben lokal gehostete Modelle doch immer noch Probleme mit lokaler Befehlsausführung oder Internetzugriff, oder? Falls ja, läuft das dann nur mit dem Kontext dieser Datei, ohne auf den Rest des Projekts zu verweisen?
- Im Vergleich dazu, dieselbe Review einfach n-mal laufen zu lassen und die Ergebnisse zusammenzuführen, wirkt das nach ziemlich viel Mechanik. Mich würde interessieren, warum du dich für dieses Design entschieden hast
Den Hintergrundkontext gibt es hier: Surpassing Frontier Performance with Fusion
https://news.ycombinator.com/item?id=48525392
Die etwas bessere UI gibt es unter https://openrouter.ai/fusion. Die Fusion API von OpenRouter schickt Anfragen gleichzeitig an mehrere Modelle, und ein Bewertungsmodell führt die Antworten zur endgültigen Antwort zusammen. Das dauert länger, soll die Leistung dafür aber deutlich steigern. Zumindest auf dem Deep-Research-Benchmark, den sie getestet haben, war das so. Das Preset Budget besteht aus drei günstigeren Modellen und liegt auf diesem Benchmark ungefähr auf dem Niveau von Fable, kostet aber nur die Hälfte. Das Preset Quality besteht aus drei teureren Modellen, schlägt Fable, kostet aber doppelt so viel wie Fable. Pareto-Grafik: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost.... Interessanterweise stieg die Leistung sogar dann, wenn dasselbe Modell mit sich selbst fusioniert wurde. 2xOpus4.8 liegt im Benchmark ungefähr gleichauf mit Fable, kostet aber doppelt so viel wie Fable. Das Mischen verschiedener Modelle bringt noch etwas zusätzlichen Gewinn. Der Hauptgewinn scheint aus zusätzlicher Test-Time-Compute zu kommen. Ich würde gern mehr Forschung dazu sehen, vor allem mit Blick auf neue günstige Modelle wie etwa DSV4, die mit sich selbst oder mit Mimo fusioniert werden, und auch die Abwägung zwischen Fusion als paralleler Test-Time-Compute und mehr Inferenzbudget oder mehr Turns
- Dass „die Leistung sogar dann stieg, wenn dasselbe Modell mit sich selbst fusioniert wurde“, war in der Zeit vom Übergang von GPT-2 zu GPT-3 ziemlich üblich
  Im Grunde ist das einfach mehr Stichproben aus dem möglichen Ausgaberaum ziehen. Wenn ein Modell eine Aufgabe mit 60% Wahrscheinlichkeit lösen kann, zieht man einfach 5–10 Samples und implementiert so etwas wie Mehrheitsentscheid. Als die Modellgenauigkeit bei Problemen stieg, bei denen sich Ergebnisse leicht zusammenführen lassen, wurde das weniger genutzt, aber mit einem komplexeren Bewerter, also einem fähigen LLM, kann man die Leistung offenbar immer noch steigern, indem man den Ausgaberaum stärker sampelt und die guten Teile auswählt
- Interessant ist, dass das Fable-5- + GPT-5.5-Panel die Frontier-Leistung beider Modelle ziemlich klar schlägt, aber wenn man Gemini dazumischt, wird das Drei-Modell-Panel nicht besser, sondern schlechter
  Für mich klingt das so, als sei Gemini bei dieser Aufgabe zwar schwächer, dafür aber besser darin, das Bewertungsmodell von seiner eigenen Lösung zu überzeugen. Und dass ein Panel aus zwei Opus 4.8 fast exakt auf dem Niveau eines einzelnen Fable 5 liegt, riecht auch ein bisschen komisch. Kann man wissen, ob Anthropic so etwas nicht hinter den Kulissen ohnehin schon macht?
- Schade, dass kaum behandelt wird, wie viel länger das dauert wegen des Syntheseschritts. Beim Deep-Research-Benchmark ist das vielleicht nicht so wichtig, aber für Coding-Aufgaben wäre es interessant, wie sich das auswirkt
- Ich weiß nicht, ob das bei aktuellen Modellen noch immer gilt, aber in Microsoft-Forschung von vor ein paar Generationen kam heraus, dass sich die Leistung stark verbessert, wenn man ein Modell N-mal iterieren lässt, und dass der Sweet Spot bei 4 Iterationen lag
Ich habe eine schnelle Evaluation laufen lassen, um zu sehen, wie es sich qualitativ davon unterscheidet, Opus 4.7 oder GPT 5.5 direkt aufzurufen
Wie erwartet war Fusion 7x langsamer und 4x teurer. Das soll keine Kritik sein; für mich fällt Fusion eher in die Kategorie „nur verwenden, wenn man es wirklich braucht“. https://3fpi5avcqq.evvl.io/
- Fusion sieht als Destillationsziel wirklich gut aus
- Danke fürs Teilen. Geschwindigkeit war meine größte Sorge, aber darauf wurde dort nicht eingegangen
- Ich frage mich, welche Modelle darunter verwendet wurden. Wenn du den Quality-Standardwert aus der Oberfläche genutzt hast, ergibt die ungefähr 4x so hohe Kostenstruktur Sinn: drei Frontier-Modelle, von denen eines auch noch bewertet
  Die Kernidee dürfte sein, Fusion mit einfacheren und günstigeren Modellen zu verwenden
- Ich halte das für ziemlich kontraintuitiv. Den richtigen Rahmen und die richtige Struktur zu finden, damit das gut funktioniert, dürfte nicht leicht sein. Modelle hassen es regelrecht, gut miteinander zu spielen
  Ich frage mich, wie sich ihre Version davon im realen Einsatz schlagen wird
Ich habe viel über dieses Problem nachgedacht, und in meiner vereinfachten Sicht kann man jedes Modell als glockenförmige Verteilung über menschlichem Wissen betrachten, wobei die Verteilung je nach Modell unterschiedlich ist
Wenn man mehrere Modelle nutzt, kann man die Verteilungen anderer Modelle durch Text verschieben, der außerhalb ihrer ursprünglichen Kurve liegt. Aber wenn ich noch einmal darüber nachdenke, frage ich mich, ob SFP und Reinforcement Learning die ursprüngliche Textverteilung nicht schon so stark verschoben haben, dass kombinierte Modelloutputs noch divers genug sind, um etwas Besseres zu ergeben, oder ob das am Ende nur eine Echokammer wird. Ich kann das noch nicht beweisen, glaube aber nicht, dass es so ist
Als anekdotisches Ergebnis zu Fusion: Ich habe dieselbe Anfrage, die ich für Fable verwendet hatte, durch OpenRouter Fusion laufen lassen, und das Ergebnis war schlechter
Fable traf eine ziemlich tiefe Wissens-/Intelligenzebene, gab also nicht nur plausible Antworten, sondern schlug auch Prioritäten für die Lösungsbereiche vor und meinte, manche Punkte solle man verwerfen, was für mich ziemlich plausibel war. Fusion wirkte dagegen eher wie eine leicht diversifizierte Version derselben Antwortklasse, die SOTA-Modelle vor Fable gegeben hätten, und in meinem sehr begrenzten Test, als ich Zugang zu Fable hatte, erreichte es nicht die Tiefe, die Fable erreichte
Am Wochenende habe ich mich vom neuen OpenRouter-Fusion-Modell inspirieren lassen und daran gearbeitet, ob man das in Claude Code zum Laufen bringen und es für andere leicht ausprobierbar machen kann
Herausgekommen ist claude-fusion-launcher — damit läuft Claude Code nicht auf einem einzelnen Modell, sondern auf einem Modell-Panel. Die Kosten werden ebenfalls angezeigt. https://github.com/smorinlabs/claude-fusion-launcher
- Wird das nicht ziemlich schnell teuer? Die einmaligen Prompts, die ich auf der Website ausprobiert habe, kosteten fast 1 Dollar pro Prompt
Ich frage mich, ob es gleichwertig ist, denselben Prompt mit demselben Modell mehrfach bei höherer Temperatur neu zu generieren, statt verschiedene Modelle laufen zu lassen
Ich vermute, dass ein erheblicher Teil der Variabilität, die man zwischen verschiedenen Frontier-Modellen wahrnimmt, einfach von Zufälligkeit bei von null verschiedenen Temperaturen kommt. Modelle scheinen darauf trainiert zu sein, hübsch runde Anzahlen wie 5, 10 oder 15 Punkte zurückzugeben. Das könnte an Interferenzen aus dem Training auf Marketingmaterial liegen. Außerdem ist der Recall in großen Kontexten weit von 100% entfernt. Wenn der Code also 27 Bugs hat, könnte man pro Lauf andere 10 Probleme finden, ganz gleich, ob man mehrere Modelle nutzt oder wiederholt dasselbe Modell aufruft
Ich frage mich, ob es dazu formale Forschung gibt. Ich habe auch Variationen dieses Ansatzes ausprobiert, kann aber nicht mit Sicherheit sagen, dass die Ergebnisse besser waren
Ich frage mich, ob das damit vergleichbar ist, 2–3 Berater jeweils nach der optimalen Geschäftsstrategie zu fragen. Ich bin mir nicht sicher, ob durch das Zusammenführen der Antworten tatsächlich etwas substanziell Besseres entsteht.
Ich habe in meinem TrustedRouter ebenfalls eine ähnliche Funktion als Open Source veröffentlicht, sogar mit Ende-zu-Ende-Verschlüsselung: https://trustedrouter.com/
- Es ist gut, ein tatsächliches Datenschutzversprechen zu sehen. Ich verbringe viel Zeit damit, endlos ausweichende und vage Nutzungsbedingungen von Anbietern zu lesen.

OpenRouter Fusion API

Funktionsweise

Panel-Zusammenstellung und Konfiguration

Preise und Einschränkungen

In den Presets werden 6 Modelle verwendet

Zugehörige Ankündigung: "Mit Fusion über Frontier-Performance hinaus"

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare