18 Punkte von happyhaki 19 일 전 | 2 Kommentare | Auf WhatsApp teilen

oh-my-free-models (omfm) ist ein lokaler Proxy, der Coding-Agenten unter mehreren kostenlosen Providern auf das aktuell schnellste Modell routet. Wenn man bei OpenAI- oder Anthropic-kompatiblen Agenten die baseURL auf localhost ändert und einige freie Modelle auswählt, leitet omfm Anfragen weiter, auch wenn Latenz, Rate-Limits oder Quoten schwanken.

Warum wird das benötigt?

Coding-Agenten im Free Tier sehen auf dem Datenblatt ordentlich aus, stoßen im echten Einsatz aber an vier Stellen an Grenzen.

  • Rate-Limits unterbrechen laufende Arbeit. Kostenlose Modelle von OpenRouter oder NVIDIA werfen ohne Vorwarnung 429-Fehler. Ein Lauf, der eben noch funktionierte, stoppt nach einem einzigen Tool-Call, und man muss manuell neu versuchen.

  • Die Latenz schwankt je nach Tageszeit stark. Dasselbe kostenlose Modell ist morgens schnell und nachmittags so langsam, dass es kaum nutzbar ist. Da sich das je nach Zeit und Region unterscheidet, lässt sich kein „schnelles Modell“ im Voraus festlegen. Es gibt nur das „in genau diesem Moment schnelle Modell“.

  • Wenn die Quote leer ist, muss man den Provider manuell wechseln. Ist die kostenlose Quote eines Providers aufgebraucht, müssen Key und baseURL direkt geändert werden. Die Agenten-Konfiguration passt sich an diese Änderung nicht selbstständig an.

  • Der Free-Katalog ändert sich häufig. Modelle kommen neu hinzu, verschwinden wieder, werden als deprecated markiert oder beginnen stillschweigend Fehler auszugeben. Das merkt man nicht über ein Dashboard, sondern erst, wenn man dagegenläuft.

Hauptfunktionen

  • Routing von Anfragen an das aktuell verfügbare Modell mit der niedrigsten Latenz aus einem ausgewählten kostenlosen Modell-Pool
  • Modelle, bei denen Rate-Limit- oder Quotenfehler wie 429/402 auftreten, werden für etwa 10 Minuten in den Cooldown versetzt
  • Stellt OpenAI-kompatible /v1- und Anthropic-kompatible /anthropic-Endpunkte bereit
  • Kann in OpenAI-kompatiblen Clients wie OpenClaw, Hermes Agent und OpenCode mit url=http://localhost:4567/v1, model=omfm verwendet werden
  • In Claude Code kann die Anthropic-Base-URL auf http://localhost:4567/anthropic geändert werden
  • Modell-Pools lassen sich nach Einsatzzweck in omfm/fast, omfm/balanced und omfm/capable trennen
  • Bietet eine CLI mit Befehlen wie omfm model, omfm start, omfm status, omfm doctor und omfm usage

Besonders nützlich ist das für lokale/CLI-Coding-Agenten wie OpenClaw oder Hermes Agent, die OpenAI-kompatible Endpunkte unterstützen. Wenn man in der Agenten-Konfiguration nur Base URL und Modell auf omfm umstellt, übernimmt omfm im Hintergrund automatisch die Latenzmessung freier Modelle, das Ausschließen fehlerhafter Modelle und den Provider-Wechsel.

2 Kommentare

 
channprj 14 일 전

Ein interessantes Projekt. Es hat mich kurz an 9router erinnert, aber es scheint stärker auf kostenlose Modelle spezialisiert zu sein, was ich spannend finde. Vielen Dank für das tolle Produkt.

https://9router.com

 
happyhaki 14 일 전

Oh, so etwas gibt es also. Danke fürs Teilen. Ich hatte an LiteLLM gedacht, aber sobald man kostenpflichtige Provider in omfm einbindet, scheint es keinen wirklichen Unterschied mehr zu geben, daher möchte ich es bei kostenlosen Modellen belassen.