- Ein leichtgewichtiges KI-Gateway ähnlich wie LiteLLM; als einzelnes Go-Binary ist das Container-Image schlank und Cold Starts sind schnell
- Integriert 11 Provider wie OpenAI, Anthropic, Gemini, Groq und xAI über eine einzige OpenAI-kompatible API
- Mit nur einem Docker-Container und per Umgebungsvariablen übergebenen API-Keys dank automatischer Provider-Erkennung sofort einsatzbereit
- Unterstützt alle OpenAI-API-Endpunkte wie
/v1/chat/completions (Streaming), /v1/responses, /v1/embeddings, /v1/models, /v1/files, /v1/batches usw.
- Bietet auch
/p/{provider}/... für nativen API-Passthrough, sodass Upstream-Antworten unverändert weitergegeben werden können (auch Funktionen, die das Gateway nicht direkt unterstützt, lassen sich sofort nutzen)
- Integrierter zweistufiger Response-Cache
- Ebene 1: Exact-Match-Cache auf Basis des Hashs des Request-Bodys (Abruf im Submillisekundenbereich)
- Ebene 2: Semantischer Cache auf Basis von KNN-Suche in Embedding-Vektoren (60–70 % Trefferquote bei stark repetitiven Workloads)
- Unterstützt Qdrant, pgvector, Pinecone und Weaviate als Vektor-Backends
- Mit integrierter Verwaltungs-Dashboard-UI lassen sich Token-Nutzung, Kostenverfolgung, Audit-Logs, Provider-Status und Modell-Overrides einsehen
- Integrierte Observability-Funktionen wie Prometheus-Metriken, Audit-Logging und Guardrail-Pipelines (jeweils per Umgebungsvariable aktivierbar)
- API-Authentifizierung über
GOMODEL_MASTER_KEY; als Storage-Backend stehen SQLite, PostgreSQL und MongoDB zur Auswahl
- Unterstützt auch die Registrierung mehrerer Instanzen desselben Providers über Umgebungsvariablen mit Suffix (z. B.
OPENAI_EAST_API_KEY)
- Als Storage-Backend sind SQLite (Standard), PostgreSQL und MongoDB wählbar: für kleine Setups sofort einsatzbereit, für große Umgebungen einfach durch Austausch der DB skalierbar
- Roadmap für 0.2.0: intelligentes Routing, DeepSeek V3 und Cohere, Budgetverwaltung pro
user_path, Cluster-Modus u. a. geplant
- MIT-Lizenz
Noch keine Kommentare.