2 Punkte von xguru 1 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein leichtgewichtiges KI-Gateway ähnlich wie LiteLLM; als einzelnes Go-Binary ist das Container-Image schlank und Cold Starts sind schnell
  • Integriert 11 Provider wie OpenAI, Anthropic, Gemini, Groq und xAI über eine einzige OpenAI-kompatible API
  • Mit nur einem Docker-Container und per Umgebungsvariablen übergebenen API-Keys dank automatischer Provider-Erkennung sofort einsatzbereit
  • Unterstützt alle OpenAI-API-Endpunkte wie /v1/chat/completions (Streaming), /v1/responses, /v1/embeddings, /v1/models, /v1/files, /v1/batches usw.
  • Bietet auch /p/{provider}/... für nativen API-Passthrough, sodass Upstream-Antworten unverändert weitergegeben werden können (auch Funktionen, die das Gateway nicht direkt unterstützt, lassen sich sofort nutzen)
  • Integrierter zweistufiger Response-Cache
    • Ebene 1: Exact-Match-Cache auf Basis des Hashs des Request-Bodys (Abruf im Submillisekundenbereich)
    • Ebene 2: Semantischer Cache auf Basis von KNN-Suche in Embedding-Vektoren (60–70 % Trefferquote bei stark repetitiven Workloads)
    • Unterstützt Qdrant, pgvector, Pinecone und Weaviate als Vektor-Backends
  • Mit integrierter Verwaltungs-Dashboard-UI lassen sich Token-Nutzung, Kostenverfolgung, Audit-Logs, Provider-Status und Modell-Overrides einsehen
  • Integrierte Observability-Funktionen wie Prometheus-Metriken, Audit-Logging und Guardrail-Pipelines (jeweils per Umgebungsvariable aktivierbar)
  • API-Authentifizierung über GOMODEL_MASTER_KEY; als Storage-Backend stehen SQLite, PostgreSQL und MongoDB zur Auswahl
  • Unterstützt auch die Registrierung mehrerer Instanzen desselben Providers über Umgebungsvariablen mit Suffix (z. B. OPENAI_EAST_API_KEY)
  • Als Storage-Backend sind SQLite (Standard), PostgreSQL und MongoDB wählbar: für kleine Setups sofort einsatzbereit, für große Umgebungen einfach durch Austausch der DB skalierbar
  • Roadmap für 0.2.0: intelligentes Routing, DeepSeek V3 und Cohere, Budgetverwaltung pro user_path, Cluster-Modus u. a. geplant
  • MIT-Lizenz

Noch keine Kommentare.

Noch keine Kommentare.