Flamehaven FileSearch — selbst hostbare Open-Source-RAG-Dokumentensuchmaschine
(github.com/flamehaven01)🔥Flamehaven FileSearch
- Flamehaven FileSearch ist eine selbst hostbare Open-Source-Semantik-Suchmaschine, mit der jeder in nur 5 Minuten ein dokumentbasiertes RAG-System (Retrieval-Augmented Generation) aufsetzen kann.
- Sie basiert auf Python, FastAPI und SQLite und nutzt Google Gemini Embedding, um Frage-Antwort-Abfragen in natürlicher Sprache über verschiedene Dokumenttypen wie PDF/DOCX/TXT/MD auszuführen.
Warum wurde es entwickelt?
- Die meisten Open-Source-RAG-Implementierungen laufen in Colab- oder Jupyter-Umgebungen gut, sind aber für den produktiven Betrieb auf einem echten Server oft zu komplex aufgebaut oder nicht stabil genug.
- Flamehaven FileSearch wurde mit dem Ziel eines „leichtgewichtigen RAG-Stacks, der in der Praxis wirklich funktioniert“ entwickelt, damit Forschende, Startups und einzelne Entwickler sofort Semantik-Suche mit ihren eigenen Daten ausprobieren können.
Warum ist es bemerkenswert?
- Vollständige Autonomie: Keine Abhängigkeit von externen Servern oder der Cloud, alle Daten werden lokal gespeichert.
- Entwicklerzentrierte Struktur: Python SDK + REST API, automatische Bereitstellung von Swagger-Dokumentation auf FastAPI-Basis.
- Verteilung als PyPI-Paket: Direkt installierbar über PyPI — vollständige automatische Installation mit nur einer Zeile:
pip install flamehaven-filesearch[api]. - Sofort einsatzbereit: Nach der Installation kann der Server direkt mit dem Befehl
flamehaven-apigestartet werden, API-Tests sind im Browser über/docsmöglich. - Erweiterbarkeit: SQLite-Storage, Plugin-Architektur, Unterstützung für Docker-Deployment.
- Geeignet für Bildung und Forschung: Nutzt Gemini-Embeddings und ist ideal für praktische Übungen zur modernen, LLM-basierten Semantik-Suche.
Was ist enthalten? (Highlights)
-
Python SDK:
from flamehaven_filesearch import FlamehavenFileSearch→ Bietet vollständige Funktionen für Dokument-Upload / Suche / Store-Verwaltung.
-
REST API: Endpunkte
/upload,/search,/stores+ Swagger UI. -
Docker-Unterstützung:
docker run -e GEMINI_API_KEY=... -p 8000:8000 flamehaven/filesearch:latest -
Struktur:
core(Engine)/api(FastAPI)/data(SQLite)/examples/docs
Schnell ausprobieren
1️⃣ PyPI-Paket
Flamehaven FileSearch kann direkt über PyPI installiert werden.
Neueste Version prüfen: https://pypi.org/project/flamehaven-filesearch
pip install flamehaven-filesearch[api]
2️⃣ Installation
pip install flamehaven-filesearch[api]
export GEMINI_API_KEY="your-google-gemini-key"
flamehaven-api
3️⃣ Dokument hochladen & suchen
curl -X POST "http://localhost:8000/upload" -F "file=@handbook.pdf"
curl "http://localhost:8000/search?q=vacation+policy"
4️⃣ Beispiel für die SDK-Nutzung
from flamehaven_filesearch import FlamehavenFileSearch
fs = FlamehavenFileSearch()
fs.upload_file("handbook.pdf")
print(fs.search("vacation policy")["answer"])
Leistung & Spezifikationen
- Umgebung: Ubuntu 22.04 / 2vCPU / 4GB RAM / SSD
- Upload einer 10MB-PDF → ca. 5 Sekunden
- Durchschnittliche Suchantwort → 2 Sekunden (bei Zitierung von 5 Quellen)
- Löschen/Erstellen von Stores → innerhalb von 1 Sekunde
- Storage-Overhead → etwa 5 % der Dokumentgröße
Roadmap
- v1.1 : Caching und Quotenverwaltung
- v1.2 : Batch-Suche + WebSocket-Streaming
- v2.0 : Unterstützung für mehrsprachige Dokumente, Analyse-Dashboard
- Zukünftig : Integration von Pinecone/Weaviate-Vektor-DBs, OCR, kollaborative Stores
Lizenz
- MIT License (vollständig Open Source)
🛡️ Bekanntmachung zu Sicherheit und Konto von Flamehaven auf GitHub
Vor Kurzem wurden auf dem GitHub-Konto von Flamehaven (diesem Konto) verdächtige Anmeldeversuche festgestellt, wodurch das Konto derzeit gesperrt ist. Aktuell wird der Vorfall gemeinsam mit dem GitHub-Sicherheitsteam überprüft.
Infolge dieses Vorfalls werden die Konten mit dir2md, flashrecord, crom-efficient und Arr-medic-cyp3a4 vorerst nicht genutzt.
Wir entschuldigen uns aufrichtig für die Unannehmlichkeiten und bitten um etwas Verständnis, bis die Sicherheitsprüfung abgeschlossen ist.
Noch keine Kommentare.