- Entwicklung des KI-Rezeptionisten „Axle“, der echte Anrufe entgegennimmt, um Umsatzverluste durch verpasste Telefonate in einer Premium-Werkstatt zu verhindern
- Die KI basiert auf Retrieval-Augmented Generation (RAG) und liefert präzise Antworten auf Grundlage realer Service- und Preisinformationen, die von der Website erfasst wurden
- Durch die Integration von Vapi, Deepgram, ElevenLabs, FastAPI und MongoDB Atlas wurden Anrufweiterleitung, Spracherkennung/-synthese und das Speichern von Gesprächsprotokollen umgesetzt
- Die Sprachqualität wurde mit natürlichem Tonfall und kurzen Satzstrukturen abgestimmt, um Kunden freundlich und zugleich professionell zu antworten
- Geplant ist eine Erweiterung um Buchungssystem, SMS-Benachrichtigungen und ein Callback-Dashboard; bei geschäftsspezifischen Sprachagenten sind Wissensbasis und Eskalationsdesign entscheidend
Der Aufbau des KI-Rezeptionisten
- Um das Problem zu lösen, dass der Bruder des Autors, der eine Premium-Autowerkstatt betreibt, jeden Monat mehrere Tausend Dollar durch verpasste Anrufe verliert, wurde der maßgeschneiderte KI-Rezeptionist „Axle“ entwickelt
- Statt eines einfachen Chatbots wurde er als sprachbasierter Agent konzipiert, der echte Anrufe annehmen und Kundenanfragen auf Basis realer Informationen wie Preise, Öffnungszeiten und Richtlinien beantworten kann
- Das Projekt bestand aus drei Phasen: Aufbau der Wissensbasis (RAG-Pipeline) → Anbindung an das Telefonsystem und den Server → Feinabstimmung von Sprachqualität und Gesprächston
Schritt 1: Das Gehirn bauen (RAG-Pipeline)
- Die KI wurde mit Retrieval-Augmented Generation (RAG) so entworfen, dass sie auf Basis realer Daten antwortet
- Bei einer reinen LLM-Nutzung besteht das Risiko von Halluzinationen, etwa falschen Preisangaben; deshalb wurden Antworten auf reale Informationen beschränkt
- Durch Scraping von Website-Daten wurden mehr als 21 Dokumente gesammelt, darunter Servicearten, Preise, Dauer, Öffnungszeiten, Zahlungsarten, Garantien und Ersatzfahrzeug-Richtlinien
- Die Wissensbasis wurde in MongoDB Atlas gespeichert, und mit Voyage AI (voyage-3-large) wurden 1024-dimensionale Vektor-Embeddings erzeugt
- Die semantische Suche erfolgt über einen Atlas Vector Search Index
- Wenn eine Kundenfrage eingeht, wird die Anfrage mit demselben Embedding-Modell umgewandelt und nach den drei semantisch ähnlichsten Dokumenten gesucht
- Mit Anthropic Claude (claude-sonnet-4-6) werden auf Basis der gefundenen Dokumente Antworten erzeugt
- Der System-Prompt enthält Regeln wie „keine Informationen außerhalb der Wissensbasis“, „knapp und gesprächig bleiben“ und „bei Unsicherheit einen Rückruf anbieten“
- Dadurch konnte im Terminal auf Fragen wie „Was kostet ein Ölwechsel?“ präzise mit echten Preisen und Serviceinformationen geantwortet werden
Schritt 2: Verbindung mit einer echten Telefonnummer
- Um das KI-Gehirn mit einem realen Telefonsystem zu verbinden, wurde die Plattform Vapi verwendet
- Sie bietet den Kauf von Telefonnummern, Spracherkennung auf Basis von Deepgram, Sprachsynthese auf Basis von ElevenLabs sowie Echtzeit-Funktionsaufrufe
- Aufbau eines FastAPI-Webhook-Servers
- Vapi sendet Kundenfragen als
tool-calls-Anfragen an den Endpunkt /webhook
- Der Server leitet sie an die RAG-Pipeline weiter, erhält die Claude-Antwort und sendet sie zurück an Vapi
- Um ein natürliches Gesprächstempo zu halten, musste die Latenz minimiert werden
- Mit Ngrok wurde der lokale Server als externe HTTPS-URL verfügbar gemacht, sodass Echtzeittests auch während der Entwicklung möglich waren
-
Vapi-Assistent konfigurieren
- Begrüßung und zwei Tools (
answerQuestion, saveCallback) wurden mit dem Webhook verbunden
- Der Assistent beantwortet Fragen oder speichert bei fehlendem Wissen Name und Telefonnummer für einen Rückruf
- Mit der Konversationsspeicher-Funktion bleibt der Kontext früherer Aussagen erhalten
- Dadurch sind Anschlussfragen wie „Wie sind die Öffnungszeiten?“ → „Und was kostet dann ein Reifenwechsel?“ möglich
-
Anrufprotokolle in MongoDB speichern
- Erfasst wurden Anrufernummer, Frage, Antwort, ob an einen menschlichen Mitarbeiter übergeben wurde, und Zeitstempel
- Rückrufanfragen werden in einer separaten
callbacks-Collection gespeichert, damit später nachgefasst werden kann
- So lassen sich Muster bei Kundenanfragen und Anrufvolumen analysieren
Schritt 3: Sprachqualität abstimmen
- Da sich Textantworten und gesprochene Antworten unterscheiden, war eine Optimierung für die Sprachausgabe nötig
- Sätze, die schriftlich natürlich wirken, können gesprochen unnatürlich klingen
-
ElevenLabs-Stimme auswählen
- Nach Tests mit rund 20 Stimmen erwies sich „Christopher“ als die natürlichste und passendste Stimme für die Werkstattatmosphäre
- Zu robotisch klingende oder übertrieben fröhliche Stimmen waren ungeeignet
-
System-Prompt anpassen
- Kurze Sätze, Entfernen von Markdown und das Streichen unnötiger Formulierungen wie „Gute Frage!“
- Preise werden als natürliche Sprache ausgesprochen („forty-five dollars“)
- Antworten sind auf 2 bis 4 Sätze begrenzt
- Ziel war eine freundliche, professionelle menschliche Stimme
-
Eskalations-/Rückruf-Flow testen
- Bei Fragen außerhalb der Wissensbasis sagt die KI, dass sie es nicht weiß, bittet um Namen und Nummer und speichert diese in MongoDB
- Der Werkstattbesitzer kann anschließend selbst zurückrufen
-
Integrationstests schreiben
- Geprüft wurden die RAG-Pipeline, die Webhook-Verarbeitung und der gesamte Flow
- Einschließlich Edge Cases wie fehlerhafte Anfragen, fehlende Suchtreffer oder fehlende Rückrufnummern
Technischer Stack
- Vapi (Integration von Deepgram & ElevenLabs) — Telefonnummern, Spracherkennung, Sprachsynthese, Funktionsaufrufe
- Ngrok — HTTPS-Tunnel für lokale Entwicklung
- FastAPI + Uvicorn — Webhook-Server
- MongoDB Atlas — Wissensbasis, Vektorsuche, Anrufprotokolle, Rückruf-Queue
- Voyage AI (voyage-3-large) — semantische Text-Embeddings
- Anthropic Claude (claude-sonnet-4-6) — Generierung wissensbasierter Antworten
- Python — mit
pymongo, voyageai, anthropic, fastapi
- Copilot CLI — Build-Automatisierungstool
Nächste Schritte
- Der aktuelle Stand der KI umfasst bereits die Beantwortung von Fragen und das Sammeln von Rückrufanfragen
- Als Nächstes geplant sind Kalenderintegration für Echtzeitbuchungen, SMS-Benachrichtigungen, ein Dashboard für Rückrufverwaltung, mehr Sicherheit und Deployment auf Railway
- Im fertigen Zustand kann das System rund um die Uhr arbeiten und Umsatzverluste durch verpasste Anrufe verhindern
- Der schwierigste Teil war nicht der Code, sondern die Umsetzung eines zur Werkstatt passenden Stimmtons
- Wichtigste Erkenntnis: Für geschäftsspezifische Sprachagenten sollte man kein rohes LLM unverändert einsetzen
- Stattdessen muss es auf einer realen Wissensbasis beruhen, und der Umgang mit unbekannten Fragen (Eskalation) muss zwingend entworfen werden
- Das ist keine Ausnahme, sondern eine Kernfunktion
1 Kommentare
Hacker-News-Kommentare
Ich habe früher als Service Advisor (Annahme) gearbeitet. Das im Artikel beschriebene System wird in der Praxis wahrscheinlich nicht funktionieren
Solche Entwicklungen sind nicht nur bloße Arroganz, sondern gefährlich. Wenn man so etwas ohne Verifikation und nur auf Annahmen baut, gefährdet man den Lebensunterhalt anderer
Das Subaru-Autohaus in meiner Gegend bietet bei der telefonischen Terminvereinbarung die Wahl eines KI-Assistenten an. Als ich es ausprobiert habe, war es genauer und schneller als ein Mensch. Dasselbe gilt für die KI-Bestellungen bei Taco Bell. In solchen Fällen verliert man nichts, wenn man nicht mit einem Menschen spricht, und bei Bedarf kann man sich jederzeit zu einem Menschen durchstellen lassen
Solche Blogposts erzählen nur die halbe Geschichte. Mich würde interessieren, ob der Umsatz tatsächlich gestiegen ist, ob es den Kunden wichtig war, dass es ein Bot ist, und ob es Fehlfälle gab
Ich sehe LLM-basierte Telefonassistenten inzwischen ziemlich positiv. Als ich den Kundendienst von Mint Mobile anrief, verstand das LLM mein Anliegen natürlich und löste das Problem in einer Minute. Früher hätte ich dafür mehr als 20 Minuten gewartet
Dem Artikel zufolge verliert die Werkstatt jeden Monat Tausende Dollar, weil sie Anrufe nicht annehmen kann. Dann hätte eine ausgelagerte Rezeption für rund 500 Dollar im Monat einen deutlich besseren ROI
Wenn ich heute das Gefühl habe, dass mich ein Roboter bedient, lege ich sofort auf. Aber bald werden KI-Stimmen wahrscheinlich nicht mehr von Menschen zu unterscheiden sein. Dann könnte das Vertrauen ins Telefon zusammenbrechen. E-Mail und LinkedIn sind schon jetzt voller KI-Spam, deshalb ist man aufs Telefon ausgewichen, aber auch das dürfte bald verschwinden
Es heißt zwar: „Das ist kein generischer Chatbot“, aber in Wirklichkeit ist es kaum mehr als ein generischer Chatbot des Modelljahrs 2026
Auf der „About“-Seite des Blogs steht, der Autor sei von einem Influencer inspiriert worden, der behauptet, durch das Erlernen von Programmieren reich geworden zu sein. Aber diese Haltung ist weit entfernt von der Richtung, die ich mir für Engineering-Kultur wünsche
Es macht mich ein wenig traurig, dass Menschen persönliche Blogs mit KI schreiben
Braucht man hier RAG wirklich? Eine einfache Preisliste und die Öffnungszeiten passen komplett ins Context Window