Wie man einen KI-Rezeptionisten für eine Luxus-Autowerkstatt baut – Teil 1

(itsthatlady.dev)

1 Punkte von GN⁺ 2026-03-25 | 1 Kommentare | Auf WhatsApp teilen

Entwicklung des KI-Rezeptionisten „Axle“, der echte Anrufe entgegennimmt, um Umsatzverluste durch verpasste Telefonate in einer Premium-Werkstatt zu verhindern
Die KI basiert auf Retrieval-Augmented Generation (RAG) und liefert präzise Antworten auf Grundlage realer Service- und Preisinformationen, die von der Website erfasst wurden
Durch die Integration von Vapi, Deepgram, ElevenLabs, FastAPI und MongoDB Atlas wurden Anrufweiterleitung, Spracherkennung/-synthese und das Speichern von Gesprächsprotokollen umgesetzt
Die Sprachqualität wurde mit natürlichem Tonfall und kurzen Satzstrukturen abgestimmt, um Kunden freundlich und zugleich professionell zu antworten
Geplant ist eine Erweiterung um Buchungssystem, SMS-Benachrichtigungen und ein Callback-Dashboard; bei geschäftsspezifischen Sprachagenten sind Wissensbasis und Eskalationsdesign entscheidend

Der Aufbau des KI-Rezeptionisten

Um das Problem zu lösen, dass der Bruder des Autors, der eine Premium-Autowerkstatt betreibt, jeden Monat mehrere Tausend Dollar durch verpasste Anrufe verliert, wurde der maßgeschneiderte KI-Rezeptionist „Axle“ entwickelt
Statt eines einfachen Chatbots wurde er als sprachbasierter Agent konzipiert, der echte Anrufe annehmen und Kundenanfragen auf Basis realer Informationen wie Preise, Öffnungszeiten und Richtlinien beantworten kann
Das Projekt bestand aus drei Phasen: Aufbau der Wissensbasis (RAG-Pipeline) → Anbindung an das Telefonsystem und den Server → Feinabstimmung von Sprachqualität und Gesprächston

Schritt 1: Das Gehirn bauen (RAG-Pipeline)

Die KI wurde mit Retrieval-Augmented Generation (RAG) so entworfen, dass sie auf Basis realer Daten antwortet
- Bei einer reinen LLM-Nutzung besteht das Risiko von Halluzinationen, etwa falschen Preisangaben; deshalb wurden Antworten auf reale Informationen beschränkt
Durch Scraping von Website-Daten wurden mehr als 21 Dokumente gesammelt, darunter Servicearten, Preise, Dauer, Öffnungszeiten, Zahlungsarten, Garantien und Ersatzfahrzeug-Richtlinien
Die Wissensbasis wurde in MongoDB Atlas gespeichert, und mit Voyage AI (voyage-3-large) wurden 1024-dimensionale Vektor-Embeddings erzeugt
- Die semantische Suche erfolgt über einen Atlas Vector Search Index
Wenn eine Kundenfrage eingeht, wird die Anfrage mit demselben Embedding-Modell umgewandelt und nach den drei semantisch ähnlichsten Dokumenten gesucht
Mit Anthropic Claude (claude-sonnet-4-6) werden auf Basis der gefundenen Dokumente Antworten erzeugt
- Der System-Prompt enthält Regeln wie „keine Informationen außerhalb der Wissensbasis“, „knapp und gesprächig bleiben“ und „bei Unsicherheit einen Rückruf anbieten“
Dadurch konnte im Terminal auf Fragen wie „Was kostet ein Ölwechsel?“ präzise mit echten Preisen und Serviceinformationen geantwortet werden

Schritt 2: Verbindung mit einer echten Telefonnummer

Um das KI-Gehirn mit einem realen Telefonsystem zu verbinden, wurde die Plattform Vapi verwendet
- Sie bietet den Kauf von Telefonnummern, Spracherkennung auf Basis von Deepgram, Sprachsynthese auf Basis von ElevenLabs sowie Echtzeit-Funktionsaufrufe
Aufbau eines FastAPI-Webhook-Servers
- Vapi sendet Kundenfragen als tool-calls-Anfragen an den Endpunkt /webhook
- Der Server leitet sie an die RAG-Pipeline weiter, erhält die Claude-Antwort und sendet sie zurück an Vapi
- Um ein natürliches Gesprächstempo zu halten, musste die Latenz minimiert werden
Mit Ngrok wurde der lokale Server als externe HTTPS-URL verfügbar gemacht, sodass Echtzeittests auch während der Entwicklung möglich waren
Vapi-Assistent konfigurieren
- Begrüßung und zwei Tools (answerQuestion, saveCallback) wurden mit dem Webhook verbunden
- Der Assistent beantwortet Fragen oder speichert bei fehlendem Wissen Name und Telefonnummer für einen Rückruf
- Mit der Konversationsspeicher-Funktion bleibt der Kontext früherer Aussagen erhalten
- Dadurch sind Anschlussfragen wie „Wie sind die Öffnungszeiten?“ → „Und was kostet dann ein Reifenwechsel?“ möglich
Anrufprotokolle in MongoDB speichern
- Erfasst wurden Anrufernummer, Frage, Antwort, ob an einen menschlichen Mitarbeiter übergeben wurde, und Zeitstempel
- Rückrufanfragen werden in einer separaten callbacks-Collection gespeichert, damit später nachgefasst werden kann
- So lassen sich Muster bei Kundenanfragen und Anrufvolumen analysieren

Schritt 3: Sprachqualität abstimmen

Da sich Textantworten und gesprochene Antworten unterscheiden, war eine Optimierung für die Sprachausgabe nötig
- Sätze, die schriftlich natürlich wirken, können gesprochen unnatürlich klingen
ElevenLabs-Stimme auswählen
- Nach Tests mit rund 20 Stimmen erwies sich „Christopher“ als die natürlichste und passendste Stimme für die Werkstattatmosphäre
- Zu robotisch klingende oder übertrieben fröhliche Stimmen waren ungeeignet
System-Prompt anpassen
- Kurze Sätze, Entfernen von Markdown und das Streichen unnötiger Formulierungen wie „Gute Frage!“
- Preise werden als natürliche Sprache ausgesprochen („forty-five dollars“)
- Antworten sind auf 2 bis 4 Sätze begrenzt
- Ziel war eine freundliche, professionelle menschliche Stimme
Eskalations-/Rückruf-Flow testen
- Bei Fragen außerhalb der Wissensbasis sagt die KI, dass sie es nicht weiß, bittet um Namen und Nummer und speichert diese in MongoDB
- Der Werkstattbesitzer kann anschließend selbst zurückrufen
Integrationstests schreiben
- Geprüft wurden die RAG-Pipeline, die Webhook-Verarbeitung und der gesamte Flow
- Einschließlich Edge Cases wie fehlerhafte Anfragen, fehlende Suchtreffer oder fehlende Rückrufnummern

Technischer Stack

Vapi (Integration von Deepgram & ElevenLabs) — Telefonnummern, Spracherkennung, Sprachsynthese, Funktionsaufrufe
Ngrok — HTTPS-Tunnel für lokale Entwicklung
FastAPI + Uvicorn — Webhook-Server
MongoDB Atlas — Wissensbasis, Vektorsuche, Anrufprotokolle, Rückruf-Queue
Voyage AI (voyage-3-large) — semantische Text-Embeddings
Anthropic Claude (claude-sonnet-4-6) — Generierung wissensbasierter Antworten
Python — mit pymongo, voyageai, anthropic, fastapi
Copilot CLI — Build-Automatisierungstool

Nächste Schritte

Der aktuelle Stand der KI umfasst bereits die Beantwortung von Fragen und das Sammeln von Rückrufanfragen
Als Nächstes geplant sind Kalenderintegration für Echtzeitbuchungen, SMS-Benachrichtigungen, ein Dashboard für Rückrufverwaltung, mehr Sicherheit und Deployment auf Railway
Im fertigen Zustand kann das System rund um die Uhr arbeiten und Umsatzverluste durch verpasste Anrufe verhindern
Der schwierigste Teil war nicht der Code, sondern die Umsetzung eines zur Werkstatt passenden Stimmtons
Wichtigste Erkenntnis: Für geschäftsspezifische Sprachagenten sollte man kein rohes LLM unverändert einsetzen
- Stattdessen muss es auf einer realen Wissensbasis beruhen, und der Umgang mit unbekannten Fragen (Eskalation) muss zwingend entworfen werden
- Das ist keine Ausnahme, sondern eine Kernfunktion

1 Kommentare

GN⁺ 2026-03-25

Hacker-News-Kommentare

Ich habe früher als Service Advisor (Annahme) gearbeitet. Das im Artikel beschriebene System wird in der Praxis wahrscheinlich nicht funktionieren
1. Wenn es keine identische Reparaturhistorie gibt, ist die Wahrscheinlichkeit hoch, dass der Kostenvoranschlag falsch ist. In manchen Bundesstaaten können falsche Kostenvoranschläge rechtliche Probleme verursachen
2. Teilebestand und Preise ändern sich ständig. Wenn das System das nicht abbildet, stiftet es nur Verwirrung
3. Neue Arbeiten sind schon bei der Auswahl der Teile komplex. Je hochwertiger das Fahrzeug, desto heikler wird es
4. Der nützliche Teil ist höchstens die Benachrichtigung zur Fahrzeugabholung. Also automatische Hinweise zum Fertigstellungstermin oder zum Fortschritt
  Solche Entwicklungen sind nicht nur bloße Arroganz, sondern gefährlich. Wenn man so etwas ohne Verifikation und nur auf Annahmen baut, gefährdet man den Lebensunterhalt anderer
- Ich bin auch kein Experte, aber dieses Großspurige kann ich nachvollziehen. Wenn man eine Rezeptionistin braucht, ist es naheliegend, einen Menschen einzustellen. Ein Unternehmen einer unbewiesenen KI-Lösung anzuvertrauen, ist schwer nachzuvollziehen. Ich weiß nicht, ob es einfach darum geht, nicht managen zu wollen, oder ob man nur einem Trend hinterherläuft
- Tatsächlich gibt es eine einfachere Lösung. Man muss nur dafür sorgen, dass die Person, die unter dem Auto arbeitet, Anrufe über ein freihändiges Speakerphone annehmen kann. Mit einem lokalen Spracherkennungsmodell kann man dann auch noch von neuronaler Netzwerktechnik sprechen, und mit Mikrofon reicht dafür ein Budget von 200 bis 300 Dollar völlig aus
- Wenn man den Originaltext liest, hat diese Werkstatt aber bereits feste Dienstleistungen und eine feste Preisliste. Deshalb treffen die obigen Probleme nicht zu, solange kein individueller Kostenvoranschlag nötig ist
- Die Einschätzung, das sei „gefährlich“, wirkt überzogen. Der Entwickler hilft gerade dem Geschäft seines Bruders, und selbst wenn es nicht perfekt ist, wäre es den Aufwand schon wert, wenn sich die Conversion-Rate der Kunden nur um 10 % erhöht
- Benachrichtigungen über fertiggestellte Fahrzeuge oder Status-Updates waren schon vor Jahren mit einem TTS-System möglich. Dafür braucht es nicht unbedingt ein LLM
Das Subaru-Autohaus in meiner Gegend bietet bei der telefonischen Terminvereinbarung die Wahl eines KI-Assistenten an. Als ich es ausprobiert habe, war es genauer und schneller als ein Mensch. Dasselbe gilt für die KI-Bestellungen bei Taco Bell. In solchen Fällen verliert man nichts, wenn man nicht mit einem Menschen spricht, und bei Bedarf kann man sich jederzeit zu einem Menschen durchstellen lassen
Solche Blogposts erzählen nur die halbe Geschichte. Mich würde interessieren, ob der Umsatz tatsächlich gestiegen ist, ob es den Kunden wichtig war, dass es ein Bot ist, und ob es Fehlfälle gab
- Tatsächlich ließ sich dieses Problem schon vor KI mit virtuellen Assistenzdiensten lösen. 200 bis 1000 Dollar im Monat reichen aus, und im Grunde holt man damit nur Umsatz zurück, den man ohnehin schon verloren hat. KI ist nur eine kompliziertere Mausefalle, und bei gehobenem Service wirkt menschliche Betreuung deutlich vertrauenswürdiger
- Vermutlich wurde das noch nicht ausreichend unter realen Bedingungen getestet. Dinge wie E-Mail-Adressen kann ein LLM nur schwer korrekt mitschreiben. Bei Sprachantworten in Echtzeit war Anthropic langsam, während Groq mit unter 200 ms sehr schnell war
- Ich musste einmal dringend eine Autoscheibe austauschen lassen, aber das automatische Sprachsystem verlangte immer weiter unnötige Informationen, sodass ich aufgelegt habe. Für einfache Terminbuchungen mag das in Ordnung sein, aber in Sonderfällen muss man am Ende doch mit einem Menschen sprechen
- Solche Versuche sind vernünftig. Die tatsächliche Leistung ist nur noch unklar. Es ist fast wie ein Lackmustest, der KI-Optimisten und KI-Pessimisten voneinander trennt
Ich sehe LLM-basierte Telefonassistenten inzwischen ziemlich positiv. Als ich den Kundendienst von Mint Mobile anrief, verstand das LLM mein Anliegen natürlich und löste das Problem in einer Minute. Früher hätte ich dafür mehr als 20 Minuten gewartet
- Ein LLM spricht deutlich, hat kein Headset-Rauschen und ist leicht zu verstehen. Natürlich gibt es auch Katastrophen wie den LLM-Chatbot von eBay, aber gut umgesetzte Systeme funktionieren hervorragend
- Der Chat-Support von Amazon ist ähnlich. Das LLM bereitet die Bestellinformationen vor, und der Mensch gibt am Ende nur noch frei. Das ist effizient
- Allerdings frage ich mich, warum man dafür überhaupt ein LLM braucht, statt es direkt in der App zu lösen. Am Ende wirkt es wie ein Versagen des Entwicklungsprozesses
- Ich hatte eine ähnliche Erfahrung. Ich stellte eine technische Frage, das LLM beantwortete sie korrekt, und anschließend übernahm ein menschlicher Berater, der aber weniger kompetent wirkte. Trotzdem spart es Zeit
- Es ist viel besser als die alten Robotersysteme, und RAG-basierte Chatbots sind nützlich genug, um die Dokumentensuche zu ersetzen. Zum Beispiel war der Chatbot von manager.io praktisch, weil er sofort antwortete, statt mich in die Dokumentation zu schicken
Dem Artikel zufolge verliert die Werkstatt jeden Monat Tausende Dollar, weil sie Anrufe nicht annehmen kann. Dann hätte eine ausgelagerte Rezeption für rund 500 Dollar im Monat einen deutlich besseren ROI
- Tatsächlich könnte schon Voicemail einen Teil des Problems lösen. Ob KI oder Mailbox, manche Kunden legen ohnehin auf
- Wenn sie außerdem schon so viel Arbeit haben, dass sie nicht ans Telefon gehen können, haben sie wahrscheinlich auch gar nicht die Kapazität, zusätzliche Kunden zu bedienen
- Ein Freund von mir nutzt einen externen Empfangsservice, der für 150 Pfund im Monat von 9 bis 17 Uhr abdeckt. Er selbst passt abends nur noch den Kalender an. Wenn das im Artikel stimmt, arbeitet die Werkstatt wahrscheinlich bereits bei 100 % Auslastung
- Ein guter Service Writer ist teuer, aber sein Geld wert. Er schafft Vertrauen bei den Kunden und übernimmt das Geschäft vielleicht später sogar einmal
- Letztlich ist der ROI nur die Werbewirkung für den KI-Kurs, den der Blog eigentlich bewerben will
Wenn ich heute das Gefühl habe, dass mich ein Roboter bedient, lege ich sofort auf. Aber bald werden KI-Stimmen wahrscheinlich nicht mehr von Menschen zu unterscheiden sein. Dann könnte das Vertrauen ins Telefon zusammenbrechen. E-Mail und LinkedIn sind schon jetzt voller KI-Spam, deshalb ist man aufs Telefon ausgewichen, aber auch das dürfte bald verschwinden
- Wenn es sowieso in die Mailbox geht, legen die Leute genauso auf, also verliert man nichts
- Wenn die KI mich missversteht und ich am Ende doch zu einem Menschen weitergeleitet werde, muss ich dieselbe Geschichte zweimal erzählen, und das ist ermüdend
- Ich habe kürzlich nach einem Auto gesucht und mit mehreren Händlern Kontakt gehabt. Erst später wurde mir klar, dass es alles LLM-basierte Berater mit falschen Namen waren. Die Antwortgeschwindigkeit war verdächtig schnell
Es heißt zwar: „Das ist kein generischer Chatbot“, aber in Wirklichkeit ist es kaum mehr als ein generischer Chatbot des Modelljahrs 2026
Auf der „About“-Seite des Blogs steht, der Autor sei von einem Influencer inspiriert worden, der behauptet, durch das Erlernen von Programmieren reich geworden zu sein. Aber diese Haltung ist weit entfernt von der Richtung, die ich mir für Engineering-Kultur wünsche
Es macht mich ein wenig traurig, dass Menschen persönliche Blogs mit KI schreiben
- Immerhin ist es positiv, dass das offen gesagt wird. Die meisten haben wenig Schreiberfahrung und glauben, über ein LLM „gut geschriebene Texte“ zu bekommen. Für sie fühlt sich ein von KI geschriebener Text vielleicht gar nicht schlecht an
Braucht man hier RAG wirklich? Eine einfache Preisliste und die Öffnungszeiten passen komplett ins Context Window
- Wahrscheinlich war das ein Projekt zum Lernen. Ich selbst lerne bei privaten Projekten manchmal auch, indem ich übertriebene Architekturen ausprobiere
- In Sprachdialogen ist Latenz das größere Problem. Wenn die Website mehrere Seiten hat, kann es effizient sein, mit RAG nur Teile schnell zu laden und das LLM daraus die detaillierte Antwort bilden zu lassen
- Es wäre einfacher, einfach die ganze Website und die Preisliste in den Kontext zu legen
- Da stimme ich zu. Diese Informationsmenge lässt sich problemlos auf einmal verarbeiten
- Insgesamt ist diese Architektur übertrieben

Wie man einen KI-Rezeptionisten für eine Luxus-Autowerkstatt baut – Teil 1

Der Aufbau des KI-Rezeptionisten

Schritt 1: Das Gehirn bauen (RAG-Pipeline)

Schritt 2: Verbindung mit einer echten Telefonnummer

Vapi-Assistent konfigurieren

Anrufprotokolle in MongoDB speichern

Schritt 3: Sprachqualität abstimmen

ElevenLabs-Stimme auswählen

System-Prompt anpassen

Eskalations-/Rückruf-Flow testen

Integrationstests schreiben

Technischer Stack

Nächste Schritte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare