1 Punkte von GN⁺ 2026-03-25 | 1 Kommentare | Auf WhatsApp teilen
  • Entwicklung des KI-Rezeptionisten „Axle“, der echte Anrufe entgegennimmt, um Umsatzverluste durch verpasste Telefonate in einer Premium-Werkstatt zu verhindern
  • Die KI basiert auf Retrieval-Augmented Generation (RAG) und liefert präzise Antworten auf Grundlage realer Service- und Preisinformationen, die von der Website erfasst wurden
  • Durch die Integration von Vapi, Deepgram, ElevenLabs, FastAPI und MongoDB Atlas wurden Anrufweiterleitung, Sprach­erkennung/-synthese und das Speichern von Gesprächsprotokollen umgesetzt
  • Die Sprachqualität wurde mit natürlichem Tonfall und kurzen Satzstrukturen abgestimmt, um Kunden freundlich und zugleich professionell zu antworten
  • Geplant ist eine Erweiterung um Buchungssystem, SMS-Benachrichtigungen und ein Callback-Dashboard; bei geschäftsspezifischen Sprachagenten sind Wissensbasis und Eskalationsdesign entscheidend

Der Aufbau des KI-Rezeptionisten

  • Um das Problem zu lösen, dass der Bruder des Autors, der eine Premium-Autowerkstatt betreibt, jeden Monat mehrere Tausend Dollar durch verpasste Anrufe verliert, wurde der maßgeschneiderte KI-Rezeptionist „Axle“ entwickelt
  • Statt eines einfachen Chatbots wurde er als sprachbasierter Agent konzipiert, der echte Anrufe annehmen und Kundenanfragen auf Basis realer Informationen wie Preise, Öffnungszeiten und Richtlinien beantworten kann
  • Das Projekt bestand aus drei Phasen: Aufbau der Wissensbasis (RAG-Pipeline)Anbindung an das Telefonsystem und den ServerFeinabstimmung von Sprachqualität und Gesprächston

Schritt 1: Das Gehirn bauen (RAG-Pipeline)

  • Die KI wurde mit Retrieval-Augmented Generation (RAG) so entworfen, dass sie auf Basis realer Daten antwortet
    • Bei einer reinen LLM-Nutzung besteht das Risiko von Halluzinationen, etwa falschen Preisangaben; deshalb wurden Antworten auf reale Informationen beschränkt
  • Durch Scraping von Website-Daten wurden mehr als 21 Dokumente gesammelt, darunter Servicearten, Preise, Dauer, Öffnungszeiten, Zahlungsarten, Garantien und Ersatzfahrzeug-Richtlinien
  • Die Wissensbasis wurde in MongoDB Atlas gespeichert, und mit Voyage AI (voyage-3-large) wurden 1024-dimensionale Vektor-Embeddings erzeugt
    • Die semantische Suche erfolgt über einen Atlas Vector Search Index
  • Wenn eine Kundenfrage eingeht, wird die Anfrage mit demselben Embedding-Modell umgewandelt und nach den drei semantisch ähnlichsten Dokumenten gesucht
  • Mit Anthropic Claude (claude-sonnet-4-6) werden auf Basis der gefundenen Dokumente Antworten erzeugt
    • Der System-Prompt enthält Regeln wie „keine Informationen außerhalb der Wissensbasis“, „knapp und gesprächig bleiben“ und „bei Unsicherheit einen Rückruf anbieten“
  • Dadurch konnte im Terminal auf Fragen wie „Was kostet ein Ölwechsel?“ präzise mit echten Preisen und Serviceinformationen geantwortet werden

Schritt 2: Verbindung mit einer echten Telefonnummer

  • Um das KI-Gehirn mit einem realen Telefonsystem zu verbinden, wurde die Plattform Vapi verwendet
    • Sie bietet den Kauf von Telefonnummern, Spracherkennung auf Basis von Deepgram, Sprachsynthese auf Basis von ElevenLabs sowie Echtzeit-Funktionsaufrufe
  • Aufbau eines FastAPI-Webhook-Servers
    • Vapi sendet Kundenfragen als tool-calls-Anfragen an den Endpunkt /webhook
    • Der Server leitet sie an die RAG-Pipeline weiter, erhält die Claude-Antwort und sendet sie zurück an Vapi
    • Um ein natürliches Gesprächstempo zu halten, musste die Latenz minimiert werden
  • Mit Ngrok wurde der lokale Server als externe HTTPS-URL verfügbar gemacht, sodass Echtzeittests auch während der Entwicklung möglich waren
  • Vapi-Assistent konfigurieren

    • Begrüßung und zwei Tools (answerQuestion, saveCallback) wurden mit dem Webhook verbunden
    • Der Assistent beantwortet Fragen oder speichert bei fehlendem Wissen Name und Telefonnummer für einen Rückruf
    • Mit der Konversationsspeicher-Funktion bleibt der Kontext früherer Aussagen erhalten
    • Dadurch sind Anschlussfragen wie „Wie sind die Öffnungszeiten?“ → „Und was kostet dann ein Reifenwechsel?“ möglich
  • Anrufprotokolle in MongoDB speichern

    • Erfasst wurden Anrufernummer, Frage, Antwort, ob an einen menschlichen Mitarbeiter übergeben wurde, und Zeitstempel
    • Rückrufanfragen werden in einer separaten callbacks-Collection gespeichert, damit später nachgefasst werden kann
    • So lassen sich Muster bei Kundenanfragen und Anrufvolumen analysieren

Schritt 3: Sprachqualität abstimmen

  • Da sich Textantworten und gesprochene Antworten unterscheiden, war eine Optimierung für die Sprachausgabe nötig
    • Sätze, die schriftlich natürlich wirken, können gesprochen unnatürlich klingen
  • ElevenLabs-Stimme auswählen

    • Nach Tests mit rund 20 Stimmen erwies sich „Christopher“ als die natürlichste und passendste Stimme für die Werkstattatmosphäre
    • Zu robotisch klingende oder übertrieben fröhliche Stimmen waren ungeeignet
  • System-Prompt anpassen

    • Kurze Sätze, Entfernen von Markdown und das Streichen unnötiger Formulierungen wie „Gute Frage!“
    • Preise werden als natürliche Sprache ausgesprochen („forty-five dollars“)
    • Antworten sind auf 2 bis 4 Sätze begrenzt
    • Ziel war eine freundliche, professionelle menschliche Stimme
  • Eskalations-/Rückruf-Flow testen

    • Bei Fragen außerhalb der Wissensbasis sagt die KI, dass sie es nicht weiß, bittet um Namen und Nummer und speichert diese in MongoDB
    • Der Werkstattbesitzer kann anschließend selbst zurückrufen
  • Integrationstests schreiben

    • Geprüft wurden die RAG-Pipeline, die Webhook-Verarbeitung und der gesamte Flow
    • Einschließlich Edge Cases wie fehlerhafte Anfragen, fehlende Suchtreffer oder fehlende Rückrufnummern

Technischer Stack

  • Vapi (Integration von Deepgram & ElevenLabs) — Telefonnummern, Spracherkennung, Sprachsynthese, Funktionsaufrufe
  • Ngrok — HTTPS-Tunnel für lokale Entwicklung
  • FastAPI + Uvicorn — Webhook-Server
  • MongoDB Atlas — Wissensbasis, Vektorsuche, Anrufprotokolle, Rückruf-Queue
  • Voyage AI (voyage-3-large) — semantische Text-Embeddings
  • Anthropic Claude (claude-sonnet-4-6) — Generierung wissensbasierter Antworten
  • Python — mit pymongo, voyageai, anthropic, fastapi
  • Copilot CLI — Build-Automatisierungstool

Nächste Schritte

  • Der aktuelle Stand der KI umfasst bereits die Beantwortung von Fragen und das Sammeln von Rückrufanfragen
  • Als Nächstes geplant sind Kalenderintegration für Echtzeitbuchungen, SMS-Benachrichtigungen, ein Dashboard für Rückrufverwaltung, mehr Sicherheit und Deployment auf Railway
  • Im fertigen Zustand kann das System rund um die Uhr arbeiten und Umsatzverluste durch verpasste Anrufe verhindern
  • Der schwierigste Teil war nicht der Code, sondern die Umsetzung eines zur Werkstatt passenden Stimmtons
  • Wichtigste Erkenntnis: Für geschäftsspezifische Sprachagenten sollte man kein rohes LLM unverändert einsetzen
    • Stattdessen muss es auf einer realen Wissensbasis beruhen, und der Umgang mit unbekannten Fragen (Eskalation) muss zwingend entworfen werden
    • Das ist keine Ausnahme, sondern eine Kernfunktion

1 Kommentare

 
GN⁺ 2026-03-25
Hacker-News-Kommentare
  • Ich habe früher als Service Advisor (Annahme) gearbeitet. Das im Artikel beschriebene System wird in der Praxis wahrscheinlich nicht funktionieren

    1. Wenn es keine identische Reparaturhistorie gibt, ist die Wahrscheinlichkeit hoch, dass der Kostenvoranschlag falsch ist. In manchen Bundesstaaten können falsche Kostenvoranschläge rechtliche Probleme verursachen
    2. Teilebestand und Preise ändern sich ständig. Wenn das System das nicht abbildet, stiftet es nur Verwirrung
    3. Neue Arbeiten sind schon bei der Auswahl der Teile komplex. Je hochwertiger das Fahrzeug, desto heikler wird es
    4. Der nützliche Teil ist höchstens die Benachrichtigung zur Fahrzeugabholung. Also automatische Hinweise zum Fertigstellungstermin oder zum Fortschritt
      Solche Entwicklungen sind nicht nur bloße Arroganz, sondern gefährlich. Wenn man so etwas ohne Verifikation und nur auf Annahmen baut, gefährdet man den Lebensunterhalt anderer
    • Ich bin auch kein Experte, aber dieses Großspurige kann ich nachvollziehen. Wenn man eine Rezeptionistin braucht, ist es naheliegend, einen Menschen einzustellen. Ein Unternehmen einer unbewiesenen KI-Lösung anzuvertrauen, ist schwer nachzuvollziehen. Ich weiß nicht, ob es einfach darum geht, nicht managen zu wollen, oder ob man nur einem Trend hinterherläuft
    • Tatsächlich gibt es eine einfachere Lösung. Man muss nur dafür sorgen, dass die Person, die unter dem Auto arbeitet, Anrufe über ein freihändiges Speakerphone annehmen kann. Mit einem lokalen Spracherkennungsmodell kann man dann auch noch von neuronaler Netzwerktechnik sprechen, und mit Mikrofon reicht dafür ein Budget von 200 bis 300 Dollar völlig aus
    • Wenn man den Originaltext liest, hat diese Werkstatt aber bereits feste Dienstleistungen und eine feste Preisliste. Deshalb treffen die obigen Probleme nicht zu, solange kein individueller Kostenvoranschlag nötig ist
    • Die Einschätzung, das sei „gefährlich“, wirkt überzogen. Der Entwickler hilft gerade dem Geschäft seines Bruders, und selbst wenn es nicht perfekt ist, wäre es den Aufwand schon wert, wenn sich die Conversion-Rate der Kunden nur um 10 % erhöht
    • Benachrichtigungen über fertiggestellte Fahrzeuge oder Status-Updates waren schon vor Jahren mit einem TTS-System möglich. Dafür braucht es nicht unbedingt ein LLM
  • Das Subaru-Autohaus in meiner Gegend bietet bei der telefonischen Terminvereinbarung die Wahl eines KI-Assistenten an. Als ich es ausprobiert habe, war es genauer und schneller als ein Mensch. Dasselbe gilt für die KI-Bestellungen bei Taco Bell. In solchen Fällen verliert man nichts, wenn man nicht mit einem Menschen spricht, und bei Bedarf kann man sich jederzeit zu einem Menschen durchstellen lassen

  • Solche Blogposts erzählen nur die halbe Geschichte. Mich würde interessieren, ob der Umsatz tatsächlich gestiegen ist, ob es den Kunden wichtig war, dass es ein Bot ist, und ob es Fehlfälle gab

    • Tatsächlich ließ sich dieses Problem schon vor KI mit virtuellen Assistenzdiensten lösen. 200 bis 1000 Dollar im Monat reichen aus, und im Grunde holt man damit nur Umsatz zurück, den man ohnehin schon verloren hat. KI ist nur eine kompliziertere Mausefalle, und bei gehobenem Service wirkt menschliche Betreuung deutlich vertrauenswürdiger
    • Vermutlich wurde das noch nicht ausreichend unter realen Bedingungen getestet. Dinge wie E-Mail-Adressen kann ein LLM nur schwer korrekt mitschreiben. Bei Sprachantworten in Echtzeit war Anthropic langsam, während Groq mit unter 200 ms sehr schnell war
    • Ich musste einmal dringend eine Autoscheibe austauschen lassen, aber das automatische Sprachsystem verlangte immer weiter unnötige Informationen, sodass ich aufgelegt habe. Für einfache Terminbuchungen mag das in Ordnung sein, aber in Sonderfällen muss man am Ende doch mit einem Menschen sprechen
    • Solche Versuche sind vernünftig. Die tatsächliche Leistung ist nur noch unklar. Es ist fast wie ein Lackmustest, der KI-Optimisten und KI-Pessimisten voneinander trennt
  • Ich sehe LLM-basierte Telefonassistenten inzwischen ziemlich positiv. Als ich den Kundendienst von Mint Mobile anrief, verstand das LLM mein Anliegen natürlich und löste das Problem in einer Minute. Früher hätte ich dafür mehr als 20 Minuten gewartet

    • Ein LLM spricht deutlich, hat kein Headset-Rauschen und ist leicht zu verstehen. Natürlich gibt es auch Katastrophen wie den LLM-Chatbot von eBay, aber gut umgesetzte Systeme funktionieren hervorragend
    • Der Chat-Support von Amazon ist ähnlich. Das LLM bereitet die Bestellinformationen vor, und der Mensch gibt am Ende nur noch frei. Das ist effizient
    • Allerdings frage ich mich, warum man dafür überhaupt ein LLM braucht, statt es direkt in der App zu lösen. Am Ende wirkt es wie ein Versagen des Entwicklungsprozesses
    • Ich hatte eine ähnliche Erfahrung. Ich stellte eine technische Frage, das LLM beantwortete sie korrekt, und anschließend übernahm ein menschlicher Berater, der aber weniger kompetent wirkte. Trotzdem spart es Zeit
    • Es ist viel besser als die alten Robotersysteme, und RAG-basierte Chatbots sind nützlich genug, um die Dokumentensuche zu ersetzen. Zum Beispiel war der Chatbot von manager.io praktisch, weil er sofort antwortete, statt mich in die Dokumentation zu schicken
  • Dem Artikel zufolge verliert die Werkstatt jeden Monat Tausende Dollar, weil sie Anrufe nicht annehmen kann. Dann hätte eine ausgelagerte Rezeption für rund 500 Dollar im Monat einen deutlich besseren ROI

    • Tatsächlich könnte schon Voicemail einen Teil des Problems lösen. Ob KI oder Mailbox, manche Kunden legen ohnehin auf
    • Wenn sie außerdem schon so viel Arbeit haben, dass sie nicht ans Telefon gehen können, haben sie wahrscheinlich auch gar nicht die Kapazität, zusätzliche Kunden zu bedienen
    • Ein Freund von mir nutzt einen externen Empfangsservice, der für 150 Pfund im Monat von 9 bis 17 Uhr abdeckt. Er selbst passt abends nur noch den Kalender an. Wenn das im Artikel stimmt, arbeitet die Werkstatt wahrscheinlich bereits bei 100 % Auslastung
    • Ein guter Service Writer ist teuer, aber sein Geld wert. Er schafft Vertrauen bei den Kunden und übernimmt das Geschäft vielleicht später sogar einmal
    • Letztlich ist der ROI nur die Werbewirkung für den KI-Kurs, den der Blog eigentlich bewerben will
  • Wenn ich heute das Gefühl habe, dass mich ein Roboter bedient, lege ich sofort auf. Aber bald werden KI-Stimmen wahrscheinlich nicht mehr von Menschen zu unterscheiden sein. Dann könnte das Vertrauen ins Telefon zusammenbrechen. E-Mail und LinkedIn sind schon jetzt voller KI-Spam, deshalb ist man aufs Telefon ausgewichen, aber auch das dürfte bald verschwinden

    • Wenn es sowieso in die Mailbox geht, legen die Leute genauso auf, also verliert man nichts
    • Wenn die KI mich missversteht und ich am Ende doch zu einem Menschen weitergeleitet werde, muss ich dieselbe Geschichte zweimal erzählen, und das ist ermüdend
    • Ich habe kürzlich nach einem Auto gesucht und mit mehreren Händlern Kontakt gehabt. Erst später wurde mir klar, dass es alles LLM-basierte Berater mit falschen Namen waren. Die Antwortgeschwindigkeit war verdächtig schnell
  • Es heißt zwar: „Das ist kein generischer Chatbot“, aber in Wirklichkeit ist es kaum mehr als ein generischer Chatbot des Modelljahrs 2026

  • Auf der „About“-Seite des Blogs steht, der Autor sei von einem Influencer inspiriert worden, der behauptet, durch das Erlernen von Programmieren reich geworden zu sein. Aber diese Haltung ist weit entfernt von der Richtung, die ich mir für Engineering-Kultur wünsche

  • Es macht mich ein wenig traurig, dass Menschen persönliche Blogs mit KI schreiben

    • Immerhin ist es positiv, dass das offen gesagt wird. Die meisten haben wenig Schreiberfahrung und glauben, über ein LLM „gut geschriebene Texte“ zu bekommen. Für sie fühlt sich ein von KI geschriebener Text vielleicht gar nicht schlecht an
  • Braucht man hier RAG wirklich? Eine einfache Preisliste und die Öffnungszeiten passen komplett ins Context Window

    • Wahrscheinlich war das ein Projekt zum Lernen. Ich selbst lerne bei privaten Projekten manchmal auch, indem ich übertriebene Architekturen ausprobiere
    • In Sprachdialogen ist Latenz das größere Problem. Wenn die Website mehrere Seiten hat, kann es effizient sein, mit RAG nur Teile schnell zu laden und das LLM daraus die detaillierte Antwort bilden zu lassen
    • Es wäre einfacher, einfach die ganze Website und die Preisliste in den Kontext zu legen
    • Da stimme ich zu. Diese Informationsmenge lässt sich problemlos auf einmal verarbeiten
    • Insgesamt ist diese Architektur übertrieben