Gegen Feuer mit Feuer: Mit AI-Sprachagenten mündliche Prüfungen skalieren

(behind-the-enemy-lines.com)

2 Punkte von GN⁺ 2026-01-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Mit der Verbreitung von Large Language Models (LLMs) können bestehende Aufgaben und Prüfungen das Lernverständnis nicht mehr zuverlässig messen. Deshalb führte das Lehrteam testweise mündliche Echtzeitprüfungen mit ElevenLabs Voice AI ein
Die Prüfung bestand aus zwei Teilen — Projekterklärung und Fallfragen —, wobei die Studierenden dem AI-System ihre Entscheidungsgrundlagen und Denkprozesse selbst erklären mussten
Die drei Modelle Claude, Gemini und ChatGPT bewerteten im Abstimmungsverfahren, um Konsistenz und Feedbackqualität zu erhöhen; dabei wurde auch ein Schwachpunkt der realen Lehrveranstaltung (Versuchsdesign) sichtbar
36 Studierende wurden über 9 Tage hinweg mit durchschnittlich 25 Minuten bewertet; die Kosten pro Studierendem lagen bei 0,42 US-Dollar und waren damit sehr niedrig
AI-gestützte mündliche Prüfungen könnten zu einem neuen, skalierbaren Prüfungsmodell für verständnisorientierte Bewertung werden

Problemlage und Hintergrund zur Einführung mündlicher Prüfungen

Die Qualität der studentischen Arbeiten war ungewöhnlich hoch, was den Verdacht auf AI-generierte Texte auslöste; bei spontanen Rückfragen zeigte sich in vielen Fällen, dass die Studierenden ihre Antworten nicht selbst erklären konnten
Durch die Verfügbarkeit von LLMs ist die Verlässlichkeit klassischer Aufgaben und Prüfungen eingebrochen; als Alternative rücken mündliche Prüfungen in den Fokus, weil sie Denken in Echtzeit bewerten können
Mündliche Prüfungen haben jedoch die Einschränkung, dass sie nicht im großen Maßstab durchführbar sind; zur Lösung wurde deshalb ein Voice-AI-Agent eingesetzt

Mit ElevenLabs Conversational AI wurden komplexe Elemente wie Spracherkennung, Sprachsynthese und Turn-Management integriert
Über dynamische Variablen wurden Name und Projektinformationen der Studierenden übergeben, und mit einer Workflow-Struktur wurden Authentifizierungs-, Projekt- und Fallfrage-Agenten getrennt
- Authentifizierungs-Agent: Prüfung der Studierenden-ID
- Projekt-Agent: Rückfragen auf Basis der eingereichten Unterlagen
- Fall-Agent: Auswahl eines zufälligen Falls und anschließende Fragen
Die Aufteilung in mehrere kleine Agenten verhinderte Gesprächsabschweifungen und erleichterte das Debugging

Insgesamt 36 Personen, über 9 Tage, mit durchschnittlich 25 Minuten (Minimum 9 Minuten, Maximum 64 Minuten)
Im Schnitt 65 Nachrichtenaustausche, Gesamtkosten 15 US-Dollar (0,42 US-Dollar pro Studierendem)
89 % der LLM-Bewertungen stimmten innerhalb eines Punkts überein, und die kürzeste Prüfung (9 Minuten) erzielte die höchste Punktzahl (19/20)
Im Vergleich zur menschlichen Bewertung wurden die Kosten um mehr als das 50-Fache gesenkt; Echtzeitbewertung, Aufzeichnung und Feedback wurden automatisiert

Rückmeldung von Studierenden, dass der Sprechton einschüchternd wirke → geplant sind A/B-Tests mit verschiedenen Stimmen
Problem der Fragenanhäufung (Stacking) → Regel „immer nur eine Frage auf einmal“ ergänzt
Bedeutungsverschiebung bei wiederholten Fragen → explizit festgelegt: „wörtlich wiederholen“
Zu wenig Denkzeit → Wartezeit auf 10 Sekunden verlängert
Fehlgeschlagene zufällige Fallauswahl → auf Code-Ebene durch Zufallszuordnung behoben

Claude, Gemini und ChatGPT bewerteten zunächst unabhängig und überprüften bzw. korrigierten sich danach gegenseitig
Die Abweichungsrate in der ersten Bewertungsrunde war hoch, verbesserte sich aber nach der zweiten Abstimmungsrunde von 62 % auf 85 % Übereinstimmung innerhalb eines Punkts
Gemini wurde im Schnitt um 2 Punkte nach unten angepasst; die Konsistenz zwischen Claude und OpenAI war hoch
Beim Kriterium Versuchsdesign waren die Bewertungsunterschiede am größten, was auf die Mehrdeutigkeit der studentischen Antworten zurückgeführt wurde
AI-Bewertung ist strenger als menschliche Bewertung, aber fair, und das Feedback war konkret und handlungsorientiert

In der themenspezifischen Leistungsanalyse war Versuchsdesign mit durchschnittlich 1,94/4 der schwächste Bereich
- 0 Punkte 8 %, 1 Punkt 19 %, 2 Punkte 42 %, 4 Punkte 0 %
Als Ursache zeigte sich eine unzureichende Erklärung von A/B-Tests in der Lehrveranstaltung, was den Bedarf an didaktischen Verbesserungen seitens des Lehrteams verdeutlichte
Keine Korrelation zwischen Prüfungsdauer und Punktzahl (r=-0,03); kurze und klare Antworten waren eher mit hohen Punktzahlen verbunden

Zur Unterbindung externer Hilfe waren Webcam- und Audioaufzeichnung für die Studierenden verpflichtend
Prüfungsstruktur und Fragetypen wurden über öffentlich zugängliche Richtlinien offengelegt, wodurch das Risiko eines Aufgabenlecks entfiel
Studierende konnten mit derselben Struktur wiederholt üben, was den tatsächlichen Lerneffekt stärkte

Nur 13 % bevorzugten die AI-gestützte mündliche Prüfung, 57 % bevorzugten traditionelle schriftliche Prüfungen, und 83 % gaben an, stärker gestresst gewesen zu sein
Dennoch räumten 70 % ein, dass ihr tatsächliches Verständnis gut bewertet wurde, was auf hohes Vertrauen in die Bewertung hindeutet
Positiv bewertet wurde die Flexibilität, zeit- und ortsunabhängig teilnehmen zu können
Gewünschte Verbesserungen: geringeres Tempo, ruhigere Stimme, einzelne Fragen statt Frageketten

Geschwindigkeitssteuerung und vielfältigere Stimmen, RAG-Fragen auf Basis studentischer Einreichungen, Fallverteilung mit explizitem Zufalls-Seed
Einführung eines Triggers für menschliche Prüfung bei Bewertungsabweichungen zwischen LLMs
Bessere Zugänglichkeit: Übungsmodus, zusätzliche Zeit, alternative Möglichkeiten

Aufgabenformate und schriftliche Prüfungen werden im LLM-Zeitalter entwertet; ein Wechsel zu Echtzeitbewertung von Denkprozessen ist nötig
AI-gestützte mündliche Prüfungen messen Verständnis, Urteilsvermögen und spontanes Denken und bieten eine neue Bewertungsform, die im großen Maßstab betreibbar ist
Ohne Risiko von Aufgabenlecks ist lernfördernde Wiederholung durch wiederholtes Üben möglich
„Fight fire with fire“ — eine Bewertungsinnovation, die ein durch AI entstandenes Problem mit AI löst