- Mit der Verbreitung von Large Language Models (LLMs) können bestehende Aufgaben und Prüfungen das Lernverständnis nicht mehr zuverlässig messen. Deshalb führte das Lehrteam testweise mündliche Echtzeitprüfungen mit ElevenLabs Voice AI ein
- Die Prüfung bestand aus zwei Teilen — Projekterklärung und Fallfragen —, wobei die Studierenden dem AI-System ihre Entscheidungsgrundlagen und Denkprozesse selbst erklären mussten
- Die drei Modelle Claude, Gemini und ChatGPT bewerteten im Abstimmungsverfahren, um Konsistenz und Feedbackqualität zu erhöhen; dabei wurde auch ein Schwachpunkt der realen Lehrveranstaltung (Versuchsdesign) sichtbar
- 36 Studierende wurden über 9 Tage hinweg mit durchschnittlich 25 Minuten bewertet; die Kosten pro Studierendem lagen bei 0,42 US-Dollar und waren damit sehr niedrig
- AI-gestützte mündliche Prüfungen könnten zu einem neuen, skalierbaren Prüfungsmodell für verständnisorientierte Bewertung werden
Problemlage und Hintergrund zur Einführung mündlicher Prüfungen
- Die Qualität der studentischen Arbeiten war ungewöhnlich hoch, was den Verdacht auf AI-generierte Texte auslöste; bei spontanen Rückfragen zeigte sich in vielen Fällen, dass die Studierenden ihre Antworten nicht selbst erklären konnten
- Durch die Verfügbarkeit von LLMs ist die Verlässlichkeit klassischer Aufgaben und Prüfungen eingebrochen; als Alternative rücken mündliche Prüfungen in den Fokus, weil sie Denken in Echtzeit bewerten können
- Mündliche Prüfungen haben jedoch die Einschränkung, dass sie nicht im großen Maßstab durchführbar sind; zur Lösung wurde deshalb ein Voice-AI-Agent eingesetzt
Aufbau des sprachbasierten Agenten mit ElevenLabs
- Mit ElevenLabs Conversational AI wurden komplexe Elemente wie Spracherkennung, Sprachsynthese und Turn-Management integriert
- Über dynamische Variablen wurden Name und Projektinformationen der Studierenden übergeben, und mit einer Workflow-Struktur wurden Authentifizierungs-, Projekt- und Fallfrage-Agenten getrennt
- Authentifizierungs-Agent: Prüfung der Studierenden-ID
- Projekt-Agent: Rückfragen auf Basis der eingereichten Unterlagen
- Fall-Agent: Auswahl eines zufälligen Falls und anschließende Fragen
- Die Aufteilung in mehrere kleine Agenten verhinderte Gesprächsabschweifungen und erleichterte das Debugging
Prüfungsdurchführung und quantitative Ergebnisse
- Insgesamt 36 Personen, über 9 Tage, mit durchschnittlich 25 Minuten (Minimum 9 Minuten, Maximum 64 Minuten)
- Im Schnitt 65 Nachrichtenaustausche, Gesamtkosten 15 US-Dollar (0,42 US-Dollar pro Studierendem)
- 89 % der LLM-Bewertungen stimmten innerhalb eines Punkts überein, und die kürzeste Prüfung (9 Minuten) erzielte die höchste Punktzahl (19/20)
- Im Vergleich zur menschlichen Bewertung wurden die Kosten um mehr als das 50-Fache gesenkt; Echtzeitbewertung, Aufzeichnung und Feedback wurden automatisiert
Probleme in der Umsetzung und Verbesserungsmaßnahmen
- Rückmeldung von Studierenden, dass der Sprechton einschüchternd wirke → geplant sind A/B-Tests mit verschiedenen Stimmen
- Problem der Fragenanhäufung (Stacking) → Regel „immer nur eine Frage auf einmal“ ergänzt
- Bedeutungsverschiebung bei wiederholten Fragen → explizit festgelegt: „wörtlich wiederholen“
- Zu wenig Denkzeit → Wartezeit auf 10 Sekunden verlängert
- Fehlgeschlagene zufällige Fallauswahl → auf Code-Ebene durch Zufallszuordnung behoben
LLM-Council-Grading
- Claude, Gemini und ChatGPT bewerteten zunächst unabhängig und überprüften bzw. korrigierten sich danach gegenseitig
- Die Abweichungsrate in der ersten Bewertungsrunde war hoch, verbesserte sich aber nach der zweiten Abstimmungsrunde von 62 % auf 85 % Übereinstimmung innerhalb eines Punkts
- Gemini wurde im Schnitt um 2 Punkte nach unten angepasst; die Konsistenz zwischen Claude und OpenAI war hoch
- Beim Kriterium Versuchsdesign waren die Bewertungsunterschiede am größten, was auf die Mehrdeutigkeit der studentischen Antworten zurückgeführt wurde
- AI-Bewertung ist strenger als menschliche Bewertung, aber fair, und das Feedback war konkret und handlungsorientiert
Pädagogische Erkenntnisse und Diagnose
- In der themenspezifischen Leistungsanalyse war Versuchsdesign mit durchschnittlich 1,94/4 der schwächste Bereich
- 0 Punkte 8 %, 1 Punkt 19 %, 2 Punkte 42 %, 4 Punkte 0 %
- Als Ursache zeigte sich eine unzureichende Erklärung von A/B-Tests in der Lehrveranstaltung, was den Bedarf an didaktischen Verbesserungen seitens des Lehrteams verdeutlichte
- Keine Korrelation zwischen Prüfungsdauer und Punktzahl (r=-0,03); kurze und klare Antworten waren eher mit hohen Punktzahlen verbunden
Schutz vor Täuschung und Transparenz
- Zur Unterbindung externer Hilfe waren Webcam- und Audioaufzeichnung für die Studierenden verpflichtend
- Prüfungsstruktur und Fragetypen wurden über öffentlich zugängliche Richtlinien offengelegt, wodurch das Risiko eines Aufgabenlecks entfiel
- Studierende konnten mit derselben Struktur wiederholt üben, was den tatsächlichen Lerneffekt stärkte
Reaktionen der Studierenden
- Nur 13 % bevorzugten die AI-gestützte mündliche Prüfung, 57 % bevorzugten traditionelle schriftliche Prüfungen, und 83 % gaben an, stärker gestresst gewesen zu sein
- Dennoch räumten 70 % ein, dass ihr tatsächliches Verständnis gut bewertet wurde, was auf hohes Vertrauen in die Bewertung hindeutet
- Positiv bewertet wurde die Flexibilität, zeit- und ortsunabhängig teilnehmen zu können
- Gewünschte Verbesserungen: geringeres Tempo, ruhigere Stimme, einzelne Fragen statt Frageketten
Geplante nächste Verbesserungen
- Geschwindigkeitssteuerung und vielfältigere Stimmen, RAG-Fragen auf Basis studentischer Einreichungen, Fallverteilung mit explizitem Zufalls-Seed
- Einführung eines Triggers für menschliche Prüfung bei Bewertungsabweichungen zwischen LLMs
- Bessere Zugänglichkeit: Übungsmodus, zusätzliche Zeit, alternative Möglichkeiten
Fazit: Mit AI skalierbare, verständnisorientierte Bewertung
- Aufgabenformate und schriftliche Prüfungen werden im LLM-Zeitalter entwertet; ein Wechsel zu Echtzeitbewertung von Denkprozessen ist nötig
- AI-gestützte mündliche Prüfungen messen Verständnis, Urteilsvermögen und spontanes Denken und bieten eine neue Bewertungsform, die im großen Maßstab betreibbar ist
- Ohne Risiko von Aufgabenlecks ist lernfördernde Wiederholung durch wiederholtes Üben möglich
- „Fight fire with fire“ — eine Bewertungsinnovation, die ein durch AI entstandenes Problem mit AI löst
Noch keine Kommentare.