Gegen Feuer mit Feuer: Mit AI-Sprachagenten mündliche Prüfungen skalieren
(behind-the-enemy-lines.com)- Mit der Verbreitung von Large Language Models (LLMs) können bestehende Aufgaben und Prüfungen das Lernverständnis nicht mehr zuverlässig messen. Deshalb führte das Lehrteam testweise mündliche Echtzeitprüfungen mit ElevenLabs Voice AI ein
- Die Prüfung bestand aus zwei Teilen — Projekterklärung und Fallfragen —, wobei die Studierenden dem AI-System ihre Entscheidungsgrundlagen und Denkprozesse selbst erklären mussten
- Die drei Modelle Claude, Gemini und ChatGPT bewerteten im Abstimmungsverfahren, um Konsistenz und Feedbackqualität zu erhöhen; dabei wurde auch ein Schwachpunkt der realen Lehrveranstaltung (Versuchsdesign) sichtbar
- 36 Studierende wurden über 9 Tage hinweg mit durchschnittlich 25 Minuten bewertet; die Kosten pro Studierendem lagen bei 0,42 US-Dollar und waren damit sehr niedrig
- AI-gestützte mündliche Prüfungen könnten zu einem neuen, skalierbaren Prüfungsmodell für verständnisorientierte Bewertung werden
Problemlage und Hintergrund zur Einführung mündlicher Prüfungen
- Die Qualität der studentischen Arbeiten war ungewöhnlich hoch, was den Verdacht auf AI-generierte Texte auslöste; bei spontanen Rückfragen zeigte sich in vielen Fällen, dass die Studierenden ihre Antworten nicht selbst erklären konnten
- Durch die Verfügbarkeit von LLMs ist die Verlässlichkeit klassischer Aufgaben und Prüfungen eingebrochen; als Alternative rücken mündliche Prüfungen in den Fokus, weil sie Denken in Echtzeit bewerten können
- Mündliche Prüfungen haben jedoch die Einschränkung, dass sie nicht im großen Maßstab durchführbar sind; zur Lösung wurde deshalb ein Voice-AI-Agent eingesetzt
Aufbau des sprachbasierten Agenten mit ElevenLabs
- Mit ElevenLabs Conversational AI wurden komplexe Elemente wie Spracherkennung, Sprachsynthese und Turn-Management integriert
- Über dynamische Variablen wurden Name und Projektinformationen der Studierenden übergeben, und mit einer Workflow-Struktur wurden Authentifizierungs-, Projekt- und Fallfrage-Agenten getrennt
- Authentifizierungs-Agent: Prüfung der Studierenden-ID
- Projekt-Agent: Rückfragen auf Basis der eingereichten Unterlagen
- Fall-Agent: Auswahl eines zufälligen Falls und anschließende Fragen
- Die Aufteilung in mehrere kleine Agenten verhinderte Gesprächsabschweifungen und erleichterte das Debugging
Prüfungsdurchführung und quantitative Ergebnisse
- Insgesamt 36 Personen, über 9 Tage, mit durchschnittlich 25 Minuten (Minimum 9 Minuten, Maximum 64 Minuten)
- Im Schnitt 65 Nachrichtenaustausche, Gesamtkosten 15 US-Dollar (0,42 US-Dollar pro Studierendem)
- 89 % der LLM-Bewertungen stimmten innerhalb eines Punkts überein, und die kürzeste Prüfung (9 Minuten) erzielte die höchste Punktzahl (19/20)
- Im Vergleich zur menschlichen Bewertung wurden die Kosten um mehr als das 50-Fache gesenkt; Echtzeitbewertung, Aufzeichnung und Feedback wurden automatisiert
Probleme in der Umsetzung und Verbesserungsmaßnahmen
- Rückmeldung von Studierenden, dass der Sprechton einschüchternd wirke → geplant sind A/B-Tests mit verschiedenen Stimmen
- Problem der Fragenanhäufung (Stacking) → Regel „immer nur eine Frage auf einmal“ ergänzt
- Bedeutungsverschiebung bei wiederholten Fragen → explizit festgelegt: „wörtlich wiederholen“
- Zu wenig Denkzeit → Wartezeit auf 10 Sekunden verlängert
- Fehlgeschlagene zufällige Fallauswahl → auf Code-Ebene durch Zufallszuordnung behoben
LLM-Council-Grading
- Claude, Gemini und ChatGPT bewerteten zunächst unabhängig und überprüften bzw. korrigierten sich danach gegenseitig
- Die Abweichungsrate in der ersten Bewertungsrunde war hoch, verbesserte sich aber nach der zweiten Abstimmungsrunde von 62 % auf 85 % Übereinstimmung innerhalb eines Punkts
- Gemini wurde im Schnitt um 2 Punkte nach unten angepasst; die Konsistenz zwischen Claude und OpenAI war hoch
- Beim Kriterium Versuchsdesign waren die Bewertungsunterschiede am größten, was auf die Mehrdeutigkeit der studentischen Antworten zurückgeführt wurde
- AI-Bewertung ist strenger als menschliche Bewertung, aber fair, und das Feedback war konkret und handlungsorientiert
Pädagogische Erkenntnisse und Diagnose
- In der themenspezifischen Leistungsanalyse war Versuchsdesign mit durchschnittlich 1,94/4 der schwächste Bereich
- 0 Punkte 8 %, 1 Punkt 19 %, 2 Punkte 42 %, 4 Punkte 0 %
- Als Ursache zeigte sich eine unzureichende Erklärung von A/B-Tests in der Lehrveranstaltung, was den Bedarf an didaktischen Verbesserungen seitens des Lehrteams verdeutlichte
- Keine Korrelation zwischen Prüfungsdauer und Punktzahl (r=-0,03); kurze und klare Antworten waren eher mit hohen Punktzahlen verbunden
Schutz vor Täuschung und Transparenz
- Zur Unterbindung externer Hilfe waren Webcam- und Audioaufzeichnung für die Studierenden verpflichtend
- Prüfungsstruktur und Fragetypen wurden über öffentlich zugängliche Richtlinien offengelegt, wodurch das Risiko eines Aufgabenlecks entfiel
- Studierende konnten mit derselben Struktur wiederholt üben, was den tatsächlichen Lerneffekt stärkte
Reaktionen der Studierenden
- Nur 13 % bevorzugten die AI-gestützte mündliche Prüfung, 57 % bevorzugten traditionelle schriftliche Prüfungen, und 83 % gaben an, stärker gestresst gewesen zu sein
- Dennoch räumten 70 % ein, dass ihr tatsächliches Verständnis gut bewertet wurde, was auf hohes Vertrauen in die Bewertung hindeutet
- Positiv bewertet wurde die Flexibilität, zeit- und ortsunabhängig teilnehmen zu können
- Gewünschte Verbesserungen: geringeres Tempo, ruhigere Stimme, einzelne Fragen statt Frageketten
Geplante nächste Verbesserungen
- Geschwindigkeitssteuerung und vielfältigere Stimmen, RAG-Fragen auf Basis studentischer Einreichungen, Fallverteilung mit explizitem Zufalls-Seed
- Einführung eines Triggers für menschliche Prüfung bei Bewertungsabweichungen zwischen LLMs
- Bessere Zugänglichkeit: Übungsmodus, zusätzliche Zeit, alternative Möglichkeiten
Fazit: Mit AI skalierbare, verständnisorientierte Bewertung
- Aufgabenformate und schriftliche Prüfungen werden im LLM-Zeitalter entwertet; ein Wechsel zu Echtzeitbewertung von Denkprozessen ist nötig
- AI-gestützte mündliche Prüfungen messen Verständnis, Urteilsvermögen und spontanes Denken und bieten eine neue Bewertungsform, die im großen Maßstab betreibbar ist
- Ohne Risiko von Aufgabenlecks ist lernfördernde Wiederholung durch wiederholtes Üben möglich
- „Fight fire with fire“ — eine Bewertungsinnovation, die ein durch AI entstandenes Problem mit AI löst
1 Kommentare
Hacker-News-Kommentare
Ich finde, dass die im Artikel präsentierten Daten und Schlussfolgerungen nicht zusammenpassen
Die Studierenden bevorzugten auch nach Gesprächen mit der KI weiterhin schriftliche Prüfungen
Universitäten führen seit Hunderten von Jahren schriftliche Prüfungen durch und verhindern dabei Betrug; nach Corona hat man zwar das Online-Assessment als „eckiges Rad“ eingeführt, aber ich würde die Metapher bemühen, dass es besser ist, zum runden Rad zurückzukehren
Die Genauigkeit der LLM-Bewertung wurde nicht einmal überprüft. Insgesamt wirkt es so, als hätte man die Schlussfolgerung zuerst festgelegt und dann die Daten passend gemacht
„Take-home-Prüfungen sind vorbei“ ist eine offensichtliche Tatsache, aber kein Ergebnis des Experiments
Heutzutage ist Betrug auch allein viel zu einfach geworden
Außerdem sollten sich Prüfungsformen je nach Fachgebiet unterscheiden, und neue Felder wie die Informatik haben bei der Reife von Prüfungsformen noch Nachholbedarf
Schließlich ist die Präferenz der Studierenden kein Maßstab für die Qualität einer Prüfung
In der Praxis muss man oft vor anderen Menschen die Begründung der eigenen Entscheidungen erklären
Ich kann verstehen, dass eine Generation mit weniger Präsenz-Erfahrungen während Corona Angst vor dem Sprechen hat, aber genau ein solches Training zur Überwindung von Ängsten kann hilfreich sein
Da die Betrugsanfälligkeit von Take-home-Prüfungen gestiegen ist, könnten mündliche Prüfungen trotz ihrer Unvollkommenheit die bessere Alternative sein
Früher gab es bei Prüfungen überhaupt keinen Spielraum für KI
Man schrieb mit dem Stift von Hand und legte Prüfungen in einer von Aufsichtspersonen überwachten Turnhalle ab
Betrug bedeutete sofort den Verweis, und von Tausenden schlossen nur 1 % ab
Wenn ich heute höre, man müsse Prüfungen an KI anpassen, klingt das verrückt. Die Lösung gab es bereits
Am Ende ist das eine Struktur, die nur den Studierenden die Verantwortung zuschiebt, während Faulheit der Professoren und Wiederverwertung von Prüfungsaufgaben das eigentliche Problem waren
Die echte Lösung ist, jedes Mal neue und abwechslungsreiche Aufgaben zu erstellen
Ich fände es sinnvoller, Prüfungen an einem von der Hochschule bereitgestellten Computer mit Entwicklungsumgebung abzulegen
Wenn das stimmt, ist es sinnvoll, nach einer skalierbaren Form mündlicher Prüfungen zu suchen
Man muss nicht besessen auf Skalierbarkeit fixiert sein
Universitäten haben genug Geld, also sollen Professoren die mündlichen Prüfungen einfach selbst durchführen
Auch in deutschen Graduiertenprogrammen gab es viele mündliche Prüfungen, und das hat gut funktioniert
Sich auf KI zu verlassen wirkt wie ein Symbol der Faulheit
Für Routineaufgaben ist KI gut, aber in adversarialen Situationen ist sie schwer vertrauenswürdig
Ich hatte im Bachelor auch mündliche Prüfungen, und die wechselnde Haltung des Professors hat enormen Druck erzeugt
Ich bezweifle, dass KI denselben emotionalen Druck erzeugen kann
Mich persönlich nerven eher schon kleine Fehler der KI
Aber in solchen Situationen werde ich völlig blockiert und bringe kein Wort heraus. Das ist wirklich schlimm
Früher haben wir im Recruiting Take-home-Aufgaben vergeben, aber manche Bewerber konnten den von ihnen eingereichten Code nicht erklären
Seit dem Aufkommen von LLMs ist die Versuchung, Dinge von KI schreiben zu lassen, noch viel größer geworden
Aber wir müssen die Problemlösungskompetenz und Kommunikationsfähigkeit der Bewerber bewerten
Vorstellungsgespräche, in denen LLMs erlaubt sind, verkommen letztlich zu einem „Test der Fähigkeit, KI zu benutzen“
Ich stimme der im Artikel beschriebenen Methode zwar nicht zu, aber das Problembewusstsein dahinter ist realistisch
Der nächste Schritt könnte sein, dass KI anstelle einer sprachlich antwortenden KI eingesetzt wird
Am Ende muss wieder der Mensch im Mittelpunkt stehen
In Zukunft wird das mit Smart Glasses, Knochenleitungs-Mikrofonen und Ähnlichem noch raffinierter werden
Am Ende werden nur ehrliche, aber sozial ängstliche Studierende benachteiligt
Es wäre gut, im Semester freiwillige Probe-Mündlichprüfungen anzubieten
So können sich die Studierenden an das Format und auch an den Tonfall der Stimme gewöhnen
Dass mündliche Prüfungen bei etwa 36 Personen unmöglich sein sollen, überrascht mich
Genau solches wiederholtes Lernen ist doch die eigentliche Form des Lernens
Ich würde lieber 25 $ zurückbekommen, als mir von einem LLM eine Prüfung abnehmen zu lassen
Wenn man nur einige Studierende stichprobenartig prüft, kann das zugleich Motivation oder Frustration auslösen
Selbst wenn man nur mit den leistungsstärkeren Studierenden je zehn Minuten spricht, ist das vollkommen machbar
Schon die Vorstellung, von einer KI-Sprach-App verhört zu werden, ist schrecklich
Wenn sich so ein Ansatz durchsetzt, braucht man vielleicht lieber gleich ein Bildungsmodell ohne Bewertung
Dinge, die ich einem Menschen niemals gesagt hätte, sagte ich ganz leicht
Ich bin genau der Autor dieses Blogposts
Wir haben in unserem KI-Kurs einfach etwas Neues ausprobiert
Es ging nicht darum, schriftliche Prüfungen abzuschaffen, sondern mündliche Prüfungen als zusätzliches Werkzeug einzuführen
Ziel war es, in Teamprojekten zu überprüfen, ob ein Studierender die eigene Arbeit tatsächlich verstanden hat
Studierende mit niedrigen Ergebnissen in der mündlichen Prüfung hatten wie erwartet auch ein geringes Verständnis des Projekts
Bei 36 Personen sind direkte Gespräche noch möglich, bei mehr als 100 wird es schwierig
Vor allem gab es Forschungsergebnisse, nach denen KI wegen fehlender Ermüdung konsistenter bewertet. Deshalb habe ich darauf vertraut
Das ist nicht anders, als im Fitnessstudio einen Gabelstapler zu benutzen
Für einfache Fächer auf MBA-Niveau mag das funktionieren, aber in Fächern, die feine Urteilsfähigkeit erfordern, ist KI nicht fair
Bei so einer einfachen Kontrollprüfung wäre es meiner Meinung nach besser, sie gleich als Multiple-Choice an einem Kiosk abzuhalten
Zu unserer Zeit waren alle Prüfungen mündlich
Große Prüfungen dauerten zwei Tage, aber Professoren und Assistenten organisierten sechs Sitzungen pro Jahr
Einer der Gründe waren unterschiedliche kulturelle Auslegungen von Fairness
In Umfeldern mit hoher Diversität können mündliche Prüfungen Bias-Debatten auslösen
Wenn sie für 5 $ mit KI benoten und 20 Stunden am Handy scrollen können, werden sie sich dafür entscheiden