2 Punkte von GN⁺ 2026-01-05 | 1 Kommentare | Auf WhatsApp teilen
  • Mit der Verbreitung von Large Language Models (LLMs) können bestehende Aufgaben und Prüfungen das Lernverständnis nicht mehr zuverlässig messen. Deshalb führte das Lehrteam testweise mündliche Echtzeitprüfungen mit ElevenLabs Voice AI ein
  • Die Prüfung bestand aus zwei Teilen — Projekterklärung und Fallfragen —, wobei die Studierenden dem AI-System ihre Entscheidungsgrundlagen und Denkprozesse selbst erklären mussten
  • Die drei Modelle Claude, Gemini und ChatGPT bewerteten im Abstimmungsverfahren, um Konsistenz und Feedbackqualität zu erhöhen; dabei wurde auch ein Schwachpunkt der realen Lehrveranstaltung (Versuchsdesign) sichtbar
  • 36 Studierende wurden über 9 Tage hinweg mit durchschnittlich 25 Minuten bewertet; die Kosten pro Studierendem lagen bei 0,42 US-Dollar und waren damit sehr niedrig
  • AI-gestützte mündliche Prüfungen könnten zu einem neuen, skalierbaren Prüfungsmodell für verständnisorientierte Bewertung werden

Problemlage und Hintergrund zur Einführung mündlicher Prüfungen

  • Die Qualität der studentischen Arbeiten war ungewöhnlich hoch, was den Verdacht auf AI-generierte Texte auslöste; bei spontanen Rückfragen zeigte sich in vielen Fällen, dass die Studierenden ihre Antworten nicht selbst erklären konnten
  • Durch die Verfügbarkeit von LLMs ist die Verlässlichkeit klassischer Aufgaben und Prüfungen eingebrochen; als Alternative rücken mündliche Prüfungen in den Fokus, weil sie Denken in Echtzeit bewerten können
  • Mündliche Prüfungen haben jedoch die Einschränkung, dass sie nicht im großen Maßstab durchführbar sind; zur Lösung wurde deshalb ein Voice-AI-Agent eingesetzt

Aufbau des sprachbasierten Agenten mit ElevenLabs

  • Mit ElevenLabs Conversational AI wurden komplexe Elemente wie Spracherkennung, Sprachsynthese und Turn-Management integriert
  • Über dynamische Variablen wurden Name und Projektinformationen der Studierenden übergeben, und mit einer Workflow-Struktur wurden Authentifizierungs-, Projekt- und Fallfrage-Agenten getrennt
    • Authentifizierungs-Agent: Prüfung der Studierenden-ID
    • Projekt-Agent: Rückfragen auf Basis der eingereichten Unterlagen
    • Fall-Agent: Auswahl eines zufälligen Falls und anschließende Fragen
  • Die Aufteilung in mehrere kleine Agenten verhinderte Gesprächsabschweifungen und erleichterte das Debugging

Prüfungsdurchführung und quantitative Ergebnisse

  • Insgesamt 36 Personen, über 9 Tage, mit durchschnittlich 25 Minuten (Minimum 9 Minuten, Maximum 64 Minuten)
  • Im Schnitt 65 Nachrichtenaustausche, Gesamtkosten 15 US-Dollar (0,42 US-Dollar pro Studierendem)
  • 89 % der LLM-Bewertungen stimmten innerhalb eines Punkts überein, und die kürzeste Prüfung (9 Minuten) erzielte die höchste Punktzahl (19/20)
  • Im Vergleich zur menschlichen Bewertung wurden die Kosten um mehr als das 50-Fache gesenkt; Echtzeitbewertung, Aufzeichnung und Feedback wurden automatisiert

Probleme in der Umsetzung und Verbesserungsmaßnahmen

  • Rückmeldung von Studierenden, dass der Sprechton einschüchternd wirke → geplant sind A/B-Tests mit verschiedenen Stimmen
  • Problem der Fragenanhäufung (Stacking) → Regel „immer nur eine Frage auf einmal“ ergänzt
  • Bedeutungsverschiebung bei wiederholten Fragen → explizit festgelegt: „wörtlich wiederholen“
  • Zu wenig Denkzeit → Wartezeit auf 10 Sekunden verlängert
  • Fehlgeschlagene zufällige Fallauswahl → auf Code-Ebene durch Zufallszuordnung behoben

LLM-Council-Grading

  • Claude, Gemini und ChatGPT bewerteten zunächst unabhängig und überprüften bzw. korrigierten sich danach gegenseitig
  • Die Abweichungsrate in der ersten Bewertungsrunde war hoch, verbesserte sich aber nach der zweiten Abstimmungsrunde von 62 % auf 85 % Übereinstimmung innerhalb eines Punkts
  • Gemini wurde im Schnitt um 2 Punkte nach unten angepasst; die Konsistenz zwischen Claude und OpenAI war hoch
  • Beim Kriterium Versuchsdesign waren die Bewertungsunterschiede am größten, was auf die Mehrdeutigkeit der studentischen Antworten zurückgeführt wurde
  • AI-Bewertung ist strenger als menschliche Bewertung, aber fair, und das Feedback war konkret und handlungsorientiert

Pädagogische Erkenntnisse und Diagnose

  • In der themenspezifischen Leistungsanalyse war Versuchsdesign mit durchschnittlich 1,94/4 der schwächste Bereich
    • 0 Punkte 8 %, 1 Punkt 19 %, 2 Punkte 42 %, 4 Punkte 0 %
  • Als Ursache zeigte sich eine unzureichende Erklärung von A/B-Tests in der Lehrveranstaltung, was den Bedarf an didaktischen Verbesserungen seitens des Lehrteams verdeutlichte
  • Keine Korrelation zwischen Prüfungsdauer und Punktzahl (r=-0,03); kurze und klare Antworten waren eher mit hohen Punktzahlen verbunden

Schutz vor Täuschung und Transparenz

  • Zur Unterbindung externer Hilfe waren Webcam- und Audioaufzeichnung für die Studierenden verpflichtend
  • Prüfungsstruktur und Fragetypen wurden über öffentlich zugängliche Richtlinien offengelegt, wodurch das Risiko eines Aufgabenlecks entfiel
  • Studierende konnten mit derselben Struktur wiederholt üben, was den tatsächlichen Lerneffekt stärkte

Reaktionen der Studierenden

  • Nur 13 % bevorzugten die AI-gestützte mündliche Prüfung, 57 % bevorzugten traditionelle schriftliche Prüfungen, und 83 % gaben an, stärker gestresst gewesen zu sein
  • Dennoch räumten 70 % ein, dass ihr tatsächliches Verständnis gut bewertet wurde, was auf hohes Vertrauen in die Bewertung hindeutet
  • Positiv bewertet wurde die Flexibilität, zeit- und ortsunabhängig teilnehmen zu können
  • Gewünschte Verbesserungen: geringeres Tempo, ruhigere Stimme, einzelne Fragen statt Frageketten

Geplante nächste Verbesserungen

  • Geschwindigkeitssteuerung und vielfältigere Stimmen, RAG-Fragen auf Basis studentischer Einreichungen, Fallverteilung mit explizitem Zufalls-Seed
  • Einführung eines Triggers für menschliche Prüfung bei Bewertungsabweichungen zwischen LLMs
  • Bessere Zugänglichkeit: Übungsmodus, zusätzliche Zeit, alternative Möglichkeiten

Fazit: Mit AI skalierbare, verständnisorientierte Bewertung

  • Aufgabenformate und schriftliche Prüfungen werden im LLM-Zeitalter entwertet; ein Wechsel zu Echtzeitbewertung von Denkprozessen ist nötig
  • AI-gestützte mündliche Prüfungen messen Verständnis, Urteilsvermögen und spontanes Denken und bieten eine neue Bewertungsform, die im großen Maßstab betreibbar ist
  • Ohne Risiko von Aufgabenlecks ist lernfördernde Wiederholung durch wiederholtes Üben möglich
  • „Fight fire with fire“ — eine Bewertungsinnovation, die ein durch AI entstandenes Problem mit AI löst

1 Kommentare

 
GN⁺ 2026-01-05
Hacker-News-Kommentare
  • Ich finde, dass die im Artikel präsentierten Daten und Schlussfolgerungen nicht zusammenpassen
    Die Studierenden bevorzugten auch nach Gesprächen mit der KI weiterhin schriftliche Prüfungen
    Universitäten führen seit Hunderten von Jahren schriftliche Prüfungen durch und verhindern dabei Betrug; nach Corona hat man zwar das Online-Assessment als „eckiges Rad“ eingeführt, aber ich würde die Metapher bemühen, dass es besser ist, zum runden Rad zurückzukehren

    • Es überrascht mich, dass der Autor trotz offensichtlich nicht besonders guter Versuchsergebnisse von einem „vollen Erfolg“ spricht
      Die Genauigkeit der LLM-Bewertung wurde nicht einmal überprüft. Insgesamt wirkt es so, als hätte man die Schlussfolgerung zuerst festgelegt und dann die Daten passend gemacht
    • Das zitierte Statement ist keine Schlussfolgerung, sondern nur eine Behauptung
      „Take-home-Prüfungen sind vorbei“ ist eine offensichtliche Tatsache, aber kein Ergebnis des Experiments
      Heutzutage ist Betrug auch allein viel zu einfach geworden
      Außerdem sollten sich Prüfungsformen je nach Fachgebiet unterscheiden, und neue Felder wie die Informatik haben bei der Reife von Prüfungsformen noch Nachholbedarf
      Schließlich ist die Präferenz der Studierenden kein Maßstab für die Qualität einer Prüfung
    • Nur weil Studierende schriftliche Prüfungen bevorzugen, heißt das nicht, dass sie die beste Lösung sind
      In der Praxis muss man oft vor anderen Menschen die Begründung der eigenen Entscheidungen erklären
      Ich kann verstehen, dass eine Generation mit weniger Präsenz-Erfahrungen während Corona Angst vor dem Sprechen hat, aber genau ein solches Training zur Überwindung von Ängsten kann hilfreich sein
    • In Online-Lehrveranstaltungen sind schriftliche Prüfungen schwierig
      Da die Betrugsanfälligkeit von Take-home-Prüfungen gestiegen ist, könnten mündliche Prüfungen trotz ihrer Unvollkommenheit die bessere Alternative sein
    • Das Wettrüsten zwischen Betrug und Überwachung zwischen Studierenden und Lehrenden läuft seit Jahrhunderten
  • Früher gab es bei Prüfungen überhaupt keinen Spielraum für KI
    Man schrieb mit dem Stift von Hand und legte Prüfungen in einer von Aufsichtspersonen überwachten Turnhalle ab
    Betrug bedeutete sofort den Verweis, und von Tausenden schlossen nur 1 % ab
    Wenn ich heute höre, man müsse Prüfungen an KI anpassen, klingt das verrückt. Die Lösung gab es bereits

    • Ein System zu feiern, in dem 99 % der Studierenden durchfallen, ist nichts, worauf man stolz sein sollte
      Am Ende ist das eine Struktur, die nur den Studierenden die Verantwortung zuschiebt, während Faulheit der Professoren und Wiederverwertung von Prüfungsaufgaben das eigentliche Problem waren
      Die echte Lösung ist, jedes Mal neue und abwechslungsreiche Aufgaben zu erstellen
    • Ich bezweifle, dass es wirklich die beste Prüfungsform ist, C++-Code von Hand schreiben zu lassen
      Ich fände es sinnvoller, Prüfungen an einem von der Hochschule bereitgestellten Computer mit Entwicklungsumgebung abzulegen
    • Es gibt auch die Ansicht, dass mündliche Prüfungen besser geeignet sind, Verständnis zu diagnostizieren
      Wenn das stimmt, ist es sinnvoll, nach einer skalierbaren Form mündlicher Prüfungen zu suchen
    • Eine Durchfallquote von 99 % ist kaum glaubwürdig. Eine solche Universität sollte geschlossen werden
  • Man muss nicht besessen auf Skalierbarkeit fixiert sein
    Universitäten haben genug Geld, also sollen Professoren die mündlichen Prüfungen einfach selbst durchführen
    Auch in deutschen Graduiertenprogrammen gab es viele mündliche Prüfungen, und das hat gut funktioniert

    • In Europa sind mündliche Prüfungen wie die Matura oder die Verteidigung einer Doktorarbeit ganz normal
      Sich auf KI zu verlassen wirkt wie ein Symbol der Faulheit
      Für Routineaufgaben ist KI gut, aber in adversarialen Situationen ist sie schwer vertrauenswürdig
  • Ich hatte im Bachelor auch mündliche Prüfungen, und die wechselnde Haltung des Professors hat enormen Druck erzeugt
    Ich bezweifle, dass KI denselben emotionalen Druck erzeugen kann
    Mich persönlich nerven eher schon kleine Fehler der KI

    • In Italien gehören mündliche Bestandteile von der Grundschule bis zur Universität zu allen Prüfungen
      Aber in solchen Situationen werde ich völlig blockiert und bringe kein Wort heraus. Das ist wirklich schlimm
  • Früher haben wir im Recruiting Take-home-Aufgaben vergeben, aber manche Bewerber konnten den von ihnen eingereichten Code nicht erklären
    Seit dem Aufkommen von LLMs ist die Versuchung, Dinge von KI schreiben zu lassen, noch viel größer geworden
    Aber wir müssen die Problemlösungskompetenz und Kommunikationsfähigkeit der Bewerber bewerten
    Vorstellungsgespräche, in denen LLMs erlaubt sind, verkommen letztlich zu einem „Test der Fähigkeit, KI zu benutzen“
    Ich stimme der im Artikel beschriebenen Methode zwar nicht zu, aber das Problembewusstsein dahinter ist realistisch

    • Der Ausdruck „synthetic pronouns“ ist interessant
  • Der nächste Schritt könnte sein, dass KI anstelle einer sprachlich antwortenden KI eingesetzt wird
    Am Ende muss wieder der Mensch im Mittelpunkt stehen

    • Schon mit einem Teleprompter kann man gut genug täuschen
      In Zukunft wird das mit Smart Glasses, Knochenleitungs-Mikrofonen und Ähnlichem noch raffinierter werden
      Am Ende werden nur ehrliche, aber sozial ängstliche Studierende benachteiligt
    • Wenn der Prüfungsraum mit Dutzenden Telefonkabinen gefüllt wäre, fände ich das noch schlimmer als Bürotrennwände
  • Es wäre gut, im Semester freiwillige Probe-Mündlichprüfungen anzubieten
    So können sich die Studierenden an das Format und auch an den Tonfall der Stimme gewöhnen
    Dass mündliche Prüfungen bei etwa 36 Personen unmöglich sein sollen, überrascht mich

    • Wie am Ende des Artikels erwähnt, könnte KI jedes Mal neue Fragen generieren, sodass man ohne Sorge vor Leaks üben kann
      Genau solches wiederholtes Lernen ist doch die eigentliche Form des Lernens
    • Wenn eine Hilfskraft 25 $ pro Stunde bekommt, sind mündliche Prüfungen absolut machbar
      Ich würde lieber 25 $ zurückbekommen, als mir von einem LLM eine Prüfung abnehmen zu lassen
    • An der Karls-Universität in Prag wurden auch bei über 200 Studierenden mündliche Prüfungen durchgeführt
    • Es hängt von Tiefe und Häufigkeit der mündlichen Prüfungen ab
      Wenn man nur einige Studierende stichprobenartig prüft, kann das zugleich Motivation oder Frustration auslösen
    • Letztlich ist das die Idee, Prüfungen aus Spargründen durch einen Chatbot zu ersetzen
      Selbst wenn man nur mit den leistungsstärkeren Studierenden je zehn Minuten spricht, ist das vollkommen machbar
  • Schon die Vorstellung, von einer KI-Sprach-App verhört zu werden, ist schrecklich
    Wenn sich so ein Ansatz durchsetzt, braucht man vielleicht lieber gleich ein Bildungsmodell ohne Bewertung

    • Am Ende könnte die Rückkehr zur handschriftlichen Prüfung die realistischste Lösung sein
    • Ich hatte kürzlich selbst ein KI-Vorstellungsgespräch, und gegenüber einer KI hatte ich keinerlei Schuldgefühl beim Lügen
      Dinge, die ich einem Menschen niemals gesagt hätte, sagte ich ganz leicht
    • Wenn Prüfungen ganz verschwinden, bleibt die Lernmotivation nicht erhalten
  • Ich bin genau der Autor dieses Blogposts
    Wir haben in unserem KI-Kurs einfach etwas Neues ausprobiert
    Es ging nicht darum, schriftliche Prüfungen abzuschaffen, sondern mündliche Prüfungen als zusätzliches Werkzeug einzuführen
    Ziel war es, in Teamprojekten zu überprüfen, ob ein Studierender die eigene Arbeit tatsächlich verstanden hat
    Studierende mit niedrigen Ergebnissen in der mündlichen Prüfung hatten wie erwartet auch ein geringes Verständnis des Projekts
    Bei 36 Personen sind direkte Gespräche noch möglich, bei mehr als 100 wird es schwierig
    Vor allem gab es Forschungsergebnisse, nach denen KI wegen fehlender Ermüdung konsistenter bewertet. Deshalb habe ich darauf vertraut

    • Es wurde gesagt, dass es selbstverständlich sei, den Einsatz von LLMs zu erlauben, aber ich stimme dem nicht zu
      Das ist nicht anders, als im Fitnessstudio einen Gabelstapler zu benutzen
      Für einfache Fächer auf MBA-Niveau mag das funktionieren, aber in Fächern, die feine Urteilsfähigkeit erfordern, ist KI nicht fair
      Bei so einer einfachen Kontrollprüfung wäre es meiner Meinung nach besser, sie gleich als Multiple-Choice an einem Kiosk abzuhalten
  • Zu unserer Zeit waren alle Prüfungen mündlich
    Große Prüfungen dauerten zwei Tage, aber Professoren und Assistenten organisierten sechs Sitzungen pro Jahr

    • Auch bei meinem Bachelor und Master in Physik waren mündliche Prüfungen Standard, im Promotionsstudium verschwanden sie jedoch
      Einer der Gründe waren unterschiedliche kulturelle Auslegungen von Fairness
      In Umfeldern mit hoher Diversität können mündliche Prüfungen Bias-Debatten auslösen
    • Professoren sind am Ende auch nur Menschen
      Wenn sie für 5 $ mit KI benoten und 20 Stunden am Handy scrollen können, werden sie sich dafür entscheiden