KI-Schummelei für 42 Cent pro Student aufdecken: NYU-Professor testet KI-mündliche Prüfungen

(aisparkup.com)

11 Punkte von davespark 2026-01-08 | Noch keine Kommentare. | Auf WhatsApp teilen

KI-Experiment zu mündlichen Prüfungen eines NYU-Professors

Hintergrund

Grenzen klassischer Aufgabenbewertungen im KI-Zeitalter: Studierende lassen Aufgaben mit KI perfekt erstellen, zeigen aber in der Praxis mangelndes Verständnis
Professor Panos Ipeirotis (NYU Stern School of Business): kontraintuitives Experiment, KI-Schummelei mit KI zu bekämpfen

Überblick über das Experiment

Kurs: Produktmanagement für AI/ML
Teilnehmer: 36 Studierende
Methode: mündliche Prüfung mit dem Voice-AI-Agenten von ElevenLabs
Inhalt: Fragen zu Studentenprojekten + Fragen zu Fallstudien aus dem Unterricht
Zeitraum: 9 Tage, im Schnitt 25 Minuten pro Student
Gesamtkosten: 15 Dollar (42 Cent pro Student)
- Claude: 8 Dollar, Gemini: 2 Dollar, OpenAI: 30 Cent, ElevenLabs: 5 Dollar

Kostenvergleich

KI-Prüfung: 15 Dollar
Bewertung durch Menschen: 750 Dollar (36 Personen × 25 Minuten × 2 Prüfer × 25 Dollar/Stunde)
Vorteil: mündliche Prüfungen werden auch in großen Lehrveranstaltungen realistisch umsetzbar

Frühe Probleme

Ton des Agenten: wirkte streng und herablassend (Beschwerde eines Studierenden: „Er hat mich angeschrien“)
Verhaltensprobleme: mehrere Fragen gleichzeitig, Umformulieren bei Wiederholungen, schnelles Unterbrechen
Verzerrung bei Zufallsauswahl: Trotz Anweisung zur „zufälligen Auswahl“ starke Tendenz zu einem bestimmten Fall (Zillow 88 %)
- Grund: Die Trainingsdaten der LLMs spiegeln menschliche Verzerrungen wider

Bewertungsmethode

Ansatz: Anwendung von Andrej Karpathys „Council of LLMs“
- Claude, Gemini und ChatGPT bewerten unabhängig → prüfen sich gegenseitig → revidieren
Ergebnis: anfänglich große Bewertungsunterschiede (Gemini 17 Punkte vs. Claude 13,4 Punkte), nach der Überprüfung lagen 60 % innerhalb von 1 Punkt
Qualität des Feedbacks: KI besser als Menschen (strukturierte Zusammenfassung + direkte Zitate)

Erkenntnisse

Unterschiede nach Themengebiet: Schwächen beim Thema „Experimente“ (Durchschnitt 1,94/4 Punkte) → Professor räumt didaktisches Problem ein (A/B-Testing vernachlässigt)
Prüfungsdauer und Note: kein Zusammenhang (kürzeste Prüfung 9 Minuten mit Bestnote, längste 64 Minuten mit durchschnittlichem Ergebnis)

Bewertung durch die Studierenden

Präferenz für das KI-Format: 13 % (menschliche Prüfer wurden doppelt so häufig bevorzugt)
Stress: 83 % höher
Fairness: 70 % stimmten zu, dass das tatsächliche Verständnis bewertet wird (am höchsten bewerteter Punkt)

Fazit

KI-mündliche Prüfungen: skalierbar, günstig und fair
Vorteil: Fragen werden jedes Mal neu generiert (kein Problem mit Leaks), Übung ist möglich
Ironie: KI-Lösung gegen KI-Schummelei
Zeigt das Potenzial für einen Wandel bei Bildungsbewertungen, macht aber auch Grenzen sichtbar

Verwandte Beiträge