KI-Schummelei für 42 Cent pro Student aufdecken: NYU-Professor testet KI-mündliche Prüfungen
(aisparkup.com)KI-Experiment zu mündlichen Prüfungen eines NYU-Professors
Hintergrund
- Grenzen klassischer Aufgabenbewertungen im KI-Zeitalter: Studierende lassen Aufgaben mit KI perfekt erstellen, zeigen aber in der Praxis mangelndes Verständnis
- Professor Panos Ipeirotis (NYU Stern School of Business): kontraintuitives Experiment, KI-Schummelei mit KI zu bekämpfen
Überblick über das Experiment
- Kurs: Produktmanagement für AI/ML
- Teilnehmer: 36 Studierende
- Methode: mündliche Prüfung mit dem Voice-AI-Agenten von ElevenLabs
- Inhalt: Fragen zu Studentenprojekten + Fragen zu Fallstudien aus dem Unterricht
- Zeitraum: 9 Tage, im Schnitt 25 Minuten pro Student
- Gesamtkosten: 15 Dollar (42 Cent pro Student)
- Claude: 8 Dollar, Gemini: 2 Dollar, OpenAI: 30 Cent, ElevenLabs: 5 Dollar
Kostenvergleich
- KI-Prüfung: 15 Dollar
- Bewertung durch Menschen: 750 Dollar (36 Personen × 25 Minuten × 2 Prüfer × 25 Dollar/Stunde)
- Vorteil: mündliche Prüfungen werden auch in großen Lehrveranstaltungen realistisch umsetzbar
Frühe Probleme
- Ton des Agenten: wirkte streng und herablassend (Beschwerde eines Studierenden: „Er hat mich angeschrien“)
- Verhaltensprobleme: mehrere Fragen gleichzeitig, Umformulieren bei Wiederholungen, schnelles Unterbrechen
- Verzerrung bei Zufallsauswahl: Trotz Anweisung zur „zufälligen Auswahl“ starke Tendenz zu einem bestimmten Fall (Zillow 88 %)
- Grund: Die Trainingsdaten der LLMs spiegeln menschliche Verzerrungen wider
Bewertungsmethode
- Ansatz: Anwendung von Andrej Karpathys „Council of LLMs“
- Claude, Gemini und ChatGPT bewerten unabhängig → prüfen sich gegenseitig → revidieren
- Ergebnis: anfänglich große Bewertungsunterschiede (Gemini 17 Punkte vs. Claude 13,4 Punkte), nach der Überprüfung lagen 60 % innerhalb von 1 Punkt
- Qualität des Feedbacks: KI besser als Menschen (strukturierte Zusammenfassung + direkte Zitate)
Erkenntnisse
- Unterschiede nach Themengebiet: Schwächen beim Thema „Experimente“ (Durchschnitt 1,94/4 Punkte) → Professor räumt didaktisches Problem ein (A/B-Testing vernachlässigt)
- Prüfungsdauer und Note: kein Zusammenhang (kürzeste Prüfung 9 Minuten mit Bestnote, längste 64 Minuten mit durchschnittlichem Ergebnis)
Bewertung durch die Studierenden
- Präferenz für das KI-Format: 13 % (menschliche Prüfer wurden doppelt so häufig bevorzugt)
- Stress: 83 % höher
- Fairness: 70 % stimmten zu, dass das tatsächliche Verständnis bewertet wird (am höchsten bewerteter Punkt)
Fazit
- KI-mündliche Prüfungen: skalierbar, günstig und fair
- Vorteil: Fragen werden jedes Mal neu generiert (kein Problem mit Leaks), Übung ist möglich
- Ironie: KI-Lösung gegen KI-Schummelei
- Zeigt das Potenzial für einen Wandel bei Bildungsbewertungen, macht aber auch Grenzen sichtbar
Noch keine Kommentare.