11 Punkte von davespark 2026-01-08 | Noch keine Kommentare. | Auf WhatsApp teilen

KI-Experiment zu mündlichen Prüfungen eines NYU-Professors

Hintergrund

  • Grenzen klassischer Aufgabenbewertungen im KI-Zeitalter: Studierende lassen Aufgaben mit KI perfekt erstellen, zeigen aber in der Praxis mangelndes Verständnis
  • Professor Panos Ipeirotis (NYU Stern School of Business): kontraintuitives Experiment, KI-Schummelei mit KI zu bekämpfen

Überblick über das Experiment

  • Kurs: Produktmanagement für AI/ML
  • Teilnehmer: 36 Studierende
  • Methode: mündliche Prüfung mit dem Voice-AI-Agenten von ElevenLabs
  • Inhalt: Fragen zu Studentenprojekten + Fragen zu Fallstudien aus dem Unterricht
  • Zeitraum: 9 Tage, im Schnitt 25 Minuten pro Student
  • Gesamtkosten: 15 Dollar (42 Cent pro Student)
    • Claude: 8 Dollar, Gemini: 2 Dollar, OpenAI: 30 Cent, ElevenLabs: 5 Dollar

Kostenvergleich

  • KI-Prüfung: 15 Dollar
  • Bewertung durch Menschen: 750 Dollar (36 Personen × 25 Minuten × 2 Prüfer × 25 Dollar/Stunde)
  • Vorteil: mündliche Prüfungen werden auch in großen Lehrveranstaltungen realistisch umsetzbar

Frühe Probleme

  • Ton des Agenten: wirkte streng und herablassend (Beschwerde eines Studierenden: „Er hat mich angeschrien“)
  • Verhaltensprobleme: mehrere Fragen gleichzeitig, Umformulieren bei Wiederholungen, schnelles Unterbrechen
  • Verzerrung bei Zufallsauswahl: Trotz Anweisung zur „zufälligen Auswahl“ starke Tendenz zu einem bestimmten Fall (Zillow 88 %)
    • Grund: Die Trainingsdaten der LLMs spiegeln menschliche Verzerrungen wider

Bewertungsmethode

  • Ansatz: Anwendung von Andrej Karpathys „Council of LLMs“
    • Claude, Gemini und ChatGPT bewerten unabhängig → prüfen sich gegenseitig → revidieren
  • Ergebnis: anfänglich große Bewertungsunterschiede (Gemini 17 Punkte vs. Claude 13,4 Punkte), nach der Überprüfung lagen 60 % innerhalb von 1 Punkt
  • Qualität des Feedbacks: KI besser als Menschen (strukturierte Zusammenfassung + direkte Zitate)

Erkenntnisse

  • Unterschiede nach Themengebiet: Schwächen beim Thema „Experimente“ (Durchschnitt 1,94/4 Punkte) → Professor räumt didaktisches Problem ein (A/B-Testing vernachlässigt)
  • Prüfungsdauer und Note: kein Zusammenhang (kürzeste Prüfung 9 Minuten mit Bestnote, längste 64 Minuten mit durchschnittlichem Ergebnis)

Bewertung durch die Studierenden

  • Präferenz für das KI-Format: 13 % (menschliche Prüfer wurden doppelt so häufig bevorzugt)
  • Stress: 83 % höher
  • Fairness: 70 % stimmten zu, dass das tatsächliche Verständnis bewertet wird (am höchsten bewerteter Punkt)

Fazit

  • KI-mündliche Prüfungen: skalierbar, günstig und fair
  • Vorteil: Fragen werden jedes Mal neu generiert (kein Problem mit Leaks), Übung ist möglich
  • Ironie: KI-Lösung gegen KI-Schummelei
  • Zeigt das Potenzial für einen Wandel bei Bildungsbewertungen, macht aber auch Grenzen sichtbar

Noch keine Kommentare.

Noch keine Kommentare.