Forschungsergebnisse zu sequenziellem Bewertungsbias
- Forschende der University of Michigan haben mehr als 30 Millionen Canvas-Noteneinträge analysiert und dabei festgestellt, dass Studierende mit Nachnamen, die im Alphabet weiter hinten stehen, tendenziell niedrigere Bewertungen erhalten
- Ursache seien ein sequenzieller Bewertungsbias und die Standardsortierung von eingereichten Arbeiten in Canvas nach der alphabetischen Reihenfolge der Nachnamen
- Alphabetisch benachteiligte Studierende erhalten negativere und weniger höfliche Kommentare, zudem ist die Qualität der Benotung, gemessen an späteren Beschwerden der Studierenden über Noten, geringer
- Die Forschenden erklärten, dass sie zwar viel über Fairness und Genauigkeit beim Bewerten nachdenken, dies aber erst nach Sichtung der Daten erkannt hätten, als klar wurde, dass die Reihenfolge einen Unterschied macht
Forschungsdaten und Ergebnisse
- Es wurden alle verfügbaren historischen Daten aus Canvas zu sämtlichen Programmen, Studierenden und Aufgaben vom Herbstsemester 2014 bis zum Sommersemester 2022 gesammelt
- Ergänzt wurden diese durch Immatrikulationsdaten der Universität, die detaillierte Informationen über den Hintergrund, demografische Merkmale und den Studienverlauf der Studierenden enthalten
- Die Daten stammen zwar von der University of Michigan, die Forschenden sagen jedoch, dass sich die Ergebnisse aufgrund eines verbreiteten Designproblems von Learning-Management-Systemen auch auf andere Institutionen und Kurse übertragen lassen
- Ursache ist die Standardeinstellung, Aufgaben von Studierenden alphabetisch nach Namen zu sortieren
- Es wurde ein klares Muster festgestellt: Je mehr Aufgaben eine bewertende Person beurteilt, desto schlechter wird die Qualität der Benotung
- Studierende mit Nachnamen, die mit A, B, C, D oder E beginnen, erhalten im Vergleich zu einer zufälligen Bewertungsreihenfolge 0,3 Punkte mehr auf einer 100-Punkte-Skala
- Entsprechend erhalten Studierende mit Nachnamen am Ende des Alphabets 0,3 Punkte weniger, was zu einer Differenz von 0,6 Punkten führt
- Eine Differenz von 0,6 Punkten mag klein erscheinen, doch solche Abweichungen beeinflussen den Notendurchschnitt in Kursen und wirken sich negativ auf Chancen im weiteren Karriereweg aus
Hintergrund der Forschung und Vorschläge
- Die Idee zu der Studie entstand, als Wang, der Bildungstechnologie erforscht, und Fei, der zu KI forscht, über ein Forschungsvorhaben diskutierten
- Sie bemerkten, dass auch Datenlabeling als grundlegende Aufgabe im Machine Learning eine lange und monotone Serienarbeit sein kann, dort aber zufällig verteilt wird
- Eine Pilotstudie prüfte anschließend, ob es Ungleichgewichte bei Noten in Abhängigkeit von der Bewertungszeit gibt
- Die Forschenden vermuten, dass Ermüdung einer der Hauptfaktoren für diesen Effekt sein könnte
- Wenn man über längere Zeit dieselbe Tätigkeit ausführt, wird man müde, die Aufmerksamkeit sinkt und die kognitive Leistungsfähigkeit nimmt ab
- In Canvas und anderen Online-Learning-Management-Systemen gibt es zwar die Möglichkeit, Aufgaben in zufälliger Reihenfolge zu bewerten, und einige Lehrende nutzen dies, doch der Standardmodus ist alphabetisch
- Eine einfache Lösung wäre es, die Standardeinstellung auf eine zufällige Reihenfolge umzustellen
- Zudem schlagen sie vor, dass akademische Einrichtungen für große Lehrveranstaltungen mehr Korrekturkräfte einstellen, die Arbeitslast auf mehr Personen verteilen oder Schulungen anbieten sollten, um Bias zu erkennen und zu verringern
Meinung von GN⁺
- Dass sequenzieller Bewertungsbias reale Auswirkungen auf die Noten von Studierenden hat, wirft Fragen zur Fairness von Bewertungssystemen im Bildungsbereich auf. Da Noten großen Einfluss auf die Zukunft der Studierenden haben, scheint eine Verbesserung dringend erforderlich
- Allerdings ist die Studie auf englischsprachige Länder beschränkt, sodass dies in Korea möglicherweise kein großes Problem ist. Es scheint weitere Forschung im Inland nötig, um zu prüfen, ob derselbe Effekt auch bei einer Sortierung nach der Reihenfolge koreanischer Buchstaben oder der Strichreihenfolge chinesischer Familiennamen auftritt
- Dass die Ermüdung der Bewertenden die Qualität der Benotung beeinflusst, deutet darauf hin, dass im Bildungsbereich angemessene Vergütung und Unterstützung für Bewertungsarbeit notwendig sind. Übermäßige Arbeitsbelastung kann faire Bewertungen beeinträchtigen
- Auch die Einführung KI-basierter automatischer Bewertungssysteme könnte eine Alternative sein. Allerdings dürfte das Problem von Bias dadurch nicht vollständig gelöst werden, weshalb zusätzlich Maßnahmen nötig sind, um qualitative Aspekte der Bewertung zu ergänzen
1 Kommentare
Hacker-News-Kommentare
Im Folgenden eine Zusammenfassung der Hacker-News-Kommentare: