1 Punkte von GN⁺ 2024-04-21 | 1 Kommentare | Auf WhatsApp teilen

Forschungsergebnisse zu sequenziellem Bewertungsbias

  • Forschende der University of Michigan haben mehr als 30 Millionen Canvas-Noteneinträge analysiert und dabei festgestellt, dass Studierende mit Nachnamen, die im Alphabet weiter hinten stehen, tendenziell niedrigere Bewertungen erhalten
    • Ursache seien ein sequenzieller Bewertungsbias und die Standardsortierung von eingereichten Arbeiten in Canvas nach der alphabetischen Reihenfolge der Nachnamen
  • Alphabetisch benachteiligte Studierende erhalten negativere und weniger höfliche Kommentare, zudem ist die Qualität der Benotung, gemessen an späteren Beschwerden der Studierenden über Noten, geringer
  • Die Forschenden erklärten, dass sie zwar viel über Fairness und Genauigkeit beim Bewerten nachdenken, dies aber erst nach Sichtung der Daten erkannt hätten, als klar wurde, dass die Reihenfolge einen Unterschied macht

Forschungsdaten und Ergebnisse

  • Es wurden alle verfügbaren historischen Daten aus Canvas zu sämtlichen Programmen, Studierenden und Aufgaben vom Herbstsemester 2014 bis zum Sommersemester 2022 gesammelt
    • Ergänzt wurden diese durch Immatrikulationsdaten der Universität, die detaillierte Informationen über den Hintergrund, demografische Merkmale und den Studienverlauf der Studierenden enthalten
  • Die Daten stammen zwar von der University of Michigan, die Forschenden sagen jedoch, dass sich die Ergebnisse aufgrund eines verbreiteten Designproblems von Learning-Management-Systemen auch auf andere Institutionen und Kurse übertragen lassen
    • Ursache ist die Standardeinstellung, Aufgaben von Studierenden alphabetisch nach Namen zu sortieren
  • Es wurde ein klares Muster festgestellt: Je mehr Aufgaben eine bewertende Person beurteilt, desto schlechter wird die Qualität der Benotung
    • Studierende mit Nachnamen, die mit A, B, C, D oder E beginnen, erhalten im Vergleich zu einer zufälligen Bewertungsreihenfolge 0,3 Punkte mehr auf einer 100-Punkte-Skala
    • Entsprechend erhalten Studierende mit Nachnamen am Ende des Alphabets 0,3 Punkte weniger, was zu einer Differenz von 0,6 Punkten führt
  • Eine Differenz von 0,6 Punkten mag klein erscheinen, doch solche Abweichungen beeinflussen den Notendurchschnitt in Kursen und wirken sich negativ auf Chancen im weiteren Karriereweg aus

Hintergrund der Forschung und Vorschläge

  • Die Idee zu der Studie entstand, als Wang, der Bildungstechnologie erforscht, und Fei, der zu KI forscht, über ein Forschungsvorhaben diskutierten
    • Sie bemerkten, dass auch Datenlabeling als grundlegende Aufgabe im Machine Learning eine lange und monotone Serienarbeit sein kann, dort aber zufällig verteilt wird
    • Eine Pilotstudie prüfte anschließend, ob es Ungleichgewichte bei Noten in Abhängigkeit von der Bewertungszeit gibt
  • Die Forschenden vermuten, dass Ermüdung einer der Hauptfaktoren für diesen Effekt sein könnte
    • Wenn man über längere Zeit dieselbe Tätigkeit ausführt, wird man müde, die Aufmerksamkeit sinkt und die kognitive Leistungsfähigkeit nimmt ab
  • In Canvas und anderen Online-Learning-Management-Systemen gibt es zwar die Möglichkeit, Aufgaben in zufälliger Reihenfolge zu bewerten, und einige Lehrende nutzen dies, doch der Standardmodus ist alphabetisch
    • Eine einfache Lösung wäre es, die Standardeinstellung auf eine zufällige Reihenfolge umzustellen
  • Zudem schlagen sie vor, dass akademische Einrichtungen für große Lehrveranstaltungen mehr Korrekturkräfte einstellen, die Arbeitslast auf mehr Personen verteilen oder Schulungen anbieten sollten, um Bias zu erkennen und zu verringern

Meinung von GN⁺

  • Dass sequenzieller Bewertungsbias reale Auswirkungen auf die Noten von Studierenden hat, wirft Fragen zur Fairness von Bewertungssystemen im Bildungsbereich auf. Da Noten großen Einfluss auf die Zukunft der Studierenden haben, scheint eine Verbesserung dringend erforderlich
  • Allerdings ist die Studie auf englischsprachige Länder beschränkt, sodass dies in Korea möglicherweise kein großes Problem ist. Es scheint weitere Forschung im Inland nötig, um zu prüfen, ob derselbe Effekt auch bei einer Sortierung nach der Reihenfolge koreanischer Buchstaben oder der Strichreihenfolge chinesischer Familiennamen auftritt
  • Dass die Ermüdung der Bewertenden die Qualität der Benotung beeinflusst, deutet darauf hin, dass im Bildungsbereich angemessene Vergütung und Unterstützung für Bewertungsarbeit notwendig sind. Übermäßige Arbeitsbelastung kann faire Bewertungen beeinträchtigen
  • Auch die Einführung KI-basierter automatischer Bewertungssysteme könnte eine Alternative sein. Allerdings dürfte das Problem von Bias dadurch nicht vollständig gelöst werden, weshalb zusätzlich Maßnahmen nötig sind, um qualitative Aspekte der Bewertung zu ergänzen

1 Kommentare

 
GN⁺ 2024-04-21
Hacker-News-Kommentare

Im Folgenden eine Zusammenfassung der Hacker-News-Kommentare:

  • An Universitäten entspricht die Reihenfolge der Prüfungen beim Bewerten der Reihenfolge, in der sie eingesammelt wurden. Die Korrektoren übernehmen in einem Raum jeweils bestimmte Aufgaben, um konsistente Bewertungen zu vergeben, und mischen die Prüfungen durch. Die Bewertungsreihenfolge kann daher als faktisch zufällig angesehen werden.
  • Bei der Bewertung von Hausarbeiten erfolgt die Korrektur in alphabetischer Reihenfolge nach den Namen der Studierenden, und alle sind sich einig, dass man die Reihenfolge aus Fairnessgründen mischen sollte. Das liegt daran, dass man (1) am Anfang weniger müde ist, (2) gegen Ende bessere Laune hat, weil man bald fertig ist, und (3) am Anfang häufige Fehler oder das richtige Gefühl für die Bewertung noch nicht erkannt hat und daher etwas übersehen kann.
  • In der Grundschule stand der Nachname des Autors ganz vorn auf der Klassenliste, weshalb er oft besondere Aufgaben übernehmen musste, etwa die Tickets zu verwalten oder in Sport als Erster bewertet zu werden. Für ein introvertiertes Kind war das lästig.
  • In Schulen der 80er und 90er Jahre wurden die Sitzplätze nach den Nachnamen von vorn nach hinten in alphabetischer Reihenfolge vergeben. In der Oberstufe gab es viele gute Schüler mit Nachnamen von A bis D, während unter U bis Z viele Unruhestifter gewesen seien. Das könnte auch daran gelegen haben, dass sie näher bei den Lehrern saßen und dadurch mehr Aufmerksamkeit bekamen.
  • Menschen mit den Initialen Z und W nehmen alphabetische Sortierung stark wahr, Freunde mit den Initialen A und B dagegen nicht.
  • An Universitäten werden wichtige Prüfungen und Aufgaben mit anonymisierten Kandidatennummern bearbeitet. Vollständig anonym ist das nicht, aber es verleiht dem System ein gewisses Maß an Integrität.
  • Beim Bewerten begegnet man anfangs bestimmten Fehlern oder unerwarteten Antworten noch nicht; tauchen sie später auf, muss man zu früheren Arbeiten zurückgehen und neu bewerten.
  • Eine zufällige Reihenfolge als Standardeinstellung könnte helfen, Vorurteile abzubauen. Allerdings könnten Studierende, die zuletzt bewertet werden, immer noch schlechtere Noten bekommen.
  • Die Ehefrau eines Kommentators hat einen Nachnamen mit Y und mochte es nicht, immer weit hinten zu stehen. Deshalb tragen die Kinder zuerst den Nachnamen des Mannes, der mit E beginnt, und danach per Bindestrich den anderen. Auch die Vornamen beginnen mit A bzw. B, damit sie bei Sortierungen weiter vorn erscheinen.
  • Im Buch Gregs Tagebuch wird erwähnt, dass Kinder mit Nachnamen am Anfang des Alphabets weiter vorn im Klassenraum sitzen, mehr Fragen gestellt bekommen und dadurch mehr lernen.
  • Ein Vater eines Schülers mit einem Nachnamen weit hinten im Alphabet beobachtete, dass Lehrkräfte bei Projektbesprechungen in der Reihenfolge der Nachnamen oft etwa 40 % der Klasse am Ende gar nicht mehr erreichen. Da nicht alle Schüler aktiv auf Lehrkräfte zugehen, kann das zu schlechteren Noten führen.
  • Jemand fragt sich, warum Helen Wang ausgerechnet zu diesem Thema geforscht hat.