Fehlerhafte Studie in Management-Fachjournal wurde mehr als 6.000-mal zitiert
(statmodeling.stat.columbia.edu)- Eine Studie, die einen Zusammenhang zwischen unternehmerischer Nachhaltigkeit und Aktienkursentwicklung behauptete, wurde mehr als 6.000-mal zitiert, doch dabei kamen schwerwiegende Fehler und falsche Darstellungen ans Licht
- Andy King, der versuchte, die Studie zu reproduzieren, erklärte, dass Autor:innen, Wissenschaftsbetrieb, Journal und Universitäten seine Korrektur- und Prüfbitten wiederholt ignoriert hätten
- Die Studie enthält zahlreiche Probleme, darunter falsch gekennzeichnete statistische Signifikanz, fehlerhafte Methodikbeschreibung und unrealistisches Sample-Matching; manches wurde als bloßer Tippfehler behandelt
- King machte die Probleme über LinkedIn und das auf Replikationsforschung spezialisierte Journal (JOMSR) öffentlich, doch Harvard Business School und London Business School stuften die Sache als geringfügig ein
- Die Autor:innen haben die Studie bis heute nicht zurückgezogen, und der Beitrag betont den Zusammenbruch der Systeme zur Sicherung wissenschaftlicher Integrität und den Reformbedarf
Die problematische Studie und der Reproduktionsversuch
- Die Studie “The Impact of Corporate Sustainability on Organizational Processes and Performance” wurde mehr als 6.000-mal zitiert und galt als einflussreiche Arbeit, auf die sich sogar Wall-Street-Führungskräfte und ein ehemaliger US-Vizepräsident beriefen
- Als Andy King versuchte, die Studie zu reproduzieren, fand er methodische Inkonsistenzen, statistische Fehler, fehlende Tests und eine ungewöhnliche Stichprobenzusammensetzung
- Trotz mehrerer E-Mails an die Autor:innen erfolgte keine Antwort
- Es gibt auch die Studie Bloomfield et al. (2018), die zeigt, dass es gängige Praxis ist, Anfragen von Reproduktions-/Replikationsforscher:innen zu ignorieren oder hinauszuzögern
Reaktion von Wissenschaftsbetrieb und Journal
- King bat Kolleg:innen um Hilfe, doch die meisten lehnten mit Verweis auf Konfliktvermeidung oder Zeitmangel ab
- Einige Wissenschaftler:innen bemerkten, dass es „der Karriere eher schade, auf Fehler in veröffentlichten Arbeiten hinzuweisen“
- Er reichte einen kritischen Kommentar beim Journal Management Science ein, der jedoch mit der Begründung abgelehnt wurde, der „Ton sei unangemessen“
- Die Autor:innen räumten ein, dass die Signifikanzkennzeichnung der Hauptergebnisse falsch war, bezeichneten dies jedoch als „Tippfehler“
- Alle weiteren Korrekturanträge von King wurden abgelehnt
Öffentliche Offenlegung und Veröffentlichung der Replikationsstudie
- Nachdem King die Fehler auf LinkedIn öffentlich gemacht hatte, veröffentlichte das Journal verspätet ein Erratum
- Die Replikationsstudie erschien im Journal of Management Scientific Reports (JOMSR) und unterstrich die Rolle spezialisierter Journale für Replikationsforschung
- King bestätigte, dass sich die in der Originalarbeit beschriebene Methode von der tatsächlich verwendeten Methode unterschied und dass sich die Ergebnisse mit der tatsächlichen Methode nicht reproduzieren ließen
Untersuchung zu Forschungsintegrität und Reaktion der Universitäten
- King reichte Meldungen zu Verstößen gegen die Forschungsintegrität bei der Harvard Business School und der London Business School ein
- Die Autor:innen erklärten, fehlerhafte Sätze seien „durch einen redaktionellen Fehler im Bearbeitungsprozess“ stehen geblieben, doch dieselben Fehler wiederholten sich in allen Entwürfen
- Harvard hielt geheim, ob eine Untersuchung läuft; LBS erklärte, es handle sich nicht um absichtliche Falschdarstellung, und empfahl lediglich pädagogische Maßnahmen
- King kritisierte: „Ob Zugang zu den Daten bestand, ist nicht der Kernpunkt; falsche Beschreibungen zerstören die Interpretierbarkeit einer Studie“
Institutionelles Versagen und Reformvorschläge
- An der Studie wurden nur einige Korrekturen vorgenommen, doch die falsche Methodenbeschreibung ist weiterhin nicht berichtigt
- King sagte, „ein verlässliches System zur Steuerung wissenschaftlicher Integrität funktioniert nicht“, und schlug Folgendes vor
- Einzelne Studien nicht unkritisch zitieren und prüfen, ob eine Replikation vorliegt
- Fehler sofort korrigieren, sobald sie entdeckt werden
- Kolleg:innen vor unethischem Verhalten warnen
- Replikationsforschung und Journale wie JOMSR unterstützen
- Richtlinien zur Forschungsintegrität in Institutionen verschärfen
- Darüber hinaus forderte er, Transparenz, unabhängige Aufsicht und abgestufte Sanktionen in der Wissenschaftsgovernance zu institutionalisieren und Systeme nachträglicher Überprüfung wie FurtherReview einzuführen
Kommentar von Andrew Gelman
- Gelman bezeichnete das Verhalten der Autor:innen als wissenschaftliches Fehlverhalten, richtete den Fokus jedoch eher auf das systemische Problem als auf Einzelpersonen
- Er kritisierte, dass die Weigerung, frühere Fehler einzugestehen, die Wissenschaft zu einer „toten Wissenschaft (dead science)“ mache
- Solange die wissenschaftliche Gemeinschaft Fehlerkorrektur und verantwortungsbewusstes Verhalten nicht fördere, werde sich dasselbe Problem wiederholen
1 Kommentare
Hacker-News-Kommentare
Ich habe ein Open-Source-Agent-based-Modeling-Toolkit entwickelt, das ich seit 2003 pflege
Kürzlich behauptete ein Paper zu einem neuen Toolkit in einer anderen Sprache im Vergleich zu meiner Software, es sei besser, hatte mein Tool aber in Wirklichkeit falsch ausgeführt und die Daten verzerrt
Ich bat um eine Korrektur, doch die Zeitschrift kehrte es aus Imagegründen unter den Teppich, und die Autoren brachten nur Ausreden vor
Das Problem ist, dass so etwas in der Wissenschaft viel zu häufig vorkommt
Danach ist mein Vertrauen in wissenschaftliche Arbeiten stark gesunken
Deren Testmethodik war grundlegend falsch, und sie trainierten auf ein Problem ohne „echte richtige Antwort“ mit einem willkürlichen Kriterium, um dann zu behaupten, ihr Ergebnis sei das beste
Ich empfahl die Ablehnung, und die Zeitschrift stimmte zu, aber ein paar Monate später sah ich das Paper unverändert in einer anderen Zeitschrift veröffentlicht, was bei mir wissenschaftliche Verzweiflung auslöste
Am Ende kam ich zu dem Schluss: „Lasst nicht Psychologiestudierende den Code schreiben.“ Zumindest hätte jemand mit CS-Hintergrund es validieren müssen
Dasselbe galt für die Rechtsabteilung der Hochschule, und seitdem ist mein Vertrauen in die Wissenschaft fast völlig verschwunden. Das ist genau der Grund für die Reproduzierbarkeitskrise
Heutzutage sind Zitationszahlen nicht mehr so aussagekräftig wie früher
Problematische Papers werden immer weiter per Copy-and-paste zitiert
Deshalb denke ich über einen Dienst nach, der über den Zitationsgraphen ein Vertrauensnetzwerk legt
Papers, die fehlerhafte Arbeiten unkritisch zitieren, würden als „möglicherweise kontaminiert“ markiert, und Autoren oder Institutionen mit vielen solchen Papers bekämen ebenfalls Tags
Aber als ich die Papers tatsächlich gelesen habe, stellte sich heraus, dass es viel zu viele grottige Papers gibt
Schon die Annahme, schlechte Papers seien Ausnahmen, war falsch, und am Ende war es eher ein Fall von „Diamanten im Schlamm finden“
Deshalb kam ich zu dem Schluss: Wenn in einem Feld 90 % gefälscht sind, ist es besser, das Feld einfach zu ignorieren
Schon das bloße Zusammenfassen verwandter Forschung könnte sonst Nachteile bringen
Aber selbst wenn man ein Vertrauenssystem baut, wird es am Ende wohl doch gamifiziert werden, daher bin ich skeptisch
Es gibt in allen Disziplinen miserable Papers, aber wenn man sich echte Papers aus Business-Fakultäten ansieht, gewinnt man sein Selbstwertgefühl zurück
Wer in diesem Bereich ordentliche Forschung betreibt, ist fast schon eine Ausnahme auf Galileo-Niveau
Interessant war es schon, aber es fehlte an Tiefe, fast wie eine Geschichtsdokumentation auf Oberflächenniveau
Ich stimme voll zu, dass man keine einzelne Studie als entscheidenden Beleg zitieren sollte
Zum Beispiel existiert die berühmte „Harvard Goal Study“ in Wirklichkeit gar nicht
Auch in den FAQs der Harvard-Bibliothek wird ausdrücklich gesagt, dass es eine solche Studie nicht gibt
Wenn es dagegen kaum Folge-Zitate gibt, ist das ein Warnsignal, vor dem man weglaufen sollte
Das grundlegende Problem ist die „publish or perish“-Kultur
Professuren und Forschungsgelder hängen von Zitationszahlen ab, daher sind gegenseitiges Zitieren und Massenproduktion von Papers alltäglich geworden
Es braucht ein mehrstufiges Bewertungssystem, das Datenoffenlegung und Reproduktionsprüfungen einschließt
Es gibt auf der Welt viel zu viele miese wissenschaftliche Papers
Ein Text, den ich sehr schätze, ist John P. A. Ioannidis’ „Why Most Published Research Findings Are False“
Der Kern des Problems sind statistische Signifikanz und die Struktur wissenschaftlicher Journale
„Keine signifikanten Ergebnisse“ werden nicht veröffentlicht, sodass am Ende ganz natürlich nur verzerrte Resultate übrig bleiben
Vorabregistrierung und offene reproduzierbare Datensätze sind wichtig, werden aber wegen Beförderungsdruck und kommerzieller Interessen oft nicht eingehalten
Es fällt mir schwer, der Behauptung zuzustimmen, „betrunkene Autofahrer sind keine schlechten Menschen“
Wenn man Verhalten verteidigt, das das Leben anderer bedroht, verliert „schlecht“ seine Bedeutung
Wenn Forschende sich unethisch verhalten und man das dann mit „so wurden sie eben trainiert“ erklärt, klingt das für mich nach Verantwortungsabwehr
Wenn ein System schlechtes Verhalten leicht macht, liegt die Ursache letztlich im strukturellen Problem
„Trainiert“ bedeutet hier nicht „unterrichtet“, sondern durch die Umgebung entsprechend geprägt
Das Wort „bad“ hat nur eine schwache moralische Implikation
Letztlich war das eine Folge des Dunning-Kruger-Effekts und von Selbstüberschätzung
Wenn es menschlich ist, in solche Täuschungen zu geraten, kann man nicht einfach die Menschen selbst als schlecht bezeichnen
Die Aussage „Replikationsforschende sollten vorsichtig sein“ widerspricht dem Wesen der Wissenschaft
Nicht reproduzierbare Ergebnisse sind bedeutungslos, und Replikationsforschung sollte im Gegenteil gefördert werden
Bei einem Journal-Paper wird die Zitationszahl je nach Website unterschiedlich angezeigt
SSRN zeigt 109, ResearchGate 3936 und Google Scholar 6269
Da die Zitationszahlen nach unterschiedlichen Kriterien gezählt werden, ist es schwer, ihnen zu vertrauen
Außerdem gab es den Vorschlag, „Kommentare, Korrekturen und Rückzugsanträge zu allen Papers öffentlich zu machen“,
aber dann wären vermutlich sogar Einstein-Papers voller seltsamer Kommentare
scheint das Problem des Missbrauchs kleiner zu sein als erwartet