1 Punkte von GN⁺ 2026-01-26 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Studie, die einen Zusammenhang zwischen unternehmerischer Nachhaltigkeit und Aktienkursentwicklung behauptete, wurde mehr als 6.000-mal zitiert, doch dabei kamen schwerwiegende Fehler und falsche Darstellungen ans Licht
  • Andy King, der versuchte, die Studie zu reproduzieren, erklärte, dass Autor:innen, Wissenschaftsbetrieb, Journal und Universitäten seine Korrektur- und Prüfbitten wiederholt ignoriert hätten
  • Die Studie enthält zahlreiche Probleme, darunter falsch gekennzeichnete statistische Signifikanz, fehlerhafte Methodikbeschreibung und unrealistisches Sample-Matching; manches wurde als bloßer Tippfehler behandelt
  • King machte die Probleme über LinkedIn und das auf Replikationsforschung spezialisierte Journal (JOMSR) öffentlich, doch Harvard Business School und London Business School stuften die Sache als geringfügig ein
  • Die Autor:innen haben die Studie bis heute nicht zurückgezogen, und der Beitrag betont den Zusammenbruch der Systeme zur Sicherung wissenschaftlicher Integrität und den Reformbedarf

Die problematische Studie und der Reproduktionsversuch

  • Die Studie “The Impact of Corporate Sustainability on Organizational Processes and Performance” wurde mehr als 6.000-mal zitiert und galt als einflussreiche Arbeit, auf die sich sogar Wall-Street-Führungskräfte und ein ehemaliger US-Vizepräsident beriefen
  • Als Andy King versuchte, die Studie zu reproduzieren, fand er methodische Inkonsistenzen, statistische Fehler, fehlende Tests und eine ungewöhnliche Stichprobenzusammensetzung
    • Trotz mehrerer E-Mails an die Autor:innen erfolgte keine Antwort
    • Es gibt auch die Studie Bloomfield et al. (2018), die zeigt, dass es gängige Praxis ist, Anfragen von Reproduktions-/Replikationsforscher:innen zu ignorieren oder hinauszuzögern

Reaktion von Wissenschaftsbetrieb und Journal

  • King bat Kolleg:innen um Hilfe, doch die meisten lehnten mit Verweis auf Konfliktvermeidung oder Zeitmangel ab
    • Einige Wissenschaftler:innen bemerkten, dass es „der Karriere eher schade, auf Fehler in veröffentlichten Arbeiten hinzuweisen“
  • Er reichte einen kritischen Kommentar beim Journal Management Science ein, der jedoch mit der Begründung abgelehnt wurde, der „Ton sei unangemessen“
    • Die Autor:innen räumten ein, dass die Signifikanzkennzeichnung der Hauptergebnisse falsch war, bezeichneten dies jedoch als „Tippfehler“
    • Alle weiteren Korrekturanträge von King wurden abgelehnt

Öffentliche Offenlegung und Veröffentlichung der Replikationsstudie

  • Nachdem King die Fehler auf LinkedIn öffentlich gemacht hatte, veröffentlichte das Journal verspätet ein Erratum
  • Die Replikationsstudie erschien im Journal of Management Scientific Reports (JOMSR) und unterstrich die Rolle spezialisierter Journale für Replikationsforschung
  • King bestätigte, dass sich die in der Originalarbeit beschriebene Methode von der tatsächlich verwendeten Methode unterschied und dass sich die Ergebnisse mit der tatsächlichen Methode nicht reproduzieren ließen

Untersuchung zu Forschungsintegrität und Reaktion der Universitäten

  • King reichte Meldungen zu Verstößen gegen die Forschungsintegrität bei der Harvard Business School und der London Business School ein
    • Die Autor:innen erklärten, fehlerhafte Sätze seien „durch einen redaktionellen Fehler im Bearbeitungsprozess“ stehen geblieben, doch dieselben Fehler wiederholten sich in allen Entwürfen
    • Harvard hielt geheim, ob eine Untersuchung läuft; LBS erklärte, es handle sich nicht um absichtliche Falschdarstellung, und empfahl lediglich pädagogische Maßnahmen
  • King kritisierte: „Ob Zugang zu den Daten bestand, ist nicht der Kernpunkt; falsche Beschreibungen zerstören die Interpretierbarkeit einer Studie“

Institutionelles Versagen und Reformvorschläge

  • An der Studie wurden nur einige Korrekturen vorgenommen, doch die falsche Methodenbeschreibung ist weiterhin nicht berichtigt
  • King sagte, „ein verlässliches System zur Steuerung wissenschaftlicher Integrität funktioniert nicht“, und schlug Folgendes vor
    • Einzelne Studien nicht unkritisch zitieren und prüfen, ob eine Replikation vorliegt
    • Fehler sofort korrigieren, sobald sie entdeckt werden
    • Kolleg:innen vor unethischem Verhalten warnen
    • Replikationsforschung und Journale wie JOMSR unterstützen
    • Richtlinien zur Forschungsintegrität in Institutionen verschärfen
  • Darüber hinaus forderte er, Transparenz, unabhängige Aufsicht und abgestufte Sanktionen in der Wissenschaftsgovernance zu institutionalisieren und Systeme nachträglicher Überprüfung wie FurtherReview einzuführen

Kommentar von Andrew Gelman

  • Gelman bezeichnete das Verhalten der Autor:innen als wissenschaftliches Fehlverhalten, richtete den Fokus jedoch eher auf das systemische Problem als auf Einzelpersonen
  • Er kritisierte, dass die Weigerung, frühere Fehler einzugestehen, die Wissenschaft zu einer „toten Wissenschaft (dead science)“ mache
  • Solange die wissenschaftliche Gemeinschaft Fehlerkorrektur und verantwortungsbewusstes Verhalten nicht fördere, werde sich dasselbe Problem wiederholen

1 Kommentare

 
GN⁺ 2026-01-26
Hacker-News-Kommentare
  • Ich habe ein Open-Source-Agent-based-Modeling-Toolkit entwickelt, das ich seit 2003 pflege
    Kürzlich behauptete ein Paper zu einem neuen Toolkit in einer anderen Sprache im Vergleich zu meiner Software, es sei besser, hatte mein Tool aber in Wirklichkeit falsch ausgeführt und die Daten verzerrt
    Ich bat um eine Korrektur, doch die Zeitschrift kehrte es aus Imagegründen unter den Teppich, und die Autoren brachten nur Ausreden vor
    Das Problem ist, dass so etwas in der Wissenschaft viel zu häufig vorkommt

    • Ich habe etwas Ähnliches erlebt. Ein Konkurrent veröffentlichte ein Paper, ohne meine Software richtig verstanden zu haben, und zog aus fehlerhaften Daten seine Schlüsse
      Danach ist mein Vertrauen in wissenschaftliche Arbeiten stark gesunken
    • Früher hatte ich eine Software für die Forschung entwickelt und sollte dann ein Paper begutachten, in dem ein anderes Team mein Programm als Vergleich heranzog
      Deren Testmethodik war grundlegend falsch, und sie trainierten auf ein Problem ohne „echte richtige Antwort“ mit einem willkürlichen Kriterium, um dann zu behaupten, ihr Ergebnis sei das beste
      Ich empfahl die Ablehnung, und die Zeitschrift stimmte zu, aber ein paar Monate später sah ich das Paper unverändert in einer anderen Zeitschrift veröffentlicht, was bei mir wissenschaftliche Verzweiflung auslöste
    • Falls Sie der Sean Luke sind, den ich zu kennen glaube: Ihre Vorlesungen an der University of Maryland während meines Bachelor-Studiums haben mein Denken in der Informatik stark geprägt. Danke
    • Ein Kollege bat mich früher einmal, den Code zu einem Paper zu prüfen, und dabei stellte sich heraus, dass sie die Komplexität falsch berechnet und dadurch völlig falsche Schlussfolgerungen gezogen hatten
      Am Ende kam ich zu dem Schluss: „Lasst nicht Psychologiestudierende den Code schreiben.“ Zumindest hätte jemand mit CS-Hintergrund es validieren müssen
    • In der Graduiertenschule meldete ich der Zeitschrift, dass mein Betreuer Daten manipuliert hatte, aber es kam überhaupt keine Antwort
      Dasselbe galt für die Rechtsabteilung der Hochschule, und seitdem ist mein Vertrauen in die Wissenschaft fast völlig verschwunden. Das ist genau der Grund für die Reproduzierbarkeitskrise
  • Heutzutage sind Zitationszahlen nicht mehr so aussagekräftig wie früher
    Problematische Papers werden immer weiter per Copy-and-paste zitiert
    Deshalb denke ich über einen Dienst nach, der über den Zitationsgraphen ein Vertrauensnetzwerk legt
    Papers, die fehlerhafte Arbeiten unkritisch zitieren, würden als „möglicherweise kontaminiert“ markiert, und Autoren oder Institutionen mit vielen solchen Papers bekämen ebenfalls Tags

    • Ich habe diese Idee auch untersucht, als GPT-3 gerade herauskam
      Aber als ich die Papers tatsächlich gelesen habe, stellte sich heraus, dass es viel zu viele grottige Papers gibt
      Schon die Annahme, schlechte Papers seien Ausnahmen, war falsch, und am Ende war es eher ein Fall von „Diamanten im Schlamm finden“
      Deshalb kam ich zu dem Schluss: Wenn in einem Feld 90 % gefälscht sind, ist es besser, das Feld einfach zu ignorieren
    • Interessante Idee, aber ist es nicht schwierig, kritische Zitate von bloßen Zitaten zu unterscheiden?
      Schon das bloße Zusammenfassen verwandter Forschung könnte sonst Nachteile bringen
    • Nachdem ich auf Konferenzen Menschen gesehen habe, die mit Fake-Forschung Karriere gemacht haben, ist mein Vertrauen in Expert:innen gesunken
      Aber selbst wenn man ein Vertrauenssystem baut, wird es am Ende wohl doch gamifiziert werden, daher bin ich skeptisch
    • Auch in unserem Land sind citation rings und das künstliche Aufblähen der Autorenzahl weit verbreitet
  • Es gibt in allen Disziplinen miserable Papers, aber wenn man sich echte Papers aus Business-Fakultäten ansieht, gewinnt man sein Selbstwertgefühl zurück
    Wer in diesem Bereich ordentliche Forschung betreibt, ist fast schon eine Ausnahme auf Galileo-Niveau

    • Ich habe ebenfalls Ingenieurwesen, Volkswirtschaft und Management im Doppelstudium gemacht, und Betriebswirtschaft fühlte sich an wie Zeitunglesen
      Interessant war es schon, aber es fehlte an Tiefe, fast wie eine Geschichtsdokumentation auf Oberflächenniveau
    • Business-Fakultäten erforschen letztlich Techniken, mit geringen Kosten Gewinn zu erzielen, und das ist selbst schon das Resultat
  • Ich stimme voll zu, dass man keine einzelne Studie als entscheidenden Beleg zitieren sollte
    Zum Beispiel existiert die berühmte „Harvard Goal Study“ in Wirklichkeit gar nicht
    Auch in den FAQs der Harvard-Bibliothek wird ausdrücklich gesagt, dass es eine solche Studie nicht gibt

    • Die „Jick Study“ ist ein ähnlicher Fall. Der Wikipedia-Artikel ist dazu lesenswert
    • Einzelne Studien sollte man ignorieren. Wenn ein Effekt real ist, bauen andere Forschende durch partielle Replikation weitere Studien darauf auf
      Wenn es dagegen kaum Folge-Zitate gibt, ist das ein Warnsignal, vor dem man weglaufen sollte
  • Das grundlegende Problem ist die „publish or perish“-Kultur
    Professuren und Forschungsgelder hängen von Zitationszahlen ab, daher sind gegenseitiges Zitieren und Massenproduktion von Papers alltäglich geworden

    • Das Problem ist die Bewertung allein über Zitate
      Es braucht ein mehrstufiges Bewertungssystem, das Datenoffenlegung und Reproduktionsprüfungen einschließt
    • Letztlich setzt sich die Notenkonkurrenz aus der Schulzeit in der Erwachsenenwelt als „Paper-Wettbewerb“ fort
    • Das ist ein typischer Fall von Goodharts Gesetz
  • Es gibt auf der Welt viel zu viele miese wissenschaftliche Papers
    Ein Text, den ich sehr schätze, ist John P. A. Ioannidis’ „Why Most Published Research Findings Are False“

    • Es ist ein großartiges Paper, aber manche Leute aus der Tech-Branche nutzen es als Vorwand für Realitätsflucht, nach dem Motto: „Meine eigene Wahrnehmung ist die Wahrheit“
    • Ioannidis war großartig in der Forschung zur Reproduzierbarkeitskrise, aber seine Äußerungen zu COVID-19 waren mit ihrer verschwörungstheoretischen Haltung enttäuschend
  • Der Kern des Problems sind statistische Signifikanz und die Struktur wissenschaftlicher Journale
    „Keine signifikanten Ergebnisse“ werden nicht veröffentlicht, sodass am Ende ganz natürlich nur verzerrte Resultate übrig bleiben
    Vorabregistrierung und offene reproduzierbare Datensätze sind wichtig, werden aber wegen Beförderungsdruck und kommerzieller Interessen oft nicht eingehalten

  • Es fällt mir schwer, der Behauptung zuzustimmen, „betrunkene Autofahrer sind keine schlechten Menschen“
    Wenn man Verhalten verteidigt, das das Leben anderer bedroht, verliert „schlecht“ seine Bedeutung
    Wenn Forschende sich unethisch verhalten und man das dann mit „so wurden sie eben trainiert“ erklärt, klingt das für mich nach Verantwortungsabwehr

    • Menschen einfach als „schlecht“ zu bezeichnen, ist binäres Denken
      Wenn ein System schlechtes Verhalten leicht macht, liegt die Ursache letztlich im strukturellen Problem
      „Trainiert“ bedeutet hier nicht „unterrichtet“, sondern durch die Umgebung entsprechend geprägt
    • Statt „schlechtes Verhalten“ wäre „dummes Verhalten“ oder „unverantwortliches Verhalten“ treffender
      Das Wort „bad“ hat nur eine schwache moralische Implikation
    • Als es alle so machten, glaubten die Leute in einer kulturellen Selbsttäuschung, sie selbst seien anders
      Letztlich war das eine Folge des Dunning-Kruger-Effekts und von Selbstüberschätzung
      Wenn es menschlich ist, in solche Täuschungen zu geraten, kann man nicht einfach die Menschen selbst als schlecht bezeichnen
  • Die Aussage „Replikationsforschende sollten vorsichtig sein“ widerspricht dem Wesen der Wissenschaft
    Nicht reproduzierbare Ergebnisse sind bedeutungslos, und Replikationsforschung sollte im Gegenteil gefördert werden

  • Bei einem Journal-Paper wird die Zitationszahl je nach Website unterschiedlich angezeigt
    SSRN zeigt 109, ResearchGate 3936 und Google Scholar 6269
    Da die Zitationszahlen nach unterschiedlichen Kriterien gezählt werden, ist es schwer, ihnen zu vertrauen
    Außerdem gab es den Vorschlag, „Kommentare, Korrekturen und Rückzugsanträge zu allen Papers öffentlich zu machen“,
    aber dann wären vermutlich sogar Einstein-Papers voller seltsamer Kommentare

    • Tatsächlich stimmt die Zahl von 6269 Zitierungen nach Google Scholar
    • Wenn man sich aber Plattformen wie PubPeer ansieht, die anonyme Kommentare erlauben,
      scheint das Problem des Missbrauchs kleiner zu sein als erwartet