Editorial

20 Jahre Laborjournal

Sind die meisten Forschungsergebnisse tatsächlich falsch?

Von Ulrich Dirnagl, Berlin


(11.07.2014) Leider ja – Bias und schlechte Statistik fluten viele Paper mit falsch positiven Resultaten.

„Warum die meisten publizierten Forschungsergebnisse falsch sind“ hätte die Überschrift eines typischen Artikels im Laborjournal sein können. Vielmehr ist es aber der Titel einer vielzitierten Arbeit des Epidemiologen John Ioannidis, der dies 2005 allen Ernstes in Bezug auf die gesamte biomedizinische Forschung behauptet hatte (PLoS Med. 2(8): e124). Seine Argumente beruhten auf Erstsemester-Biostatistik, und besagen, dass die Kombination aus zu niedriger Power (das heißt, zu geringen Fallzahlen in den experimentellen Gruppen) und Bias (zum Beispiel durch selektive Datenauswahl, fehlende Verblindung oder Randomisierung, Post-hoc-Hypothesengenerierung, etc.) zu einer Flut von falsch positiven Ergebnissen führen muss. Diese wird durch den „Filter“ des „negative publication bias“, also der Schwierigkeit neutrale oder negative Ergebnisse zu publizieren, noch verstärkt (PLoS Biol. 8(3): e1000344).

Seither sind fast zehn Jahre vergangen, und Ioannidis’ theoretische Analyse wurde durch eine Vielzahl von Studien untermauert, die eben dieses Bias (Nat. Rev. Neurol. 10: 37-43) und die zu niedrige Power quantifiziert haben (Nat. Rev. Neurosci. 14: 365-76; PLoS Biol. 11(7): e1001609). Auch systematische Replikationen mit Erfolgsraten unter 20 Prozent, vor allem aber der allenthalben beklagte „Translational Roadblock“ in Richtung klinische Anwendung haben bestätigt, dass es tatsächlich ein Problem in der biomedizinischen Forschung gibt (Exp. Neurol. 233: 597-605; Nature 483(7391): 531-3; Nat. Rev. Drug. Discov. 10: 712). Trotz vermeintlich dramatischer therapeutischer Fortschritte in präklinischen Krankheitsmodellen überstehen diese Therapien in aller Regel die klinische Prüfung auf Effektivität nicht. Dies gilt nicht nur für die besonders „gehypten” Therapien, wie zum Beispiel mit Stammzellen, sondern ebenso für schon lange beforschte Indikationen wie Sepsis, Alzheimer oder Schlaganfall. Man könnte sagen, die Aussichten auf Heilung einer Vielzahl von Erkrankungen sind exzellent... – wenn die Patienten Mäuse oder Ratten sind.

Ergebnisse werden gemeinhin durch einen p-Wert unter 0,05 geadelt: Sie sind signifikant! Obzwar die meisten Wissenschaftler in der Biomedizin statistische Tests in Excel oder sogar Programmen wie SPSS durchführen können, scheitern dennoch nicht Wenige an der ganz grundlegenden Interpretation ihrer Ergebnisse. So besteht der weitläufige und folgenschwere Irrtum, dass p < 0,05 eine Aussage über die Wahrscheinlichkeit der Richtigkeit der getesteten biologischen Hypothese ausdrückt: „In weniger als 5 Prozent der Fälle liege ich mit meiner Theorie falsch.“

Kein Test der Erde kann solch eine Aussage machen (ausgenommen Bayes’sche Statistik, aber da treten dann andere Schwierigkeiten auf). Denn was der Test nicht kennt – und auch der Wissenschaftler nicht –, ist die Wahrscheinlichkeit, mit der die Hypothese richtig ist. Ein p-Wert von < 0,05 kann für die Interpretation meiner Experimente völlig Unterschiedliches bedeuten – je nachdem, ob ich etwa eine sehr unwahrscheinliche Hypothese statistisch überprüfe („Gedankenlesen ist möglich“), oder eine sehr wahrscheinliche („Orale Aufnahme von Noroviren führt zu Diarrhoe“).

In der Welt der Nullhypothesen-Testung (auch als „Frequentist Statistics” bekannt) wird die positive Prädiktion eines experimentellen Resultats durch drei Größen bestimmt: 1. Alpha (den Typ-I-Fehler – wohl bekannt, weil er ja unter 0,05 sein muss und man das Ganze dann p-Wert nennt); 2. Beta (den Typ-II-Fehler – weniger bekannt; und wer ihn kennt, glaubt meist, er spiele nur eine Rolle, wenn man kein „signifikantes Ergebnis” erzielt hat, also p > 0,05 war); sowie 3. die Wahrscheinlichkeit, dass die Hypothese wirklich richtig ist. Hier ein Beispiel (die Formel dazu, siehe Nat. Rev. Neurosci. 14: 365-76): Wenn alpha = 0,05, beta = 0,2 (in den wenigsten Fällen ist beta in der Praxis so hoch – siehe weiter unten) und dazu eine Wahrscheinlichkeit von 20 Prozent besteht, dass die Hypothese richtig ist – dann wären ungefähr Dreiviertel der Ergebnisse (und eben nicht 95 Prozent!), für die der Test p < 0,05 ergibt, tatsächlich positive Ergebnisse, und das restliche Viertel falsch positive.

Editorial

Editorial

So begründet sich übrigens auch, warum in einer Wissenschaft, in der Statistik offensichtlich besser gelehrt wird, nämlich der Teilchenphysik, Signifikanzniveaus von „5 sigma“ (p < 3×10-7) Standard sind. Aber selbst bei einem so niedrigen p-Wert führt ein systematischer Fehler zu einem falsch positiven Ergebnis: Der statistische Test ist unwissend gegenüber der Qualität des experimentellen Designs. Die Quantifizierung einer Wahrscheinlichkeit durch den p-Wert bezieht sich nur auf die Daten, und eben nicht auf deren Erklärung, oder die Hypothese.

Deshalb hat man beispielsweise auch versucht, das Higgs-Boson anhand zweier unabhängiger Experimente (CMS und ATLAS) nachzuweisen. Letztlich beruht aber auch dieser „Beweis“ auf nur einem experimentellen Ansatz. Die Suche nach dem Higgs-Boson ist deshalb keineswegs abgeschlossen, man wir nach dem Up­grade des Large Hadron Colliders 2015 nach unabhängiger Evidenz suchen.

Je mehr Datenpunkte (Stichproben) man hat, desto genauer ist die Aussage über die Grundgesamtheit, aus der wir Proben entnehmen: Je mehr Datenpunkte wir sammeln, desto größer ist die statistische Power unserer Analyse, und desto geringer die Wahrscheinlichkeit, ein falsch negatives Ergebnis zu erzielen. In der klinischen Biomedizin hat sich der Wert 0,8 für die Power (Power = 1 – ß, damit ß = 0,2) durchgesetzt. Das bedeutet, dass wir ein falsch positives Ergebnis viermal so sehr fürchten, wie ein falsch negatives (alpha ist ja meist 0,05; demnach 4 x 0,05 = 0,2).

So weit so gut. Außerhalb der klinischen Medizin glauben die meisten Biowissenschaftler aber, sich über beta (und damit Power) keine großen Gedanken machen zu müssen. Man interessiert sich ja für signifikante Ergebnisse, nicht für solche, bei denen der p-Wert die Latte bei 0,05 gerissen hat. Dies ist, wie oben ausgeführt, ein Irrtum – und soll hier nochmals von anderer Seite beleuchtet werden.

Das Beispiel kommt ursprünglich von Sterne und Smith (BMJ 322: 226-31) und wurde dann in einer Ausgabe des Economist im Oktober 2013 unter der Titelgeschichte „How science goes wrong“ sehr anschaulich illustriert. Man stelle sich vor, es werden 1.000 Hypothesen getestet (in vielen biomedizinischen Feldern sind viel mehr Hypothesen getestet worden). Wir akzeptieren alpha = 0,05 und beta = 0,2, wie es normale Praxis in der Biomedizin ist. Dazu noch eine Annahme: 10 Prozent der Hypothesen sind richtig, also 100 von 1.000. Aufgrund unserer alpha- und beta-Levels werden wir 45 falsch positive finden (5 Prozent von 900) und 20 der 100 richtigen Hypothesen werden von uns abgelehnt (20 Prozent von 100). Von den von uns als „richtig“ gefundenen 125 Hypothesen waren nur 80 wirklich richtig, der Rest dagegen falsch positive. Wir hatten also keine „Fehlerrate“ von 5 Prozent, sondern von 36 Prozent, trotz p < 0,05.

Falls der geneigte Leser nun einwendet, dass die eigenen Hypothesen doch vermutlich viel wahrscheinlicher seien als 10 Prozent, ja vielleicht sogar in 80 oder 90 Prozent der Fälle richtig sind, muss die Frage erlaubt sein, warum man dann überhaupt noch Experimente macht – denn dann würde einem diese Beinahe-Gewissheit doch durch falsch Negative nur noch verwässert!

An dieser Stelle muss auch darauf hingewiesen werden, dass in den meisten veröffentlichten Studien der präklinischen Biomedizin die Power gar weit unter 80 Prozent liegt. Eine kürzlich veröffentlichte systematische Analyse neurowissenschaftlicher Forschungsarbeiten ergab einen Median der Power unter 20 Prozent (Nat. Rev. Neurosci. 14: 365-76). Zur Einordnung: Die Power eines Münzwurfes ist 50 Prozent! Falls Sie es noch nicht getan haben, empfehle ich einen kurzen Post-hoc-Check der Power, die Sie selbst in Ihren Schlüsselexperimenten erreichen. Ein einfach zu bedienendes, sehr instruktives Freeware-Programm hierfür stellt die Uni Düsseldorf zur Verfügung (www.gpower.hhu.de/).

Bleibt also festzuhalten: Ein p-Wert von < 0.05 Prozent bedeutet nicht, dass wir in weniger als 5 Prozent mit unserer biologischen Hypothese daneben liegen. Außerdem: Unter Annahme realistischer Wahrscheinlichkeiten, ob unsere Hypothesen richtig sind, und gängiger Kriterien für Typ I- und Typ II-Fehlerwahrscheinlichkeiten ergibt sich durch einfache Rechnung, dass sich weit mehr als 5 Prozent falsch positive Resultate in der Literatur befinden.

Die bisherigen Überlegungen und Beispiele gingen von unrealistisch hoher – das heißt, in den meisten Studien nicht erreichter – Power (Fallzahlen) und perfektem experimentellem Design aus. Leider entspricht dies nicht der Realität. Eine Reihe von Metaanalysen von Tausenden biomedizinischer Arbeiten konnte den quantitativen Nachweis erbringen, welch großen Einfluss Bias auf die Resultate von experimentellen Studien hat. Unverblindete Studien, in denen dem Auswerter die Gruppenzugehörigkeiten folglich bekannt sind, berichten in der Regel mehr als doppelt so hohe Effektgrößen als verblindete. Gleiches gilt für Randomisierung sowie für andere Qualitätsfaktoren (siehe etwa Macleod et al., Stroke 39(10):2824-9).

Ein illustratives Beispiel wurde kürzlich aus der klinischen Stammzellforschung berichtet: Die Effektgrößen von mesenchymaler Stammzelltherapie bei Herzerkrankungen korrelieren linear mit der Anzahl der methodischen Fehler in den Studien. Offensichtlich „fehlerlose“ Studien (von denen es allerdings nur wenige gab!) erzeugten dagegen neutrale Resultate (heißt, Stammzellen zeigten keine Wirkung), diejenigen mit den meisten Fehlern berichteten die positivsten, teilweise sogar spektakuläre Ergebnisse (Nowbar et al., BMJ 348:g2688).

Während sich der Einfluss von klassischen Bias-Faktoren mit metaanalytischen Methoden indes quantifizieren lässt, bleiben andere „verzerrende“ Faktoren im Dunkeln, da sie in der Publikation nicht sichtbar werden. Dennoch kennen wir sie alle: p-Wert-Fischen (p value fishing) – das heißt die Durchführung einer Vielzahl von Tests, bis einer davon das gewünschte Resultat erzeugt; das „Pflügen“ von Daten (data dredging) zur Post-hoc-Generierung von Hypothesen, die dann als a-priori-Theorien ausgewiesen werden; der „kreative“ Umgang mit Ausreißern oder Werten, die das antizipierte Ergebnis verwässern; die selektive Publikation von Daten – das heißt, nur derjeniger, die zur „Story“ passen, unter Zurückhaltung abweichender Befunde; und so weiter.

Ein weiteres Bias, diesmal quantifizierbar und nicht unter der Kontrolle des Wissenschaftlers, verstärkt die oben genannten Effekte und führt somit zu weiterer Inflation der Effektgrößen: das „negative Publikationsbias“. Konservative Berechnungen in verschiedenen Gebieten der experimentellen Medizin deuten darauf hin, dass Publikationsbias mindestens 30 Prozent der publizierten Effektgrößen erklärt, sie also um diesen Betrag überhöht (Sena et al., PLoS Biol. 8:e1000344).

An dieser Stelle sollte bemerkt werden, dass natürlich keines der bisher genannten Probleme (niedrige Power, Bias,...) in die Abteilung von ahndungswürdigen Verstößen gegen die gute wissenschaftliche Praxis fallen (Falsifikation, Fabrikation, Plagiarismus,...). Daher finden sie auch in der öffentlichen Diskussion um spektakuläre Fälle von Wissenschaftsbetrug zurecht keine Erwähnung.

Das Zusammenspiel von niedrigem positiv-prädiktivem Wert und Bias im experimentellen Design erleichtert die Konstruktion von wissenschaftlichem „Stories“, in denen eins zum anderen führt („Next we tested...“): Die Kette der Evidenz bis zur finalen Schlussfolgerung reißt bis zur Bestätigung der a priori formulierte(n) Hypothese(n) nie ab. Komplexe Biologie wird in schwarz-weißen Vignetten von vielen Einzelbefunden erzählt, in denen Grautöne die Publikation auf hohem Niveau nur stören würden.

Was aber verleitet uns Wissenschaftler zu solch lockerem Umgang mit Statistik und experimentellem Design? Zum einen sind unsere Ressourcen limitiert. Zudem kostet die Erhöhung von Fallzahlen – und damit von Power und positiv-prädiktivem Wert – Zeit, Geld, und Personal. Auch die regulatorischen Behörden werden skeptisch, wenn statt der bisher verwendeten Gruppengrößen von fünf Mäusen plötzlich 25 angesetzt werden. Dann dauert das Ganze natürlich viel länger, und die Studenten wollen graduieren. Auch die Konkurrenz schläft nicht. Überhaupt haben wir es doch schon immer so gemacht, und auch in den Nature-Papern liest man es stets auf diese Weise. Für die „Story“ sähe es möglicherweise auch schlecht aus, denn man müsste ja dann auch Befunde einbauen, die eigentlich nicht recht passen – und vieles von dem, was vorher „signifikant“ war, wäre es dann nicht mehr.

Nicht zu unterschätzen ist sicher auch das psychologische Bias, dass unsere eigene Story extrem aufregend, wahnsinnig wichtig und ganz sicher richtig ist. Dieser ist, neben einer ganz abstrakten Neugierde, vermutlich eine wichtige Triebfeder für uns, überhaupt in teils selbstverachtender Weise bis spät in die Nacht an wissenschaftlichen Fragen zu arbeiten. Der Versuch, die eigenen Daten zu replizieren, ist da eher kontraproduktiv: Er frisst nichtvorhandene Ressourcen, es sind keine Publikationen damit zu machen, und es könnte ja auch rauskommen, dass sich der initiale Befund gar nicht reproduzieren lässt. Das sind alles „ehrenwerte“ Motive. Und daher gibt es mehr Gründe, die gegenwärtige Praxis beizubehalten, als sie zu hinterfragen oder gar zu ändern.

Biomedizinische Forschung schließt reine Grundlagenforschung ebenso ein wie translationale präklinische Forschung und klinische Studien. Eine Diskussion von Problemen und Lösungsansätzen in diesen Bereichen kann die verschiedenen Sparten dieser Forschung nicht ignorieren. Sollten wir explanatorische Ansätze („To boldly go where no man has gone before“) von konfirmatorischen (Sicherstellung der Robustheit eines biologischen oder therapeutischen Prinzips vor der Entscheidung für oder gegen die Durchführung einer klinischen Studie) unterscheiden (Kimmelman et al., PLoS Biol. 12(5):e1001863)? Zweifellos müssen bestimmte Grundregeln der guten wissenschaftlichen Praxis für alle Formen biomedizinischer Forschung gelten, insbesondere was die interne Validität betrifft (beispielsweise Randomisierung, Verblindung, keine selektive Publikation von Daten, Festlegung von Ein- und Ausschlusskriterien, etc.). Sollte man andererseits von konfirmatorischen Studien eine höhere Power (= Fallzahlen) und externe Validität fordern? Dies beträfe vor allem die Verwendung von Modellen, welche den relevanten Patientenpopulationen möglichst nahe kommen – wie etwa alte und komorbide Nager, wenn es um Erkrankungen wie Schlaganfall geht.

Die wachsende Diskrepanz zwischen den spektakulären therapeutischen Möglichkeiten der experimentellen Medizin und der Vielzahl der Studien, die bei der Übertragung der Befunde in die klinische Medizin scheitern, hat auch in der Laienpresse zu einer Diskussion über die Ursachen geführt. Ein vorläufiger Höhepunkt wurde in einer Sonderausgabe der altehrwürdigen Fachzeitschrift The Lancet erreicht (Macleod et al., Lancet 383(9912):101-4), die unter dem Stichwort „Waste Debate“ mittlerweile auch die Wissenschaftsorganisationen und Forschungsförderer wie den Wissenschaftsrat, die DFG und das BMBF erreicht hat. Einig ist man sich in der grundsätzlichen Diagnose, dass es tatsächlich ein gravierendes Problem in der Biomedizin gibt. Umstritten ist dagegen das Ausmaß: Lancet behauptet etwa, dass mehr als 80 Prozent der biomedizinischen Forschung „Waste“ (Müll) sind. Umstritten ist auch, welche Ursachen für den „Translational Roadblock“ verantwortlich sind.

Neben der oben kritisierten fraglichen Prädiktivität präklinischer Forschung kommen natürlich eine Vielzahl anderer Ursachen in Frage, wie etwa mangelnde Prädiktivität und Qualität auf Seiten der klinischen Studien. Wie bei den präklinischen Experimenten werden auch hier niedrige Power und Bias als wichtige kausale Faktoren genannt. Akzeptiert man nun, dass wir ein Problem haben, stellt sich die Frage, wie es gelöst werden kann – und wer tätig werden muss. Liegt es nur in der Verantwortung der Wissenschaftler, robustere Evidenz zu produzieren? Sind es die Universitäten, die bei der Vergabe von Professuren weniger auf die Impact-Faktoren der Kandidaten als auf die Qualität der Arbeiten achten sollten? Wenn ja, welche Indikatoren könnten dies erleichtern? Wie kann man „Qualität“ und „Robustheit“ von Forschung vergleichen, vielleicht sogar messen? Müssen wir bei der Ausbildung des medizinischen und naturwissenschaftlichen Nachwuchses mehr auf Methodenkompetenz achten und die Supervision verbessern? Sind es die Förderinstitutionen, welche bereits in ihren Ausschreibungen fundamentale Qualitätsstandards einfordern sollten (a-priori-Power-Analyse; Maßnahmen zur Reduktion von Bias, wie Randomisierung und Verblindung; und so weiter)? Sollten Mittel für die sich damit erhöhenden Projektkosten wie auch für Replikationen bereitgestellt werden? Sind es die Journale samt deren Editoren und Reviewer, die die Einhaltung solcher Qualitätsstandards bei der Entscheidung zur Publikation stärker berücksichtigen sollten, statt zunächst das „Spektakuläre“ einer Arbeit in den Vordergrund zu stellen? Und was ist mit den Fachgesellschaften?

Gegenseitige Schuldzuweisungen („Das System ist schuld”; „Die Wissenschaftler sollen erstmal vor der eigenen Haustüre kehren“;...) sind wenig hilfreich. Es ist offensichtlich, dass es einer gemeinsamen Anstrengung aller Akteure bedarf. Viele von uns sitzen sowieso in Personalunion auf mehreren Stühlen – als Wissenschaftler, Lehrer, Fakultätsmitglieder, Reviewer, und so weiter. Es sollte uns dann umso leichter fallen.

Das Laborjournal hat die Lebenswissenschaften in den letzten 20 Jahren kritisch begleitet. Dabei waren Qualitätsprobleme, Verstöße gegen die gute wissenschaftliche Praxis, die Evaluationswut der Unis, fehlgesteuerte Fördermaßnahmen, et cetera. immer ein wesentlicher Bestandteil der Berichterstattung – und das Laborjournal oftmals ein einsamer Mahner in der akademischen Wüste. Manches ging unter die Gürtellinie, und die Fokussierung auf spektakulären Wissenschaftsbetrug (oftmals erst vom Laborjournal aufgedeckt und von uns Lesern mit genüsslichem Schauer goutiert) mag etwas von den quantitativ wichtigeren „Grauzonen“ des Wissenschaftsbetriebes abgelenkt haben. Trotzdem: De jubilariis nil nisi bene – weiter so!

Ulrich Dirnagl ist Direktor des Centrums für Schlaganfallforschung der Charité Universitätsmedizin Berlin.


Letzte Änderungen: 11.07.2014