Skip to main content
main-content

03.07.2020 | Hot Topics | Ausgabe 7/2020 Open Access

Zeitschrift für Rheumatologie 7/2020

Gehört die statistische Signifikanz aufs Altenteil?

Zeitschrift:
Zeitschrift für Rheumatologie > Ausgabe 7/2020
Autoren:
Dr. A. Richter, A. Zink
Wichtige Hinweise

Redaktion

U. Müller-Ladner, Bad Nauheim
U. Lange, Bad Nauheim

Hintergrund

Mit der Schlagzeile „Retire statistical significance“ haben Amrhein et al. in Nature dazu aufgerufen, sich vom Konzept der statistischen Signifikanz in der Medizin zu verabschieden [ 3]. Unterstützt durch ein Editorial [ 9] und Unterschriften von mehr als 800 Wissenschaftlern hat diese Arbeit eine rege Diskussion ausgelöst [ 13, 16, 1820].
Worum geht es und warum diese Aufregung? Handelt es sich nicht um eine Problematik, die in den vergangenen 50 Jahren immer wieder kritisch diskutiert wurde [ 10, 11, 15, 17, 23]? Die statistische Signifikanz ist ein Konzept, das uns in der Situation der Unsicherheit Hilfestellung geben soll. Empirische Forschungsergebnisse repräsentieren immer nur einen Ausschnitt aus der Wirklichkeit und sind unter ganz bestimmten Bedingungen entstanden. Die Signifikanztestung hat die einzige Aufgabe, uns Orientierung bei der Bewertung der Ergebnisse zu geben. Verwendet wird die statistische Signifikanz hingegen sehr oft, um Ja/nein-Entscheidungen abzuleiten, selbst wenn bei geringfügig anderen Ergebnissen die gegenteilige Entscheidung gefällt worden wäre. Unter/über einer bestimmten Signifikanzschwelle werden Ergebnisse als bestätigt/abgelehnt angesehen.

Die Kritik am Konzept

Amrhein et al. erinnern an zwei wesentliche Punkte: erstens, dass ein p-Wert von >0,05 für ein Studienergebnis oder ein Konfidenzintervall, das die Eins einschließt, nicht bedeutet, dass kein Unterschied bzw. keine Assoziation bestünde. Sondern nur, dass diese Assoziation nicht gezeigt werden konnte. Zweitens, dass bei identischen Effektmaßen zweier Studien, wie in Abb.  1 mit einer jeweiligen Hazard Ratio von 1,5 dargestellt, unterschiedliche Konfidenzintervalle der Studien – eines schließt die Eins ein und das andere nicht – keine einander widersprechenden Ergebnisse darstellen [ 3]. Dies kann aus statistischer und inhaltlicher Perspektive nur unterstützt werden. Die Liste falscher Interpretationen statistisch signifikanter Ergebnisse ließe sich leicht erweitern; Greenland et al. haben hierzu 25 gängige Fehlinterpretationen zusammengetragen [ 12]. In Tab.  1 sind weitere mögliche Stolpersteine bei der Interpretation von p-Werten erwähnt.
Tab. 1
Aussagekraft des p-Wertes und Erklärungen zur Verwendung des p-Wertes in verschiedenen Kontexten
p-Wert und:
Erklärung
Aussagekraft
Der p-Wert ist ein Ergebnis der Analyse, dessen Größe von vielen Faktoren abhängt, u. a. dem Zutreffen aller Modellannahmen, den vorliegenden Daten und deren Manipulation. Der p-Wert ist nur die Wahrscheinlichkeit, unter der Nullhypothese ein noch unwahrscheinlicheres Ergebnis für die Testgröße zu erhalten
Beispiel: Ein Studienergebnis weist den Zusammenhang zwischen Alter und systolischem Blutdruck (SBD) mit einem Anstieg um 6,5 mm HG pro Altersdekade (95 %-Konfidenzintervall [6,0; 7,0]) und einem p-Wert von p = 0,001 aus. Unter der Nullhypothese (zwischen Alter und SBD besteht kein Zusammenhang) ist die Wahrscheinlichkeit für ein extremeres Testergebnis 0,1 %
Klinische Relevanz
Ob Studienergebnisse auch eine klinische Relevanz haben, ist eine inhaltliche Entscheidung, die unabhängig von p-Werten zu beurteilen ist
Kausalität
Der p-Wert allein hat keine Aussagekraft hinsichtlich der Kausalität von Studienergebnissen. Für Aussagen zur Kausalität sind die zugrunde liegende Methodik und das Studiendesign entscheidend. Konfirmatorische, randomisierte Studien lassen Aussagen zur möglichen Kausalität zu
Effektstärke
Von der Größe des p-Wertes kann nicht auf die Effektstärke geschlossen werden. Sowohl große wie auch kleine Effekte können mit hohen sowie sehr kleinen p-Werten beschrieben werden. Die Größe des p-Wertes ist insbesondere von der Fallzahl abhängig. In sehr großen Studien, beispielsweise mit Sekundärdaten, führen selbst marginale Effekte zu sehr kleinen p-Werten
Existenz von Effekten
p-Werte >0,05 bedeuten nicht, dass ein untersuchter Effekt tatsächlich nicht vorliegt, sondern lediglich, dass er mit den verwendeten Daten nicht gezeigt werden konnte [ 1]. Falsche Methodik, unzureichende Fallzahl oder ungenaue Daten können dazu führen, dass vorhandene Effekte nicht gezeigt werden können
Multiples Testen
Die häufige Anwendung von mehreren unabhängigen Hypothesentests führt zur Erhöhung der Wahrscheinlichkeit, dass die Nullhypothese abgelehnt wird, obwohl sie korrekt ist. Bei 100 unabhängigen Tests – diese Anzahl wird nicht selten in Publikationen erwähnt [ 4] – sind 5 Tests falsch positiv (signifikant)
Bias
Die Auswahl von Studienergebnissen aufgrund niedriger p-Werte führt zu Publikationsbias, dies ist hinlänglich bekannt
Weniger bekannt ist, dass p-Werte selbst auch einer Verzerrung (Bias) unterliegen können. In multiplen Regressionsmodellen führt starke Kollinearität zwischen Prädiktoren zur Inflation der Varianz der Schätzer. Damit sind die entsprechenden p-Werte überschätzt
Berichterstattung in Publikationen
Die alleinige Darstellung von p-Werten in Publikationen ist fast immer unzureichend. Es sollten die Effekte mit zugehörigen Konfidenzintervallen berichtet werden, ggf. ergänzt um p-Werte [ 21]
Entgegen dieser häufigen Kritik ist die gelebte wissenschaftliche Praxis anders, und darauf zielen die Autoren ab. p-Werte werden u. a. zu Hunderten [ 4] in Publikationen verwendet und für dichotomisierte Entscheidungen herangezogen. Das Konzept statistischer Signifikanz, zu dem neben p-Werten mittelbar auch die Fehler 1. und 2. Art sowie Konfidenzintervalle für Effekte gehören, wird falsch verwendet und falsch verstanden. Die Frage, ob Unterschiede zwischen zwei Gruppen klinisch relevant sind, wird oftmals gar nicht gestellt. Es manifestiert sich hier ein naiver Umgang mit Signifikanz und wissenschaftlicher Unsicherheit.
Den Autoren ist zuzustimmen, dass die starre Fixierung auf p-Werte die Unsicherheit außen vor lässt, unter der Studienergebnisse entstehen. Ungenaue, unzureichende Daten oder selektive Studienpopulationen tragen u. a. zur Unsicherheit der Ergebnisse bei. Eine Bewertung dieser muss über p-Werte hinaus in einem elaborierten Umgang mit statistischer Unsicherheit erfolgen. Hierzu gehört z. B., ein Ergebnis mit verschiedenen Methoden zu prüfen, Sensitivitätsanalysen durchzuführen und an jeder Stelle nach der klinischen Relevanz zu fragen. Dies gilt ganz besonders für nicht randomisierte Studiendesigns, wo wir mit einer Vielzahl von Verzerrungsfaktoren umgehen müssen. Wasserstein et al. fassen dies unter dem sehr passenden Akronym ATOM zusammen: Akzeptanz der Unsicherheit („ Accept uncertainty“), Sorgfalt („be Thoughtful“), Aufgeschlossenheit („ Open“) und Zurückhaltung („ Modest“) [ 28] sollten bei der Interpretation von Studienergebnissen vorliegen.

Ersetzbarkeit des Konzepts

Aber kann der falsche Gebrauch eines Konzepts als Begründung dafür dienen, es komplett über Bord zu werfen? Dies scheint uns im Moment zumindest fraglich. Ein universales und unter Methodikern konsentiertes besseres Konzept existiert nicht [ 28]. Alternativen wie die 2. Generation von p-Werten [ 6], die Bayes-Faktor-Schranke [ 5] und einige weitere [ 28] bedürfen höheren methodischen Verständnisses. Manche dieser Alternativen benötigen weitere Annahmen. Ioannidis schlägt z. B. die Bestimmung des positiv prädiktiven Wertes eines Studienergebnisses vor [ 17]. Hierfür wird allerdings eine Annahme zum Verhältnis „wahrer“ zu „nicht-wahrer“ Ergebnisse und zum potenziellen Bias der Studie benötigt [ 17]. Andere Ansätze [ 8] sind momentan in gängiger Software zur statistischen Modellierung nicht so implementiert, dass Nicht-Programmierer sie einsetzen könnten. Werden sie eingesetzt, so ist die Gefahr der falschen Anwendung bei diesen komplexeren Verfahren eher als höher einzuschätzen als bei dem eigentlich trivialen Konzept der statistischen Signifikanz mit p-Werten und Konfidenzintervallen.

Der Kontext der Anwendung ist entscheidend

Die Verwendung statistischer Tests und das Testen von Hypothesen erfolgen u. a. in verschiedenen Stadien klinischer oder epidemiologischer Studien. Sind die Studien präklinisch, werden sie mit Routinedaten durchgeführt oder liegt ein Beobachtungsdesign zugrunde, so sind sie eher explorativ. Diese Studien sind unverzichtbar für das Generieren von Hypothesen [ 26], die dann in gut geplanten konfirmatorischen Studien wie randomisierten klinischen Versuchen überprüft werden können. Letztere werden exklusiv zur Untersuchung bestimmter Hypothesen geplant und durchgeführt.
Diese unterschiedlichen Anwendungsbereiche des statistischen Testens diskutieren Amrhein et al. [ 3] unzureichend und fordern eine globale Abschaffung des Konzepts. Uns erscheint es dagegen durchaus legitim, in einer explorativen Analyse einer Beobachtungsstudie mit vielen möglichen Einflussfaktoren auch einen statistisch nicht signifikanten Zusammenhang zu beschreiben. Ebenso ist bei der statistischen Modellierung die Wahl der am besten zu den Daten passenden Verteilungsform, z. B. negativ-binomial vs. Poisson-Verteilung, basierend auf dem p-Wert eines Likelihood-Ratio-Tests, hinreichend. Für den Fall der klinischen Prüfstudie allerdings, die für einen Effektivitätsparameter als primären Endpunkt geplant wurde, ist es keine gute wissenschaftliche Praxis, die Risikoerhöhung eines Therapiearms um 50 % (Abb.  1, Studie 1) auf fehlende statistische Signifikanz zu reduzieren, nur weil der p-Wert >0,05 ist. Die Evidenz für das Nichtvorliegen einer Risikoerhöhung kann nicht allein vom p-Wert abgeleitet werden. Altman fasste dies in den Worten zusammen: „die Abwesenheit von Evidenz“ (für einen Effekt, durch p-Werte abgeleitet) „ist keine Evidenz für Abwesenheit“ eines Effekts [ 1]. Korrekt wäre in der oben erwähnten Studie die Schlussfolgerung, dass sie für diesen Endpunkt nicht geplant wurde und diesbezüglich keine ausreichende statistische Power aufweist und dass die beobachtete Risikoerhöhung, insofern sie sich auf einen klinisch bedeutsamen Endpunkt bezieht, einer weiteren Überprüfung in adäquat geplanten Studien bedarf.

Mehr Verzerrung und weniger Transparenz

Letzteres Beispiel veranschaulicht zugleich einen wesentlichen Vorteil des Konzepts statistischer Signifikanz: Eine inkorrekte Interpretation ist für den Leser oder Zuhörer zumeist transparent. Wenn Effektstärken, Konfidenzintervalle und p-Werte gemeinsam dargestellt werden, können die Schlussfolgerungen hinterfragt werden. Dieses Merkmal des Konzepts der statistischen Signifikanz ist vor dem Hintergrund zunehmender Ergebnisse aus Messverfahren wie „next-generation-sequencing“ oder Machine-learning-Modellen hoch zu bewerten, da ihre Generierung und Fehleranfälligkeit für Leser weitgehend intransparent sind [ 7, 22, 25].
Die komplette Abschaffung der Signifikanztestung würde der willkürlichen Interpretation von Studienergebnissen Tür und Tor öffnen [ 16]. Vor allem, weil ein gutes Studiendesign verlangt, dass die Kriterien für einen relevanten Unterschied vorab und nicht nach Datenlage festgelegt werden. Dies führt uns zurück zu Grundprinzipien wissenschaftlicher Arbeit wie in der „Guten Epidemiologischen Praxis“ beschrieben [ 14]. Die Diskussion kann daher nicht sein, ob, sondern wie getestet wird und wie die Ergebnisse interpretiert werden.
In diesem Zusammenhang muss die Forderung nach der vollständigen Publikation auch nichtsignifikanter Ergebnisse unterstrichen werden. Wenn Metaanalysen nicht durch den Publikationsbias (also die bevorzugte Publikation signifikanter Ergebnisse) verzerrt sind, können fälschliche Schlussfolgerungen einzelner Studien in einem globaleren Kontext bewertet und in einer Gesamtbewertung evtl. korrigiert werden. Dies gilt nicht nur für Ergebnisse klinischer Studien, sondern auch für präklinische Studien, wo oftmals sehr viele verschiedene Biomarker geprüft werden und ohne Korrektur für multiples Testen leicht falsch positive oder falsch negative Ergebnisse entstehen [ 24].

Fazit

Die Forderung nach der Abschaffung des Konzepts statistischer Signifikanz ist derzeit mangels Alternativen und aufgrund unzureichender Differenzierung des Anwendungskontextes überzogen. p-Werte werden nicht nur zur Prüfung von Gruppenunterschieden in klinischen Prüfungen herangezogen, sondern auch in explorativen Studien, bei der Wahl eines statistischen Modells oder in Sensitivitätsanalysen zur Bewertung verschiedener Modellannahmen. Wir gehen davon aus, dass dies auch den Autoren bewusst ist. Sie schreiben selbst, dass sie kein Verbot von p-Werten und Konfidenzintervallen fordern. Worauf sie eigentlich hinweisen, ist der falsche Gebrauch und die kritiklose Handhabung der statistischen Signifikanz in vielen Studien, und hier ist ihnen uneingeschränkt zuzustimmen.
Eine Handreichung zur Interpretation von Ergebnissen wissenschaftlicher Publikationen, ähnlich der von Lyderson [ 21], wäre ein konstruktiverer Umgang mit der Problematik als die Abschaffung der Signifikanztestung. Denkbar wäre es, Leitlinien wie STROBE [ 27] oder CONSORT [ 2] um Checklisten zum Umgang mit statistischem Testen zu ergänzen. Greenland et al. haben nicht nur eine Liste möglicher Fehlinterpretationen, sondern auch Hinweise zur richtigen Interpretation vorgelegt [ 12]. Auch die Kollegen um Wasserstein et al. fordern mehr Hilfestellung zur richtigen Anwendung und weniger Verbote („‚Don’t‘ is not enough“) [ 28]. Auch wir erachten dies nicht nur für die Autoren von wissenschaftlichen Publikationen, sondern auch für deren Reviewer als hilfreich.

Interessenkonflikt

A. Richter und A. Zink geben an, dass kein Interessenkonflikt besteht.
Open Access. Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de.

Unsere Produktempfehlungen

Zeitschrift für Rheumatologie

Print-Titel

Hot topics von Experten knapp, aussagekräftig und provokativ kommentiert, neueste Leitlinien und Empfehlungen sowie Stellungnahmen der Deutschen Gesellschaft für Rheumatologie

e.Med Interdisziplinär

Kombi-Abonnement

Für Ihren Erfolg in Klinik und Praxis - Die beste Hilfe in Ihrem Arbeitsalltag als Mediziner

Mit e.Med Interdisziplinär erhalten Sie Zugang zu allen CME-Fortbildungen und Fachzeitschriften auf SpringerMedizin.de.

Alle e.Med Abos bis 30. April 2021 zum halben Preis!

Jetzt e.Med zum Sonderpreis bestellen!

e.Med Innere Medizin

Kombi-Abonnement

Mit e.Med Innere Medizin erhalten Sie Zugang zu CME-Fortbildungen des Fachgebietes Innere Medizin, den Premium-Inhalten der internistischen Fachzeitschriften, inklusive einer gedruckten internistischen Zeitschrift Ihrer Wahl.

Alle e.Med Abos bis 30. April 2021 zum halben Preis!

Jetzt e.Med zum Sonderpreis bestellen!

Literatur
Über diesen Artikel

Weitere Artikel der Ausgabe 7/2020

Zeitschrift für Rheumatologie 7/2020 Zur Ausgabe

Mitteilungen der DGRh - Veranstaltungen der Rheumaakademie

Mitteilungen der DGRh - Veranstaltungen der Rheumaakademie

Neu im Fachgebiet Innere Medizin

Mail Icon II Newsletter

Bestellen Sie unseren kostenlosen Newsletter Update Innere Medizin und bleiben Sie gut informiert – ganz bequem per eMail.

© Springer Medizin 

Bildnachweise