Statistischer Fehler
Anhand der vorangegangen Beispiele wurden einige häufige Fehler bei epidemiologischen Studien dargestellt. Als weiterer „Fehler“ muss der statistische Fehler vorgestellt werden. Ziel epidemiologischer Studien ist es, abzuschätzen, um wie viel das Risiko für bestimmte Krankheiten durch verschiedene Expositionen erhöht oder reduziert wird. Würde man alle potenziell Exponierten nachuntersuchen und bei allen potenziell Exponierten den exakten Krankheitsstatus feststellen, ließe sich präzise beurteilen, um wie viel die betreffende Exposition das Risiko für die betreffende Krankheit erhöht oder erniedrigt. In der Praxis erfolgt diese Untersuchung jedoch nicht bei allen potenziell Exponierten, sondern in einer Gruppe von Exponierten und Nichtexponierten, deren Krankheitsstatus man beurteilen kann. Die Unschärfe der Messungen, die sich daraus ergibt, dass nicht alle potenziell Exponierten bzw. Nichtexponierten nachuntersucht werden, bedingt den statistischen Fehler der Messung. Der statistische Fehler ist also ein Maß für die Präzision der Risikoabschätzung. Risikoverhältnisse werden in epidemiologischen Studien somit geschätzt. Deshalb werden RR und OR immer mit einem
Konfidenzintervall angegeben. Der Bereich des 95 %-Konfidenzintervalls z. B. gibt den Bereich an, in dem die wahre Risk (
Odds) Ratio mit 95-prozentiger Wahrscheinlichkeit zu finden ist. Die Unschärfe des 95 %-Konfidenzintervalls resultiert daraus, dass die Untersuchung nur auf einer begrenzten Anzahl von Beobachtungen beruht, und reflektiert den statistischen Fehler. Der wesentliche Vorteil des statistischen Fehlers ist somit, dass sein potenzielles Ausmaß durch das Konfidenzintervall abschätzbar ist.
Neben dem 95 %-Konfidenzintervall wird häufig auch der
p-Wert angegeben. Der p-Wert steht mit dem 95 %-Konfidenzintervall in Zusammenhang, ist aber konzeptionell etwas anderes. Das 95 %-Konfidenzintervall erlaubt es, die Größe einer Effektstärke abzuschätzen. Beim p-Wert wird die Frage gestellt: Kann die beobachte OR (RR) zufällig aufgetreten sein? Der p-Wert besagt, wie wahrscheinlich es ist, dass die beobachtete OR (RR) rein zufällig aufgetreten ist, unter der Annahme, dass in Wahrheit die Risiken bei Exponierten und Nichtexponierten identisch sind. Liegt der p-Wert unter 0,05, heißt das: In weniger als 1 von 20 Fällen wird die beobachtete OR/RR aufgetreten sein, obwohl in Wahrheit kein Zusammenhang besteht. Ist der p-Wert <0,01, ist diese Wahrscheinlichkeit noch kleiner, nämlich unter 1/100.
Der statistische Fehler ist die einzige Fehlerquelle in epidemiologischen Studien, die quantitativ abgeschätzt werden kann. Alle übrigen möglichen Fehler, Störfaktoren (Confounder) oder Verzerrungen (Bias) müssen in der Studienplanung bedacht und möglichst ausgeschlossen werden.
Verzerrung
Während der Effekt von Störfaktoren (Confounder) in der Konzeption und Analyse der Studie potenziell ausgeglichen werden kann, ist die Verzerrung (Bias) nur durch eine sehr sorgfältige Planung der Studie verhinderbar. Bias beschreibt einen Fehler in der Konzeption von Studien, für den weder die Richtung noch das Ausmaß beurteilt werden kann. Ein Bias führt somit dazu, dass die Ergebnisse der betreffenden Studien kaum interpretierbar sind. Das kann durch Fehler in der Auswahl der betroffenen Fälle und Kontrollpersonen (Selektionsbias) oder durch Fehler in der Erfassung der Information über den Expositions- oder Krankheitsstatus (Informationsbias) entstehen.
Ein Selektionsbias bei der Auswahl der Fälle kann z. B. dadurch entstehen, dass selektiv solche Fälle ausgewählt werden, bei denen die Exposition vorlag. Jedoch ist ein Selektionsbias auch bei der Auswahl der Kontrollpersonen möglich, wenn die Auswahl der Personen durch die interessierende Exposition beeinflusst wird. Selektionsbias ist ein charakteristischer Fehler bei Fall-Kontroll-Studien.
Auch der Informationsbias durch Fehlbeurteilung des Expositionsstatus ist ein typischer Fehler in Fall-Kontroll-Studien. Die Beurteilung der Exposition der betroffenen Fälle und Kontrollpersonen stützt sich häufig auf die Erinnerung der Betroffenen bzw. ihrer Eltern; menschliche Erinnerung ist bekanntlich selten objektiv. Dies wäre ein geringeres Problem, wenn Ausmaß und Richtung der Fehlerinnerung bei den betroffenen Fällen und Kontrollpersonen gleich wäre. Der wesentliche Unterschied zwischen beiden Gruppen ist jedoch häufig das Maß der Betroffenheit. Betroffene suchen nach Erklärungen für ihr Betroffensein, in diesem Fall für ihre Krankheit bzw. für die Krankheit ihres Familienangehörigen. Hieraus kann ein Erinnerungsfehler (Recall-Bias) entstehen. Wären in den Studien über den Zusammenhang von perikonzeptioneller Folsäureeinnahme ausschließlich Mütter gesunder Kontrollkinder gefragt worden, wäre ein Recall-Bias bei der Erinnerung an die interessierende Exposition wahrscheinlich gewesen. Deshalb wurden z. B. in der Studie von Mulinaire et al. (
1988) als Kontrollpersonen Mütter von Kindern mit anderen Fehlbildungen ausgewählt, bei denen angenommen werden konnte, dass diese sich in gleicher Weise wie die Mütter von Kindern mit
Neuralrohrdefekten erinnern würden.
Ein Informationsbias bei der Erfassung des Krankheitsstatus ist ein typischer Fehler von Kohortenstudien. Häufig ist es in den Kohortenstudien bekannt, ob das untersuchte Individuum, dessen Krankheitsstatus zu überprüfen ist, exponiert war oder nicht. Insbesondere bei nicht sehr genau definierten Krankheitsbildern könnte somit die Diagnose der Krankheit bei Exponierten häufiger gestellt werden als bei Nichtexponierten, wodurch eine Verzerrung bei der Beurteilung des Erkrankungsrisikos durch die betreffenden Expositionen entstünden. In Interventionsstudien wird versucht, diesen Fehler zu vermeiden, indem die Studie als randomisierte Doppelblindstudie konzipiert wird, bei der weder der Untersuchte noch der Untersucher über die Art der Exposition informiert ist.
Kausalität in der Epidemiologie
Während das Kausalitätsverständnis der naturwissenschaftlich orientierten Schulmedizin die Identifikation von Pathomechanismen auf physikalischer, biochemischer oder molekularer Ebene fordert, ist für die Annahme eines Kausalzusammenhangs auf Grundlage epidemiologischer Studien die Kenntnis eines exakten Pathomechanismus nicht notwendig. Lange vor der Identifikation der Choleravibrionen gelang es in London, eine Cholera-Epidemie durch Analyse der inzidenten Fälle zu beenden. Aufgrund von Beobachtungen, wie viele Menschen während dieser Epidemie wann und wo an
Cholera erkrankten, konnten Verhaltensempfehlungen gegeben werden, die die Cholera-Epidemie beendeten: Nur die Wasserentnahme aus bestimmten Brunnen war mit dem Auftreten der Cholera assoziiert, während bei Wasserentnahme aus einem anderen Brunnen keine Erkrankungen beobachtet wurden. Dies erlaubte die richtige Empfehlung, choleraträchtige Brunnen zu meiden.
Für ein solches, sich auf reine Empirie stützendes Kausalitätsverständnis sind sehr klar definierte Kriterien erforderlich. Epidemiologische Kausalitätskriterien wurden 1965 von Hill entworfen.
Unverzichtbar ist zunächst der Nachweis einer validen statistischen Assoziation. Die bereits dargestellten potenziellen Fehlerquellen epidemiologischer Studien betreffen allein die Frage nach einer validen statistischen Assoziation. Eine valide statistische Assoziation wird ausgeschlossen durch erkennbare Bias oder Störfaktoren, die in der Analyse nicht berücksichtigt wurden. „Statistische Signifikanz“ besagt nur, wie wahrscheinlich die zufällige Beobachtung der gefundenen Assoziation wäre. Üblicherweise wird eine statistische Signifikanz angenommen, wenn der
p-Wert 0,05 unterschreitet. Ein p-Wert von <0,05 heißt, dass die Wahrscheinlichkeit eines statistischen Fehlers geringer ist als 1:20.
Ist die Wahrscheinlichkeit eines statistischen Fehlers hinreichend klein und scheinen Fehler durch Störfaktoren, Bias oder „reverse causation“ nach Ermessen des Untersuchers und der Fachwelt hinreichend unwahrscheinlich, kann davon ausgegangen werden, dass die Studie in sich schlüssig, d. h. intern valide ist.
Die
Validität einer Assoziation sagt primär nur etwas über Zusammenhänge aus, nicht jedoch über Kausalzusammenhänge. Als ein Kriterium für Kausalität wird üblicherweise eine starke Assoziation gefordert, wobei die Festlegung, welche Assoziation als stark erachtet wird, willkürlich ist. Eine Verdoppelung des Risikos oder eine Halbierung des Risikos wird meist als starke Assoziation bewertet (OR oder RR =2 bzw. OR oder RR =0,5). Unzweifelhaft können jedoch auch schwächere statistische Assoziationen kausal sein. Die Begründung für das Kausalitätsmerkmal „starker Risikofaktor“ ist pragmatisch. Die Adjustierung in der Analyse der Studie ist der klassische Weg, um Fehler durch Störfaktoren auszugleichen. Eine Adjustierung ist jedoch nur für bekannte Störfaktoren möglich, zu denen auch Daten gesammelt wurden. Gleichzeitig ist es aber vorstellbar, dass andere, unbekannte Risikofaktoren für einen Teil des vermuteten Kausalzusammenhangs verantwortlich sind. Wenn diese Risikofaktoren gleichermaßen eng mit dem postulierten „Kausalfaktor“ und dem Outcome des Kausalfaktors assoziiert sind, könnten sie für den Effekt des vermuteten Kausalfaktors verantwortlich sein. Dies wird aber einer starken Assoziation des putativen Kausalfaktors als unwahrscheinlich angesehen.
Auch Dosiseffekte können, wenn tatsächlich immer „viel macht viel“ gilt, Hinweis auf Kausalität geben. Konsistente Ergebnisse können zwar auch konsistent falsch sein, grundsätzlich spricht aber die Tatsache, dass unterschiedliche Untersucher in unterschiedlichen Populationen die gleichen Zusammenhänge finden, eher für deren Richtigkeit.
Widersprechen die Ergebnisse einer epidemiologischen Kausalkette dem biologischen Verständnis, spricht dies gegen die Annahme einer Kausalität. Hierbei ist jedoch zu berücksichtigen, dass auch das biologische Verständnis zeitlichen Wandlungen unterliegt und mitunter eher eine Kette von Irrtümern als die reine Wahrheit reflektiert. Allerdings kann im Einzelfall der vermutete Zusammenhang so absurd sein, dass die Annahme eines Kausalzusammenhangs kaum gerechtfertigt erscheint. Ein Beispiel hierzu veröffentlichten Davey-Smith et al. (1992). Hierbei wurde nach allen Regeln epidemiologischer Kunst ein valider statistischer Zusammenhang zwischen
Rauchen und Selbstmordgefährdung demonstriert. Die Autoren dieser Studie verweisen auf den gesunden Menschenverstand, der eine derartige kausale Verknüpfung wenig plausibel erscheinen lässt. Umgekehrt kann eine „plausible biologische Erklärung“ die Annahme von Kausalität stützen. Allerdings sind auch plausible biologische Erklärungen nicht in Stein gemeißelt. Manche plausible biologische Erklärung erwies sich als falsch. Bis zur Entdeckung des
Helicobacter pylori galt das Magenulkus als psychosomatische Erkrankung.
Der kritische Leser wird beim Lesen dieses Abschnitts, den Eindruck gewinnen, dass „nur“ epidemiologische Kausalität auf wackeligen Beinen steht. In der Tat erwiesen sich viele postulierte Risikofaktoren als falsch. Weitgehend sichere empirische Evidenz kann nur mit randomisierten kontrollierten Studien generiert werden.
Ist nun aber ein RCT nicht möglich – wie z. B. bezüglich der Regelschlaflage und SIDS – kann der Nachweis, dass die Vermeidung des vermeintlichen Risikos auch zu einer Abnahme der Häufigkeit der Krankheiten führt, einen wichtigen Hinweis auf die Richtigkeit eines epidemiologischen Kausalzusammenhang erbringen.
Die Annahme, dass die Präferenz der Bauchlage als bevorzugte Schlafposition junger Säuglinge das Risiko für den plötzlichen Kindstod erhöhen könnte, erschien noch vor einigen Jahren sehr spekulativ. In den 1960er-Jahren war die Bauchlage für die kindliche Entwicklung als besonders vorteilhaft empfohlen worden. Seit dieser Zeit hatten viele tausend Kinder tausende von Nächten auf dem Bauch geschlafen und davon offenbar keinen Schaden genommen.
Ausgehend von Einzelbeobachtungen, dass Kinder, die an SIDS verstorben waren, häufig auf dem Bauch liegend aufgefunden wurden, wurde die Hypothese generiert, dass die Bauchlage SIDS begünstigen könnte. In verschiedenen Studien wurde gezeigt, dass diese Kinder auch sehr viel häufiger als Kontrollkinder zum Schlafen auf den Bauch gelegt wurden. Diese Assoziation wurde in verschiedenen, ganz unterschiedlich konzipierten Studien bestätigt. Diese Studien waren so angelegt, dass Fehler durch Confounding oder Bias unwahrscheinlich erschienen. Die Ergebnisse waren konsistent und zeigten fast immer ein signifikantes und mit OR von deutlich über 2 erhebliches SIDS-Risiko für die Bauchlage. Auch gab es zahlreiche biologische Hypothesen, warum die Bauchlage das SIDS-Risiko erhöhen könnte.
Ein weiterer wichtiger Mosaikstein in der Kausalkette war der überzeugende Nachweis, dass in den Niederlanden nach Empfehlungen, die Bauchlage als Regelschlaflage des gesunden Säuglings zu vermeiden, die Zahl der Kinder, die regelmäßig in Bauchlage zum Schlafen gelegt wurden, deutlich zurückging und parallel dazu auch die Rate des plötzlichen Kindstods deutlich abnahm. Somit erschien die Annahme eines Kausalzusammenhangs von Bauchlage und erhöhtem SIDS-Risiko gut begründet. Deshalb wurden auch in Deutschland Empfehlungen gegeben, die Bauchlage als Regelschlaflage des jungen Säuglings zu vermeiden.
Auch Beobachtungen aus Deutschland und Norwegen unterstreichen die Richtigkeit dieser Empfehlung: Nach Herausgabe der Empfehlungen nahm nicht nur die Zahl der SIDS-Fallrate von 1283 (1990) auf 372 (2003) ab, sondern auch die postneonatale Säuglingssterblichkeit von 5102 (1995) auf 3618 (2003) Fälle deutlich ab. Deshalb konnte ausgeschlossen werden, dass veränderte diagnostische Gewohnheiten beim Ausfüllen des Totenscheins für die Veränderungen verantwortlich waren.
Der Einwand, dass nach der Herausgabe der Empfehlungen nicht nur die
Prävalenz der Bauchlage, sondern auch die Prävalenz anderer Risikofaktoren drastisch reduziert worden sei, sodass letztlich dies und nicht die Abnahme der Bauchlagenprävalenz verantwortlich für die Abnahme der Rate des plötzlichen Kindstods sei, ist kaum zu belegen: Weder die Stillfrequenz noch die mütterlichen Rauchgewohnheiten – gestillte Kinder haben ein niedrigeres, Kinder von rauchenden Müttern ein erhöhtes SIDS-Risiko – hatten sich in dem Zeitraum verändert, während die Prävalenz der Bauchlage deutlich abgenommen hatte. Seit 1992 empfiehlt auch die American Academy for Pediatrics, junge Säuglinge zum Schlafen nicht auf den Bauch zu legen.
Dieses Beispiel belegt eindrücklich, wie basierend auf epidemiologischen Studien richtige Präventionsempfehlungen auch dann gegeben werden können, wenn die Ursache der Erkrankung unbekannt ist: Bis heute hat niemand die Pathomechanismen des plötzlichen Kindstods verstanden. Häufig werden aber aufgrund fehlerhafter Beobachtungsstudien Zusammenhänge postuliert, die sich als falsch erweisen. So war der postulierte Zusammenhang von intramuskulärer Vitamin-K-Prophylaxe und Leukämie im Kindesalter wahrscheinlich ein Artefakt, das nicht ohne Folge blieb: Aufgrund des Verdachts wurden in einigen Ländern die Empfehlungen für die sehr effektive intramuskuläre Vitamin-K-Prophylaxe verlassen – mit der Folge von Todesfällen und schwerer Behinderung durch späte Vitamin-K-Mangel-Blutungen.
Deshalb muss jeder Kinderarzt, der Präventionsempfehlungen gibt wissen, auf welcher Grundlage diese ausgesprochen wurden. Häufig liegen epidemiologische Studien zugrunde – richtige oder falsche.