Bei unserem Beispiel handelt es sich um eine randomisierte, kontrollierte Studie – also um den hohen Evidenzgrad Ib.
Interne Validität
Die interne
Validität ist ein Maß dafür, inwieweit in Untersuchungen das gemessen wird, was gemessen werden soll – und das Ergebnis nicht durch systematische Fehler (=Bias) verzerrt wird. Sie gibt an, inwieweit man dem gemessenen Effekt vertrauen kann, und hängt von der Durchführung, Auswertung und Berichterstattung der Studie ab. Um dies zu erreichen, erfolgen Studien wenn möglich „kontrolliert“. Das bedeutet, neben einer Gruppe, an der die Intervention (z. B. Aripiprazol) getestet wird, wird eine andere Gruppe als Kontrolle mit einem Placebopräparat oder z. B. dem sonst üblichen Standardverfahren behandelt. Hinterher wird das Outcome (z. B. das Auftreten eines Rezidivs) zwischen den Gruppen verglichen, um zu beurteilen, welche Intervention erfolgreicher war.
Die Gruppen sollten sich hierbei weder in ihrer Zusammensetzung noch in ihrer Behandlung unterscheiden – die einzige Ausnahme bildet die zu testende Intervention (z. B. Aripiprazol oder Placebo in der Remissionsphase). Um sicherzustellen, dass sich die Studiengruppen nicht bereits im Vorhinein unterscheiden – z. B. die schwerer erkrankten Patienten eher in die Verum und die leichter erkrankten eher in die Placebogruppe kommen –, werden die Teilnehmende in RCTs randomisiert. Dies bedeutet, dass die Verteilung in die Interventionsgruppe vollkommen zufällig erfolgt, d. h. dass jeder Studienteilnehmer dieselbe Chance hat, in die Verum- oder die Placebogruppe zu kommen. Diese Zuordnung erfolgt häufig mit zuvor erstellten Randomisierungscodes oder PC-basierter Zufallsverteilung. Würde keine Randomisierung erfolgen und Ärzte z. B. leichter erkrankte Patienten bewusst oder unterbewusst eher der Placebo-Gruppe zuteilen, könnte es sein, dass bei diesen Patienten die Erkrankung schneller oder stärker rückläufig ist oder die Remission häufiger bestehen bleibt. Dies läge dann aber nicht unbedingt an der zu testenden Intervention, sondern daran, dass die Patienten ohnehin weniger stark erkrankt waren und ihrer Prognose daher unabhängig von der Intervention besser ist.
Ein weiterer wichtiger Faktor für die interne
Validität einer Studie ist, dass die Studiengruppen abgesehen von der zu testenden Intervention absolut gleich behandelt werden. Liegen hier Unterschiede vor – erhält z. B. die Verum-Gruppe mehr Arztkontakte – kann es sein, dass der in der Studie gefundene Unterschied zwischen den Studiengruppen in dieser zusätzlichen unterschiedlichen Behandlung begründet ist und nicht an der zu testenden Intervention liegt. Eine gute Methode, um dies sicherzustellen, ist die doppelte Verblindung, d. h., dass weder Patient noch Untersucher wissen, in welcher Gruppe sich der Patient befindet. So beugt man einer bewussten oder unbewussten Ungleichbehandlung zwischen den Studiengruppen durch die Untersucher vor. Durch die Verblindung kontrolliert man zudem den „Placebo-Effekt“ – also, dass es Patienten allein deswegen besser geht, weil sie irgendeine Intervention erhalten.
Typische Fehler, die die interne
Validität herabsetzen können, sind z. B.:
-
Selection Bias – Verzerrung durch Unterschiede in den Patientencharakteristika zwischen den Untersuchungsgruppen (z. B. wenn die Aufteilung in die Studiengruppen nicht randomisiert erfolgt)
-
Performance Bias – Verzerrung durch unterschiedliche Behandlung der Untersuchungsgruppen über die untersuchte Intervention hinaus
-
Detection Bias – verzerrte Messung des Outcomes, wenn z. B. die Beurteiler bei einer subjektiven Endpunkterhebung bzw. -bewertung über die Gruppenzugehörigkeit informiert sind
-
Attrition Bias – systematische Unterschiede in der Anzahl und den Ursachen fehlender Daten zwischen den Untersuchungsgruppen, z. B. durch unterschiedliche Anzahl an Studienabbrüchen (Juni et al.
2001)
-
Reporting Bias – systematische Unterschiede zwischen selektiv berichteten und nichtberichteten Ergebnissen einer Studie
Bei methodisch adäquaten RCTs geht man davon aus, dass diese systematischen Fehler
/Bias
(unabhängig davon, ob sie den Forschern bekannt sind oder nicht) durch die Randomisierung (d. h. die zufällige Verteilung der Studienteilnehmer auf die Behandlungsgruppen) auch zufällig verteilt werden. Deswegen wird RCTs ein hoher Evidenzgrad zugeschrieben.
Die Beantwortung folgender Fragen dient der Einschätzung, ob die Ergebnisse gültig sind (interne
Validität):
-
Erfolgte die Zuordnung der Studienteilnehmer zu den Behandlungsmethoden durch Randomisierung (d. h. zufällig)? Ist die Randomisierung verdeckt („concealment of allocation“)?
-
Waren die Gruppen zu Beginn der Studie ähnlich? Oder gab es signifikante Unterschiede, z. B. hinsichtlich Alter, Geschlecht, Schwere der Erkrankung, Vormedikation etc.?
-
Wurden Ein- und Ausschlusskriterien beschrieben?
-
Waren die Studienteilnehmer gegenüber der Therapie verblindet?
-
Waren die Behandelnden gegenüber der Therapie verblindet?
-
Gab es ein genügend langes und ausreichendes Follow-up?
-
Wurden die Studienteilnehmer (abgesehen von den zu untersuchenden Therapiemaßnahmen) gleich behandelt? Wurden alle Studienteilnehmer, die in die Gruppen randomisiert zugeordnet worden waren, analysiert („intention-to-treat“)?
-
Wurden die (primären und evtl. sekundären) Endpunkte der Studie definiert?
-
Sind Angaben über Nebenwirkungen und andere unerwünschte Effekte beschrieben („side effects“)?
-
Wurden Angaben über Finanzierung/Interessenkonflikte gemacht?
Gute Anhaltspunkte für die Validitätsbewertung von verschiedenen Studientypen, u. a. auch RCTs, bieten die NHS CASP Checklisten:
https://casp-uk.net/casp-tools-checklists/
Folgende Fragen können bei der oben genannten Studie positiv beantwortet werden: Die Ein- und Ausschlusskriterien sind sehr ausführlich beschrieben. Der Intention-to-treat-Ansatz wurde gewahrt. Primärer und sekundärer Endpunkt wurden definiert. Die Beschreibung von Nebenwirkungen ist sehr detailliert. Angaben über Interessenkonflikte finden sich ebenfalls.
Etwas ungenau beschrieben sind die Methoden der Randomisierung und der Verblindung. Ähnlichkeit der Gruppen bestand zu Beginn mit Ausnahme von niedrigeren Scores in der Children’s Global Assessment Scale (CGAS) und höheren Werten auf der Negativsubskala der Positive an Negative Symptom Scale (PANSS) in der Interventionsgruppe. Ob die Behandlung der Gruppen außer der Intervention der Studie gleich war, ist aus den Angaben in der Publikation nicht genau ersichtlich. Bezüglich des Follow-ups konnte das ursprüngliche Ziel von 52 Wochen nur bei einer kleinen Anzahl der Probanden erreicht werden, diese Limitation wurde in der Studie gut beschrieben.
Die interne
Validität ist ein Maß dafür, inwieweit in Untersuchungen das gemessen wird, was gemessen werden soll, und die Ergebnisse nicht durch Bias verzerrt sind. Sie bewertet die Aussagekraft und Glaubhaftigkeit von Studienergebnissen.
Relevanz
Es geht weiter mit der Beurteilung der Relevanz. Doch was ist mit Relevanz gemeint? Dabei geht es darum, ob die Studienergebnisse tatsächlich wichtig sind für unseren Patienten. Beispielsweise ist eine bei einer
Adipositas die Gewichtsreduktion nach einer Therapie um 2 kg statistisch signifikant, aber spielt das bei einem Patienten mit einem Körpergewicht von 150 kg tatsächlich eine relevante Rolle?
Die wohl wichtigste Kenngröße zur Beurteilung der Relevanz ist die Number needed to treat (NNT), die eine Kenngröße für den Behandlungserfolg darstellt und die Anzahl der Patienten, die man mit der experimentellen Therapie behandeln muss, um einen zusätzlichen Erfolg zu erzielen, meint. Das bedeutet je kleiner die NNT, umso besser.
Weitere Kenngrößen und deren Berechnung sind Tab.
3 dargestellt. Grundlage für die Berechnung bildet die
Vierfeldertafel (Tab.
2).
Experimentelle Behandlung | a | b | a + b = g (alle Patienten mit experimenteller Behandlung) |
Kontrollgruppe | c | d | c + d = h (alle Patienten der Kontrollgruppe) |
Gesamt | a + b = e („Therapieversager“) | b + d = f („Therapieerfolge“) | I (alle Patienten) |
Tab. 3
Berechnung wichtiger Kenngrößen (alle Werte bis auf NNT in [%])
CER (control event rate) | Event-Zahl Populationsgröße (der Kontroll-Gruppe) = c/h | Anteil der Teilnehmer in der experimentellen Gruppe einer klinischen Studie, die in einem definierten Zeitraum ein Ereignis oder einen Endpunkt erleiden |
EER (experimental event rate) | Event-Zahl Populationsgröße (der Versuchs-Gruppe) = a/g | Anteil der Teilnehmer in der Kontrollgruppe einer klinischen Studie, die in einem definierten Zeitraum ein Ereignis oder einen Endpunkt erleiden |
ARR (absolute risk reduction) | CER-EER Effektmaß für dichotome Endpunkte | Die absolute Risikoreduktion beschreibt die absolute Differenz der Rate an ungünstigen Ereignissen in der experimentellen Gruppe im Vergleich zur Kontrollgruppe, wenn die experimentelle Behandlung wirksam ist |
RRR (relative risk reduction) | CER-EER/CER | Die relative Senkung der Rate an ungünstigen Ereignissen in der experimentellen Gruppe einer Studie im Vergleich zur Kontrollgruppe |
NNT (number needed to treat) | 1/ARR | Gibt die Anzahl von Patienten wieder, die behandelt werden müssen, um 1 zusätzliches ungünstiges Ereignis zu verhindern |
Übertragbarkeit (externe Validität)
Zu guter Letzt ist natürlich die Frage zu beantworten, ob aus der wissenschaftlichen Arbeit die Übertragbarkeit auf den klinischen Fall gegeben ist.
Die externe
Validität bezeichnet die Generalisierbarkeit oder Übertragbarkeit der Untersuchungsergebnisse und hängt damit von der Fragestellung, den Ein- und Ausschlusskriterien und dem Setting der Studie ab. Die externe Validität beurteilt demnach, ob die in der Studie gezeigten Ergebnisse auch unter anderen Rahmenbedingungen, Zeitpunkten und/oder bei Personen außerhalb der Studienpopulation gelten, z. B. für meinen Patienten. Dies ist der Fall, wenn die Studienteilnehmer repräsentativ für meine Zielpopulation/meinen Patienten sind. Einen wichtigen Hinweis hierfür kann folgende Frage bieten: Würde mein Patient die Ein- und Ausschlusskriterien der Studie erfüllen?
Wichtig ist, dass die interne
Validität eine Voraussetzung für die externe Validität darstellt. Wenn die Ergebnisse einer Studie aufgrund von Bias verzerrt und somit nicht aussagekräftig und glaubhaft sind, dann ist die externe Validität der Ergebnisse nie gegeben.
Der Patient aus unserem Fallbeispiel ist grundsätzlich den Studienpatienten ähnlich, was das Alter und die Symptomatik betrifft. Allerdings handelte es sich bei unserem Jugendlichen um die erste Episode im Vergleich zur Studienpopulation, die bereits vorbehandelt war.
Die externe
Validität ist ein Maß für die Übertragbarkeit der Studienergebnisse auf die eigenen Patienten.
Berücksichtigung von Patientenwünschen in der EbM
EbM berücksichtigt neben wissenschaftliche Evidenz immer auch die eigene klinische Expertise und die individuellen Wünsche von Patienten.
Es sollte also immer überlegt werden, ob die Therapieform und das Therapieziel den Vorstellungen des Patienten entsprechen. In dem geschilderten Fall war der Patient zwar kritisch gegenüber der Medikation mit Aripiprazol, er konnte jedoch nach entsprechender Aufklärung, insbesondere durch die Darstellung des Nutzens und des Risikos der Behandlung mit Aripiprazol zur weiteren Einnahme motiviert werden. Mithilfe der zitierten Studie konnte ihm das Risiko eines Rückfalles (HR 0.46 [95 % CI = 0.24−0.88, p =.016]) mit und ohne Medikation gut erklärt werden, sodass für ihn auch das Therapieziel der Symptomfreiheit und der Verhinderung eines Rückfalles überwog und er in die weitere Behandlung einwilligte. In der klinischen Nachbeobachtung blieb die Remission für 12 Monate stabil, woraufhin die Medikation langsam ausgeschlichen wurde.