Die Erkenntnis über die verschiedenen Evidenzgrade, die klar formuliert scheint, steckt de facto voller Risiken der Widersprüchlichkeit
und entspricht bei Weitem nicht einer operationalen Definition. Dies wird deutlich, wenn man auf jeweilige Details fokussiert (Möller und Maier
2010), was hier aus Platzgründen nicht getan werden kann.
Erstellung einheitlicher, evidenzbasierter Empfehlungen mithilfe des GRADE-Verfahrens
Um diesen Problemen bei der Generierung von Leitlinienempfehlungen
entgegenzuwirken, wurde von Mitarbeitern der McMaster-Universität und der Cochrane Collaboration das GRADE-Verfahren
(Grading of Recommendations Assessment, Development and Evaluation [GRADE]) entwickelt (Guyatt et al.
2008). Ziel ist es, zu reproduzierbaren, evidenzbasierten Leitlinienempfehlungen zu kommen. Hierfür werden zunächst die Ergebnisse eines systematischen Reviews mit
Metaanalyse in die
Software GRADEpro aufgenommen. Es folgt die Bewertung der Güte der Ergebnisse hinsichtlich eines Outcomes mit folgenden etablierten Kriterien:
-
Wie ist die Qualität der eingeschlossenen Studien hinsichtlich des durch unzureichende Randomisierungsmethode, Verdeckung der Zuteilung und Verblindung verursachten Bias?
-
Sind die Studienergebnisse signifikant heterogen und lässt sich diese Heterogenität nicht durch Unterschiede in Subgruppen erklären (sog. „inconsistency“)?
-
Wie präzise sind die Studienergebnisse?
-
Gibt der
Messwert den für die Patienten relevanten Outcome
direkt an oder wird dieser nur indirekt erfasst (sog. „indirectness“)? Beispiel: Eine Leitlinie möchte eine Aussage über die Wirksamkeit von
Antidepressiva bei Kindern machen, findet aber nur randomisierte Studien und eine Metaanalyse über Studien bei Erwachsenen. In diesem Fall wären die Ergebnisse nur indirekt auf Kinder anwendbar.
-
Gibt es einen relevanten Publikationsbias?
Gibt es hinsichtlich dieser Kriterien Fehlerquellen, erfolgt eine Abwertung der Stärke der Evidenz, bei manchen Kriterien ist aber auch eine Aufwertung möglich. Durch das Programm erfolgt eine Gesamtbeurteilung der Qualität eines Ergebnisses. Diese wird zusammen mit der Effektstärke bzw. einem der NNTB bzw. NNTH ähnlichen Maß dargestellt. Verschiedene Szenarios, insbesondere die Wahl verschiedener Ausgangsrisiken und die Auswahl verschiedener Effektstärkenmaße sind möglich. Dieses Verfahren wird bereits von einigen Leitlinieninstitutionen (wie z. B. NICE) angewandt. Es ist zu hoffen, dass durch seinen systematischen Einsatz Leitlinienempfehlungen vereinheitlicht werden und zumindest ein Teil der oben aufgeführten Probleme gelöst werden. Dies ist aktuell bei den Leitlinien der DGPPN noch nicht der Fall.
Unterschiede der Evidenzgraduierung in der Psychopharmakotherapie und der Psychotherapie
Es kann in diesem Zusammenhang nicht auf grundsätzliche Probleme der Wirksamkeitsforschung in der Psychiatrie eingegangen werden (Kap. Prinzipien der Methodik
empirischer Forschung in der Psychiatrie, Schmacke
2006), sondern nur auf Probleme, die entstehen, wenn Effektgrößen bzw. Evidenzbewertungen aus dem Bereich der Psychotherapieforschung direkt mit Effektgrößen bzw. Evidenzbewertungen aus dem Bereich der klinischen Psychopharmakologie verglichen werden (Gerson et al.
1999; Hegerl et al.
2004; Klein
2000; Wampold et al.
2002).
Nachdem auch zur Darstellung der empirischen Evaluation der
Psychotherapie/psychosozialen Therapie
z. T. zunehmend Effektgrößen berechnet und Evidenzgraduierungen eingeführt werden, besteht prinzipiell die Möglichkeit, diese mit den Evidenzkriterien aus dem Bereich der
Psychopharmakotherapie zu vergleichen. Dies führt zu der Gefahr, dass Effektgrößen bzw. Evidenzgraduierungen, die auf einer unterschiedlichen Methodik der Therapieevaluation
aufbauen, unsinnigerweise miteinander verglichen werden.
In diesem Zusammenhang erstellten Huhn et al.
2014 einen sog. „overview of reviews“ der 61 aktuellsten systematischen Übersichtsarbeiten zur psychotherapeutischen und psychopharmakologischen Behandlung von 21 psychischen Erkrankungen. Sie fanden insgesamt die Tendenz, dass psychotherapeutische Interventionen in den
Metaanalysen insgesamt größere Effektstärken aufwiesen als psychopharmakologische. Als sie aber die 852 individuellen, in die Reviews eingeschlossenen Studien nach den etablierten Kriterien des „Cochrane Risk of Bias Tool“ (Higgins und Green
2011) untersuchten, fanden sie Folgendes: Während fast alle psychopharmakologischen Einzelstudien als Doppelblindversuche angelegt waren, waren nur weniger als 50 % der Psychotherapiestudien einfache Blindversuche. Eine vollständige Verblindung ist bei Psychotherapiestudien
unmöglich, weil zumindest immer der Behandler weiß, welche
Psychotherapie er durchführt. Zumindest verblindete Auswerter wären aber möglich.
Die Kontrollgruppe der psychopharmakologischen Studien bestand grundsätzlich aus Placeboprobanden, während etwa 40 % der Psychotherapiestudien Wartegruppen verwendeten. Subgruppenanalysen zeigten, dass solche Wartegruppen
die Effekte überschätzten. Man erklärt dies durch sog. Noceboeffekte, weil die Nachricht für einen leidenden Patienten, erst einmal z. B. zwei Monate keine Therapie zu erhalten, sehr frustrierend sein kann. Schließlich wurde bei den Psychotherapiestudien noch deutlich seltener eine „intention-to-treat“-Analyse durchgeführt. Würde man daher die Effektstärke eines systematischen Reviews über
Psychotherapie naiv mit der einer psychopharmakologischen Intervention vergleichen, würde man die Psychotherapie fälschlich als wirksamer einschätzen als die psychopharmakologische Behandlung und in einer Leitlinie zu einer falschen Bewertung kommen.
Die unterschiedliche methodische Basis, auf der die Evidenzgraduierung in der
Psychotherapie und in der Psychopharmakologie aufbauen, impliziert, dass ein solcher direkter Vergleich unmöglich ist.
Besser wäre, um derartige Verwirrungen zu vermeiden, ein für alle Therapieverfahren in der Psychiatrie einheitliches Evidenzgraduierungssystem zu entwickeln, bei dem dann wegen der prinzipiellen methodischen Sonderstellung in der Evaluation psychotherapeutischer Verfahren diese per se nicht den höchsten Evidenzgrad erreichen können, da die Realisierung von Placebokontrollen schwer und die Realisierung von Doppelblindbedingungen unmöglich ist. Dies gilt in noch weitgehenderer Weise für psychosoziale Verfahren, die wegen immanenter Besonderheiten meist nicht einmal dem Anspruch randomisierter verblindeter Kontrollgruppenuntersuchungen gerecht werden können, sondern methodisch weniger restriktive Verfahren zur Evaluation einsetzen.