Skip to main content

Evidenzbasierung und leitliniengeschützte Therapie in der Psychiatrie

Verfasst von: Stefan Leucht und Hans-Jürgen Möller
Evidenzbasierte Medizin ist inzwischen auch in der Psychiatrie etabliert. Es handelt sich immer noch um einen relativ neuen Ansatz mit vielen Entwicklungsmöglichkeiten hinsichtlich seiner Methodik und vor allem auch seiner Implementierung. In diesem Kapitel soll das Konzept der evidenzbasierten Medizin im Hinblick auf die Psychiatrie und ihre wichtigsten Methoden sowie deren Einschränkungen vorgestellt werden.

Einleitung

Definition

Der Begriff evidenzbasierte Medizin (EbM) ist zu einem zentralen Begriff im heutigen Gesundheitswesen (Kunz et al. 2000; Sackett et al. 1999; Sackett 2000) und damit auch in der Psychiatrie geworden. Im Gegensatz zur in Deutschland tradierten alltagssprachlichen Verwendung des Begriffes „Evidenz“ im Sinne von intuitiver Erfahrung (bzw. evident = offensichtlich), wird „Evidenz“ im Kontext der evidenzbasierten Medizin als Summe des empirischen Wissens verstanden, das zu einem bestimmten Sachverhalt verfügbar ist. Dieses beste, verfügbare empirische Wissen (auch externe Evidenz genannt) soll mit der individuellen Erfahrung des Arztes verbunden werden (Berner et al. 2000).
Es ist wichtig hervorzuheben, dass evidenzbasierte Medizin nicht auf die ärztliche Erfahrung verzichtet. Liest man aktuelle Leitlinien, auch zu stark beforschten Themen wie der Schizophrenie- oder Depressionsbehandlung, stellt man rasch fest, dass diese nur zu einigen wenigen Grundfragen konkrete Angaben machen können. Je mehr die Behandlungsfragen ins Detail gehen und je mehr zusätzliche Szenarios ins Spiel kommen (z. B. Begleiterkrankungen oder besondere Patientensubgruppen), desto weniger randomisierte Evidenz gibt es und diese Lücken müssen mit pragmatisch-rationalen Überlegungen und eben der klinischen Erfahrung gefüllt werden. EbM versteht sich also nicht als „Kochrezeptmedizin“.
Gleichzeitig rückt in den letzten Jahren die Berücksichtigung der Patientenpräferenz immer mehr in den Vordergrund. Diese sollte idealerweise in Form einer partizipativen Entscheidungsfindung (Shared Decision Making) erfolgen (siehe Abschn. 2.5 in Abschn. 2).

Kurzer geschichtlicher Hintergrund

Ausgangspunkt für die Entwicklung der evidenzbasierten Medizin war die McMaster Universität in Kanada. Dort gründete der Arzt und Epidemiologe David Sackett das „Department of Clinical Epidemiology and Biostatistics“, an dem auch der Mediziner Gordon Guyatt arbeitete, der 1992 den Begriff „evidence-based medicine“ einführte (Evidence-Based Medicine Working 1992). Richtungsweisend war auch der englische Arzt und Epidemiologe Archibald Cochrane, der schon in den 70er-Jahren nachdrücklich darauf hinwies, dass die Medizin systematische Zusammenfassungen der Ergebnisse aller randomisierten Studien zu einer Fragestellung benötige, die regelmäßig zu aktualisieren seien (Cochrane 1972). Auf seinen Überlegungen baute die „Cochrane Collaboration“ auf (www.cochrane.org. Zugegriffen am 10.06.2016), eine zentrale Organisation im Bereich evidenzbasierter Medizin, die ihn zum Namenspatron machte.

Kernelemente und Grundprobleme der evidenzbasierten Medizin und Lösungsansätze

Evidenz im Sinne der evidenzbasierten Medizin ist das Ergebnis einer kritischen und systematischen Gesamtbewertung („critical appraisal“) von Resultaten wissenschaftlicher Studien. Die Evidenz kann sich auf verschiedene Bereiche, wie z. B. Diagnostik oder Therapie, beziehen. Das komplexe medizinische Wissen zu einem bestimmten Bereich wird durch Metaanalysen, systematische Reviews, u. a. aufbereitet und zusammengefasst und dann durch in bestimmten Fachgremien verabschiedete Empfehlungen bzw. Therapieleitlinien umgesetzt (Antes 2004; Cartabellotta et al. 1998; Gonzalez 2001; Jadad et al. 1998; Kawamura et al. 1999; Manser und Walters 2001). Der Arzt soll sich in seinen diagnostischen bzw. therapeutischen Entscheidungen nach diesen evidenzbasierten Empfehlungen richten. Sein ärztliches Handeln soll dadurch besser empirisch begründet bzw. rationaler werden (Craig et al. 2001). Ziel ist es, medizinische Entscheidungen auf eine objektive Basis zu stellen, wobei gleichzeitig auch die individuelle Expertise des Arztes und v. a. die Präferenz des Patienten berücksichtigt werden sollen.
Im Rahmen der EbM gelten als entscheidende Stufe der wissenschaftlich belegten Evidenz, soweit therapeutische Aspekte betroffen sind, randomisierte Kontrollgruppenstudien. Das auf Einzelfällen bzw. deren Kumulation aufgebaute Wissen wird nur als Ergänzung zu solchen Studien oder als Ersatz im Fall fehlender empirischer Studien relevant. Diese Sichtweise entspricht dem methodischen Verständnis empirischer Forschung (Kap. Prinzipien der Methodik empirischer Forschung in der Psychiatrie).
Evidenzbasierte Medizin und im Zusammenhang damit Therapieempfehlungen und -leitlinien sowie andere konsensuelle Zusammenfassungen des Wissensstandes sind auch in der Psychiatrie, insbesondere im Rahmen der Psychopharmakotherapie, zu einem wichtigen Teil der Qualitätsverbesserung und Qualitätssicherung geworden, um eine ausreichende Rationalität der Diagnostik und Therapie zu gewährleisten. Es besteht kein Zweifel an der Wichtigkeit dieses Anliegens an der Tatsache, dass Leitlinien angesichts des für den einzelnen Arzt meist nicht mehr zu durchschauenden komplexen und komplizierten Wissensstandes über die Behandlung einer bestimmten psychischen Erkrankung eine große Entscheidungshilfe sein können.
Thjerapieempfehlungen und Leitlinien in der Psychiatrie
Viele nationale und internationale psychiatrische Fachgesellschaften haben in den letzten Jahren Thjerapieempfehlungen oder Leitlinien mit z. T. unterschiedlichen Qualitätsstandards erstellt (Gaebel et al. 2005). Im Bereich der deutschen Psychiatrie bzw. Psychopharmakotherapie sind in diesem Zusammenhang u. a. verschiedene Leitlinien der Deutschen Gesellschaft für Psychiatrie, Psychotherapie, Psychosomatik und Nervenheilkunde (Gaebel und Falkai 1998; DGPPN et al. 2015a) sowie die Therapieempfehlungen der Arzneimittelkommission der deutschen Ärzteschaft (Höffler et al. 2001) zu nennen. Tab. 1 listet die aktuell von der DGPPN publizierten und auf ihrer Homepage dargestellten Leitlinien auf.
Tab. 1
Die WFSBP-Behandlungsleitlinien
Leitlinie
Erste Version
Zuletzt modifizierte und revidierte Version
Leitung
S3-Leitlinie/Nationale VersorgungsLeitlinie Unipolare Depression
2009
2015
Schneider, F., Härter, M.
S3-Behandlungsleitlinie Schizophrenie
2002
2006
Gaebel, W., Falkai, P.
S3-Leitlinie Behandlung von Angststörungen
2002
2015
Bandelow, B., Lichte, Th., Rudolf, S., Wiltink, J., Beutel, M.
S3-Leitlinie „Zwangsstörungen“
2002
2015
Kordon, A., Lotz-Rambaldi, W., Muche-Borowski, C., Hohagen, F.
S3-Leitlinie zur Diagnostik und Therapie Bipolarer Störungen
2001–2004 (4 Leitlinien)
2012
Bauer, M., Pfennig, A.
S3-Leitlinie Demenzen
2000
2016
Deuschl, G., Maier, W.
S3-Leitlinie Diagnostik und Behandlung der Essstörungen
2000
2011
Herpertz, S., Herpertz-Dahlmann, B., Fichter, M., Tuschen-Caffier, B. Zeeck, A.
S1-Behandlungsleitlinie Störungen der sexuellen Präferenz
2007
 
Berner, W., Hill, A., Briken, P., Kraus, Ch., Lietz, K.
S3-Leitlinie Screening, Diagnostik und Behandlung des schädlichen und abhängigen Tabakkonsums
2015
 
Batra, A., Mann, K.
S3-Leitlinie Screening, Diagnose und Behandlung alkoholbezogener Störungen
2015
 
Batra, A., Mann, K.
ADHS im Erwachsenenalter – Leitlinien auf der Basis eines Expertenkonsensus
2003
 
Ebert, D., Krause, C., Roth-Sackenheim, C.
S3-Leitlinie Psychosoziale Therapien bei schweren psychischen Erkrankungen
 
2013
Becker, T., Riedel-Heller, S., Weinmann, S.
S2-Therapeutische Maßnahmen bei aggressivem Verhalten in der Psychiatrie und Psychotherapie
2010
 
Steinert, T.
Behandlungsleitlinie Psychopharmakotherapie
2003
2013
Möller, H. J., Benkert, O., Gastpar, M., Laux, G., Rüther, E.
S3-Leitlinie Definition, Pathophysiologie, Diagnostik und Therapie des Fibromyalgiesyndroms
2012
 
Häuser, W.
S3-Leitlinie „Psychoonkologie“
2014
 
Weis, J.
WFSBP World Federation of Societies of Biological Psychiatry
Auf internationaler Ebene sind insbesondere die methodisch äußert stringent erstellten Leitlinien des britischen „National Institute for Health and Care Excellence“ (NICE, www.nice.org.uk. Zugegriffen am 10.06.2016), die Leitlinien der WHO (http://www.who.int/mental_health/management/en/. Zugegriffen am 10.06.2016) und die von der amerikanischen psychiatrischen Fachgesellschaft (APA) herausgegebenen, aber weit über die amerikanische Psychiatrie hinaus verbreiteten „practice guidelines“ zu nennen. Als weitere im internationalen Umfeld zunehmend etablierte Leitlinien sind die „guidelines“ der „World Federation of Societies of Biological Psychiatry“ (WFSBP) zu erwähnen (u. a. Bandelow et al. 2008; Bauer et al. 2013; Grunze et al. 2010, 2013).
Bei der Erstellung internationaler Therapieleitlinien ist ein besonderes, meist nicht ausreichend beachtetes Problem, wie man den unterschiedlichen finanziellen Ressourcen der einzelnen Länder genügend Rechnung tragen kann (Dans et al. 2007). Da die Evidenz immer dieselbe ist, wurde daher angeregt, die Leitlinien durch eine europäische Initiative entsprechend aufbereiten zu lassen. Die Aufgabe der nationalen psychiatrischen Gesellschaften könnte es in diesem Zusammenhang sein, die aus der Evidenz abzuleitenden Empfehlungen den nationalen Gegebenheiten anzupassen (Leucht et al. 2006). Dies könnte der enormen Vergeudung von Ressourcen entgegenwirken.

Festlegen und Vermitteln des Standards

Ein wichtiges Anliegen in diesem Kontext ist, Standards festzulegen, die im Rahmen der Leitlinienentwicklung zu beachten sind. In Deutschland gibt es diesbezügliche Bemühungen seitens der Bundesärztekammer und bereits ein umfassendes Leitlinienprogramm der Arbeitsgemeinschaften wissenschaftlicher Fachgesellschaften (Ollenschlager et al. 1998).
Die AWMF unterscheidet nach der Entwicklungsmethodik drei Qualitätsstufen von Leitlinien (Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften 2004; http://www.leitlinien.de/leitlinienmethodik/leitlinien-glossar/. Zugegriffen am 10.06.2016):
  • Entwicklungsstufe S1: Die Leitlinie wurde von einer Expertengruppe erstellt („Konsensusguideline“),
  • Entwicklungsstufe S2: Es erfolgte eine formale Suche nach der Evidenz (S2e) oder eine Konsensusfindung (S2k),
  • Entwicklungsstufe S3: Leitlinie, die allen Elementen systematischer Entwicklung folgt (Logik, Konsensus, „evidence-based medicine“, Entscheidungsanalyse, Outcome-Analyse).
Ein weiteres wichtiges Anliegen ist, dafür Sorge zu tragen, die jeweiligen Leitlinien an die entsprechenden Ärztegruppen zu vermitteln und für ihre Befolgung zu werben. Gerade auf der Ebene des Transfers in die Praxis gibt es viele Probleme (Grimshaw et al. 2004, 2006; Weinmann et al. 2008; Bermejo et al. 2009). So haben z. B. die im Zusammenhang mit den Problemen der Gewichtszunahme und dem damit assoziierten metabolischen Syndrom unter Neuroleptikatherapie entstandenen amerikanischen Leitlinien (American Diabetes Association et al. 2004) der amerikanischen Diabetesgesellschaft und der amerikanischen Gesellschaft für Psychiatrie (APA) nicht dazu geführt, dass die amerikanischen Psychiater die vorgeschlagenen Kontrolluntersuchungen durchführen (Cuffel et al. 2006). Immerhin zeigte die aktuellste Metaanalyse aller kontrollierten Studien über die Implementierung von Leitlinien in der Psychiatrie, dass die systematische Anwendung von Leitlinien zwar nicht zu einer signifikant verbesserten Behandlungsqualität der Psychiater („provider performance“) führte, jedoch zu kleinen bis mäßigen Verbesserungen der Outcomes der Patienten (Girlanda et al. 2016).

Qualitätssicherung

Parallel zur Entwicklung von Leitlinien auf der Grundlage der EbM vollzieht sich der Aufbau der Qualitätssicherung im Gesundheitswesen (Gaebel 1996; Gaebel und Falkai 2003; Harter et al. 2003; Ollenschlager et al. 2002). Selbstkontrollmaßnahmen der Ärzteschaft, möglicherweise aber in Zukunft auch Fremdkontrolle durch entsprechende Institutionen des Gesundheitssystems sollen garantieren, dass Ärzte der evidenzbasierten Medizin, wie sie in Therapieempfehlungen bzw. Leitlinien festgeschrieben sind, in ihren Entscheidungen folgen. Wegen dieser normativen Implikationen der EbM und Leitlinienkultur wird dieser prima vista so sinnvoll klingende Ansatz nicht ohne kritisches Hinterfragen hingenommen (Helmchen 2002; Hunink 2004).
Auch wenn Therapieempfehlungen und Leitlinien, im Gegensatz zu Richtlinien, den Arzt nicht völlig im Sinne der priorisierten Therapieoptionen verpflichten, besteht doch die nicht unbegründete Sorge, dass sie z. B. von gesellschaftlich relevanten Kräften des Gesundheitssystems überinterpretiert werden, was zu weitergehenden Konsequenzen führen könnte, wie z. B. der, dass eine Krankenkasse einen bestimmten Therapieansatz nicht zahlt bzw. dass eine kassenärztliche Vereinigung empfiehlt, bestimmte Medikamente nicht mehr zu verschreiben.

Organisatorisch-technische Faktoren

Organisatorisch-technische Faktoren der Leitlinienentwicklung (Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften 2006; Kopp et al. 2005), wie die Vorgehensweise bei der Auswahl der Experten für die diesbezügliche Expertenkommission und die Art des Abstimmungsprozesses in diesen Gremien sowie die diesbezüglichen Beeinflussungsmöglichkeiten von verschiedener Seite sind von großer Relevanz und können in erheblichem Maße das Ergebnis beeinflussen. Die „Evidenz“ kann oft eine durch Voreinstellungen verschiedener Interessengruppen verzerrte Sicht der Datenlage sein.
Versuche der Einflussnahme über diese eher organisatorisch-technischen Faktoren können von verschiedenen Interessengruppen ausgehen. Nicht nur die im Kontext der Beeinflussung des Verschreibungsverhaltens der Ärzte immer wieder gescholtene pharmazeutische Industrie ist als potenzielle Interessengruppe zu sehen. Auch staatliche Institutionen des Gesundheitssystems oder Institutionen der Ärzteschaft sind diesbezüglich oft nicht so „neutral“, wie sie es vorgeben. Man denke z. B. an die (in Deutschland mit besonderer Intensität) geführte Debatte über den Vorteil der atypischen Neuroleptika und die konträren Positionen verschiedener Gruppen (Möller et al. 2006).
Diesen berechtigten Kritikpunkten steht aber entgegen, dass ein formalisierter Leitlinienentwicklungsprozess, in den auch alle relevanten Interessengruppen (insbesondere Ärzte, Vertreter verschiedener psychotherapeutischer Richtungen, Patientenorganisationen) einbezogen werden, sicher besser geeignet ist als andere Vorgehensweisen, bei denen beispielsweise nur die reine Expertenmeinung gilt oder die Ärzte bei ihrer Informationsgewinnung ganz sich selbst überlassen werden. Das medizinische Wissen verdoppelt sich aktuell alle fünf Jahre. Es ist daher für den einzelnen unmöglich, sich hier regelmäßig auf den neuesten Stand zu bringen. Ferner wurden in den letzten Jahren große Anstrengungen unternommen, nicht nur die Methodik systematischer Reviews zu standardisieren, sondern auch die Art und Weise, wie die Ergebnisse dieser Reviews interpretiert werden. Insbesondere das unten beschriebene GRADE-Verfahren ist hierbei zu nennen (s. Erstellung einheitlicher, evidenzbasierter Empfehlungen mithilfe des GRADE-Verfahrens in Abschn. 4).

Systematische Reviews sind rasch nicht mehr aktuell

Eine weitere Problematik besteht darin, dass Leitlinien aufgrund ihrer rückwärtsgerichteten Sichtweise, insbesondere bei länger dauernder Leitlinienentwicklung, eher zu konservativen Therapieentscheidungen führen und dem jeweiligen aktuellen Fortschritt nicht ausreichend Rechnung tragen können. Dies ist insbesondere dann von praktischer Relevanz, wenn die Vorgaben für die Entwicklung von Leitlinien immer größere Anforderungen – wie in Deutschland die sog. „S3-Leitlinien“ – stellen und die Entwicklung einer Leitlinie 2–3 Jahre dauern kann. Da sich die daran beteiligenden Experten den zeitlichen Aufwand nicht andauernd leisten können und obendrein die Kosten einer solchen Leitlinienentwicklung immens sind, hat das zur Folge, dass an eine Revision erst nach mehreren Jahren zu denken ist. Die deutschen Leitlinien sind z. B. 5 Jahre gültig. Angesichts der bekannten kurzen Halbwertszeit medizinischen Wissens ist eine so lange Gültigkeitsdauer von Leitlinien problematisch. Ziel ist es daher, Leitlinien zu entwickeln, die immer auf dem neuesten Stand sind, also kontinuierlich aktualisiert werden und nicht nur alle fünf Jahre, wie es derzeit bei den DGPPN-Leitlinien üblich ist. Eine solche Initiative für die Entwicklung sog. „S4-Leitlinien“ hat das Deutsche Netzwerk Evidenzbasierte Medizin (DNEbM) gestartet (www.ebm-netzwerk.de. Zugegriffen am 10.06.2016)

Partizipative Entscheidungsfindung (Shared Decision Making)

Der Einbezug der Patienten in die Entscheidungsfindung hat im Rahmen von EbM in den letzten Jahren einen immer höheren Stellenwert eingenommen. Ausgangspunkt ist die Überlegung, dass verschiedene Patienten differierende Präferenzen und Werte haben. Es ist bekannt, dass sich z. B. die Antipsychotika der zweiten Generation stark in ihren Nebenwirkungen und auch zumindest leicht in ihrer Wirksamkeit unterscheiden (Leucht et al. 2013). Für den einen Patienten mag beispielsweise eine Gewichtszunahme inakzeptabel sein, für einen anderen sind es sexuelle Nebenwirkungen und wieder andere Patienten würden das wirksamste Medikament präferieren, unabhängig von den Nebenwirkungen. Ziel der partizipativen Entscheidungsfindung (Shared Decision Making) ist es daher, die Patienten zunächst so gut über die verschiedenen Behandlungsoptionen zu informieren, dass sie mit dem Arzt gemeinsam entscheiden können, welche für sie am geeignetsten ist.
Gegenspieler der partizipativen Entscheidungsfindung
„Shared Decision Making“ wird dabei gerne im Vergleich zu seinen extremen Gegenspielern erklärt, dem klassischen medizinischen Modell und der informierten Entscheidung („informed choice“, Hamann et al. 2003). Im klassischen medizinischen Modell (auch paternalistisches Modell genannt) entscheidet der Arzt als Experte allein darüber, welche Behandlung der Patient erhält und er trägt auch alleine die Verantwortung hierfür. Die Rolle des Patienten besteht darin, den Empfehlungen des Arztes adhärent zu folgen. „Informed choice“ wird in Deutschland z. B. bei Impfempfehlungen für Reisen in tropische Länder angewandt. Den Patienten wird alle relevante Information zur Verfügung gestellt, letztendlich entscheiden sie aber selbst, ob sie eine Prophylaxe durchführen möchten und sie tragen auch die Verantwortung für diese Entscheidung. Shared Decision Making steht insofern in der Mitte, als Arzt und Patient die Therapieentscheidung gemeinsam treffen.
Abgesehen davon, dass es eine Selbstverständlichkeit sein sollte, die eigentlich Betroffenen, wenn sie es wünschen, in die Behandlungsentscheidungen miteinzubeziehen, ist auch zu hoffen, dass sich die Patienten durch diese Beteiligung mehr mit ihren Therapien identifizieren und diesen gegenüber eine bessere Adhärenz an den Tag legen. Bisher liegen nur wenige kontrollierte Studien vor. Hamann et al. (2007, 2006) fanden, dass akut erkrankte Patienten mit Schizophrenie, die an der Entscheidungsfindung beteiligt waren, sich mehr in die Behandlung einbezogen fühlten und auch eine positivere Einstellung gegenüber der Einnahme ihrer Antipsychotika hatten. Im Langzeitverlauf fand sich sogar ein Trend (p = 0,06) hinsichtlich einer Reduktion des Wiederaufnahmerisikos.

Grundsätzliches zu Evidenzfindung, Evidenzkriterien und Evidenzgraduierung

Die beiden wichtigsten Ansätze der Evidenzfindung sind systematische Reviews und Metaanalysen (siehe auch den Abschnitt: Übersicht über einige relevante Fachbegriffe). Diese beiden Begriffe werden häufig synonym verwendet, wohl auch deshalb, weil sich systematische Reviews häufig auch die Methode der Metaanalyse zunutze machen. Dies ist aber nicht zwingend der Fall. Man kann sowohl einen perfekten systematischen Review ohne Metaanalyse erstellen als auch eine Metaanalyse, die nicht die Kriterien eines systematischen Reviews erfüllt (siehe z. B. Leucht et al. 2009a).
Systematische Reviews
Bei dem Begriff systematischer Review geht es um das systematische, methodische Vorgehen bei der Erstellung eines Reviews. Im Gegensatz zu früheren narrativen Reviews, bei denen ein Experte mehr oder weniger arbiträr die Studien heraussuchte, die er für eine Fragestellung am besten hielt, wird bei systematischen Reviews die Methodik vorher wie bei einer klinischen Studie streng in einem Protokoll festgelegt. Hier werden insbesondere die „PICO-Fragen“ (welche Patienten, Interventionen, Vergleichsinterventionen und Outcomes sollen untersucht werden), die Suchstrategie, das Vorgehen bei der Extraktion der Daten und Qualitätsbewertung der Studien, sowie – wenn eine Metaanalyse durchgeführt werden soll – deren statistische Methode festgelegt. Dieses Protokoll soll bereits vor Beginn der eigentlichen Review-Arbeit z. B. in speziellen Datenbanken wie PROSPERO (www.crd.york.ac.uk/prospero/. Zugegriffen am 11.06.2016) publiziert werden. Danach sollen die Reviewer möglichst nicht mehr von der einmal festgelegten Methodik abweichen.
Im Rahmen von Cochrane-Reviews werden solche Protokolle sogar einem Peer-Review-Prozess unterzogen, bevor die Autoren mit der eigentlichen Arbeit beginnen können (www.cochrane.org. Zugegriffen am 11.06.2016). Ziel ist es, systematische Fehler möglichst zu reduzieren. Systematische Reviews bieten auch eine kritische Darstellung und qualitative Bewertung der für eine bestimmte Fragestellung vorhandenen Studien in einer narrativen Darstellung. Vor- und Nachteile einzelner Studien werden argumentativ gegeneinander abgewogen und ein qualitatives Ergebnis der Studiengesamtheit (x ist wirksamer als Placebo bzw. gleich wirksam wie ein aktives Medikament) dargestellt. Diese Strategie wird z. B. von den Zulassungsbehörden zur Prüfung der Wirksamkeit von Arzneimitteln angewandt; das Ergebnis der Prüfung ist eine Bewertung der neuen Substanz als wirksamer im Vergleich zu Placebo bzw. als gleich wirksam im Vergleich zu einer Standardtherapie. Dieses Vorgehen wurde in modifizierter Form bei der Erstellung einiger Leitlinien verwandt, z. B. durch die „World Federation of Biological Psychiatry“ (Bauer et al. 2013).
Systematische Übersichtsarbeiten im Sinne der evidenzbasierten Medizin müssen hohe methodische Anforderungen hinsichtlich der Vollständigkeit der einbezogenen Studien und ihrer kritischen Bewertung erfüllen und gehen somit über andere, nicht so strikte Anforderungen befolgende Übersichtsarbeiten hinaus.
Metaanalysen
Beim Begriff der Metaanalyse geht es um die statistische Kombination der Ergebnisse einzelner Studien über dieselbe oder zumindest sehr ähnliche Fragestellungen mit dem Ziel, den mittleren Effekt einer Intervention zu finden.
Die Kombination der Ergebnisse der für eine spezifische Fragestellung vorhandenen und als methodisch adäquat eingestuften Studien erfolgt dabei in quantitativer Weise. Es resultiert eine Effektgröße („effect size“, Abb. 1), die den quantitativen Unterschied zwischen 2 Vergleichssubstanzen (z. B. Placebo vs. aktives Medikament) wiedergibt. Der Vergleich von Effektgrößen setzt die Ziehung aus derselben Grundgesamtheit voraus. Diese Voraussetzung ist oft nur approximativ erfüllt, da die verschiedenen zu kombinierenden Studien meist auf nur ähnlichen, aber nicht auf identischen Rahmenbedingungen basieren (z. B. in Bezug auf Setting-Variablen, Ein- und Ausschlusskriterien, Vorbehandlung, Begleitmedikation). Systematische Reviews verwenden dabei oftmals die Metaanalyse als Methode, das ist aber nicht zwingend der Fall. Gleichzeitig gibt es Metaanalysen, die aufgrund ihres unsystematischen Vorgehens nicht das Kriterium eines systematischen Reviews erfüllen.
Metaanalysen vs. systematische Reviews
Es steht außer Frage, dass der Aspekt systematischer Review methodisch bedeutsamer ist als der Aspekt Metaanalyse. Das heißt, dass eine Metaanalyse, die nicht gleichzeitig die Kriterien eines systematischen Reviews erfüllt, oftmals wertlos ist, weil nur durch das systematische Vorgehen Bias vermieden wird. Ein systematischer Review kann also durchaus für sich alleine stehen, eine Metaanalyse eher nicht.
Ob in systematischen Reviews einzelne Studien in Form einer Metaanalyse miteinander kombiniert werden können, hängt insbesondere davon ab, wie methodisch homogen die einzelnen eingeschlossenen Studien sind. Diese Bewertung erfolgt durch die strenge Studienauswahl anhand der vorher festgelegten Ein- und Ausschlusskriterien, durch das kritische Lesen der einzelnen Publikationen und schließlich durch spezielle statistische Tests. Dennoch ist die Frage, ob einzelne Studien ähnlich genug sind oder ob sie so heterogen sind, dass man „Äpfel mit Birnen“ vergleicht, seit jeher eines der größten methodischen Probleme von Metaanalysen.
Lässt sich allerdings eine Metaanalyse durchführen, besteht ein großer Vorteil darin, dass diese auch quantitative Ergebnisse in Form von Effektstärken liefern, während systematische Reviews qualitativ bleiben. Es ist eine der entscheidenden Neuerungen der evidenzbasierten Medizin, quantitative Aussagen über die Größe eines Unterschieds zwischen zwei Interventionen zu machen und nicht nur festzustellen, dass eine Intervention wirksamer ist als eine andere. Das für letztere Aussage verwendete statistische Maß, in der Regel der p-Wert, erlaubt nur eine Wahrscheinlichkeitsangabe, sagt aber nichts über die Größe des Unterschieds aus – das können nur Effektstärken. Gleichzeitig sind Effektstärken aber für den Laien nicht einfach zu interpretieren und sie werden immanent durch Probleme der metaanalytischen Methodik und insbesondere der einzelnen eingeschlossenen Studien determiniert.
So finden sich beispielsweise bei modernen Studien über Antipsychotika bei Schizophrenie heutzutage oftmals sehr kleine Unterschiede im Vergleich zu Placebo, z. B. im Mittel nur ein absoluter Unterschied in den Ansprechraten von 18 % (Leucht et al. 2009b), während dieser Unterschied in einer klassischen Studie des „National Institute of Mental Health“ noch 43 % betrug (Cole 1964). Dies liegt aber nicht etwa daran, dass die Medikamente auf magische Weise weniger wirksam geworden sind. Vielmehr gibt es bei modernen Studien zahlreiche methodische Probleme wie eine steigende Placeboresponse (Agid et al. 2013) oder sog. „professionelle Studienteilnehmer“, die insbesondere in den USA über Zeitschriftenannoncen gefunden werden und an der Teilnahme profitieren (z. B. durch kleine Unkostenzuschüsse wie Reisekosten). Solche Faktoren führen zu artifiziell kleinen Effektstärken (siehe Abschn. 4).
Systematische Reviews haben den Vorteil, in differenzierter Weise den speziellen Gegebenheiten der einzelnen Studien hinsichtlich Studiendesign, Patientenselektion, Dosierung des Pharmakons und methodischen Problemen Rechnung tragen zu können. Gerade diese Detailanalyse verlangt hohen klinisch-psychopharmakologischen Sachverstand und eine detailreiche Darstellung, die in den manchmal den Metaanalysen vorangestellten und oft relativ kurzen systematischen Reviews nicht immer zu erkennen sind. Andererseits ist die Tatsache, dass es nicht genügend ähnliche Studien für die Erstellung einer Metaanalyse im Rahmen eines systematischen Reviews gibt, meist ein Hinweis darauf, dass ein Gebiet noch nicht ausreichend erforscht ist und daher nur von niedriggradiger Evidenz auszugehen ist.
Eine naive Interpretation von Effektgrößenwerten ohne kritische Betrachtung der methodischen Probleme der einzelnen Studien, wie sie heute häufig zu lesen ist, kann irreführend sein und zu falschen Schlussfolgerungen führen (Maier und Möller 2010).

Übersicht über einige relevante Fachbegriffe

Nachfolgend die Definition einiger relevanter Fachbegriffe, die im Rahmen von EbM und Leitlinien eine wichtige Rolle spielen.
Systematischer Review
Systematische Reviews sind Zusammenfassungen von wissenschaftlichen Originalstudien, bei denen spezifische methodische Strategien verwendet werden, um Verzerrungen (Bias) zu vermeiden: systematische Identifikation, Zusammenstellung, kritische Bewertung und Synthese aller relevanten Studien.
Metaanalyse
Bei der Metaanalyse werden statistische Techniken verwendet, bei denen die Ergebnisse einzelner Studien integriert werden. Die Integration kann auf der Basis der Rohdaten (sog. „individual patient data [IPD]“ meta-analysis) erfolgen. Wenn diese nicht zugänglich sind, werden auf der Basis der publizierten Daten Effektstärken berechnet und je nach Fragestellung verglichen.
Netzwerkmetaanalyse
Bei klassischen (sog. paarweisen) Metaanalysen kann nur die sog. direkte Evidenz, also z. B. alle randomisierten Studien, die Medikament A mit Medikament B oder A mit C direkt verglichen haben, erhoben werden (s. Abb. 2). Stehen aber viele Medikamente für eine Erkrankung zur Verfügung, gibt es oftmals nicht für alle randomisierten Studien Direktvergleiche, in Abb. 2 gibt es z. B. keine Studie, die B direkt mit C verglichen hätte.
Netzwerkmetaanalysen schließen solche Lücken, indem sie B vs. C indirekt aus A vs. B und A vs. C ableiten. Der Zugewinn dieses Verfahrens besteht darin, dass die gesamte Evidenz über eine Fragestellung verwendet werden kann und dass nur diese Methode eine Erstellung von Hierarchien zu einem Outcome erlaubt. Der Nachteil besteht darin, dass das Heranziehen indirekter Evidenz eine Annahme mehr erfordert, nämlich dass die indirekte Evidenz valide ist, sodass diese Methode noch störanfälliger als konventionelle Metaanalysen ist. Abb. 3 zeigt ein Beispiel einer solchen Netzwerkmetaanalyse („network meta-analysis“, „multiple treatments meta-analysis“).
Health Technology Assessment (HTA)
HTA-Berichte sind breit angelegte Evaluierungen der zu erwartenden Auswirkung neuer Technologien. Dies können neue Geräte, neue Medikamente, aber auch komplexere Verfahren oder Organisationsstrukturen sein. Oftmals werden im Rahmen von HTA-Berichten auch systematische Reviews und Metaanalysen der Evidenz angefertigt. Diese Berichte behalten aber regelmäßig auch eine gesundheitsökonomische Evaluierung und es werden soziale, rechtliche und ethische Aspekte berücksichtigt. Ziel ist explizit eine Beratung von gesundheitspolitischen Entscheidungsträgern.
Effektstärke
Effektstärken sind allgemein statistische Maße für die Größe des Unterschieds zwischen zwei Interventionen. Effektstärken für kontinuierliche Variablen sind der gewichtete mittlere Unterschied („weighted mean difference“ – WMD) und der standardisierte mittlere Unterschied („standardised mean difference“ – SMD). Effektstärken für dichotome Variablen sind v. a. die Risikomaße absoluter Risikounterschied, relatives Risiko und Odds Ratio.
Gewichteter mittlerer Unterschied („weighted mean difference“ – WMD)
Der WMD ist ein bei Metaanalysen angegebenes Differenzmaß, zu dessen Errechnung verschiedene Messergebnisse aus unterschiedlichen Studien mit bekanntem Mittelwert, Standardabweichungen und Stichprobengröße gemittelt und nach deren Einfluss gewichtet werden. Entscheidend ist, dass der WMD eine Effektstärke in der ursprünglichen Einheit des Outcomes ist. Die allgemeine Formel lautet:
$$ \mathrm{W}\mathrm{M}\mathrm{D} = \mathrm{M}1\ \hbox{--}\ \mathrm{M}2 $$
M1 = Mittelwert Gruppe 1, M2 = Mittelwert Gruppe 2
Beispiel: Der BPRS-Summenscore am Ende einer Studie beträgt 90 in Gruppe 1 und 80 in Gruppe 2
WMD = 90 − 80 = 10, d. h. Gruppe 2 war um 10 –PANSS-Punkte wirksamer als Gruppe 1.
Standardisierter mittlerer Unterschied („standardised mean difference“ – SMD)
Dieser Parameter wird landläufig als Effektstärke („effect size“) bezeichnet, obwohl dieser Begriff für alle hier aufgeführten Maße zutrifft. Es handelt sich um eine Modifikation der Formel für den gewichteten mittleren Unterschied, indem zusätzlich durch die gepoolte Standardabweichung beider Gruppen geteilt wird:
$$ \mathrm{S}\mathrm{M}\mathrm{D} = \left(\mathrm{M}1 - \mathrm{M}2\right)\ /\ \mathrm{S}\mathrm{D} $$
SD = Standardabweichung
Durch das Teilen durch die Standardabweichung erfolgt eine Standardisierung der Effektstärke (sie wird in ein Maß in Standardabweichungseinheiten verwandelt), durch das Skalen, die dasselbe Konzept messen, in Metaanalysen miteinander kombiniert werden können (z. B. Hamilton Depression Scale und Montgomery Asberg Depression Rating Scale).
Wichtig ist noch die ubiquitär verwendete Faustregel nach Cohen (Cohen 1988), nach der eine Effektstärke von 0,20 einen kleinen, 0,50 einen mittleren und Effektstärken von > 0,80 einen großen Unterschied zwischen zwei Interventionen darstellen.
Absoluter Risikounterschied – AR
Dieser bezeichnet eine Effektstärke für dichotome Variablen, bei der das Risiko für einen Outcome in der einen Gruppe vom Risiko in der anderen Gruppe abgezogen wird.
$$ \mathrm{A}\mathrm{R} = \mathrm{R}\mathrm{isiko}\ \mathrm{Gruppe}\ 1\ \hbox{--}\ \mathrm{R}\mathrm{isiko}\ \mathrm{Gruppe}\ 2 $$
Beispiel: In einer Studie erleiden 20 % in Gruppe 1 einen Rückfall und 10 % in Gruppe 2.
AR = 20 %–10 % = 10 %. In Gruppe 2 sind also absolut 10 % weniger Rückfälle aufgetreten als in Gruppe 2.
Der Vorteil dieser Effektstärke liegt darin, dass sie am meisten intuitiv zu verstehen ist. Nachteile sind ihre statistischen Eigenschaften, die sie oftmals in Metaanalysen weniger geeignet sein lassen. Der Wert 0 bedeutet, dass es bezüglich von Ereignissen oder Therapieeffekten keine Unterschiede zwischen 2 Gruppen gibt.
Relatives Risiko – RR
Das RR ist eine Effektstärke für dichotome Variablen, bei der das Risiko für einen Outcome in der einen Gruppe durch das Risiko in der anderen Gruppe geteilt wird.
$$ \mathrm{A}\mathrm{R} = \mathrm{R}\mathrm{isiko}\ \mathrm{Gruppe}\ 1\ /\ \mathrm{R}\mathrm{isiko}\ \mathrm{Gruppe}\ 2 $$
Im Beispiel von oben: RR = 20 % / 10 % = 2. In Gruppe 1 sind also 2× so viele Rückfälle aufgetreten wie in Gruppe 2. Anders herum gesagt, wurde das Rückfallrisiko in Gruppe 2 um 50 % reduziert.
Entscheidend ist, dass es sich um dieselben Zahlen handelt, der Unterschied beim relativen Risiko aber deutlich größer erscheint als beim absoluten Risikounterschied. Dies muss bei der Interpretation beachtet werden. Der Wert 1 bedeutet, dass es bezüglich von Ereignissen oder Therapieeffekten keine Unterschiede zwischen 2 Gruppen gibt.
Odds Ratio (OR)
Das Odds-Verhältnis (a/b) drückt aus, wie häufig das Ereignis in einer Gruppe aufgetreten ist (a), geteilt durch die Häufigkeit des Nichtauftretens in der gleichen Gruppe (b). Die Odds von 2 Gruppen werden verglichen, indem sie in Beziehung zueinander gesetzt werden ([a/b][c/d]). Die Odds Ratio kann Werte zwischen 0 und unendlich einnehmen. Diese Effektstärke für dichotome Maße hat die besten statistischen Eigenschaften. Nachteil ist, dass Odds Ratios häufig als relative Risiken interpretiert werden, was die Unterschiede bei höheren Eventraten überschätzt. Der Wert 1 bedeutet, dass es bezüglich von Ereignissen oder Therapieeffekten keine Unterschiede zwischen 2 Gruppen gibt.
Number needed to treat to benefit (NNTB)
NNTB bezeichnet die statistisch berechnete Anzahl der Menschen, die behandelt werden müssen, um ein unerwünschtes krankheitsbedingtes Ereignis zu vermeiden bzw. ein erwünschtes Ergebnis zu erzielen. Je höher die NNTB, desto geringer ist der Unterschied zwischen 2 Behandlungsverfahren. Eine NNTB von 5 bedeutet z. B. dass 5 Menschen über den Beobachtungszeitraum behandelt werden müssen, damit bei einem Menschen das Ereignis (z. B. Response) ausbleibt. Sie wird als der Kehrwert des absoluten Risikounterschieds berechnet. Im Beispiel oben: NNTB = 1/0,01 = 10.
Number needed to treat to harm (NNTH)
NNTH ist die statistisch berechnete Anzahl der Menschen, die behandelt werden müssen, um ein unerwünschtes (behandlungsbedingtes) Ereignis zu bekommen. Je niedriger die NNTH, desto höher die Wahrscheinlichkeit eines Schadens für den Patienten.
Konfidenzintervall
Der Bereich, innerhalb dessen ein wahrer Wert (beispielsweise die Effektstärke) bei einer Studienpopulation mit einer gewissen Wahrscheinlichkeit (etwa 95 oder 99 %) liegt. Konfidenzintervalle geben die Wahrscheinlichkeit von Zufallsfehlern, nicht jedoch von systematischen Fehlern in Studien wieder.
Heterogenitätsstatistik
Man unterscheidet v. a. Chi-Quadrat-Tests und die I2-Statistik. Mit ersteren Tests wird geprüft, ob die Effektstärken der einzelnen Studien statistisch signifikant oder nur zufällig voneinander abweichen. Die I2-Statistik gibt hingegen das Ausmaß der Heterogenität an. Sie kann Werte zwischen 0 % (keine Heterogenität) und 100 % (maximale Heterogenität) erreichen. Ab 50 % spricht man oftmals von relevanter Heterogenität.

Therapieempfehlungen/Leitlinien

Therapieempfehlungen/Leitlinien werden auf der Basis von systematischen Reviews bzw. Metaanalysen über das empirische Wissen und aktuell meist noch über einen diesbezüglichen Expertenkonsens erstellt. Sie geben Bewertungen der jeweiligen Evidenzlage empirischen Wissens an. So wurden die 2001 erschienenen Demenztherapieempfehlungen der Arzneimittelkommission der deutschen Ärzteschaft (Höffler et al. 2001) erstmals in einer für die Psychiatrie relevanten deutschen Therapieempfehlung mit solchen Evidenzgraden versehen. Auch die in den letzten Jahren entwickelten S3-Praxisleitlinien der DGPPN enthalten eine Evidenzgraduierung.
Die Evidenzgraduierung orientiert sich u. a. daran, dass aus methodischen Gründen die Verwendung bestimmter Studiendesigns zu Ergebnissen führt, die mit höherer Wahrscheinlichkeit verlässlich sind. Dies entspricht dem Regelkanon empirischer Forschungsmethodologie (Campbell et al. 2000; Eccles et al. 2003, Kap. Prinzipien der Methodik empirischer Forschung in der Psychiatrie). Randomisierte Kontrollgruppenstudien haben demnach z. B. eine höhere Wertigkeit als nichtrandomisierte oder unkontrollierte Studien. Als Beispiel ist in Tab. 2 die Evidenzgraduierung der jüngsten Version der DGPPN-Behandlungsleitlinie unipolare Depression dargestellt.
Tab. 2
Evidenzkriterien der DGPPN – S3-Leitlinie/Nationale Versorgungsleitlinie unipolare Depression. (DGPPN et al. 2015b)
Evidenzgrad
Kriterium
Ia
Metaanalyse von mindestens 3 randomisierten kontrollierten Studien (Randomised Controlled Trials, RCT)
Ib
Mindestens 1 RCT oder Metaanalyse von weniger als 3 RCT
IIa
Mindestens 1 kontrollierte nichtrandomisierte Studie mit methodisch hochwertigem Design
IIb
Mindestens 1 quasi-experimentelle Studie mit methodisch hochwertigem Design
III
Mindestens 1 nichtexperimentelle deskriptive Studie (Vergleichsstudie, Korrelationsstudie, Fallserien)
IV
Berichte/Empfehlungen von Expertenkomitees, klinische Erfahrung anerkannter Autoritäten
Die Graduierung der Evidenz empirischen Wissens wird in vielen Leitlinien in einem zweiten Schritt verbunden mit einer Handlungsempfehlung, die ebenfalls graduiert werden kann hinsichtlich der Stärke, mit der die Empfehlung empirisch begründet scheint. Während die Evidenzgraduierung je nach Graduierungskriterien noch relativ nah an der empirischen Datenebene bleibt, geht die Empfehlungsgraduierung weit darüber hinaus und lässt, je nach Zusammensetzung des Gremiums, regionale/nationale Behandlungstraditionen, persönliche Behandlungsstereotypien u. a. einfließen. Auf diese Weise können die Empfehlungen inhaltlich und in der Graduierung erheblich von der Evidenz der empirischen Datenebene abweichen. Auch hier seien als Beispiel die Kriterien für die Handlungsempfehlung der aktuellen S3-Behandlungsrichtlinie unipolare Depression aufgeführt, die als für moderne Leitlinien recht typisch anzusehen ist, auch wenn Details (wie z. B. genau wie viele randomisierte Studien in einer Metaanalyse mindestens enthalten sein müssen) variieren (s. Tab. 3).
Andere Leitlinien verzichten jedoch auf die Ergebnisse systematischer Reviews und Metaanalysen (s. Tab. 4 und 5). Um diesen Problemen entgegenzuwirken und die Empfehlungen zu objektivieren und zu standardisieren, wurde von der McMaster-Universität in Kooperation mit der Cochrane Collaboration das GRADE-Verfahren entwickelt, das z. B. von vielen NICE-Richtlinien und den Leitlinien der WHO, aber noch nicht von den DGPPN-Leitlinien angewandt wird (s. Erstellung einheitlicher, evidenzbasierter Empfehlungen mithilfe des GRADE-Verfahrens in Abschn. 4).
Evidenzgraduierungen und insbesondere Empfehlungsgraduierungen sind keine trivialen Prozesse, in denen die empirische Datenebene gewissermaßen 1 : 1 umgesetzt wird, sondern Prozesse, die voller Detailprobleme stecken und die weit über die Datenebene hinausgehen (Atkins et al. 2004; Guyatt et al. 2006; Pfaff 2005). Dies gilt schon für die Evidenzgraduierung und in noch wesentlich stärkerem Maße für die Empfehlungsgraduierung. Es wird versucht, diesem Problem durch neue Methodik wie insbesondere dem GRADE-Verfahren abzuhelfen, das aber bei den deutschen psychiatrischen Leitlinien bislang noch nicht eingesetzt wird (s. Abschn. 4).

Uneinheitlichkeit der Evidenzkriterien und der Evidenzgraduierung

Die Erkenntnis über die verschiedenen Evidenzgrade, die klar formuliert scheint, steckt de facto voller Risiken der Widersprüchlichkeit und entspricht bei Weitem nicht einer operationalen Definition. Dies wird deutlich, wenn man auf jeweilige Details fokussiert (Möller und Maier 2010), was hier aus Platzgründen nicht getan werden kann.
Keine einheitliche, international akzeptierte Definition der Evidenz
Das prinzipielle Problem besteht darin, dass es eine einheitliche, international akzeptierte Definition der Evidenz und der sich daraus ableitenden Evidenzgrade nicht gibt, und zwar obwohl der Begriff „Evidenzgrad“ die Eindeutigkeit der Definition suggeriert. Allein aufgrund der Wahl der Evidenzkriterien bzw. Evidenzgrade können sich sehr unterschiedliche Ergebnisse für die entsprechenden Sachverhalte ergeben. Eine Zufallsauswahl einiger konkreter Beispiele macht dies deutlich (Tab. 2, 3, 4 und 5).
Tab. 3
Grade der Empfehlung der DGPPN – S3-Leitlinie/Nationale Versorgungsleitlinie unipolare Depression. (DGPPN et al. 2015b)
A
„Soll“-Empfehlung: zumindest eine randomisierte kontrollierte Studie von insgesamt guter Qualität und Konsistenz, die sich direkt auf die jeweilige Empfehlung bezieht und nicht extrapoliert wurde (Evidenzebenen Ia und Ib)
B
„Sollte“-Empfehlung: gut durchgeführte klinische Studien, aber keine randomisierten klinischen Studien, mit direktem Bezug zur Empfehlung (Evidenzebenen II oder III) oder Extrapolation von Evidenzebene I, falls der Bezug zur spezifischen Fragestellung fehlt
0
„Kann“-Empfehlung: Berichte von Expertenkreisen oder Expertenmeinung und/oder klinische Erfahrung anerkannter Autoritäten (Evidenzkategorie IV) oder Extrapolation von Evidenzebene IIa, IIb oder III. Diese Einstufung zeigt an, dass direkt anwendbare klinische Studien von guter Qualität nicht vorhanden oder nicht verfügbar waren
KKP*
„Klinischer Konsenspunkt“: empfohlen als gute klinische Praxis („Good Clinical Practice Point“) im Konsens und aufgrund der klinischen Erfahrung der Mitglieder der Leitliniengruppe als ein Standard in der Behandlung, bei dem keine experimentelle wissenschaftliche Erforschung möglich oder angestrebt ist
*Klinische Konsenspunkte (KKP) wurden abweichend vom üblichen Verfahren der Nationalen VersorgungsLeitlinie eingeführt, um den besonderen Bedingungen der gemeinsamen Erstellung von S3-Leitlinie und Nationaler VersorgungsLeitlinie Rechnung zu tragen
Tab. 4
Evidenzkriterien der WFSBP-Behandlungsleitlinien. (Bauer et al. 2013)
Evidenzgrad
Kriterium
A
Evidenz aus mindestens 3 großen positiven, randomisierten kontrollierten (doppelblinden) Studien (RCT). Darüber hinaus muss mindestens eine der 3 Studien methodisch gut konstruiert und placebokontrolliert sein
B
Evidenz aus mindestens 2 großen randomisierten Doppelblindstudien (entweder aus ≥ 2 Vergleichsstudien oder aus einer kontrollierten Vergleichsstudie und einer placebokontrollierten Studie) oder aus einer großen randomisierten Doppelblindstudie (placebo- oder vergleichssubstanzkontrolliert) und ≥ 1 prospektive, große (Stichprobengröße ≥ 50), offene, naturalistische Studie
C
Evidenz aus 1 randomisierten Doppelblindstudie mit einer Vergleichssubstanz und 1 prospektiven, offenen Studie/Fallserie (Stichprobengröße ≥ 10) oder mindestens 2 prospektiven, offenen Studien/Fallserien (Stichprobengröße ≥ 10)
D
Auf Expertenmeinung basierende Evidenz aus mindestens 1 prospektiven, offenen Studie/Fallserie (Stichprobengröße ≥ 10)
Keine Evidenz
Expertenmeinung über die allgemeinen Behandlungsprozeduren und -prinzipien
WFSBP World Federation of Societies of Biological Psychiatry
Tab. 5
Evidenzkriterien der APA-Behandlungsleitlinien. (American Psychiatric Association 2006)
Evidenzgrad
Art der Studie
Erklärung des Inhalts
[A]
Randomisierte, doppelblinde klinische Studie
Eine Studie von einer Intervention, in der Probanden prospektiv beobachtet werden; es gibt Behandlungs- und Kontrollgruppen; Probanden werden den beiden Gruppen randomisiert zugewiesen; sowohl Probanden als auch Prüfärzte sind „blind“ der Zuordnung gegenüber
[A-]
Randomisierte klinische Studie
Dasselbe wie oben, nur nicht doppelblind
[B]
Klinische Studie
Eine prospektive Studie, in der es eine Intervention gibt und die Ergebnisse der Intervention fortlaufend dokumentiert werden. Es entspricht nicht den Anforderungen einer randomisierten klinischen Studie
[C]
Kohort- oder Prospektivstudie
Eine Studie, in der Probanden prospektiv beobachtet werden ohne irgendeine spezifische Intervention
[D]
Kontrollstudie
Eine Studie, in der eine Gruppe von Patienten und eine Gruppe von Kontrollprobanden in der Gegenwart identifiziert werden und Informationen über diese nachträglich oder rückwirkend eingeholt werden
[E]
Übersichtsarbeit mit sekundärer Datenanalyse
Eine strukturierte analytische Übersicht der vorliegenden Daten, z. B. eine Metaanalyse oder eine Entscheidungsanalyse
[F]
Übersichtsarbeit
Eine qualitative Übersicht und Diskussionen der bereits publizierten Literatur ohne eine quantitative Synthese der Daten
[G]
Andere
Meinungsähnliche Essays, Fallberichte und andere Berichte, die nicht oben kategorisiert sind
Die EbM insgesamt und viele Leitlinien gründen die Evidenz vorzugsweise auf randomisierte kontrollierte Studien („randomized controlled trials“, abgekürzt RCT). Auch das Kriterium der Prüfung unter Doppelblindbedingungen findet meistens keine Berücksichtigung (s. unten). Durch die weitgehende Nichtberücksichtigung dieser im Hinblick auf die Qualität empirischer Forschung wichtigen Differenzierungen wird die festgestellte „Evidenz“ zu einer Grobkategorie ohne ausreichende Nuancierung.
Keine Beachtung findet die Frage, ob die Ergebnisse wichtiger, methodisch herausragender Einzelstudien Vorrang vor den Resultaten von Metaanalysen haben (Clark und Mucklow 1998). Die meisten Leitlinien präferieren Ergebnisse aus Metaanalysen allein oder zusammen mit Ergebnissen aus Einzelstudien, manche präferieren allerdings immer noch Einzelstudien (s. z. B. Tab. 4 und 5). Aus theoretischer Sicht ist auch eine Metaanalyse von 10 identischen, methodisch guten Studien valider als das Ergebnis nur einer dieser Studien. In der Realität sind aber die Studien in der Regel nicht gleich groß und auch nicht methodisch gleich gut, obwohl man sich mit dem typischen Einschlusskriterium „randomisierte Studie“ schon auf einem hohen Niveau bewegt.
Bewertung der Qualität von Studien
Eine Gewichtung der einzelnen Studien in Metaanalysen findet in der Regel nur nach der Studiengröße statt. Dies liegt daran, dass größere Studien eine bessere Messgenauigkeit aufweisen als kleinere. Skalen zur Bewertung der Qualität von Studien werden hingegen kritisch gesehen, weil es für viele der angelegten Kriterien keine klare Evidenz gibt (Higgins und Green 2011). Besonders problematisch sind allerdings Metaanalysen zu sehen, die nur aus kleinen Studien bestehen. So wurde gezeigt, dass die Ergebnisse späterer, großer Einzelstudien die Ergebnisse solcher Metaanalysen nicht mehr signifikant sein lassen können (Lelorier et al. 1997). Es gibt Evidenz dafür, dass die Ergebnisse von Metaanalysen in der Psychiatrie ab einer Zahl von etwa 1000 Patienten stabil sind. Das heißt, werden dann noch große Studien publiziert, verändern sich die Ergebnisse der Metaanalysen nicht mehr (Trikalinos et al. 2004).

Erstellung einheitlicher, evidenzbasierter Empfehlungen mithilfe des GRADE-Verfahrens

Um diesen Problemen bei der Generierung von Leitlinienempfehlungen entgegenzuwirken, wurde von Mitarbeitern der McMaster-Universität und der Cochrane Collaboration das GRADE-Verfahren (Grading of Recommendations Assessment, Development and Evaluation [GRADE]) entwickelt (Guyatt et al. 2008). Ziel ist es, zu reproduzierbaren, evidenzbasierten Leitlinienempfehlungen zu kommen. Hierfür werden zunächst die Ergebnisse eines systematischen Reviews mit Metaanalyse in die Software GRADEpro aufgenommen. Es folgt die Bewertung der Güte der Ergebnisse hinsichtlich eines Outcomes mit folgenden etablierten Kriterien:
  • Wie ist die Qualität der eingeschlossenen Studien hinsichtlich des durch unzureichende Randomisierungsmethode, Verdeckung der Zuteilung und Verblindung verursachten Bias?
  • Sind die Studienergebnisse signifikant heterogen und lässt sich diese Heterogenität nicht durch Unterschiede in Subgruppen erklären (sog. „inconsistency“)?
  • Wie präzise sind die Studienergebnisse?
  • Gibt der Messwert den für die Patienten relevanten Outcome direkt an oder wird dieser nur indirekt erfasst (sog. „indirectness“)? Beispiel: Eine Leitlinie möchte eine Aussage über die Wirksamkeit von Antidepressiva bei Kindern machen, findet aber nur randomisierte Studien und eine Metaanalyse über Studien bei Erwachsenen. In diesem Fall wären die Ergebnisse nur indirekt auf Kinder anwendbar.
  • Gibt es einen relevanten Publikationsbias?
Gibt es hinsichtlich dieser Kriterien Fehlerquellen, erfolgt eine Abwertung der Stärke der Evidenz, bei manchen Kriterien ist aber auch eine Aufwertung möglich. Durch das Programm erfolgt eine Gesamtbeurteilung der Qualität eines Ergebnisses. Diese wird zusammen mit der Effektstärke bzw. einem der NNTB bzw. NNTH ähnlichen Maß dargestellt. Verschiedene Szenarios, insbesondere die Wahl verschiedener Ausgangsrisiken und die Auswahl verschiedener Effektstärkenmaße sind möglich. Dieses Verfahren wird bereits von einigen Leitlinieninstitutionen (wie z. B. NICE) angewandt. Es ist zu hoffen, dass durch seinen systematischen Einsatz Leitlinienempfehlungen vereinheitlicht werden und zumindest ein Teil der oben aufgeführten Probleme gelöst werden. Dies ist aktuell bei den Leitlinien der DGPPN noch nicht der Fall.

Unterschiede der Evidenzgraduierung in der Psychopharmakotherapie und der Psychotherapie

Es kann in diesem Zusammenhang nicht auf grundsätzliche Probleme der Wirksamkeitsforschung in der Psychiatrie eingegangen werden (Kap. Prinzipien der Methodik empirischer Forschung in der Psychiatrie, Schmacke 2006), sondern nur auf Probleme, die entstehen, wenn Effektgrößen bzw. Evidenzbewertungen aus dem Bereich der Psychotherapieforschung direkt mit Effektgrößen bzw. Evidenzbewertungen aus dem Bereich der klinischen Psychopharmakologie verglichen werden (Gerson et al. 1999; Hegerl et al. 2004; Klein 2000; Wampold et al. 2002).
Nachdem auch zur Darstellung der empirischen Evaluation der Psychotherapie/psychosozialen Therapie z. T. zunehmend Effektgrößen berechnet und Evidenzgraduierungen eingeführt werden, besteht prinzipiell die Möglichkeit, diese mit den Evidenzkriterien aus dem Bereich der Psychopharmakotherapie zu vergleichen. Dies führt zu der Gefahr, dass Effektgrößen bzw. Evidenzgraduierungen, die auf einer unterschiedlichen Methodik der Therapieevaluation aufbauen, unsinnigerweise miteinander verglichen werden.
In diesem Zusammenhang erstellten Huhn et al. 2014 einen sog. „overview of reviews“ der 61 aktuellsten systematischen Übersichtsarbeiten zur psychotherapeutischen und psychopharmakologischen Behandlung von 21 psychischen Erkrankungen. Sie fanden insgesamt die Tendenz, dass psychotherapeutische Interventionen in den Metaanalysen insgesamt größere Effektstärken aufwiesen als psychopharmakologische. Als sie aber die 852 individuellen, in die Reviews eingeschlossenen Studien nach den etablierten Kriterien des „Cochrane Risk of Bias Tool“ (Higgins und Green 2011) untersuchten, fanden sie Folgendes: Während fast alle psychopharmakologischen Einzelstudien als Doppelblindversuche angelegt waren, waren nur weniger als 50 % der Psychotherapiestudien einfache Blindversuche. Eine vollständige Verblindung ist bei Psychotherapiestudien unmöglich, weil zumindest immer der Behandler weiß, welche Psychotherapie er durchführt. Zumindest verblindete Auswerter wären aber möglich.
Die Kontrollgruppe der psychopharmakologischen Studien bestand grundsätzlich aus Placeboprobanden, während etwa 40 % der Psychotherapiestudien Wartegruppen verwendeten. Subgruppenanalysen zeigten, dass solche Wartegruppen die Effekte überschätzten. Man erklärt dies durch sog. Noceboeffekte, weil die Nachricht für einen leidenden Patienten, erst einmal z. B. zwei Monate keine Therapie zu erhalten, sehr frustrierend sein kann. Schließlich wurde bei den Psychotherapiestudien noch deutlich seltener eine „intention-to-treat“-Analyse durchgeführt. Würde man daher die Effektstärke eines systematischen Reviews über Psychotherapie naiv mit der einer psychopharmakologischen Intervention vergleichen, würde man die Psychotherapie fälschlich als wirksamer einschätzen als die psychopharmakologische Behandlung und in einer Leitlinie zu einer falschen Bewertung kommen.
Die unterschiedliche methodische Basis, auf der die Evidenzgraduierung in der Psychotherapie und in der Psychopharmakologie aufbauen, impliziert, dass ein solcher direkter Vergleich unmöglich ist.
Besser wäre, um derartige Verwirrungen zu vermeiden, ein für alle Therapieverfahren in der Psychiatrie einheitliches Evidenzgraduierungssystem zu entwickeln, bei dem dann wegen der prinzipiellen methodischen Sonderstellung in der Evaluation psychotherapeutischer Verfahren diese per se nicht den höchsten Evidenzgrad erreichen können, da die Realisierung von Placebokontrollen schwer und die Realisierung von Doppelblindbedingungen unmöglich ist. Dies gilt in noch weitgehenderer Weise für psychosoziale Verfahren, die wegen immanenter Besonderheiten meist nicht einmal dem Anspruch randomisierter verblindeter Kontrollgruppenuntersuchungen gerecht werden können, sondern methodisch weniger restriktive Verfahren zur Evaluation einsetzen.

Grundsätzliche Probleme psychiatrischer Behandlungsforschung

Keine „harten“ objektiven Outcomes in der Psychiatrie

Die Psychiatrie als Fach und insbesondere die Psychopharmakologie steht seit jeher unter Kritik. Zum Teil gibt es hierfür auch gute Gründe. Zunächst ist für fast alle psychischen Erkrankungen die Ätiologie nicht bekannt. Dementsprechend ist auch der genaue Wirkmechanismus vieler Medikamente nicht bekannt und Psychopharmaka haben viele Nebenwirkungen. Wir wissen nicht genau, ob Psychopharmaka im Langzeitverlauf die Mortalität z. B. durch Reduktion der Suizidalität senken oder ob sie sie durch die Nebenwirkungen erhöhen. Ein grundsätzliches Problem besteht darin, dass es in der Psychiatrie keine sog. „harten“ objektiven Outcomes wie Laborparameter gibt, anhand derer der Therapieerfolg festgemacht werden kann. Andere Fachrichtungen (wie z. B. die Kardiologie), bei denen Tod der primäre Outcome ist, tun sich in dieser Hinsicht leichter, weil Tod der schwerstmögliche und ein objektiver Outcome ist.
In der Psychiatrie müssen wir uns meist mit den subjektiven Ergebnissen psychopathologischer Ratingskalen zufrieden geben. Zu diesen allgemeinen Kritikpunkten ist in letzter Zeit hinzugekommen, dass die Wirksamkeit der Psychopharmaka, z. B. der Antidepressiva, Antidementiva aber auch Antipsychotika infrage gestellt wurde (Kaduszkiewicz et al. 2005; Kirsch et al. 2008; Moncrieff 1995). In der Tat liegen z. B. die Effektstärken von Antidepressiva im Vergleich zu Placebo bei rezidivierender depressiver Störung in Kurzzeitstudien aktuell in einem Bereich um 0,30 und die absoluten Unterschiede in den Responderraten um 10–15 % (Taylor et al. 2014; Turner et al. 2008).

Wirksamkeit von Psychopharmaka im Vergleich zu Medikamenten anderer Fachrichtungen

Um einen Eindruck über die Wirksamkeit psychiatrischer Medikamente im Vergleich zu häufig verwendeten Medikamenten anderer medizinischer Fachgebiete zu gewinnen, führten Leucht et al. 2012 einen Review von 94 Metaanalysen über 16 Psychopharmakaklassen bei 8 psychiatrischen Erkrankungen und über 48 Medikamente bei 20 häufigen allgemeinmedizinischen Erkrankungen durch. Einige allgemeinmedizinische Medikamente hatten sehr hohe Effektstärken und andere sehr niedrige, insgesamt war aber die Verteilung der Effektstärken beider Medikamentengruppen ähnlich (s. Abb. 4). Auch wenn die Autoren hervorheben, dass eine Zusammenstellung der Effektstärken verschiedener Medikamente, bei verschiedenen Erkrankungen und verschiedenen Outcomes nur als Perspektive, nicht aber als echter Vergleich dienen kann, ist es dennoch gerechtfertigt zu sagen, dass Psychopharmaka nicht grundsätzlich weniger wirksam sind als Medikamente anderer medizinischer Fachbereiche.
Ferner sind bei den aktuell niedrigen Effektstärken in den placebokontrollierten Studien beträchtliche methodische Probleme zu berücksichtigen: So haben Patienten in den Industrienationen aktuell zwischen so vielen Antidepressiva oder Antipsychotika die Auswahl, dass die Motivation gering ist, an einer Studie teilzunehmen. Übrig bleiben zum einen partielle Nonresponder, die in der Hoffnung, doch noch ein für sie wirksames Medikament zu finden, an einer Studie teilnehmen. Bei diesen handelt es sich aber um eine Negativselektion. Zum anderen gibt es insbesondere in den USA das Phänomen der sog. „professional patients“. Dies sind Patienten, die oftmals über Zeitungsinserate für Studien geworben werden und die von kleinen finanziellen Anreizen (wie z. B. Fahrkostenpauschalen) profitieren. Die Rekrutierung über Zeitungsinserat ist z. B. bei einer Akutphasestudie mit Antipsychotika ein Widerspruch in sich und anekdotisch versuchen solche Patienten, sich manchmal an verschiedenen Zentren in dieselbe Studie einzuschreiben. Diese und andere Phänomene sind wahrscheinlich für einen als auch bei Antipsychotika dokumentierten Anstieg der Response in den Placebogruppen verantwortlich (Agid et al. 2013), der die Effektstärken reduziert.
Psychopharmaka sind nicht grundsätzlich weniger wirksam als Medikamente anderer Fachrichtungen. Zahlreiche methodische Probleme wie „professionelle“ (nicht wirklich akut erkrankte) Patienten oder ein Anstieg der Placeboresponseraten müssen bei der Interpretation der aktuell relativ niedrigen Effektstärken bedacht werden.

Wichtige Institutionen der evidenzbasierten Medizin in Deutschland

Zum Schluss sollen noch wichtige Institutionen für die evidenzbasierte Medizin in Deutschland aufgeführt werden.
Deutsches Netzwerk Evidenzbasierte Medizin e.V.
Das deutsche Netzwerk Evidenzbasierte Medizin (DNEbM, www.ebm-netzwerk.de/. Zugegriffen am 13.06.2016) wurde im Jahr 2000 in Berlin mit dem Ziel gegründet, Konzepte und Methoden der EbM zu verbreiten und weiterzuentwickeln. Es sieht sich als interdisziplinäres deutsches Kompetenz- und Referenzzentrum für alle Aspekte der EbM. Einmal jährlich wird ein Kongress veranstaltet, offizielles Organ ist die Zeitschrift für Evidenz, Fortbildung und Qualität im Gesundheitswesen (ZEFQ).
Deutsches Cochrane-Zentrum
Das deutsche Cochrane-Zentrum in Freiburg (http://www.cochrane.de/. Zugegriffen am 13.06.2016) ist die deutsche Zweigstelle der Cochrane Collaboration, die ihre Zentrale in Oxford, England hat. Die Cochrane Collaboration ist eine führende Non-for-Profit-Organisation im Bereich EbM, die systematische Reviews produziert und regelmäßig aktualisiert. Dies ist dadurch möglich, dass diese Reviews elektronisch, in der sog. „Cochrane Library“ publiziert werden. Auch entwickelt Cochrane die Methodik systematischer Reviews kontinuierlich weiter und publiziert diese im „Cochrane Handbook“, einem Standardwerk über systematische Reviews (Higgins und Green 2011). Die Aufgabe des deutschen Cochrane-Zentrums besteht zum einen darin, die Interessen von Cochrane und EbM in Deutschland zu vertreten, außerdem werden Reviewer logistisch unterstützt. So werden z. B. regelmäßig Kurse über die verschiedensten Fragen bei systematischen Reviews abgehalten.
Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWIG)
Das IQWIG (https://www.iqwig.de/. Zugegriffen am 13.06.2016) wurde 2004 als unabhängiges wissenschaftliches Institut gegründet mit der Aufgabe, medizinische Therapien und diagnostische Verfahren zu evaluieren. Beauftragt wird es ausschließlich durch den Gemeinsamen Bundesausschuss (G-BA, s. u.) oder das Bundesministerium für Gesundheit. Seine Gutachten werden nach den Regeln der evidenzbasierten Medizin erstellt und elektronisch auf seiner Homepage publiziert. Das IQWIG trifft selbst keine gesundheitspolitischen Entscheidungen, es informiert vielmehr den G-BA.
Gemeinsamer Bundesausschuss (G-BA)
Der Gemeinsame Bundesausschuss (G-BA; https://www.g-ba.de/. zugegriffen am 13.06.2016) ist keine EbM-Institution im engeren Sinne, hier werden aber in Form einer Kosten-Nutzen-Bewertung die Preise neuer Arzneimittel beschlossen. Der G-BA lässt sich dabei durch das IQWIG durch Gutachten beraten. Besetzt ist er durch Vertreter der gesetzlichen Krankenkassen, der Deutschen Krankenhausgesellschaft, der Kassenärztlichen und der Zahnärztlichen Bundesvereinigung. Im Verfahren nach dem sog. AMNOG-Gesetz (Gesetz zur Neuordnung des Arzneimittelmarktes) haben die Pharmafirmen nach Zulassung eines Medikaments ein Jahr Zeit, sich mit den Krankenkassen über den Preis zu einigen. Gelingt dies nicht, so ermittelt der G-BA, ob das Medikament einen Zusatznutzen hat, was sich entscheidend auf den Preis auswirkt.
Deutsches Institut für Medizinische Dokumentation und Information (DIMDI)
Das DIMDI (https://www.dimdi.de/static/de/index.html Zugegriffen am 13.06.2016) ist eine dem Bundesgesundheitsministerium nachgeordnete Behörde mit mehreren EbM-relevanten Aufgaben. Es betreut die Klassifikationen ICD-10 (International Classification of Diseases) und OPS (Operationen- und Prozedurenschlüssel) für Deutschland, es pflegt medizinische Terminologien, es unterhält zahlreiche Recherchedatenbanken und es verantwortet ein Health-Technology-Assessment-Programm.
Ärztliches Zentrum für Qualität in der Medizin (ÄZQ)
Das ÄZQ (http://www.aezq.de/ Zugegriffen am 13.06.2016) wurde 1995 in Berlin gegründet. Es ist ein Kompetenzzentrum für medizinische Leitlinien, Patienteninformationen und Patientensicherheit und es unterhält die Arztbibliothek, ein Wissensportal für die Ärzteschaft. Bei der Entwicklung von Leitlinien unterstützt das ÄZQ in Kooperation mit der Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften e.V. (AWMF) medizinische Fachgesellschaften. Zusätzlich ist das ÄZQ eine Leitlinien-Clearingstelle. Leitlinien werden mit entsprechenden Evaluierungsinstrumenten auf ihre Güte hin geprüft.
Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF)
Die 1962 gegründete, in Frankfurt ansässige Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF) koordiniert seit 1995 die Entwicklung von Leitlinien durch die einzelnen Fachgesellschaften. Auf ihrer Website kann man diese Leitlinien recherchieren und herunterladen (http://www.awmf.org/leitlinien.html Zugegriffen am 13.06.2016).

Schlussfolgerungen

Evidenzbasierte Medizin ist inzwischen auch in der Psychiatrie etabliert. Es handelt sich allerdings noch um einen relativ neuen Ansatz mit vielen Entwicklungsmöglichkeiten hinsichtlich seiner Methodik und v. a. auch seiner Implementierung. Ursprüngliche Befürchtungen, dass EbM zu einer Kochrezeptmedizin führen könnte, haben sich nicht bewahrheitet. Vielmehr kristallisiert sich heraus, dass durch EbM ohnehin nur ein gewisser Evidenzrahmen vorgegeben werden kann, der dann an die besonderen Bedingungen des einzelnen Patienten angepasst werden muss.
Literatur
Agid O, Siu CO, Potkin SG, Kapur S, Watsky E, Vanderburg D, Zipursky RB, Remington G (2013) Meta-regression analysis of placebo response in antipsychotic trials, 1970–2010. Am J Psychiatry 170:1335–1344CrossRefPubMed
American Diabetes Association, American Psychiatric Association of Clinical Endocrinologists, North American Association for the Study of Obesity (2004) Consensus development conference on antipsychotic drugs and obesity and diabetes. Diabetes Care 27:596–601CrossRef
American Psychiatric Association (2006) APA guideline development process. http://​www.​psych.​org/​psych_​pract/​treatg/​pg/​prac_​guide.​cfm. Zugegriffen am 30.03.2010
Antes G (2004) The evidence base of clinical practice guidelines, health technology assessments and patient information as a basis for clinical decision-making. Z Arztl Fortbild Qualitatssich 98:180–184PubMed
Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (2006) Deutsches Instrument zur methodischen Leitlinien-Bewertung (DELBI). www.​delbi.​de. Zugegriffen am 30.03.2010
Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften AWMF (2004) Erarbeitung von Leitlinien für Diagnostik und Therapie. Methodische Empfehlungen. http://​www.​leitlinien.​de/​leitlinienmethod​ik/​leitlinien-glossar/​
Atkins D, Best D, Briss PA et al (2004) Grading quality of evidence and strength of recommendations. BMJ 19:1490
Bandelow B, Zohar J, Hollander E, Kasper S et al (2008) World Federation of Societies of Biological Psychiatry (WFSBP) guidelines for the pharmacological treatment of anxiety, obsessive-compulsive and post-traumatic stress disorders – first revision. World J Biol Psychiatry 9:248–312CrossRefPubMed
Bauer M, Pfennig A, Severus E et al (2013) World Federation of Societies of Biological Psychiatry (WFSBP) guidelines for biological treatment of unipolar depressive disorders, part 1: update 2013 on the acute and continuation treatment of major depressive disorders. Update. World J Biol Psychiatry 14:334–385CrossRefPubMed
Bermejo I, Schneider F, Kriston L et al (2009) Improving outpatient care of depression by implementing practice guidelines: a controlled clinical trial. International J Qual Health Care 21:29–36CrossRef
Berner MM, Rüther A, Stieglitz RD, Berger M (2000) Evidence-based medicine in psychiatry – more rational psychiatry? Nervenarzt 71:173–180CrossRefPubMed
Campbell M, Fitzpatrick R, Haines A et al (2000) Framework for design and evaluation of complex interventions to improve health. BMJ 321:694–696CrossRefPubMedPubMedCentral
Cartabellotta A, Minella C, Bevilacqua L, Caltagirone P (1998) Evidence-based medicine. 3. Systematic reviews: a tool for clinical practice, permanent education and health policy decisions. Italian Group on Evidence-Based Medicine-GIMBE. Recenti Prog Med 89:329–337PubMed
Clark W, Mucklow J (1998) Gathering and weighing the evidence. In: Panton R, Chapman S (Hrsg) Medicines management. BMJ Books and Pharmaceutical Press, London, S 59–74
Cochrane AL (1972) Effectiveness and efficiency. Random reflections on health services. Nuffield Provincial Hospitals Trust, London
Cohen J (1988) Statistical power analysis for the behavioral sciences. Lawrence Erlbaum Associates, Hillsdale
Cole JO (1964) Phenothiazine treatment in acute schizophrenia. Arch Gen Psychiatry 10:246–261CrossRef
Craig JC, Irwig LM, Stockler MR (2001) Evidence-based medicine: useful tools for decision making. Med J Aust 174:248–253PubMed
Cuffel B, Martin J, Joyce AT et al (2006) Lipid and glucose monitoring during atypical antipsychotic treatment: effects of the 2004 ADA/APA consensus statement. Poster präsentiert beim APA Kongress, Toronto Mai
Dans AM, Dans L, Oxman AD et al (2007) Assessing equity in clinical practice guidelines. J Clin Epidemiol 60:540–546CrossRefPubMed
Deutsche Gesellschaft für Psychiatrie, Psychotherapie, Psychosomatik und Nervenheilkunde (DGPPN), Deutsche Gesellschaft für Neurologie (DGN) und die am Konsensusprozess beteiligten medizinisch-wissenschaftlichen Fachgesellschaften, Berufsverbände und Organisationen (Hrsg) (2015a) S3-Leitlinie „Demenzen“. http://​www.​versorgungsleitl​inien.​de Zugegriffen am 12.11.2016
Deutsche Gesellschaft für Psychiatrie, Psychotherapie, Psychosomatik und Nervenheilkunde (DGPPN), Bundesärztekammer (BÄK), Kassenärztliche Bundesvereinigung (KBV) et al (Hrsg) (2015b) S3-Leitlinie/Nationale VersorgungsLeitlinie Unipolare Depression, Version 1., November 2015. http://​www.​versorgungsleitl​inien.​de Zugegriffen am 12.11.2016
Eccles M, Grimshaw J, Campbell M, Ramsay C (2003) Research designs for studies evaluating the effectiveness of change and improvement strategies. Qual Saf Health Care 12:47–52CrossRefPubMedPubMedCentral
Gaebel W (1996) Leitfaden zur Qualitätsbeurteilung in Psychiatrischen Kliniken. Stellungnahme für die DGPPN aus Sicht des Referates „Qualitätssicherung“. Nervenarzt 67:968–970PubMed
Gaebel W, Falkai P (1998) In: Deutsche Gesellschaft für Psychiatrie und Nervenheilkunde (Hrsg) Praxisleitlinien in Psychiatrie und Psychotherapie: Behandlungsleitlinie Schizophrenie, Bd 1. Steinkopff, DarmstadtCrossRef
Gaebel W, Falkai P (2003) DGPPN-Referat Qualitätssicherung und Leitlinien. Aktueller Stand und Perspektiven der Leitlinienentwicklung. Nervenarzt 74:94–96CrossRefPubMed
Gaebel W, Weinmann S, Sartorius N et al (2005) Schizophrenia practice guidelines: international survey and comparison. Br J Psychiatry 187:248–255CrossRefPubMed
Gerson S, Belin TR, Kaufman A et al (1999) Pharmacological and psychological treatments for depressed older patients: a meta-analysis and overview of recent findings. Harv Rev Psychiatry 7:1–28CrossRefPubMed
Girlanda F, Fiedler I, Becker T, Barbui C, Koesters M (2016) The evidence-practice gap in specialist mental healthcare: systematic review and meta-analysis of guideline implementation studies. Br J Psychiatry, Jul 21. pii:bjp.bp.115.179093. [Epub ahead of print] Review
Gonzalez DD (2001) From evidence-based medicine to medicine-based evidence. An Esp Pediatr 55:429–439CrossRef
Grimshaw JM, Thomas RE, MacLennan G et al (2004) Effectiveness and efficiency of guideline dissemination and implementation strategies. Health Technol Assess 8:1–72CrossRef
Grimshaw J, Eccles M, Thomas R et al (2006) Toward evidence-based quality improvement. Evidence (and its limitations) of the effectiveness of guideline dissemination and implementation strategies 1966–1998. J Gen Intern Med 21(Suppl 2):S14–S20PubMedPubMedCentral
Grunze H, Vieta E, Goodwin GM et al (2010) The World Federation of Societies of Biological Psychiatry (WFSBP) guidelines for the biological treatment of bipolar disorders: update 2012 on the long-term treatment of bipolar disorder. World J Biol Psychiatry 14:154–219CrossRef
Grunze H, Vieta E, Goodwin GM et al (2013) The World Federation of Societies of Biological Psychiatry (WFSBP) guidelines for the biological treatment of bipolar disorders: update 2009 on the treatment of acute mania. World J Biol Psychiatry 10:85–116CrossRef
Guyatt G, Gutterman D, Baumann MH et al (2006) Grading strength of recommendations and quality of evidence in clinical guidelines: report from an American College of Chest Physicians task force. Chest 129:174–181CrossRefPubMed
Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, Schunemann HJ, Group GW (2008) GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ 336:924–926CrossRefPubMedPubMedCentral
Hamann J, Leucht S, Kissling W (2003) Shared decision making in psychiatry. Acta Psychiatr Scand 107:403–409CrossRefPubMed
Hamann J, Langer B, Winkler V, Busch R, Cohen R, Leucht S, Kissling W (2006) Shared decision making for in-patients with schizophrenia. Acta Psychiatr Scand 114:265–273CrossRefPubMed
Hamann J, Cohen R, Leucht S, Busch R, Kissling W (2007) Shared decision making and long-term outcome in schizophrenia treatment. J Clin Psychiatry 68:992–997CrossRefPubMed
Harter M, Bermejo I, Schneider F et al (2003) Umfassendes ambulantes Qualitätsmanagment in der Versorgung depressiver Patienten. Z Arztl Fortbild Qualitatssich 97(Suppl 4):9–15PubMed
Hegerl U, Plattner A, Moller HJ (2004) Should combined pharmaco- and psychotherapy be offered to depressed patients? A qualitative review of randomized clinical trials from the 1990s. Eur Arch Psychiatry Clin Neurosci 254:99–107CrossRefPubMed
Helmchen H (2002) Evidenz der Evidenzbasierten Medizin? Nervenarzt 73:1–2CrossRefPubMed
Higgins JPT, Green S (2011) Cochrane handbook for systematic reviews of interventions version 5.1.0. Wiley, Chichester (Updated Mar 2011)
Höffler D, Lasek R, Tiaden JD (2001) Handlungsleitlinie Demenz Arzneimittelkommission der Deutschen Ärzteschaft, Arzneiverordnung in der Praxis. Arzneiverordnung in der Praxis, Sonderheft
Huhn M, Tardy M, Spineli LM, Kissling W, Forstl H, Pitschel-Walz G, Leucht C, Samara M, Dold M, Davis JM, Leucht S (2014) Efficacy of pharmacotherapy and psychotherapy for adult psychiatric disorders: a systematic overview of meta-analyses. JAMA Psychiatry 71:706–715CrossRefPubMed
Hunink MMG (2004) Does evidence based medicine do more good than harm? BMJ 329:1051CrossRefPubMedCentral
Jadad AR, Phil D, Cook DJ (1998) Methodology and reports of systematic reviews and meta-analyses. A comparison of cochrane reviews with articles published in paper-based. JAMA 280:278–280CrossRefPubMed
Kaduszkiewicz H, Zimmermann T, Beck-Bornholdt HP, van den Bussche H (2005) Cholinesterase inhibitors for patients with Alzheimer’s disease: systematic review of randomised clinical trials. BMJ 331:321–327CrossRefPubMedPubMedCentral
Kawamura T, Tamakoshi A, Wakai K, Ohno Y (1999) Evidence-based medicine and ‚The Cochrane Collaboration‘. Nippon Koshu Eisei Zasshi 46:498–506PubMed
Kirsch I, Deacon BJ, Huedo-Medina TB, Scoboria A, Moore TJ, Johnson BT (2008) Initial severity and antidepressant benefits: a meta-analysis of data submitted to the Food and Drug Administration. PLoS Med 5:e45CrossRefPubMedPubMedCentral
Klein DF (2000) Flawed meta-analyses comparing psychotherapy with pharmacotherapy. Am J Psychiatry 157:1204–1211CrossRefPubMed
Komossa K, Rummel-Kluge C, Hunger H, Schmid F, Schwarz S, Duggan L, Kissling W, Leucht S (2010) Olanzapine versus other atypical antipsychotics for schizophrenia. Cochrane Database Syst Rev CD006654
Kopp I, Encke A, Hartig S et al (2005) Zur Empirie hochwertiger Leitlinien im System der Arbeitsgemeinschaft Wissenschaftlicher Medizinischer Fachgesellschaften (AWMF): Gibt es sie und wie viele? Deutsche Gesellschaft für Chirurgie – Mitteilungen 1:21–29
Kunz R, Ollenschläger G, Raspe H et al (2000) Lehrbuch Evidenzbasierte Medizin in Klinik und Praxis. Ärzte-Verlag, Köln
Lelorier J, Grégoire G, Benhaddad A, Lapierre J, Derderian F (1997) Discrepancies between meta-analyses and subsequent large randomized, controlled trials. N Engl J Med 337:536–542CrossRefPubMed
Leucht S, Stiegler M, Rummel C, Wahlbeck K, Kissling W (2006) Call for a European guidelines institute. Br J Psychiatry 188:193; author reply 193CrossRefPubMed
Leucht S, Arbter D, Engel RR, Kissling W, Davis JM (2009a) How effective are second-generation antipsychotic drugs? A meta-analysis of placebo-controlled trials. Mol Psychiatry 14:429–447CrossRefPubMed
Leucht S, Kissling W, Davis JM (2009b) How to read and understand and use systematic reviews and meta-analyses. Acta Psychiatr Scand 119:443–450CrossRefPubMed
Leucht S, Hierl S, Dold M, Kissling W, Davis JM (2012) Putting the efficacy of psychiatric and general medicine medication in perspective: a review of meta-analyses. Br J Psychiatry 200:97–106CrossRefPubMed
Leucht S, Cipriani A, Spineli L, Mavridis D, Orey D, Richter F, Samara M, Barbui C, Engel RR, Geddes JR, Kissling W, Stapf MP, Lassig B, Salanti G, Davis JM (2013) Comparative efficacy and tolerability of 15 antipsychotic drugs in schizophrenia: a multiple-treatments meta-analysis. Lancet 382:951–962CrossRefPubMed
Maier W, Möller HJ (2010) Meta-analyses: a method to maximise the evidence from clinical studies? Eur Arch Psychiatry Clin Neurosci 260:17–23CrossRefPubMed
Manser R, Walters EH (2001) What is evidence-based medicine and the role of the systematic review: the revolution coming your way. Monaldi Arch Chest Dis 56:33–38PubMed
Möller HJ, Maier W (2010) Evidence-based medicine in psychopharmacotherapy: possibilities, problems and limitations. Eur Arch Psychiatry Clin Neurosci 260:25–39CrossRefPubMed
Möller HJ, Gaebel W, Naber D, Rüther E (2006) Atypische Antipsychotika in Deutschland. Eine Bestandsaufnahme. Psychopharmakotherapie 13:164–168
Moncrieff J (1995) Lithium revisited. A re-examination of the placebo-controlled trials of lithium prophylaxis in manic-depressive disorder. Br J Psychiatry 167:569–573; discussion 573–564CrossRefPubMed
Ollenschlager G, Helou A, Kostovic-Cilic L et al (1998) Checklist for methodological quality of guidelines. A contribution to quality promotion of medical guidelines. Z Arztl Fortbild Qualitatssich 92:191–194PubMed
Ollenschlager G, Berenbeck C, Low A et al (2002) The National Program for disease management – guidelines under the auspices of the German Medical Association – a method report. Z Arztl Fortbild Qualitatssich 96:545–548PubMed
Pfaff H (2005) Konzept und Methodik der Versorgungsforschung. Die Psychiatrie 2:101–106
Sackett DL (2000) Evidence-based medicine: how to practice and teach EBM. Churchill Livingstone, New York
Sackett DL, Richardson S, Rosenberg WS et al (1999) Evidenzbasierte Medizin. Zuckschwerdt, München
Schmacke N (2006) Evidenzbasierte Medizin und Psychotherapie: die Frage nach den angemessenen Erkenntnismethoden. Psychother Psychosom Med Psychol 56:202–209CrossRefPubMed
Taylor D, Sparshatt A, Varma S, Olofinjana O (2014) Antidepressant efficacy of agomelatine: meta-analysis of published and unpublished studies. BMJ 348:g1888CrossRefPubMedPubMedCentral
Trikalinos TA, Churchill R, Ferri M, Leucht S, Tuunainen A, Wahlbeck K, Ioannidis JPA (2004) Effect sizes in cumulative meta-analyses of mental health randomized trials evolved over time. J Clin Epidemiol 57:1124–1130CrossRefPubMed
Walsh BT, Seidman SN, Sysko R, Gould M (2002) Placebo response in studies of major depression: variable, substantial, and growing. JAMA 287:1840–1847CrossRefPubMed
Wampold BE, Minami T, Baskin TW, Callen TS (2002) A meta-(re)analysis of the effects of cognitive therapy versus „other therapies“ for depression. J Affect Disord 68:159–165CrossRefPubMed
Weinmann S, Hoerger S, Erath M et al (2008) Implementation of a schizophrenia practice guideline: clinical results. J Clin Psychiatry 69:1299–1306CrossRefPubMed