Psychiatrie, Psychosomatik, Psychotherapie
Autoren
Hans-Jürgen Möller und K. Broich

Prinzipien der Methodik empirischer Forschung in der Psychiatrie

Durch den Bezug der Medizin auf moderne Naturwissenschaften einerseits und andererseits die Schwierigkeit, Geistig-Seelisches objektiv zu beobachten, quantitativ zu messen und experimentell zu beeinflussen, befindet sich die Psychiatrie im Spannungsfeld zwischen Natur- und Geisteswissenschaften. Diese Spannung spiegelt sich in der Diskussion um angemessene Methoden wieder. Insbesondere die polaren Gegensätze von empirischer (realwissenschaftlicher) und geisteswissenschaftlicher (hermeneutischer) Methodik stehen dabei im Zentrum. Realwissenschaften versuchen, allgemeine Gesetzesaussagen über die erfahrbare Realität zu formulieren. In der Psychiatrie werden realwissenschaftliche Methoden v. a. in der biologischen Psychiatrie, der klinischen Psychopharmakologie, der sonstigen Therapieforschung wie auch in anderen Bereichen zu Hypothesenfindung und Hypothesenprüfung, wie z. B. im Bereich der psychiatrischen Diagnostik und der Verlaufsforschung, angewandt.

Spannungsfeld zwischen Natur- und Geisteswissenschaften

Die Psychiatrie als klinische Disziplin, die sich mit geistig-seelischen Störungen, d. h. mit als krankhaft geltenden aktuellen Störungen und habituellen Normabweichungen des Erlebens und Verhaltens befasst, hat wie alle klinischen Disziplinen ein janusköpfiges Gesicht. Einerseits ist sie auf die Praxis im Sinne helfenden Handelns gerichtet, andererseits auf Erkenntnis der theoretischen Hintergründe dessen, worauf die Praxis abzielt. Dadurch schafft sie zugleich bessere Voraussetzungen für die praktische, d. h. die diagnostische, therapeutische, rehabilitative und prophylaktische Tätigkeit des Arztes (Möller 1976, 2001).
Kaum jemand bezweifelt, dass das Eindringen der modernen Naturwissenschaften in die Medizin deren Fortschritt so beschleunigt hat, dass sich der heutige Stand von dem vor etwa 150 Jahren stärker unterscheidet als der damalige von dem der antiken Medizin. In der Psychiatrie scheint der Fortschritt nicht ganz so dramatisch, und die Rolle der „naturwissenschaftlichen Methodik“ der Erkenntnisgewinnung bleibt für manche immer noch umstritten. Kritische Stimmen betonen in diesem Zusammenhang, dass Geistig-Seelisches nicht in gleicher Weise wie Körperliches oder Materielles objektiv beobachtbar, quantitativ messbar und experimentell beeinflussbar sei. Gern wird deshalb der Psychiatrie als Ganzes oder einigen Subdisziplinen, z. B. der Psychotherapie, von manchen Autoren ein Platz in der Nähe der Geisteswissenschaften zugewiesen und die von anderen wie selbstverständlich geforderte Position im Bereich der naturwissenschaftlichen Medizin zurückgewiesen. Je nach Zeitgeist schlägt das Pendel mal mehr in die eine, mal mehr in die andere Richtung. Es sei auf die Bedeutung daseinsanalytischen Gedankenguts in der Psychiatrie unmittelbar nach dem 2. Weltkrieg, die lange vorherrschend Auffassung der Psychoanalyse als hermeneutische Wissenschaft (Möller 1978) sowie an das derzeitige Vorherrschen der neurobiologischen Position hingewiesen.
Der Widerspruch zwischen beiden Richtungen wurde bis heute nicht völlig aufgelöst. Er gilt für viele als typisches Spannungsfeld der Psychiatrie, als ein charakteristisches Merkmal dieses Faches. Von einigen wird der Spannungsbogen zwischen geistes- und naturwissenschaftlicher Methodik als so essenziell für das Fach angesehen, dass jedes stärkere Abweichen in die eine oder andere Richtung als Entfremdung vom Fach kritisiert wird.
Polarisierung der Methodendiskussion
Die hier skizzierte prinzipielle Antinomie tritt in verschiedenen Schattierungen und unter verschiedenen Namen auf, letztlich geht es immer um die gleiche Polarisierung. Deshalb seien schlagwortartig weitere in diesen Zusammenhang gehörige Gegensatzpaare erwähnt:
  • biografisch-ideografische Orientierung vs. nach allgemeinen Gesetzlichkeiten suchender Forschungsansatz,
  • verstehend-hermeneutische vs. erklärend-nomothetische (nach Gesetzesaussagen strebende) Methodik,
  • rein spekulative (gedanklich konstruierende) vs. empirisch-induktive Erkenntnisgewinnung,
  • geschichtliche vs. realwissenschaftliche Position,
  • ganzheitliche Sichtweise vs. analytisch-reduktionistisches Vorgehen.
Diese schwer zu vereinbarenden, antagonistischen Positionen zu grundsätzlichen Methodenfragen betreffen nicht nur die Psychiatrie, sondern lassen sich ebenso in anderen Fächern, die sich mit psychosozialen Sachverhalten beschäftigen, finden. Die Methodendiskussion in der Psychologie, Soziologie und Psychotherapie macht das deutlich. So stellt sich die lerntheoretisch fundierte Psychotherapie in der Regel als empirisch orientiert dar, die Psychoanalyse hingegen wird von vielen exponierten Vertretern als hermeneutische Wissenschaft bezeichnet. Andererseits gibt es innerhalb der psychoanalytischen Methodendiskussion Debatten darüber, ob nicht die psychoanalytische Wissenschaft durchaus einen empirischen Ansatz habe und als hermeneutische Richtung inadäquat charakterisiert sei (Möller 1978).
Methodenkombination
Von einigen Autoren wird als Idealweg eine Kombination von nomothetischer und idiografischer Methodik vorgeschlagen, wie sie Klinikern im praktischen Alltag als besonders einleuchtend erscheint: Während sich diagnostische Abklärung, Prognose und Therapie grundsätzlich auf allgemeine Gesetzlichkeiten beziehen, wird ergänzend den Besonderheiten des Einzelfalls in seinen historischen und aktuellen Gegebenheiten Rechnung getragen und so zur individuumsadaptierten Modifikation der unterstellten allgemeinen Regelhaftigkeiten beigetragen. Diese Auffassung darf aber nicht darüber hinwegtäuschen, dass auch in dieser methodologischen Variante die Notwendigkeit allgemeiner Gesetzesaussagen befürwortet wird.
Es sei noch betont, dass es allgemeine Regelhaftigkeiten nicht nur im naturwissenschaftlichen Bereich gibt, sondern auch in psychologischen und soziologischen Gebieten, deren Phänomenbereich wegen der unterstellten Immaterialität gern der geisteswissenschaftlichen Betrachtungsweise zugeordnet wird. Auch können Gesetzmäßigkeiten nicht nur im Rahmen streng experimenteller Untersuchungsansätze im Sinne der Naturwissenschaften, sondern auch unter anderen Voraussetzungen erkannt werden, wie z. B. die Lernpsychologie zeigt.

Realwissenschaftliche Methoden empirischer Wissenschaften

Mit den grundsätzlichen Methodenfragen der empirischen Wissenschaften bzw. Realwissenschaften hat sich insbesondere die analytische Wissenschaftstheorie beschäftigt. Sie basiert v. a. auf den Grundpositionen des Neorationalismus (z. B. Popper) und Neopositivismus (z. B. Carnap), die sich in einer wechselseitig korrigierenden und komplementären Weise vermischt haben.
Im Folgenden wird nicht von empirischer Wissenschaft, sondern von Realwissenschaften gesprochen. Entsprechend der modernen analytischen Wissenschaftstheorie werden mit diesem Begriff Wissenschaften bezeichnet, denen es um Aussagen über die erfahrbare Realität geht, und zwar um Aussagen im Sinne allgemeiner Gesetzesaussagen und darauf basierenden Erklärungen von Einzelphänomenen (Möller 1976, 2001).
Ziel der Realwissenschaften ist es, Einzelaussagen durch Bezugnahme auf allgemeine Gesetzesaussagen zu erklären bzw. zu prognostizieren, indem ein Ereignis A mit einem Ereignis B verknüpft wird.
Diese Gesetzesaussagen können als generelle (für jedes A trifft B zu) oder als statistische Aussagen (für A trifft in 70 % der Fälle B zu) formuliert werden. Durch Kenntnisse allgemeiner Gesetzesaussagen lässt sich wirkungsvoll auf die untersuchten Phänomene Einfluss nehmen, wenn durch experimentelle oder quasiexperimentelle Untersuchungen geklärt worden ist, dass die Gesetzesaussage eine kausale Beziehung und nicht nur eine indikatorische Relation formuliert.

Logische Struktur der Erklärung

Die Struktur der Erklärung, gleichzeitig auch die Struktur der Prognose, steht im Zentrum realwissenschaftlicher Methodik. Die logisch adäquate Erklärungsform wurde im Hempel-Oppenheim-(HO-)Schema der Erklärung (s. Beispiel 1 ) dargestellt:
Beispiel 1: Logische Struktur der Erklärung (HO-Schema)
  • Gesetzesaussage (G): Alle M haben die Eigenschaft D.
  • Antezedens (A): K ist ein M.
Schlussfolgerung: K hat die Eigenschaft D.
Andere Formen der Argumentation, z. B. zirkuläre Argumentationsformen (s. Beispiel 2 ), werden damit ausdrücklich als nicht adäquat verworfen.
Beispiel 2: Zirkuläre Argumentationsform
  • Jemand fragt: Warum blitzt es?
  • Ein anderer antwortet: Weil Zeus zornig ist.
  • Der erste fragt: Woher weißt du, dass Zeus zornig ist?
  • Der andere antwortet: Siehst du nicht, dass es blitzt!
Es lässt sich zeigen, dass nicht nur naturwissenschaftliche Erklärungen, sondern auch psychologische Argumentationen dem Hempel-Oppenheim-Schema folgen.
Beispiel 3: Psychologisches Erklärungsargument
  • G: Menschen, die eine strenge Erziehung durchgemacht haben, sind intoleranter und ängstlicher als andere.
  • A: Hans wurde streng erzogen.
Schlussfolgerung: Hans ist ängstlicher und intoleranter als andere.
Auch das Verstehen, dem seit Dilthey und Jaspers eine methodische Sonderstellung zugeschrieben wird, folgt dieser logischen Argumentationsstruktur (s. Beispiel 4 ). Dabei muss als methodische Besonderheit anerkannt werden, dass die Qualität der dann verwendeten Gesetzesaussagen eine andere ist, z. B. subjektive Erfahrungen bezüglich des eigenen Erlebens/Verhaltens bzw. aus der eigenen Lebenserfahrung gewonnene Aussagen über das Erleben/Verhalten anderer Menschen.
Beispiel 4: Verstehen als Erklären
  • G: Wenn immer ich in der Situation S bin, dann fühle, denke, tue ich R.
  • A1: K ist in der Situation S.
  • A2: Gesetzt den Fall, ich sei K (identifizierendes Gedankenexperiment).
Schlussfolgerung: Ich fühle, denke, tue R in der Situation S.

Falsifikationsprinzip

Einen besonderen Stellenwert in den Realwissenschaften nimmt nach Popper (1969) das Falsifikationsprinzip ein. Es besagt, dass realwissenschaftliche Gesetzesaussagen so formuliert werden sollten, dass sie prinzipiell falsifizierbar sind. Beim Falsifikationsprinzip handelt es sich um einen zentralen Pfeiler realwissenschaftlicher Methodologie. Es grenzt sich damit von einem naiven Empirismus, der im reinen Induktionsprinzip die Basis empirischer Wissenschaftlichkeit sieht, und von metaphysischen Aussagen nichtrealwissenschaftlicher Disziplinen ab.
Es soll versucht werden, durch exemplarische Darstellung zu verdeutlichen, warum dieses normative Postulat so wichtig ist und wie leicht dagegen verstoßen werden kann. Aussagen, die nicht dem Postulat der Falsifizierbarkeit entsprächen, wären im Extremfall tautologische Aussagen (s. Beispiel 5 ). Sie machen keine Aussagen über die Realität und widersprechen damit der grundsätzlichen Zielsetzung einer Realwissenschaft.
Beispiel 5: Tautologische Aussage
  • Wenn der Hahn kräht auf dem Mist, ändert sich das Wetter oder bleibt, wie es ist.
Popper hat sich intensiv damit beschäftigt, wie Gesetzesaussagen formuliert sein müssen, damit sie prinzipiell falsifizierbar sind, bzw. mit der Frage, wie man, den Zielsetzungen realwissenschaftlicher Forschung entgegenwirkend, die Falsifizierbarkeit einer Aussage verhindern kann. Im Wesentlichen geht es bei der Verhinderung von Falsifizierbarkeit um die folgenden Aspekte:
Formulierung tautologischer Aussagen
Tautologische Aussagen besitzen per definitionem keinen empirischen Gehalt (s. Beispiel 5 ). Tautologisch werden Gesetzesaussagen z. B., wenn jede mögliche in einem theoretischen Bezugssystem beschreibbare Realität als Ursache einer bestimmten Krankheit beschrieben wird.
Unpräzise Terminologie
Begriffliche Unschärfen und Inkonsistenzen geben die Möglichkeit, Falsifizierungen zu entgehen, indem man jeweils betont, dass die in der überprüften Theorie vorkommenden Begriffe falsch interpretiert worden seien und das negative Ergebnis der empirischen Überprüfung der Theorie darin begründet sei. Unpräzise Terminologie kann so weit gehen, dass gänzlich Heterogenes unter einem Begriff subsumiert wird.
Mangelnde empirische Signifikanz theoretischer Begriffe
Die Verwendung theoretischer Begriffe (Abschn. 2.3), die nicht durch Zuordnungsregeln mit der Beobachtungsebene verknüpft sind und somit keine empirische Signifikanz haben, macht Aussagen unfalsifizierbar.
Verwendung immunisierender Ad-hoc-Hypothesen
Eine Gesetzesaussage wird nach Erhebung falsifizierender empirischer Daten durch Zusatzargumente so modifiziert, dass die Falsifizierung dadurch aufgehoben und ggf. eine Falsifizierung des gesamten Aussagenkomplexes unmöglich gemacht wird.
Von dem auf wissenschaftshistorischen Untersuchungen basierenden Wissenschaftstheoretiker Kuhn (1970) wurde gegenüber dem idealistisch normativen Ansatz Poppers betont, dass für eine Wissenschaft zentrale Theorien trotz vieler falsifizierender Befunde noch lange gehalten werden und erst „aussterben“ wenn eine jüngere Generation von Wissenschaftlern nachwächst, die diese Ansätze und die dazugehörigen Methoden nicht mehr als fruchtbringend ansieht. Das alte „Paradigma“ werde dann im Rahmen einer „wissenschaftlichen Revolution“ durch ein neues „Paradigma“ ersetzt. Diese wissenschaftshistorische Sicht erklärt, warum sich viele theoretische Ansätze trotz widersprechender Evidenzen so halten. Die Wissenschaftler folgen im realen Leben offenbar nicht nur den logischen Forschungsprinzipien, sondern werden in ihren wissenschaftlichen Entscheidungen auch von pragmatischen Motiven (vorhandene Forschungsinfrastruktur, Einwerbungsmöglichkeiten von Forschungsmitteln, Netzwerk mit Forscherkollegen, Basis der eigenen wissenschaftlichen Reputation u. a.) geleitet.

Beobachtbarkeit von Phänomenen

Basissätze

Gesetzesaussagen entstehen auf der Basis von Einzelbeobachtungen über die Realität bzw. Einzelbeobachtungen über den untersuchten Phänomenbereich, die in sog. Basis- oder Protokollsätzen beschrieben werden. An diese Basissätze sind verschiedene Forderungen zu stellen, mit denen sich insbesondere der Neopositivismus beschäftigt hat (Carnap 1966). Diese auf den ersten Blick für die meisten wahrscheinlich plausiblen Kriterien klingen einfach; ihre Beachtung oder Nichtbeachtung hat aber eine große Relevanz.
Basissätze müssen folgende Bedingungen erfüllen:
  • Beschreibung singulärer Phänomene,
  • Beschreibung intersubjektiv prüfbarer Phänomene,
  • Beschreibung autochthoner Phänomene.
Singulär beobachtbares Ereignis
Basissätze beschreiben jeweils ein singuläres beobachtbares Ereignis und sollten dabei möglichst exakt die relevanten Bedingungen, z. B. eines Experiments, wiedergeben: Alle Beobachtungsaussagen sollen präzise und in der jeweiligen Wissenschaftssprache formuliert werden, damit den Fachkollegen unmissverständlich mitgeteilt wird, welcher Sachverhalt vorliegt. Wegen der Forderung nach protokollarischer Exaktheit, die bisweilen (z. B. von Anhängern des Wiener Kreises) übertrieben wurde, wurden diese Aussagen auch als „Protokollsätze“ bezeichnet.
Intersubjektive Nachprüfbarkeit
Die in den Basissätzen beschriebenen Phänomene sollen intersubjektiv nachprüfbar sein: Es muss unter verschiedenen, in der betreffenden Fachdisziplin ausgebildeten Wissenschaftlern Einigkeit darüber erzielt werden können, ob das betreffende Phänomen vorhanden ist oder nicht. Es ist klar, dass dieses Methodenideal umso eher erreicht werden kann, je einfacher die Beobachtungstechnik ist.
Beschreibung autochthoner Phänomene
Die in den Basissätzen beschriebenen Phänomene sollen autochthon sein: Das beschriebene Phänomen soll durch eine Beobachtungsmethodik gefunden werden, die gewährleistet, dass es nicht durch den Untersucher in den untersuchten Ausschnitt der Wirklichkeit hineingetragen wurde. Bereits bei der Untersuchung im physikalischen Bereich kann diese Forderung nicht vollkommen erfüllt werden, noch weniger im Humanbereich. Das bedeutet aber nicht, dass man auf sie verzichten könnte. Sie beschreibt – wie so viele Aussagen der Wissenschaftstheorie – ein Methodenideal, dem man sich, soweit es geht, annähern sollte.

Beobachtungsbegriff vs. theoretischer Begriff

Ein weiterer zentraler Aspekt ist die Unterscheidung zwischen Beobachtungsbegriffen und theoretischen Begriffen (Konstrukten).
Diese Unterscheidung entstand aus dem Widerstreit zwischen empiristischen und rationalistischen Auffassungen der Wissenschaftssprache. Es zeigte sich, dass auch eine Realwissenschaft nicht nur mit Beobachtungsbegriffen – also Begriffen, die sich auf direkt Beobachtbares beziehen – auskommt, sondern dass sie zusätzlich sog. Dispositionsbegriffe bzw. theoretische Begriffe (Konstrukte) verwenden muss. Diese Konstrukte können nur indirekt durch Bezugnahme auf beobachtbare Phänomene bzw. durch Beobachtungsbegriffe und theoretische Begriffe im Rahmen einer Theorie definiert werden (Abb. 1). Je mehr diese empirische Verankerung reduziert wird, desto größer wird die Gefahr, dass der Bezug zur Realität nur noch gering ist, bzw. überhaupt keine Aussage über die Realität mehr gemacht werden kann. Eine Theorie, in der wichtige theoretische Begriffe nicht mehr direkt oder indirekt über andere theoretische Begriffe auf Beobachtungsbegriffe zurückgeführt werden können, ist eine metaphysische Theorie, die per definitionem nicht mehr den Anspruch empirischer Wissenschaftlichkeit erfüllt (und aus der Sicht einer metaphysischen Disziplin wie z. B. die Theologie auch gar nicht erfüllen muss!).
In diesem Zusammenhang ist auf das Verhältnis von Theorie und Beobachtung einzugehen. Ein naiver Empirismus, der nur von der Beobachtung des zu untersuchenden Phänomenbereichs ausgeht, erscheint unangemessen. Statt dessen ist nach heutiger Auffassung eine wechselseitige Verschränkung von Theorie und Beobachtung zu unterstellen, d. h. dass fast jede wissenschaftliche Beobachtung in irgendeiner Weise hypothesengesteuert ist, u. a. im Sinne einer Fokussierung auf Phänomenbereiche, die im Rahmen einer Hypothese oder Theorie von Relevanz sind, und unter Ausschluss anderer Bereiche (Abb. 2). So wird durch hypothesengeleitete Beobachtungen die Hypothese bzw. Theorie weiter ausgebaut und führt dann zu anderen theoriebezogenen Beobachtungen. Dabei muss die Gefahr einer völligen Zirkularität zwischen Theorie und Erfahrung vermieden werden. Eine solche läge vor, wenn nur noch Sachverhalte beobachtet werden, die die Theorie bestätigen können, während alle anderen Sachverhalte ausgeblendet werden.
Weitere Aspekte realwissenschaftlicher Methodik beziehen sich auf die axiomatische Struktur von wissenschaftlichen Theorien und die Differenzierung der Wertigkeit von unterschiedlichen Theorien zum gleichen Phänomenbereich.

Realwissenschaftlich orientierte Bereiche der Psychiatrie

In der wissenschaftlichen Psychiatrie gibt es große Bereiche, die sich den dargestellten realwissenschaftlichen Methodenidealen verpflichtet fühlen (Möller 2001). Allerdings gibt es selbst dort, wo sich die Psychiatrie ausdrücklich als empirische Wissenschaft versteht, aber Regelverstöße gegen die oben genannten methodischen Grundprinzipien realwissenschaftlicher Methodologie. Das ist nicht verwunderlich, da ja diese wissenschaftstheoretischen Ansätze nur ein methodisches Normenideal darstellen, das in der Realität der Forschung auch in anderen Fächern aus verschiedenen Gründen nicht voll erfüllt wird (Möller 1976).
Biologische Psychiatrie
Besonders nahe liegt die empirische Forschungsorientierung in der biologischen Psychiatrie, wo sie gewissermaßen „in der Natur der Sache“ liegt, also in der Anwendung naturwissenschaftlicher Erkenntnisse und Methoden in der Erforschung und Beeinflussung psychischer Störungen. Das gilt nicht nur für die Grundlagenforschung, sondern auch für die klinisch-orientierte biologische Psychiatrie. Man denke hier z. B. an die faszinierenden Entwicklungen der psychiatrischen Genetik (Kap. Genetik bei psychischen Erkrankungen) oder der zerebralen Bildgebungsforschung.
Multifaktorielle Krankheitsmodelle
Eine realwissenschaftliche Psychiatrie kann und muss nicht nur biologische Faktoren, sondern auch psychologische und soziologische Faktoren einbeziehen, z. B. im Sinne eines multifaktoriellen Krankheitsmodells. In diesem Zusammenhang sei z. B. auf die Forschung über die ätiopathogenetische Bedeutung von „life events“ für die Depression (Paykel 2003) und über die Relevanz von „high expressed emotion“ für die Schizophrenie (Leff und Vaughn 1980) oder die neuere Forschung zu Gen-Umwelt-Interaktionen (z. B. Caspi und Moffit 2006) hingewiesen.
Klinische Psychopharmakologie
In der klinischen Psychopharmakologie werden Wirksamkeits- und Verträglichkeitsaspekte untersucht. Darüber hinaus können auch theoretische Fragestellungen bearbeitet werden, so z. B. Transmitterkonzentration, Rezeptorbesetzung oder funktionelle Veränderungen im Gehirn (Meisenzahl et al. 2006, 2008; Pogarell et al. 2007; Schmitt et al. 2002). Ein Großteil der theoretischen Fragestellungen wird von der pharmakologischen Grundlagenforschung bearbeitet.
Natürlich hat auch die so skizzierte realwissenschaftliche Psychiatrie neben den unbestreitbaren Vorteilen mögliche Schattenseiten und birgt die Gefahr von Fehlentwicklungen in sich. Die Sorge älterer Kliniker (Huber 1976; Janzarik 1989), dass eine so definierte empirische Ausrichtung der Psychiatrie evtl. zu eher oberflächlichen Erkenntnissen und ggf. sogar zu einem gedanken- und seelenlosen Zählen und Rechnen führt, ist nicht völlig von der Hand zu weisen, denn es gibt zweifellos solche Fehlentwicklungen. Sie beruhen aber zumeist auf einem mangelhaften Wissenschaftsverständnis (z. B. dem Fehlen von Intuition und Kreativität) oder auf schlichter Unkenntnis der Aussagekraft der verwendeten Methoden, z. B. bestimmter statistischer Verfahren.

Hypothesenfindung und Hypothesenprüfung

Es ist wichtig, zwischen der Ebene der Hypothesenfindung und der Ebene der Hypothesenprüfung zu unterscheiden. Während die Hypothesenfindung ein kreativer Akt auf der Basis bisheriger Befunde ist, der keine wesentlichen methodischen Einengungen erfährt und somit z. B. auf rein klinisch-intuitiver Basis stattfinden kann, muss die Hypothesenprüfung verschiedenen Regeln empirischer Wissenschaftlichkeit folgen. Dazu gehören u. a. eine adäquate
  • exakte Formulierung der Hypothese,
  • Zusammenstellung der Stichproben,
  • Beschreibung des Phänomenbereichs,
  • Einbeziehung aller relevanten Parameter,
  • Stichprobengröße,
  • statistische Testmethodik.
Die Nichtbeachtung dieser Kriterien kann zu massiven Fehlschlüssen führen. Lange Zeit wurde z. B. das Problem des β-Fehlers – also das Nichterkennen eines an sich vorhandenen Unterschieds zwischen 2 Gruppen – in der klinischen Psychopharmakologie bei Prüfungen von neuen Antidepressiva im Vergleich zu Standardantidepressiva nicht ausreichend beachtet und vorschnell auf die Gleichheit der therapeutischen Wirksamkeit neuer Substanzen geschlossen.
Erst wenn sich eine Hypothese der Hypothesenprüfung unterzogen hat und die empirischen Befunde mit der Hypothese übereinstimmen, kann sie als vorläufig bestätigt angesehen werden. Der Grad der empirischen Bestätigung wächst mit weiteren Bewährungen im Rahmen von Hypothesenprüfungen durch andere Untersucher. Dieser methodische Ansatz hat in der psychiatrischen Forschung immer mehr Eingang gefunden, und zwar nicht nur in den naturwissenschaftlichen Grundlagenfächern der Psychiatrie, sondern auch im Bereich der klinischen Forschung.
Ein interessantes Beispiel hierfür sind die Untersuchungen zum Dexamethason-Suppressionstest (DST). Es wurde z. B. die Hypothese aufgestellt, auf der Basis des DST könne zwischen endogenen und nichtendogenen Depressionen unterschieden werden. Diese Hypothese schien sich zunächst zu bewähren. Viele Untersucher hatten aber nicht ausreichend die verschiedenen Einflussgrößen, die z. T. mit der endogenen Depression assoziiert sind, berücksichtigt. Als im weiteren Verlauf bessere Experimente unter Berücksichtigung dieser Aspekte durchgeführt wurden, zeigte sich, dass der DST nicht geeignet ist, zwischen endogenen und nichtendogenen Depressionen zu unterscheiden und dass er überhaupt unter Krankheitsaspekten weitgehend unspezifisch ist, also z. B. auch bei Schizophrenen, Manikern und Dementen pathologisch ausfallen kann (Berger und Klein 1984; Greden et al. 1983; Möller et al. 1986).
Die komplexen Interaktionen, die z. B. für neuronale Vorgänge kennzeichnend sind, setzen der Analyse durch experimentelle Anordnungen Grenzen. Gleichzeitig sind Tiermodelle oft nur sehr eingeschränkt auf den zu untersuchenden Sachverhalt (z. B. Schizophrenien, Depressionen) beim Menschen zu übertragen, und bestimmte experimentelle Untersuchungen am Menschen sind aus grundsätzlichen und ethisch-rechtlichen Gründen bei vielen Fragestellungen nicht durchführbar. So verwundert es nicht, dass zentrale Theorien wie die Dopaminhypothese der Schizophrenien oder die Noradrenalin- bzw. Serotoninhypothese der Depressionen weiterleben und dass verschiedene Subtheorien dazu entwickelt wurden, obwohl es eine Fülle widersprüchlicher Befunde gibt.
Selbst in der biologischen Psychiatrie und Psychopharmakologie, die der empirischen Methodologie verpflichtet sind, sind z. B. folgende Regelverstöße zu beobachten:
  • Oft bleibt es bei der Hypothesengenerierung und die entscheidende Hypothesenprüfung findet nicht statt.
  • Im Rahmen der Hypothesenprüfung werden falsifizierende Schlussfolgerungen umgangen, indem z. B. nachträglich andere als die ursprünglich festgelegten Ergebniskriterien (auch Endpunkte genannt) eingesetzt werden.
  • Selbst wenn eine Reihe von Befunden aus verschiedenen Experimenten die Falsifizierung einer Hypothese oder Theorie nahelegt, wird manchmal versucht, diese Falsifikation durch immunisierende Ad-hoc-Hypothesen zu verhindern. Die Tendenz dazu scheint mit der hierarchischen Stellung einer Hypothese im Rahmen einer Theorie zuzunehmen. Derzeit kann man diese Problematik beobachten am Festhalten an der Amyloid-Hypothese der Alzheimer-Erkrankung, obwohl auf dieser Theorie basierende Therapieansätze verschiedener Art allesamt negative Ergebnisse zeigten.

Psychiatrische Diagnostik

In der psychiatrischen Diagnostik setzt sich die realwissenschaftliche Orientierung immer mehr durch. Ansätze, die primär aus der empirischen Psychologie kommen, werden zunehmend einbezogen, um die beobachtbaren Merkmale aktueller oder habitueller psychopathologischer Phänomene exakter erfassen bzw. beschreiben zu können. Insbesondere sind hier alle Versuche um eine Vereinheitlichung und Präzisierung der diagnostischen Terminologie und die Entwicklung von an der psychologischen Testmethodik orientierten psychopathometrischen Methoden zu nennen.
Wichtiger Bestandteil dieser Methodik sind die testtheoretischen Gütekriterien:
  • Objektivität,
  • Reliabilität,
  • Validität,
  • Normierung.
Diese Ansätze bieten neben einer validen und v. a. reliablen Erfassung gleichzeitig auch die Möglichkeit der Quantifizierung und damit die einer anspruchsvollen statistischen Analyse. Sie führen dadurch über die Möglichkeiten der klassischen deskriptiven Psychopathologie weit hinaus. Hier sind z. B. die standardisierte Befunderhebung und die Persönlichkeitsdiagnostik mit Fremd- und Selbstbeurteilungsskalen, die systematische Verhaltensbeobachtung und die neuropsychologische Testung kognitiver Fähigkeiten zu nennen (Möller 1989, 1991, s. auch Kap. Standardisierte psychiatrische Befunddiagnostik).

Beschreibung des psychopathologischen Befundes

Als großer Schatz der deutschen Psychiatrietradition wird die deskriptive Psychopathologie angesehen. Ihr gelang es, mit hoher Subtilität der Beobachtung und großer Differenziertheit der Terminologie den Phänomenbereich zu erfassen. Dabei wurde allerdings den für dieses Beobachtungsfeld – wie überhaupt für jegliche Verhaltensbeobachtung – charakteristischen Reliabilitätsproblemen und Wahrnehmungsverzerrungen nicht ausreichend Rechnung getragen.
Systematische Verfälschungen der Beobachtung entstehen durch:
  • Rosenthal-Effekt: von der Erwartungshaltung abhängige Verfälschung;
  • Halo-Effekt: vom Gesamteindruck abhängige Verfälschung;
  • logischer Fehler: theorieabhängige Tendenz zur Verfälschung,
  • Über- oder Unterbewertung von Störungsgraden.
Das im Zuge standardisierter Beurteilungsverfahren zum psychopathologischen Befund geschaffene AMDP-System (AMDP = Arbeitsgemeinschaft für Methodik und Dokumentation in der Psychiatrie), das von der klassischen deskriptiven Psychopathologie ausging, hat im Rahmen seiner Entwicklung gezeigt, wie schwer es ist, traditionelle Symptombegriffe der deskriptiven Psychopathologie in ausreichender Weise zu operationalisieren und die mit diesen Begriffen beschriebenen psychopathologischen Phänomene ausreichend reliabel zu erfassen (Baumann und Stieglitz 1983). Die Konsequenz aus diesen Standardisierungsbemühungen war, dass eine große Zahl von Symptomen der traditionellen Psychopathologie den Standardisierungsbemühungen geopfert werden musste, da es trotz entsprechenden Beobachtertrainings nicht gelang, für diese Symptome eine ausreichend hohe Interbeobachterreliabilität zu gewährleisten.
Interessant sind in dem Zusammenhang die Ergebnisse der multivariaten Dimensionsanalysen von standardisiert erhobenen Daten über den psychopathologischen Befund (Mombour 1972). Sie zeigen u. a., dass Fremd- und Selbstbeurteilung psychopathologischer Phänomene nicht kongruent sind, da offensichtlich die Selbstbeurteilung unter verschiedenen Aspekten eingeschränkt und weniger differenziert ist. Auch unterliegen Fremd- und Selbstbeurteilung, wie sich zeigte, unterschiedlichen Verfälschungstendenzen (von Zerssen 1979, 1986).
Krankheitsdiagnostik
Die verschiedenen Krankheitsbeschreibungen in der Psychiatrie sind als theoretische Konstrukte aufzufassen, die durch unterschiedliche Zuordnungsregeln mit der beobachtbaren Realität zu verbinden sind (Möller 1976, 2001). Unterschiedliche Schultraditionen haben zu unterschiedlichen Krankheitsbeschreibungen geführt und damit in erheblichem Maße zu einer diagnostischen Verwirrung beigetragen. So existieren in der Psychiatrietradition des 20. Jahrhunderts mehrere verschiedene Schizophreniebegriffe nebeneinander (Palm und Möller 2011). Unter dem Aspekt, dass es sich dabei um schulabhängige Konstruktdefinitionen handelt, war von vornherein nicht zu erwarten, dass daraus ein einheitlicher Schizophreniebegriff werden könnte. Jedes der Diagnosesysteme charakterisierte Schizophrenie sowie andere Krankheiten durch z. T. unterschiedliche Kriterien, entsprechend den jeweiligen konzeptuellen Vorstellungen. Weil man im wissenschaftlichen Bereich auf keine dieser speziellen Konzeptualisierungen verzichten wollte, erschien zeitweise die Polydiagnostik (Katschnig und Simhandl 1987) als der einzige sinnvolle Ausweg.
Die in den letzten Jahrzehnten mit DSM-III und ICD-10 begonnene Operationalisierung psychiatrischer Krankheitsbegriffe stellt die Basis für eine reliable Krankheitsdiagnostik dar. Sie bedeutet einen wichtigen Fortschritt gegenüber den bisherigen diagnostischen Traditionen (Möller 2005), bei denen der Einzelfall einem nur vage beschriebenen Krankheitsbild zugeordnet wurde. Operationalisierung der nosologischen Diagnostik bedeutet, dass für jede Erkrankung ein Kriterienkatalog festgelegt wird, nach dem zu entscheiden ist, ob ein bestimmter Patient die Erkrankung hat oder nicht. Das geschieht nach dem folgenden Prinzip: Die Krankheit kann diagnostiziert werden, wenn die Symptome A, B und C, nicht aber D und E vorliegen.
Das US-amerikanische psychiatrische Diagnosesystem (DSM-IV) und das international verbindliche ICD-10-System haben sich auf bestimmte Operationalisierungen der einzelnen Krankheitsbilder beschränkt, wobei ungünstigerweise die Definitionen in den einander entsprechenden Kategorien nicht deckungsgleich sind (Möller 1998). Im Hinblick auf die Validität wäre es besser gewesen, auf der Basis polydiagnostischer Untersuchungsansätze zunächst – unter Einbeziehung biologischer und psychosozialer Parameter – weitere querschnitt- und längsschnittbezogene Validitätsstudien durchzuführen, um dann das optimale Diagnosesystem empirisch zu entwickeln. Immerhin ist als großer Fortschritt zu bewerten, dass es durch die Operationalisierungen der diagnostischen Begriffe in diesen neuen Diagnosesystemen teilweise zu einem Reliabilitätszuwachs in der alltäglichen Diagnostik gekommen ist. Diese Entwicklung ist u. a. die Basis für die sich derzeit in einer besonders günstigen Phase befindende psychiatrische Epidemiologie. Allerdings hat der notwendige Konsens gerade in den durch ein Expertengremium entwickelten ICD-10 bzw. DSM-IV-Klassifikationssystemen unter Validitätsaspekten zu z. T. willkürlich anmutenden Lösungen geführt, die auf der Basis weiterer Forschung und Diskussion sicherlich erheblich verbesserungswürdig sind (Möller 2009). Ein Problem, das auch in den jüngsten Versionen dieser internationalen Diagnosesysteme nicht befriedigend gelöst wurde (Möller et al. 2015a,b). Die vorgeschlagenen Konstrukte und Kriterienkataloge, auf dem derzeitigen empirischen Wissen basierend, stellen einen letzlich arbiträren Konsens der jeweiligen Arbeitsgruppen dar. Führt man sich vor Augen, dass Diagnosebegriffe theoretische Begriffe in dem in Abschn. 2 definierten Sinne sind, wird deutlich, warum es so schwierig ist, sich angesichts der Heterogenität der Datenlage auf eine für alle akzeptable Lösung zu einigen.

Psychiatrische Therapieforschung

Pharmakotherapie
Für die psychiatrische Therapieforschung liegt das Schwergewicht empirischer Ansätze in der zur biologischen Psychiatrie zählenden Pharmakotherapie. Gerade sie hat der Anwendung objektivierender Untersuchungsverfahren und statistischer Analysemethoden in der Psychiatrie zum Durchbruch verholfen (Möller und Benkert 1980). Trotzdem lassen sich auch hier prinzipielle methodische Schwierigkeiten feststellen, so z. B. die über lange Zeit unzureichende Beachtung oder Nichtbeachtung der ß-Fehler-Problematik bei der Prüfung neuer antidepressiv wirkender Substanzen im Vergleich zu Standardantidepressiva. Optimale Designplanung der Studien hinsichtlich adäquater Stichprobengröße, reliabler Messinstrumente, Reduzierung von störenden Einflussgrößen u. a. ist eine wichtige Grundvoraussetzung für valide Ergebnisse. Statistische Metaanalysen der Ergebnisse von Studien, wie sie in Zeiten der evidenzbasierten Medizin zur Zusammenfassung von Studiendaten durchgeführt werden, können evtl. vorhandene methodische Mängel der Einzelstudien nicht beseitigen. Plazebokontrollierte Prüfungen als wesentlicher Wirksamkeitsnachweis für die meisten Indikationsgebiete der Psychiatrie haben sich, trotz zahlreicher anfänglicher Widerstände inzwischen etabliert, zumal sie von den Zulassungsbehörden gefordert werden (Fritze und Möller 2001; Möller und Broich 2010).
Psychotherapie
Im Bereich der Psychotherapie hat die psychoanalytische Therapie mit ihrem Überhang von theoretischem/spekulativem Überbau (Metatheorie) und dem dezidierten Widerstand vieler ihrer Vertreter gegen kontrollierte Wirksamkeitsprüfungen lange Zeit ein Refugium für eine nicht ausreichend empirische Forschung dargestellt. Insbesondere durch die Verhaltenstherapie/kognitive Therapie hat sich aber auch in der Psychotherapieforschung seit langem die Wende zu einer eindeutig empirischen Orientierung in der Überprüfung der Wirksamkeit psychotherapeutischer Ansätze ergeben (von Zerssen und Möller 1980; Murphy et al. 1995).

Empirische Psychiatrie am Beispiel der Therapieforschung

Aus der Vielfalt konkreter Detailaspekte der empirischen Psychiatrie werden nachfolgend exemplarisch methodische Ansätze und Probleme der psychiatrischen Therapieforschung dargestellt und zwar am Beispiel der psychopharmakologischen bzw. psychotherapeutischen Forschung. Aus Platzgründen werden spezielle Vorgehensweisen wie z. B. versorgungsepidemiologische Ansätze der psychiatrischen Versorgungsforschung hier nicht dargestellt (Kallert 2005), sondern primär auf das experimentelle Vorgehen der klinischen Therapieforschung abgestellt. Angesichts der zunehmenden Bedeutung der „Evidence-Based-Medizin“ (Rosenberg und Donald 1995; Sackett et al. 1996; Woolf 1999) und der in ihr zum Ausdruck gebrachten Vorrangstellung der randomisierten Kontrollgruppen-Untersuchung ist eine solide Therapieforschung von zentraler Bedeutung in der psychiatrischen Therapieforschung.
Grundsätzlich kann man die Therapieforschung unterteilen in retrospektive und prospektive, nichtexperimentelle, quasiexperimentelle und experimentelle Verfahren (Cook und Campbell 1976). Ohne weiter auf Methodik sowie Vor- und Nachteile dieser unterschiedlichen prinzipiellen Forschungsansätze einzugehen, soll zusammenfassend ihre Wertigkeit hinsichtlich des Erkenntnisgewinns klassifiziert werden. Als hypothesengenerierende Verfahren sind nichtexperimentelle Studien, in denen korrelative Zusammenhänge beschrieben werden, fruchtbar. Dabei haben prospektive Studien (Abb. 3) gegenüber der retrospektiven Datenerhebung Vorrang, wegen der größeren Gefahr der Beobachtungsverfälschung und der höheren Wahrscheinlichkeit zufälliger Korrelationen bei letzterer. Die gefundenen Korrelationen können nur in prospektiven experimentellen Untersuchungen auf das Vorhandensein kausaler Beziehungen überprüft werden. Je mehr ein quasiexperimenteller Ansatz sich hinsichtlich des Ausmaßes der Variablenkontrolle dem experimentellen Ansatz nähert, desto stringenter ist die Beweisführung (Problem der internen Validität). Allerdings wird die Generalisierbarkeit der Ergebnisse zunehmend erschwert, je reduktionistischer ein experimentelles Vorgehen ist (Problem der externen Validität; Campbell und Stanley 1963). Ist die experimentelle Überprüfung eines im Rahmen einer nichtexperimentellen Untersuchung gefundenen korrelativen Zusammenhangs zwischen 2 Phänomenen aus ethischen oder forschungspraktischen Gründen nicht möglich, kann ein kausaler Zusammenhang nur postuliert werden, sofern dieser im Theoriekontext als plausibel hingestellt werden kann; eine empirische Beweisführung im engeren Sinne ist aber nicht möglich.

Evaluation psychopharmakologischer Therapieverfahren

Das experimentelle Vorgehen wird für psychopharmakologische Therapiestudien am Menschen allgemein akzeptiert und praktiziert und als methodischer Standard, z. B. für den Nachweis der Wirksamkeit eines Medikaments, angesehen. Aber auch nichtexperimentelle Verfahren spielen eine Rolle; dazu gehört die Erfassung von möglichen Nebenwirkungen während routinemäßig durchgeführter medikamentöser Therapien.
Für die Entwicklung neuer Psychopharmaka sind Tierversuche unabdingbar. Durch sie werden wichtige pharmakologische, toxikologische, biochemische, neurophysiologische und neuroendokrinologische Grunddaten zur Charakterisierung eines potenziellen Psychopharmakons gewonnen. Die Kenntnisse über diese Wirkungseigenschaften der Substanz werden dann durch weitere präklinische Untersuchungen an gesunden Probanden ergänzt. Erst in dieser Weise präklinisch gut untersuchte Substanzen sollten in therapeutischen Versuchen an psychiatrischen Patienten auf ihre Wirksamkeit hin geprüft werden.

Therapiestudien am Tier

Für die Weiterentwicklung eines einmal erkannten psychopharmakologischen Wirkprinzips ermöglichen systematische tierpharmakologische Suchprogramme („screenings“) wichtige Fortschritte. Dabei werden heute nicht mehr die aus vergleichenden tierpharmakologischen Untersuchungen abgeleiteten Indikatoren (z. B. für Neuroleptika: kataleptische Wirkung, Apomorphin-Antagonismus, Hemmung bzw. Aufhebung bedingter Fluchtreaktionen) als absolut sichere Prädiktoren für die spezielle therapeutische Wirksamkeit eines potenziellen Psychopharmakons angesehen. Die Grenzen des tierexperimentellen Screenings wurden bei der Entdeckung der antipsychotischen Wirksamkeit des Clozapins (Stille und Hippius 1971), das bekanntlich im Tierversuch einige der für Neuroleptika bisher als unabdingbar angesehenen Effekte nicht hat, aufgezeigt. Gerade das Fehlen von im Tiermodell darstellbaren Risiken für extrapyramidale Nebenwirkungen bei gleichzeitig guter antipsychotischer Wirksamkeit war das Innovative in dieser Geburtsstunde der atypischen Neuroleptika.
Wenn auch die klassischen tierpharmakologischen Untersuchungsprogramme in ihrer Aussagefähigkeit bezüglich möglicher therapeutischer Wirkungen begrenzter sind als längere Zeit angenommen wurde, so liefern sie doch eine Reihe wichtiger Daten, die für die Erprobung eines Psychopharmakons am Menschen erforderlich sind: pharmakokinetische Daten, toxikologische Daten u. a.. Sie werden ergänzt durch biochemische, neuroendokrinologische, molekularbiologische, genetische Methoden und Bildgebungsverfahren, die auch im Rahmen der präklinischen und klinischen Forschung am Menschen eingesetzt werden können. Dieser Zweig der Psychopharmakologie hat seine Bedeutung v. a. darin, dass die aus ihm erwachsenden Perspektiven in enger Beziehung zur Erforschung der Wirkmechanismen (z. B. biochemische Änderungen im Bereich der Synapsen) bekannter und neuer Psychopharmaka und v. a. auch zur Erforschung der somatischen Grundlagen psychischer Störungen beim Menschen stehen.

Therapiestudien am Menschen

Experimentelle Therapiestudien am Menschen sind in der Psychopharmakologie unverzichtbar, da die Ergebnisse tierexperimenteller Studien nur begrenzt auf den Menschen übertragbar sind und es obendrein für die psychischen Erkrankungen keine zufriedenstellenden Tiermodelle gibt, an denen die spezifische Wirksamkeit eines Pharmakons überprüft werden könnte. Die Untersuchung von Psychopharmaka am Menschen wird – wie die Prüfung anderer Pharmaka – konventionsgemäß in 4 Phasen eingeteilt (Abb. 4).
Untersuchungen in Phase I werden i. Allg. nicht bei psychiatrischen Patienten durchgeführt; sie gehören damit zur präklinischen Forschung. Wenn Untersuchungen der Phase I in Ausnahmefällen bei psychiatrischen Patienten erfolgen, sollten Psychologen und Psychiater mitwirken, damit schon während der Verträglichkeitsuntersuchung auch pharmakopsychologische und evtl. biochemische Befunde erhoben werden, die für die Planung und Indikationsfestlegung der nachfolgenden Phase-II-Untersuchungen Hinweise liefern können.
Im Allgemeinen beginnt die klinische Prüfung eines potenziellen Pharmakons mit der Phase II. Erste Erfahrungen mit einer neuen Substanz werden vom Psychiater in offenen Prüfungen an einem heterogenen Patientengut gewonnen, um den möglichen Indikationsbereich abzugrenzen. Dieses an sich sinnvolle heuristische Vorgehen wird aber aus verschiedenen pragmatischen Gründen seit vielen Jahren immer seltener praktiziert. Wenn ausreichende Hypothesen zur Wirksamkeit der Substanz in einer bestimmten Indikation vorliegen, werden heute in der Regel schon in Phase II randomisierte, plazebokontrollierte Kontrollgruppenuntersuchungen an relativ kleinen Stichproben durchgeführt, um Hinweise für Wirksamkeit und Verträglichkeit an Patienten des Indikationsbereiches zu bekommen und die diesbezüglichen optimalen Dosierungen einzugrenzen.
Die Ergebnisse bilden die Planungsgrundlagen für die Untersuchungen der Phase III, in der an großen Stichproben die Wirksamkeit und Verträglichkeit gegen Plazebo oder ein Standardpräparat getestet werden. Sind die Ergebnisse positiv kann damit die Zulassung des Medikaments in der geprüften Indikation bei der zuständigen Zulassungsbehörde – EMA in Europa, FDA in den USA – beantragt werden.
Ist ein Arzneimittel auf dem Markt eingeführt, so dient die weitere Erforschung dieses Präparates (Phase IV) durch prospektive oder retrospektive Beobachtungsstudien über lange Zeit der Verbesserung der Kenntnisse über Nebenwirkungen und der Erweiterung des Indikationsbereichs. Im Rahmen der Phase-IV-Forschung werden neben naturalistischen (nichtinterventiven) Beobachtungsstudien zunehmend auch Studien mit aufwendigeren Designs (u. a. randomisierte Kontrollgruppenuntersuchungen) durchgeführt, sog. „Real World“ Studien, auch „pragmatische Studien“ genannt. Diese bemühen sich eine Selektion der Patienten, wie sie in Phase-III-Studien stattfindet, zu vermeiden und werden unter eher der realen Versorgung entsprechenden, weniger rigiden Rahmenbedingungen (u. a. Komorbidität und Komedikation erlaubt) durchgeführt. Sie können in offenen oder doppelblinden Kontrollgruppendesigns durchgeführt werden. Solche Studien haben einen wichtigen komplementären Erkenntnisgewinn; wegen der reduzierten methodischen Anforderungen sind die Ergebnisse aber vieldeutiger und bedürfen einer besonders kritischen Interpretation (Möller 2008b). Sehr bekannte, z. T. auch sehr kritisch hinterfragte Studie dieser Art, die viel Aufmerksamkeit erreicht haben, aber auch viel kritisiert wurden, sind z. B. die US-amerikanische CATIE-Studie zum Vergleich verschiedener Antipsychotika (Lieberman et al. 2005) und die STAR-D-Studie zur Evaluation einer sequentiellen Therapie mit verschiedenen Antidepressiva (Rush et al. 2006).

Klinische Prüfung

Die folgenden Ausführungen stellen detailliert die klinische Prüfung von Psychopharmaka dar. Dabei wird der Aspekt des Wirksamkeitsnachweises in den Vordergrund gestellt. Selbstverständlich gelten die dargestellten Methoden und Probleme in analoger Weise auch für andere psychopharmakologische Fragestellungen, z. B. die Verträglichkeit. Die wichtigste Methode zum Nachweis der Wirksamkeit eines Pharmakons ist das doppelblind durchgeführte Parallelgruppenverfahren (Möller und Broich 2010). Dabei werden die Effekte einer zu prüfenden Substanz auf die randomisiert zugeteilten Patienten der Experimentalgruppe mit den Effekten eines Plazebos oder eines bereits eingeführten Pharmakons gleicher Indikation (Standardpräparat) auf die Patienten der Kontrollgruppe verglichen.
Beim gekreuzten Kontrollgruppenvergleich (Crossover-Verfahren) wird nach dem Schema: Gruppe 1: Substanz A → Substanz B; Gruppe 2: Substanz B → Substanz A verfahren. Durch dieses Verfahren lässt sich die Aussagefähigkeit bei bestimmten Fragestellungen erhöhen, z. B. individuelles Ansprechen auf bestimmte Medikamente. Allerdings sind „Carryover-Effekte“ (Überhangsphänomene) zu berücksichtigen, weshalb dieses Verfahren von Zulassungsbehörden nicht als ausreichend aussagekräftig angesehen wird.
Je nach Fragestellung (z. B. Wirksamkeit, Wirksamkeitsvergleich, Nebenwirkungen) stehen diesen aufwendigen Verfahren ökonomischere und praktikablere gegenüber, die insbesondere im Rahmen von Erkundungsstudien über neue Psychopharmaka angewandt werden, z. B. Verfahren ohne Kontrollgruppe, einfachblinde oder nichtblinde Verfahren. Hier sind auch nichtexperimentelle Untersuchungen in Form retrospektiver oder prospektiver Verlaufsbeobachtungen zu nennen. Diese haben v. a. als heuristische Methoden ihren Stellenwert zur Überprüfung von Langzeiteffekten und Langzeitnebeneffekten von bereits eingeführten Präparaten.
Die gesamte Palette dieser letztgenannten Verfahren hat in der klinischen Erprobung von Psychopharmaka ihre Berechtigung, sofern die für die einzelnen Verfahren geltenden Einschränkungen hinsichtlich des Erkenntniswertes beachtet werden.
Auf Ergebnisse exemplarischer Einzelstudien, wie sie im Kap. Psychopharmakotherapie – klinisch-empirische Grundlagen dargestellt sind, sei verwiesen.
Strukturgleichheit von Untersuchungsgruppen
Es wird gefordert, dass sich die zu vergleichenden Patientengruppen in einer psychopharmakologischen Kontrollgruppenstudie lediglich in der Medikation unterscheiden sollen. Mögliche andere Einflussgrößen sind gleichmäßig auf die Behandlungsgruppen zu verteilen (Strukturgleichheit). Um die Strukturgleichheit zu gewährleisten, werden verschiedene Verfahren angewandt (Überla 1973).
Randomisierung
Durch Randomisierung wird eine streng zufällige Zuteilung (Münzwurfprinzip, Zufallszahlentabelle u. a.) der Patienten zur Experimentalgruppe und damit die Strukturgleichheit beider Gruppen angestrebt. Jeder Patient hat absolut die gleiche Chance, der einen oder anderen Gruppe zugeteilt zu werden. Eine zufällige Zuteilung lässt erwarten, dass störende Einflussgrößen die Ergebnisse nicht verfälschen, da sie im Gruppenvergleich gleichermaßen zu Buche schlagen. Das gilt aber nur für große Stichproben. Gerade bei kleinen Fallzahlen besteht die Gefahr, dass sich die beiden Gruppen trotz Zufallszuteilung hinsichtlich verschiedener Variablen wie psychopathologischer Befund, Erkrankungsdauer usw. unterscheiden. Dieser mangelnden Ausbalancierung muss bei der Auswertung Rechnung getragen werden, um zu vermeiden, dass dadurch bedingte unterschiedliche Resultate fälschlicherweise der therapeutischen Intervention zugeschrieben werden.
Parallelisierung
Durch Parallelisierung bzw. Stratifizierung (Schichtung) kann man auch bei kleinen Stichproben erreichen, dass sich die relevanten Einflussgrößen auf die beiden Gruppen gleich verteilen. Bei der Parallelisierung werden die Patienten, die sich in bestimmten Variablen ähneln, zu verschiedenen Paaren oder Blöcken zusammengefasst, sodass die Unterschiede zwischen den Beobachtungseinheiten innerhalb eines Blocks gering, aber zwischen den Blöcken relativ groß sind. Zufällig werden dann die Patienten der beiden Blöcke der Experimentalgruppe und der Kontrollgruppe zugeteilt. Mit diesem Verfahren kann man die Strukturgleichheit beider Gruppen hinsichtlich bestimmter, als relevant angesehener Variablen als gegeben ansehen. Dieses Verfahren ist zwar bei 2 oder 3 bekannten und als relevant angesehenen Einflussgrößen noch praktikabel, erreicht aber seine Grenze, wenn hinsichtlich einer größeren Zahl von Einflussgrößen parallelisiert werden soll. In diesen Fällen können komplizierte Verfahren weiterführen, so die von Taves (1974) vorgeschlagene „Minimalisierungsmethode“, bei der die Zuordnung der Patienten aufgrund der Differenz von einem Muster aller gegebenen Einflussgrößen erfolgt.
Beobachtungsgleichheit
Neben der Strukturgleichheit der untersuchten Patientengruppen ist die Beobachtungsgleichheit wesentlich, d. h. alle Patienten sollen von den gleichen Untersuchern mit dem gleichen Verfahren zu gleichen Zeitpunkten beobachtet und beurteilt werden. Zentrales Wirksamkeitskriterium (auch primärer „Endpunkt“ genannt) in der psychopharmakologischen Wirksamkeitsprüfung ist die Veränderung der Symptomatik, die hypothetisch durch das geprüfte Medikament beeinflusst werden soll, z. B. Depressivität bei der Prüfung eines Antidepressivums. Neben Veränderungen der sonstigen psychopathologischen Symptomatik müssen Veränderungen des körperlich-neurologischen Befundes sowie von klinisch oder theoretisch relevanten biochemischen Parametern untersucht werden, insbesondere um unerwünschte Nebenwirkungen zu erfassen (sekundäre Endpunkte). Da sich die einfache klinische Befunderhebung für die psychopharmakologische Forschung als zu undifferenziert erwies, werden standardisierte Beurteilungsskalen zur quantifizierten Befunddokumentation eingesetzt. Wichtig ist, dass a priori genau definiert wird, was primäre Endpunkte und was sekundäre Endpunkte sind und, falls zur Erfassung der Wirksamkeit mehrere Skalen eingesetzt werden, welche Skala für die statistischen Analysen zum primären Endpunkt verwendet werden.
Verblindung
Durch Verblindung (Untersucher und/oder Untersuchte sind nicht informiert über das applizierte Medikament) sollen Erwartungshaltungen des Patienten und des Untersuchers und dadurch ausgelöste Autosuggestions- und Heterosuggestionseffekte, die das Resultat der Studie verfälschen könnten, ausgeschlossen werden. Diese methodischen Zielsetzungen werden allgemein akzeptiert, ihre Realisierbarkeit bereitet aber Probleme. Immer wieder gelingt es Untersuchern oder Patienten, an bestimmten Phänomenen (Äußerlichkeiten des Medikaments, physikochemische Eigenschaften, Nebenwirkungen) das Plazebo vom Verum zu unterscheiden. In solchen Fällen kann das Versuchsresultat maßgeblich durch Erwartungshaltungen beeinflusst werden, die in ihren Auswirkungen sehr schwer abzuschätzen sind.
Priorität der plazebokontrollierten Prüfung
Bei fast allen Medikamenten zur Therapie psychischer Erkrankungen soll, weil nur so eine ausreichend sichere Beurteilung der Wirksamkeit erfolgen kann, der Wirksamkeitsnachweis im randomisierten kontrollierten Versuch gegen Plazebo im Sinne einer Inferioritätsstudie (Hypothese: Plazebo ist weniger wirksam als Verum) erfolgen. Dies wird von der europäischen und der amerikanischen Zulassungsbehörde für die meisten Indikationsbereiche gefordert (Baldwin et al. 2003; Adam et al. 2005). Am aussagekräftigsten sind 3-Arm-Studien, in denen die neue Substanz mit Plazebo und einem Standardpräparat verglichen wird. Ist eine Prüfung gegen Plazebo aus ethischen Gründen nicht möglich, dann wird die Wirksamkeit eines neuen Psychopharmakons nur durch Doppelblindvergleiche gegen Standardpräparate analysiert. Das führt aber zu einer Reihe methodischer Probleme, u. a. dem des ß-Fehlers bei zu geringer statistischer „power“. In einem solchen Fall wird fälschlicherweise aus der Tatsache, dass ein Unterschied zwischen 2 Beobachtungsgruppen nicht gefunden werden konnte, auf die Gleichheit der Gruppen geschlossen. Diese Problematik ist bei Prüfungen gegen Standardpräparate nicht mit ausreichender Sicherheit zu umgehen. Bei Prüfung gegen ein Standardpräparat allein ist das bevorzugte Verfahren die Äquivalenzstudie. Allerdings kann durch zu großzügige Definition des Äquivalenzbereichs (z. B. HAMD-Score-Differenz von 3 erlaubt) Äquivalenz simuliert werden, obwohl aus klinischer Sicht eigentlich keine Äquivalenz besteht. Dies ist kritisch zu prüfen!
Superioritätsstudien, die die Überlegenheit eines Medikaments gegen ein Standardmedikament darstellen, werden kaum durchgeführt, da nach allen Erfahrungen in der Regel nicht von Überlegenheit ausgegangen werden kann (Abb. 5). Wenn in Abb. 5 laut Protokoll auf Nichtunterlegenheit geprüft werden sollte, entsprechen A, B und C einer nachgewiesenen Nichtunterlegenheit, im Falle D besteht sogar Überlegenheit der experimentellen Therapie gegenüber dem Standard. In den Konstellationen E und F ragen die Konfidenzintervalle über die Nichtunterlegenheitsschranke hinaus, damit sind die Ergebnisse nicht beweiskräftig und Nichtunterlegenheit kann nicht attestiert werden. Ergebnis G würde einer Unterlegenheit der experimentellen Therapie gegenüber dem Therapiestandard entsprechen.

Analyse der Wirkfaktoren

Univariate Dependenzanalyse
In der klinischen psychopharmakologischen Forschung wie überhaupt in der Therapieforschung bei psychisch Kranken besteht die schwierige Situation, dass die unabhängige Variable, die experimentell variiert bzw. manipuliert wird, nur einen Teil der Gesamtmenge aller Variablen ausmacht, die für die Veränderung der abhängigen Variablen verantwortlich sind (Abb. 6). Die Effekte der übrigen Einflussgrößen (Störfaktoren) sind nicht kontrolliert und gehen als „Zufallsfehler“ in das Endergebnis ein. Die Größe dieses Fehlers kann man durch das Kontrollgruppenverfahren analysieren. Obendrein kann versucht werden, durch statistische Analysen die wesentlichen Faktoren für den Zufallsfehler herauszufinden und diese ggf. in neuen Experimenten zu überprüfen.
In der klinischen psychopharmakologischen Forschung wird üblicherweise eine Abstraktion von den anderen Einflussgrößen zugunsten der Wirkvariablen, dem Pharmakon (ggf. in unterschiedlichen Dosierungen), vollzogen. Dem entspricht die Bevorzugung univariater experimenteller Studien, bei denen die anderen Einflussgrößen nicht variiert oder manipuliert werden. Zumeist werden die Ergebnisse solcher univariater klinisch-psychopharmakologischer Studien lediglich sekundär unter dem Aspekt ausgewertet, korrelative Zusammenhänge zwischen bestimmten anderen Einflussgrößen und Therapieresultaten herzustellen. Dabei interessieren z. B. Zusammenhänge mit der Serumkonzentration des Medikaments oder mit anderen, durch das Medikament induzierten Veränderungen, z. B. Änderung der Konzentration von Transmittermetaboliten oder von neuroendokrinologischen Parametern.
Multivariate Dependenzanalyse
Ergeben sich mehrere therapierelevante Faktoren bzw. sind von vornherein mehrere dieser Faktoren bekannt, kann man versuchen, gleichzeitig den Effekt dieser einzelnen Faktoren sowie die Wechselwirkung zwischen den Faktoren abzuschätzen, indem man in einem Experiment mehrere Faktoren systematisch variiert (Abb. 7). Eine solche multivariate Dependenzanalyse ist gegenüber der oben beschriebenen univariaten Dependenzanalyse wesentlich informationsreicher. Allerdings setzt sie erheblich größere Fallzahlen voraus, insbesondere wenn man möglichst viele für die Therapie bei psychischen Krankheiten relevante Faktoren einbeziehen will. Bei nur 4 unabhängigen Variablen mit je 2 Ausprägungen oder Modalitäten ergeben sich z. B. 16 Zellen. Besetzt man jede Zelle mit nur 5 Patienten, benötigt man bereits 80 Patienten. Wegen der großen Zahl von Einflussfaktoren stoßen multifaktorielle Ansätze in der klinischen psychopharmakologischen Therapieforschung schnell an die Grenzen der verfügbaren Patientenzahlen.
Reduziert man in einem multivariaten Design die Einflussgrößen von vornherein auf wenige, entsteht das Problem, dass in den einzelnen Zellen zwar eine homogene Verteilung der als relevant angesehenen Faktoren, aber eine inhomogene Verteilung der nicht als relevant angesehenen Faktoren vorliegt und diese evtl. das Ergebnis wesentlich beeinflussen. Wegen dieser Probleme wird in der klinisch-psychopharmakologischen Therapieforschung immer wieder auf das Modell univariater Dependenzanalysen unter der reduktionistischen Hypothese zurückgegriffen, dass alle anderen Faktoren im Vergleich zu der untersuchten Variablen vernachlässigt bzw. in weiteren multivariaten statistischen Auswertungsschritten hinsichtlich ihrer Relevanz beurteilt werden können.
Statistische Auswertung
Je nach Art der Studien kommen bei der Auswertung unterschiedliche statistische Verfahren zur Anwendung, die vom einfachen Mittelwertsvergleich über Korrelationsstatistiken bis hin zu multivariaten Verfahren wie Varianz- und Kovarianzanalyse und Verfahren der statistischen Analyse von Einzelfallstudien reichen. Jeder statistische Test beruht auf Voraussetzungen – bei vielen Verfahren z. B. die Normalverteilung – die zunächst geprüft werden müssen. Werden diese verletzt, so ist der Test in der Regel nicht mehr anwendbar. Bei allen statistischen Auswertungsmethoden, die auf Mittelwertvergleichen von Stichproben beruhen, muss damit gerechnet werden, dass man durch die Reduktion der Daten auf Mittelwerte erhebliche Informationsverluste hinnimmt. Durch zusätzliche statistische Analysen sollte versucht werden, derartige durch Mittelwertbildung bedingte Informationsverluste zu kompensieren.
Wichtig ist, dass neben der „Per-protocol-Analyse“, die sich auf die Patienten bezieht, die die Therapiephase absolviert haben, auch die „Intent-to-treat-(ITT-)Analyse“ durchgeführt wird, also das „Worst-case-Szenario“ unter Einbeziehung aller „drop outs“. Die in ihren Ergebnissen im Vergleich zur Per-protocol-Analyse weniger optimistische ITT-Analyse wird von den Zulassungsbehörden als Hauptentscheidungskriterium herangezogen. Bei der ITT-Analyse wird der jeweils letzte beobachtete Wert des zu untersuchenden Phänomens von Patienten, die die Untersuchung vorzeitig abgebrochen haben, weitergeführt und geht so in die Auswertung der Daten mit ein („last observation carried forward“, LOCF-Methode). In den letzten Jahren wurde zunehmend anstelle der „LOCF-Methode“ die „Mixed-model-repeated-measures-(MMRM-)Methode“ vorgeschlagen, die unter einigen Aspekten vorteilhafter scheint (Gueorguieva und Krystal 2004; Mallinckrodt et al. 2004).
Kommen verschiedene klinische Studien zu gleichlautenden, statistisch gesicherten und klinisch relevanten Resultaten, so kann das Ergebnis als gesichert angesehen werden.
Stichprobengröße
Von statistischer Seite wird an den klinischen Prüfer die Forderung nach ausreichender statistischer Aussagekraft der Stichprobe herangetragen, um den „Fehler der kleinen Zahl“ zu verhindern. Je größer die Stichprobe, desto geringere Wirkungsunterschiede können bei der statistischen Auswertung der Daten erkannt werden. Dies kann auch missbräuchlich genutzt werden in dem Sinne, dass relativ kleine Wirksamkeitsunterschiede durch Aufblähung der Stichprobe als signifikant dargelegt werden. In einem solchen Fall muss dann die Frage der klinischen Relevanz solcher kleinen Unterschiede geprüft werden. Genaue Vorschriften über die richtige Größe einer zu untersuchenden Stichprobe existieren nicht, da die adäquate Größe einer Stichprobe von der Art der Fragestellung und der Art der Stichprobe abhängt. Es gibt Formeln, nach denen man die Größe der Stichprobe in Abhängigkeit von der Fragestellung und der zu erwartenden Unterschiede des Zielparameters abschätzen kann („Power-Analyse“).
Je einheitlicher die Stichprobe bezüglich Diagnose, Erkrankungsdauer, Lebensalter, Ausprägungsgrad der Symptome u. a., desto einfacher ist die Auswertung und desto größer die Wahrscheinlichkeit eindeutiger Ergebnisse. Mit diesen Vorteilen einer homogenen Stichprobe erkauft man sich aber gleichzeitig eine schlechte Übertragbarkeit der Ergebnisse in die therapeutische Praxis aufgrund der mangelnden Repräsentativität für die Grundgesamtheit der zu behandelnden Patienten (fehlende externe Validität). Auch unter dem Aspekt von Erkundungsstudien, die die Interferenz des Pharmakons mit bestimmten Persönlichkeits- oder Krankheitsmerkmalen analysieren, ist die Forderung nach Homogenität der Stichprobe einzuschränken. Hier kann gerade eine sehr heterogene Stichprobe intensiver zur Hypothesengeneration anregen als eine bezüglich der Merkmalspluralität reduzierte. Einen Eindruck von der Problematik der Stichprobenauswahl gibt Abb. 8.
Selektion der Stichprobe
In Studien einbezogene Patienten stellen immer eine besondere Selektion aus der psychiatrisch zu versorgenden Patientenpopulation sowie eine Selektion der Patienten mit einer bestimmten psychiatrischen Diagnose (Abb. 8) dar. Es gibt Hinweise, dass die in Phase-III-Studien eingeschlossenen Patienten nur etwa 10–20 % der Grundgesamtheit der Patienten der Diagnosegruppe in einer Klinik/Ambulanz entsprechen (Zimmermann et al. 2002). Depressive Patienten z. B., die klinisch stationär behandelt werden, entsprechen hinsichtlich der Ansprechbarkeit auf Antidepressiva in der Regel nicht den ambulant behandelten Patienten, da Patienten, die schlecht auf Antidepressiva ansprechen, in der Klinik überrepräsentiert sind. Das bringt die methodische Schwierigkeit mit sich, dass die zu prüfenden Antidepressiva wahrscheinlich in der Klinik einem besonders harten Test ausgesetzt sind. Fasst man die „Antidepressiva-non-responder“ als eine Subpopulation der Depressiven auf, so muss man in Erwägung ziehen, dass in der Klinik vielfach antidepressive Substanzen an Personen geprüft werden, denen aufgrund bestimmter Dispositionen nicht ausreichend mit Antidepressiva geholfen werden kann. Das führt evtl. dazu, dass die Prüfsubstanz verworfen wird, ohne an einer ambulanten Subpopulation, die besser auf Antidepressiva reagiert, geprüft worden zu sein. Zunehmend wird deswegen und u. a. auch aus Praktibilitätsgründen (schnellere Rekrutierungsmöglichkeit) die Prüfung der meisten neuen Psychopharmaka vorrangig bei ambulanten Patienten durchgeführt. Allerdings führt das offensichtlich zu neuen Problemen, z. B. einer höheren Plazeboantwort und damit geringeren Plazebo-Verum-Differenz bei Antidepressivastudien, u. a. dadurch, dass mehr Patienten mit einer Symptomatik geringeren Intensitätsgrades eingeschlossen werden (Kahn et al. 2002; Kirsch 2002; Möller 2008a).
Neben solchen Aspekten der Selektion der Patienten im Rahmen von Studien ist zu berücksichtigen, dass je stärker ein Untersuchungsansatz standardisiert und je einschränkender er in den therapeutischen Möglichkeiten ist, desto stärker ist auch die Patientenselektion. Diesbezüglich gehen z. B. plazebokontrollierte Studien mit der größten Patientenselektion einher, d. h. viele Patienten müssen von solchen Studien ausgeschlossen werden, während z. B. einfache Anwendungsbeobachtungen weitgehend voraussetzungsfrei für die einzuschließenden Patienten sind (Seemüller et al. 2010, 2014; Möller et al. 2007). Allerdings führt bei Anwendungsbeobachtungen (heute meistens „non-intervention studies“ genannt) das Fehlen einer Kontrollgruppe leicht zu gebiasten Ergebnissen, wie z. B. Überbewertung der Wirksamkeit des untersuchten Medikaments.
Wegen der Selektionsaspekte ist es wichtig, ein Medikament nicht nur in methodisch restriktiven Studienansätzen mit hoher interner Validität, aber geringer externer Validität (also schlechter Generalisierbarkeit) zu prüfen, sondern komplementär auch in weniger restriktiven Studienansätzen, deren Ergebnisse besser generalisierbar sind.
Das sind einerseits Anwendungsbeobachtungen (z. B. Möller et al. 2007) oder wenn man Ansprüche an methodischen Standards hat, die über die naturalistischen Anwendungsbeobachtungen hinausgehen, dann sind in diesem Kontext die in den letzten Jahren so viel diskutierten „Effectiveness-“ oder „Real-world-Studien“ zu erwähnen, die einen methodischen Mittelweg zwischen Phase-III-Studien und Anwendungsbeobachtungen gehen (Lieberman et al. 2005; Jones et al. 2006; Rush et al. 2006; Möller 2008b).

Evaluation psychotherapeutischer Verfahren

Sowohl die Psychotherapieforschung als auch die Evaluationsansätze der psychiatrischen Versorgungsforschung bemühen sich heutzutage den dargestellten Methodenidealen der Therapieforschung, wie sie am Beispiel der klinisch-psychopharmakologischen Therapieforschung dargestellt wurden, gerecht zu werden (Khan et al. 2012; Cuijpers et al. 2009; Barth et al. 2013), allerdings mit den notwendigen Einschränkungen. Das gilt nicht nur für die nachfolgend beispielhaft dargestellte Psychotherapieforschung (Grawe et al. 1994; Grawe 1998; Bateman und Fonagy 1999; Leichsenring et al. 2004; Linehan et al. 2006), sondern auch für die psychiatrische Versorgungsforschung (Kallert 2005).
Stützte sich früher die Einschätzung der Wirksamkeit psychotherapeutischer Maßnahmen weitgehend auf kasuistische Mitteilungen und auf subjektive, auf Evidenzerlebnissen beruhende globale Wertungen durch den jeweiligen Psychotherapeuten, so hat sich in den letzten 40 Jahren unter dem Einfluss der z. T. stark experimentell ausgerichteten psychologischen Therapieformen, wie der Verhaltenstherapie, eine methodisch differenzierte empirische Psychotherapieforschung entwickelt. Es wurde versucht,
  • die gängigen Verfahren klinischer Therapieforschung (wie sie in der klinischen Psychopharmakologie entwickelt wurden) durch entsprechende Modifikationen für den speziellen Forschungsbereich der Psychotherapie zu adaptieren,
  • bisher nicht genügend beachtete kritische Punkte in der klinischen Therapieforschung anzugeben,
  • neue Lösungsstrategien für spezielle Probleme der Psychotherapieforschung zu entwickeln.
Neben der „Outcome-Forschung“, also der Untersuchung der Wirksamkeit, hat dabei die „Prozessforschung“, also die Untersuchung, welche Wirkfaktoren relevant sind, für einen längeren Zeitraum einen wichtigen Stellenwert bekommen (Grawe et al. 1990; Ambuhl und Grawe 1988, 1989; Arnold und Grawe 1989). Im Rahmen dieser Prozessforschung bekamen verschiedene methodische Ansätze der experimentellen Einzelfallstudien oder Einzelgruppenstudien eine wichtige Bedeutung. Inzwischen scheint aber die Phase der Prozessforschung, die wirksame Psychotherapiefaktoren identifizieren sollte, weitgehend abgeschlossen. Der Fokus der Therapieforschung liegt seit einem Jahrzehnt in der experimentellen Wirksamkeitsprüfung im Rahmen des randomisierten Kontrollgruppenvergleichs.
Ausgehend von den bereits am Beispiel der klinischen Psychopharmakotherapieforschung dargestellten Methoden und Problemen klinischer Therapieforschung wird im Folgenden nur auf deren Modifikation sowie auf einige spezielle methodische Probleme der Psychotherapieforschung eingegangen.
Komplexität der Einflussfaktoren
Die Komplexität der Fragestellung einer differenziellen Psychotherapieforschung wird deutlich, wenn man die Vielfalt der relevanten Variablen des psychotherapeutischen Prozesses bedenkt. Die relevanten Variablen werden in der folgenden Übersicht dargestellt. Die Vielfalt der Variablen gibt zu denken, ob einfache Evaluationsverfahren, wie z. B. univariate Dependenzanalysen, überhaupt adäquate Aussagen ermöglichen. Während man in der Psychopharmakologie mit einem gewissen Recht davon ausgeht, dass die psychotrope Substanz den Haupttherapiefaktor darstellt, und somit andere Einflussgrößen (z. B. Arzt-Patient-Verhältnis) weniger Bedeutung haben, ist es in der Psychotherapieforschung fragwürdig, ob die jeweils spezielle therapeutische Technik den mehr oder weniger wesentlichen Therapiefaktor darstellt und ob nicht andere Faktoren mehr oder weniger gleichrangig sind, z. B. Therapeut-Patient-Interaktion, Patientenvariablen und Therapeutenvariablen.
Einflussfaktoren bei psychotherapeutischen Verfahren
  • Erkrankung: Art, Intensität, Dauer, Spontanverlaufstendenz u. a.
  • Patient: Alter, Geschlecht, Intelligenz, Ausbildung, Einkommen, Schichtzugehörigkeit, Persönlichkeitsstruktur, biografische Fakten, Motivation, Erwartungshaltung, Umwelteinflüsse u. a.
  • Therapeut: Alter, Geschlecht, Schichtzugehörigkeit, Schulzugehörigkeit, Ausbildungsstand, Persönlichkeitsstruktur, Einfühlsamkeit, emotionale Wärme u. a.
  • Spezifische Therapiefaktoren: in der Psychoanalyse z. B. Deutung und Übertragung; in der Verhaltenstherapie z. B. Desensibilisierung, Konditionierung, Modelllernen und kognitive Therapieansätze; in der nondirektiven Gesprächspsychotherapie z. B. nondirektive Gesprächsführung und bestimmte Therapeutenvariablen
  • Unspezifische Therapiefaktoren: Variablen der Therapeut-Patient-Interaktion und der therapeutischen Gesamtsituation (z. B. Glaubwürdigkeit, Suggestion), die von den Vertretern der jeweils zu prüfenden Therapiemethode als zweitrangig für den therapeutischen Ausgang angesehen werden
  • Unkontrollierte Außeneinflüsse: Änderung in der Lebenssituation, Beratung durch Freunde und Bekannte, andere Therapien u. a.
Das würde bedeuten, dass eine Reduktion der Analyse allein auf die therapeutische Methode inadäquat ist und versucht werden muss – sofern experimentelle Forschung betrieben wird, in multivariaten Dependenzanalysen von vornherein mehrere psychotherapeutisch relevante Faktoren systematisch zu variieren. Insgesamt gesehen wird in der Psychotherapieforschung den anderen Einflussgrößen zunehmend mehr Bedeutung beigemessen. Aus der Komplexität des psychotherapeutischen Geschehens (Abb. 9) wurde die Notwendigkeit einer sehr differenzierten Beschreibung aller relevanten Therapeuten-, Patienten-, Therapie- und Umweltmerkmale sowie die Notwendigkeit multivariater Forschungsstrategien experimenteller („manipulativ-generalisierende Forschung“) und nichtexperimenteller Art („korrelativ-naturalistische Forschung“) abgeleitet (Kiesler 1977).
Angesichts eines so komplexen Forschungsgegenstands ist kritisch zu prüfen, ob die Praxis bisheriger Psychotherapieforschung geeignet ist, die oben formulierte Fragestellung einer differenziellen Psychotherapieforschung durch experimentelle oder korrelative Studien zu beantworten, oder ob nicht gerade eine so differenzierte Fragestellung nur beantwortet werden kann, wenn zunehmend eine überregionale Kooperation mit zentralisierter Forschungsplanung eingeführt wird.

Fremdkontrollgruppenverfahren

Nach langen methodenkritischen Diskussionen wurden die für die psychopharmakologische Evaluationsforschung beschriebenen Designtypen in der Psychotherapieforschung zunehmend akzeptiert. Schaut man sich entsprechende Reviews und Metaanalysen an, stehen randomisierte Kontrollgruppenuntersuchungen („randomised controlled trials“, RCTs) im Zentrum der Wirksamkeitsforschung und somit der evidenzbasierten Psychotherapie (z. B. Barth et al. 2013).
Die für die psychopharmakologische Evaluationsforschung beschriebenen Designtypen werden in der Psychotherapieforschung grundsätzlich akzeptiert (Cuijpers et al. 2009; Barth et al. 2013; Khan et al. 2012). Die in der Psychotherapieforschung allgemein stärkere Berücksichtigung intraindividueller Merkmalsunterschiede führte aber zu einer etwas skeptischeren Bewertung von Gruppendesigns. Die erkenntnisbezogenen Vorzüge des Kontrollgruppenverfahrens – in der Psychotherapieforschung genauer als Fremdkontrollgruppenverfahren bezeichnet – werden aber durchaus gesehen. In der Psychotherapieforschung lässt sich das Prinzip der Verblindung der Therapie nicht realisieren, allenfalls „Ratings“ durch Untersucher, die hinsichtlich der Therapiegruppenzuordnung ohne Information sind (sog. „blinded rater“). Auch eine Placebokontrollgruppe im strengen Sinn ist nicht möglich. Dies sollte beim Vergleich von Psychotherapieergebnissen mit Ergebnissen von Psychopharmakastudien berücksichtigt werden (Khan et al. 2012). Ein „blinded rater“ ist (im Gegensatz zum Meta-Analyse-Ansatz von Khan et al. 2012) im Verblindungseffekt nicht gleichzusetzen mit einer echten Verblindung der Therapiealternativen. Durch diese methodischen Einschränkungen unterliegen die Ergebnisse von Psychotherapiestudien einem nicht unerheblichen positiven Bias.
Plazebogruppe
Es wird versucht, Kontrollgruppenverfahren im Stile der klinischen Psychopharmakologie durchzuführen, bei denen die eine Gruppe psychotherapiert wird, während die andere Gruppe als Plazebogruppe fungiert. Mit den Patienten der Plazebogruppe wird keine spezifische psychotherapeutische Behandlung durchgeführt, sondern es werden nur Gespräche über neutrale Themen abgehalten. Die praktische Realisierung von Plazebogruppen in Psychotherapiestudien fällt aber sehr schwer (Hegerl und Mergl 2010; Hegerl et al. 2010), da eine Eingrenzung auf neutrale Themen häufig nicht möglich ist und der Patient immer wieder versucht, seine Probleme zur Sprache zu bringen. Außerdem wird die Plazebotherapie oft vom Patienten als unglaubwürdig empfunden, sodass es dem Therapeuten kaum gelingt, durch geeignete Instruktionen ähnliche Erwartungshaltungen wie in der Therapiegruppe zu erzeugen. Dies ist besonders problematisch, denn gerade viele Ergebnisse aus der Psychotherapieforschung belegen die Bedeutung der Variablen Glaubwürdigkeit der Therapie und Erwartungshaltungen des Patienten.
Andere Kontrollgruppen
Zur Umgehung dieses Problems bietet es sich an, auch die zweite Patientengruppe mit einer spezifischen psychotherapeutischen Technik zu behandeln. Allerdings werden dann nicht mehr spezifische und unspezifische Therapiefaktoren im Gruppenvergleich, sondern 2 verschiedene therapeutische Techniken auf vergleichbare oder unterschiedliche Wirksamkeit analysiert.
Eine andere Möglichkeit besteht darin, für die Kontrollgruppe Patienten zu nehmen, die nicht besonders („treatment as usual“, TAU) behandelt werden. Auch Kontrollgruppen aus Patienten ohne jegliche Behandlung und ohne eigenen Behandlungswunsch sind kaum zusammenstellbar. Obendrein sind sie gegenüber einer Patientengruppe mit Behandlungswunsch bezüglich vieler Variablen nicht äquivalent und haben meistens eine ungünstigere Prognose. Wegen dieser Problematik greift man in der Psychotherapieforschung oft für die Kontrollgruppe auf Patienten zurück, die auf der Warteliste für die jeweilige Therapie stehen. In der praktischen Durchführung fällt es allerdings schwer, Therapiegruppe und Wartegruppe äquivalent zu halten, da man bei der Therapieentscheidung durch die aktuellen Schwierigkeiten eines Patienten, z. B. durch Suizidäußerungen, unter Druck gesetzt werden kann. Weiterhin entstehen Probleme dadurch, dass Patienten, die auf die Therapie warten müssen, aus ihrer Sicht nicht ausreichend intensiv behandelt werden und deshalb zwischenzeitlich gezielte psychotherapeutische Hilfe oder zumindest unspezifische Hilfe durch Hausärzte, Seelsorge etc. holen.

Einzelgruppenuntersuchungen

Einzelgruppenuntersuchungen werden insbesondere in der Phase der Prozessforschung als heuristisches Verfahren viel durchgeführt. Wegen einiger praktischer und methodischer Probleme des Fremdkontrollgruppenvergleichs besteht bei einigen Psychotherapieforschern weiterhin eine Tendenz, Einzelgruppenuntersuchungen eine gewisse Bedeutung beizumessen, ohne damit die prinzipiell höhere Wertigkeit des randomisierten Kontrollgruppenverfahrens in Frage zu stellen. Beim Eigenkontrollgruppenverfahren werden mehrere Messungen an dem gleichen Patientenkollektiv zu unterschiedlichen Zeitpunkten – beim einfachsten Einzelgruppendesign vor und nach der Therapie – durchgeführt und miteinander verglichen. Die Befürworter dieser Methode betonen, dass ihr großer Vorteil darin besteht, dass Experimental- und Kontrollgruppe („Eigenwartegruppe“) identisch sind.
Nachteil dieses Verfahrens ist die Tatsache, dass nicht bestimmbar ist, inwieweit das Therapieergebnis durch Spontanverlauf und Plazeboeffekte bedingt ist. Diese Problematik ist z. T. durch Modifikationen des einfachen Einzelgruppenvergleichsplanes lösbar. Zu nennen sind hier das Einzelgruppenverfahren mit Zeitreihenplan sowie das Einzelgruppenverfahren mit äquivalentem Zeitstichprobenplan.
Zeitreihenplan
Einzelgruppenverfahren mit Zeitreihenplan sind dadurch charakterisiert, dass sowohl vor als auch nach der Behandlung mehrere Messungen durchgeführt werden, z. B. bei der ersten Kontaktaufnahme, vor Beginn der Behandlung, bei Beendigung der Behandlung und bei einer Nachuntersuchung. Wichtig ist dabei, dass die Zeitabstände zwischen den einzelnen Messungen konstant gehalten werden. Ein solcher Zeitreihenplan erlaubt mehr Aussagen als eine Zweipunktemessung vor und nach der Therapie. Insbesondere hilft er, Spontanverlaufstendenzen der Krankheit abzuschätzen.
Äquivalenter Zeitstichprobenplan
Das Einzelgruppenverfahren mit äquivalentem Zeitstichprobenplan unterscheidet sich vom eben erwähnten Design insofern, als eine wiederholte Einführung und Absetzung der therapeutischen Variablen erfolgt. Dadurch kann das Problem der Interferenz therapeutischer Effekte mit dem Spontanverlauf besser unter Kontrolle gebracht werden. Die Methode ist nur bei psychotherapeutischen Verfahren durchführbar, bei denen kurzfristige therapeutische Interventionen möglich sind, und sie setzt wegen des wiederholten Einführens und Absetzens der therapeutischen Variable eine ausreichende Dauer der Erkrankung voraus.

Einzelfallstudien

Gruppendesigns werden in der Psychotherapieforschung insbesondere unter dem Aspekt kritisiert, dass gruppenstatistische Auswertungsverfahren mit einem Informationsverlust über die Einzelperson verbunden sind und damit den unterschiedlichen individuellen Gegebenheiten nicht genügend Rechnung tragen. Betont wird auch, dass die unzureichende Vergleichbarkeit der Stichprobenzusammensetzung beim Fremdkontrollgruppenverfahren zu Trugschlüssen führen könne, und dass der in einem Gruppenvergleich gefundene größere Effekt eines bestimmten Verfahrens ggf. auf eine Besserung bei nur wenigen Patienten zurückzuführen ist und somit für das Gros der Zielpopulation irrelevant sei. Weiter ist es in der klinisch-psychotherapeutischen Forschung oft gar nicht möglich, ausreichend große Gruppen von Patienten mit einer bestimmten Störung zu finden.
Diese methodologischen und forschungspraktischen Überlegungen haben in der Psychotherapieforschung, insbesondere zu Zeiten einer vorrangig auf Prozessforschung abstellenden Psychotherapieforschung, zu vermehrtem Interesse an der Durchführung und methodischen Verbesserung von Einzelfallstudien geführt (Frey et al. 1979). Diese sind aber heute eher von heuristischer Bedeutung für die allgemeine Evaluation von Psychotherapieverfahren, z. B. im Sinne der Prozessforschung zur Analyse einzelner Wirkfaktoren, oder im Rahmen einer sehr stringent empirisch vorgehenden z. B. Verhaltenstherapie im Einzelfall.
Grundsätzlich kann man zwischen Einzelfallstudien mit je einer Messung vor und nach der Behandlung und experimentellen Fallstudien unterscheiden, bei denen eine systematische Variation der therapeutischen Variablen, z. B. im Sinne eines ABAB-Designs, mit mehrfacher Messung der Veränderungen erfolgt. Dabei werden Variablen, von denen bestimmte therapeutische Effekte angenommen werden, unter experimenteller Kontrolle eingeführt, wieder zurückgenommen und wieder eingeführt, wobei jeweils die erfolgten Veränderungen gemessen werden. Für die Beurteilung der Therapieeffekte ist eine ausreichend lange Grundkurve („baseline“) der gemessenen Variablen wichtig.
Multiple Baseline-Technik
Falls das Absetzen der therapeutischen Variablen, wie es zum Nachweis der therapeutischen Relevanz eines Faktors erforderlich ist, aus praktisch-therapeutischen Erwägungen undurchführbar ist, existiert in der multiplen Baseline-Technik ein mögliches Alternativverfahren zum Nachweis gezielter therapeutischer Effekte. Bei dieser Untersuchungsmethode werden spezifische, voneinander unabhängige Zielverhaltensweisen definiert und in Baselines erfasst. Im Anschluss daran wird eine spezielle therapeutische Technik auf die erste Zielverhaltensweise angewandt. Wenn die Technik erfolgreich ist und die ausgewählten Zielverhaltensweisen wirklich unabhängig voneinander sind, dann sollten bei der ersten Zielverhaltensweise Veränderungen eintreten, während bei den anderen Verhaltensweisen nur geringe oder überhaupt keine Veränderungen feststellbar sein sollten. Dann wird die Technik auf eine zweite Zielverhaltensweise angewandt, und es werden wiederum die resultierenden Veränderungen, die sich nur bei dieser Verhaltensweise finden sollen, registriert. Das Design mit multipler Baseline ist abgeschlossen, wenn die therapeutische Variable auf alle festgelegten Zielreaktionen angewandt wurde. Es gibt keine speziellen Regeln im Hinblick darauf, wie viele Zielverhaltensweisen man benötigt, um die Wirkung der Behandlung sicher nachweisen zu können, doch wird man den Effektivitätsnachweis der therapeutischen Technik wohl bei mindestens 3 Zielverhaltensweisen verlangen.
Auswertung von Einzelfallstudien
Die Auswertung von Einzelfallstudien ist durch bessere statistische Analysemöglichkeiten methodisch verbessert worden. Einzelfallanalysen implizieren eine wiederholte Messung, was – wie in allen Designs mit wiederholten Messungen – eine Fülle von Problemen aufwirft. Der Einsatz des gleichen Messinstruments führt zu Übungs- und Ermüdungseffekten und damit zur Abhängigkeit der Beobachtungen voneinander. Die seriale Abhängigkeit der sukzessiven Beobachtungen kann obendrein zu unterschiedlichen Erhebungszeitpunkten erheblich variieren. Auf den Einsatz der herkömmlichen, auf der klassischen Testtheorie beruhenden Auswertungsverfahren (Petermann et al. 1977), die die Unabhängigkeit der Einzelbeobachtungen verlangen, muss aus diesem Grunde verzichtet werden.
Besonders die Zeitreihenanalyse ist zu nennen, die Aussagen in Kausalrichtung möglich macht, also über die ledigliche Feststellung von Korrelationen hinausführt (Abb. 10a-d). Die Zeitreihenanalyse fasst die Merkmalsausprägung zu verschiedenen Beobachtungszeitpunkten als Ausdruck eines prozessunabhängigen Verlaufs ab und strebt die Zerlegung der Entwicklung in einzelne Komponenten – Trend, Oszillation um den Trend, Fehlkomponente – an. Die einzelnen Komponenten werden systematisch geschätzt und damit wird die Frage beantwortet, welchen Anteil sie am Verlauf des Gesamtprozesses haben. Dafür liegen verschiedene deterministische und stochastische Modelle vor, wobei die deterministischen wegen der großen Anzahl unbekannter Störfaktoren in der Psychotherapieforschung als weniger adäquat eingeschätzt werden (Petermann 1977; Möller et al. 1989).
Vor- und Nachteile der Einzelfallstudien
Die Ergebnisse von Einzelfallexperimenten sind zunächst auf die untersuchte Person beschränkt. Durch ihre Wiederholung an anderen Versuchspersonen und Auswertung aller Ergebnisse ist eine Generalisierung der Einzelfallergebnisse auf größere Populationen aber prinzipiell möglich. Bei der Einzelfallauswertung entfallen Fehler, die bei der statistischen Verrechnung von Gruppenergebnissen auftreten. So können sich z. B. bei einer Therapie die Werte der Patienten in unterschiedlicher Richtung ändern, ein Phänomen, das durch die Berechnung von Durchschnittswerten verwischt wird. Die experimentelle Einzelfalluntersuchung ist hinsichtlich eines individuumzentrierten Forschungsansatzes aussagekräftiger. Sie birgt aber viele Probleme in sich. Aus der Art des Verfahrens wird bereits klar, dass es nur für psychotherapeutische Techniken, die bereits bei kurzzeitiger Einwirkung einen Effekt haben (z. B. bestimmte verhaltenstherapeutische Techniken), durchführbar ist. Obendrein setzt dieses Verfahren voraus, dass nach Absetzen der Technik wieder eine Symptomatik nachweisbar ist. Nur so ist es möglich, bei einem zweiten Durchgang mit erneuter Einführung des therapierelevanten Faktors dessen Wirksamkeit zu zeigen. Besteht diese Möglichkeit nicht, so bleibt die Vermutung, dass externe Einflüsse bzw. der Spontanverlauf und nicht die therapeutische Intervention zur Besserung bzw. Heilung geführt haben.
Insgesamt kann man sagen, dass die Einzelfalluntersuchung bei bestimmten Fragestellungen aussagefähig ist, bei anderen dagegen nicht. Interferenzen aus anhaltenden Therapieeffekten und Spontanverlauf sind bei katamnestischen Untersuchungen im Rahmen von Einzelfallstudien nicht beurteilbar. Auch die Frage der Spezifität bzw. Unspezifität der therapeutischen Einwirkung lässt sich schwer entscheiden, besonders wenn es sich nicht um sehr klar umrissene therapeutische Techniken, sondern um verschiedene Arten der Gesprächsführung handelt, bei denen der Übergang von spezifischen zu nichtspezifischen Gesprächsformen fließend ist. Schließlich lassen sich mit der Einzelfallmethodik nur begrenzt Aussagen über die unterschiedliche Wirksamkeit von 2 therapeutischen Techniken machen.

Beschreibung der therapeutischen Technik

Ein Hauptproblem in der Psychotherapieforschung besteht darin, die spezifischen Therapiefaktoren unter bestimmten Kategorien zu beschreiben. Dies ist erforderlich, weil die theoretische Ausrichtung des Therapeuten allein keine ausreichende Beschreibung darstellt. Therapeuten gleicher Schulen können völlig unterschiedliche Therapiestile innehaben. Therapeuten verschiedener Schulen können z. T. ähnliche Therapiestile aufweisen usw.. Gerade das, was der Therapeut in der Therapiesituation wirklich macht, ist entscheidend, wenn man die therapeutisch relevanten Faktoren auf ihre Effektivität untersuchen will.
Die Beschreibung der praktizierten therapeutischen Technik wird durch 2 Probleme erschwert. Einerseits empfinden es Psychotherapeuten als schweren Eingriff in die Therapiesituation, wenn Beobachter in irgendeiner Weise (direkte Beobachtung, audiovisuelle Verfahren) am Therapieprozess teilnehmen, auf der anderen Seite fehlen geeignete Kategorien zur Erfassung dieser therapeutischen Variablen. Eine solche Kategorisierung ist besonders wichtig, wenn man schulenübergreifende Psychotherapieforschung betreiben will und von der Hypothese ausgeht, dass letztlich in jeder psychotherapeutischen Situation bestimmte Faktoren der Therapietechnik zum Tragen kommen, deren Ausmaß und deren jeweilige Kombination in den verschiedenen Behandlungsmethoden aber noch nicht ausreichend untersucht sind (Bergin und Strupp 1972; Grawe et al. 1994). Ein solches Kategoriensystem könnte u. a. folgende Variablen enthalten:
  • Konditionierungsprozesse: Belohnung und Bestrafung,
  • soziales Lernen einschließlich Imitation und Identifikation,
  • kognitives Lernen,
  • Häufigkeit und Art der Deutungen,
  • direktives oder nondirektives Vorgehen,
  • Einfühlungsvermögen und Wärme des Therapeuten.
Operationale Umsetzungen solcher Kategorien in die Beobachtungsebene liegen nur begrenzt vor.
Durch weitere Forschungsarbeit muss versucht werden, die jeweiligen Schätzskalen zu verbessern. Eventuell muss aber noch mehr auf einfachere, direkt beobachtbare Merkmale zurückgegriffen werden, z. B. auf Sprache, Mimik oder Gestik, und auf dieser Ebene Interaktionssequenzen beschrieben und mit dem Therapieeffekt in Verbindung gesetzt werden.

Unspezifische Einflussfaktoren

Für den Ausgang von Psychotherapiemaßnahmen sind viele Einflüsse von Bedeutung (Luborsky et al. 1971; Garfield 1973; Razin 1977). Sofern es sich dabei um Einflüsse handelt, die direkt mit dem Therapieangebot in Zusammenhang stehen, können sie als mehr oder weniger unspezifische Therapiefaktoren klassifiziert werden.
Die Erfassung therapieinterner unspezifischer Einflussgrößen, wie z. B. die Glaubwürdigkeit der Therapiemaßnahme, ist von großer Wichtigkeit bei der Beurteilung der Effektivität der zu prüfenden Therapiefaktoren.
Neben solchen therapieinternen Einflüssen sind die therapieexternen zu erwähnen, z. B. Einflüsse, die vom familiären Umfeld ausgehen oder durch zwischenzeitliche Veränderungen der persönlichen Lebenssituation (z. B. Partner- oder Arbeitsplatzwechsel) bedingt sind. Viele sonstige, bereits erwähnte Einflussgrößen wären hier noch zu nennen. Da sie wahrscheinlich von erheblicher Relevanz für das Ergebnis einer Psychotherapie sind, muss versucht werden, möglichst viele dieser Einflussgrößen standardisiert zu erfassen, um Psychotherapieresultate vergleichbar zu machen.

Effizienzkriterien

Die Frage der relevanten Effizienzkriterien wird in der Psychotherapieforschung mehr diskutiert als in der klinischen Psychopharmakologie, in der v. a. Symptomreduktion und ggf. Verbesserung funktionaler Parameter (z. B. soziale Adaptation) als ausreichende Kriterien gelten. Aus allen genannten Untersuchungsergebnissen ergibt sich konsequenterweise die Forderung nach einer multimethodalen Diagnostik (Seidenstücker und Baumann 1978), bei der Informationen aus verschiedenen Datenquellen und Datenebenen kombiniert werden, um optimale Daten über therapeutisch induzierte Veränderungen zu erhalten.
Ein systemimmanenter Ansatz allein, bei dem andere Beurteilungskriterien vernachlässigt werden, ist ungenügend (Hoffmann und Gebhardt 1973). Systemimmanente Effektivitätskriterien sind z. B.
  • in der Gesprächspsychotherapie die Annäherung von Selbstkonzept und Idealkonzept,
  • in der Psychoanalyse die Einsicht in die psychodynamischen Hintergründe der neurotischen Symptomatik,
  • in der Kommunikationstherapie die Emotionalisierung der eigenen Äußerungen.
Gehen derartige Veränderungen nicht mit einer Beeinflussung der beobachtbaren oder vom Patienten erlebten psychischen Störung einher, so kann kaum von einem relevanten Therapieerfolg gesprochen werden. Um zu interpretierbaren Ergebnissen zu kommen, sollte bei jeder differenzierten Psychotherapiewirksamkeitsprüfung sowohl die objektive Ebene des beobachtbaren Verhaltens (z. B. Symptomatik, soziale Integration) als auch die subjektive Ebene kognitiv emotionaler Prozesse (z. B. Befindlichkeit, Kognitionen) einbezogen werden. Neben allgemein vergleichbaren Veränderungsmaßen müssen dabei auch individuelle Veränderungsmaße berücksichtigt werden (Kiesler 1977).

Ergänzende Methoden in der Evaluation psychosozialer Therapieverfahren

In diesem Zusammenhang seien in aller Kürze weitere alternative bzw. ergänzende Verfahren aus dem Feld der Psychotherapieforschung bzw. der psychiatrischen Versorgungsforschung (Kallert 2005) erwähnt. In der psychiatrischen Versorgungsforschung ist es besonders schwer Verfahren der experimentellen Therapieforschung im engeren Sinne durchzuführen. Interessant sind Varianten der randomisierten Kontrollgruppenstudie, die die Behandlungspräferenz der Patienten berücksichtigen (Brewin und Bradly 1989). Dies kann erfolgen, indem ein Präferenzstudienarm, in den ebenfalls randomisiert wird, in ein Standard-RCT-Design inkludiert wird. Die zweite Variante ist die Anwendung eines Comprehensive-Cohort-Designs (Muche et al. 2003). Hierbei wird ein Vergleich zwischen den randomisierten Patienten und einer Patientengruppe, die zwar die Studienschlusskriterien erfüllen, aber einer randomisierten Therapiezuteilung nicht zustimmten, vorgenommen.
Im Falle nichtdurchführbarer, randomisierter oder nichtrandomisierter Kontrollgruppenansätze werden alternativ nichtexperimentelle Verfahren zur Evaluation angesetzt. Insbesondere, wenn Routine-Outcome-Daten verfügbar sind, ist die Durchführung von CBA-(„controlled before and after“-)Studien eine Möglichkeit, um institutionell gebundene Interventionen zu evaluieren, für die Kontrollgruppen gebildet werden können, eine Randomisierung aber unmöglich oder nicht durchführbar ist. Sollte die Bildung einer adäquaten Kontrollgruppe nicht möglich sein, sind Längsschnittstudien durchzuführen, die allerdings gegenüber Effekten von Interventionen, die gleichzeitig zu der zu untersuchenden erfolgen, nicht robust sind (Kallert 2005).

Metaanalysen und ihr Stellenwert im Rahmen empirischer Forschung

Metaanalysen kombinieren in statistischer Weise die Ergebnisse der für eine spezifische Fragestellung vorhandenen und als methodisch adäquat eingestuften Studien in quantitativer Weise. Als Ergebnis resultiert eine Effektgrösse („effect size“), die z. B. in der Therapieforschung den quantitativen Unterschied zwischen den zwei verglichenen Therapien darstellt (z. B. Leucht et al. 2009a,b; Cuijpers et al. 2013). Die Durchführung von Metaanalysen wie auch der Vergleich von Effektgrössen setzt voraus, dass die Daten aus vergleichbaren Grundgesamtheiten stammen. Diese Voraussetzung ist meistens bestenfalls approximativ erfüllt, da die verschiedenen berücksichtigten Studien z. T. auf unterschiedlichen Designs mit z. T. unterschiedlichen Rahmenbedingungen basieren (z. B. in Bezug auf Settingvariablen, Ein- und Ausschlusskriterien, Vorbehandlung, Begleitmedikation, etc.). Metaanalysen versuchen diesen Einflussgrößen sekundär durch sog. Sensitivitätsanalysen gerecht zu werden. Wichtig ist, dass möglichst alle hinsichtlich der Fragestellung relevanten Studien eingeschlossen werden. Dies ist auf Grund von Publikationsbias, die es sowohl in der Psychopharmaforschung (Turner et al. 2008; Flint et al. 2015) wie auch der Psychotherapieforschung (Barth et al. 2013) gibt, oft nicht zu realisieren.
Wichtig ist zu beachten, dass Metaanalysen nicht per se einen höhere Erkenntnisebene oder Erkenntisqualität darstellen, sondern lediglich eine statistische Zusammenfassung von Studienergebnissen sind (Maier und Möller 2010). Ihren Ergebnissen wird in der evidenzbasierten Medizin und in der Leitlinienentwicklung (vgl. Kap. Evidenzbasierung und leitliniengestützte Therapie in der Psychiatrie!) ein hoher Stellenwert beigemessen. Die Ergebnisse bedürfen aber wegen möglicher methodenbedinger Artefakte besonders kritischer Interpretation (Möller und Maier 2010; Fountoulakis et al. 2013).

Psychopharmakologische Therapieforschung und Zulassungsvoraussetzungen

Die Zulassungsvoraussetzungen für Arzneimittel sind in den letzten Jahrzehnten europaweit mit dem Ziel harmonisiert worden, qualitativ hochwertige, wirksame und sichere Arzneimittel bedarfsgerecht in der Europäischen Union zur Verfügung zu haben. Vor der Zulassung sind den Zulassungsbehörden dazu die Daten aus klinischen Prüfungen vorzulegen, die nach den oben dargelegten Prinzipien der empirischen Forschung erhoben und ausgewertet wurden. Die Genehmigung und Überwachung dieser klinischen Prüfungen von Arzneimitteln erfolgt dabei durch die nationalen Zulassungsbehörden, wie das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) in Deutschland. Für die Zulassung und Postmarketing Überwachung ist ein komplexes Netzwerk aus nationalen und europäischen Behörden zuständig, hier ist v. a. die European Medicines Agency (EMA) zu erwähnen. Dabei sind bis zur Zulassungsentscheidung im Wesentlichen zwei Verfahrensstränge zu unterscheiden, das zentralisierte Verfahren der EMA – dann gilt die Zulassung verbindlich europaweit – und die Zulassungsverfahren bei den nationalen Behörden wie dem BfArM – dann gilt die Zulassung nur national oder in bestimmten europäischen Mitgliedsstaaten. Innovative Arzneimittel, d. h. Arzneimittel mit neuen Wirkstoffen oder für wichtige neue Anwendungsgebiete, werden aber praktisch ausschließlich im zentralisierten Verfahren zugelassen, dies gilt auch für psychiatrische und neurologische Indikationsgebiete. Dabei führt und koordiniert die EMA das Verfahren; die wissenschaftliche Bewertung der eingereichten Studienunterlagen wird jedoch von Experten der nationalen Zulassungsbehörden, die unter Führung der EMA im europäischen Netzwerk zusammenarbeiten, erstellt. Eine konsentierte oder durch die Mehrheit bestimmte, europäische Position wird im Ausschuss für Humanarzneimittel (Committee for Medicinal Products for Human Use, CHMP) der EMA erarbeitet, in den jedes Mitgliedsland der EU ein stimmberechtigtes Mitglied entsendet. Die von der Mehrheit des CHMP angenommene Bewertung des Nutzen und der Risiken eines Arzneimittels ist die wissenschaftliche Grundlage für dessen Zulassung (oder Ablehnung) durch die Europäische Kommission.
Die Wirksamkeit ist in der Regel durch prospektive, doppelblinde und randomisierte Studien im Vergleich mit einer geeigneten Kontrollgruppe zu belegen. Hier ist aus regulatorischer Sicht immer wieder klarzustellen, dass Wirksamkeit und Wirkungen eines Arzneimittels verschiedene Dinge sind. Unter Wirkung werden die behaupteten bzw. nachgewiesenen Wirkmechanismen mit Beeinflussung physikalischer, chemischer oder biologischer Parameter verstanden, während Wirksamkeit die in klinischen Prüfungen an einer definierten Population nachgewiesenen und quantifizierten Effekte umfasst, die in Relation zu potentiellen Nebenwirkungen und Risiken gesetzt wird (Helmchen 2001). Prinzipiell kann eine geeignete Kontrollgruppe eine anerkannte Vergleichstherapie, eine Plazebobehandlung oder auch keine Behandlung sein. Im letzteren Fall ist zu beachten, ob damit die Durchführung als (Doppel)blindstudie noch möglich ist. Historische Kontrollen sind nur in Ausnahmefällen bei überwältigender Wirksamkeit des neuen Arzneimittels akzeptabel. Beim Vergleich mit einer etablierten Standardtherapie ist zu beachten, dass für eine positive Zulassungsentscheidung nicht eine bessere Wirksamkeit gezeigt werden muss; eine Nichtunterlegenheit gegenüber der eingeführten Vergleichstherapie genügt für die Marktzulassung.
Um diese Zulassungsvoraussetzungen zu harmonisieren, aber auch um Hilfestellungen für die Durchführung entsprechender klinischer Prüfungen zu geben, sind von den Experten der nationalen Zulassungsbehörden in indikationsspezifischen Arbeitsgruppen (z. B. für den psychopharmakologischen Bereich in der CNS-Working Party bei der EMA) Leitlinien publiziert worden. In diesen finden sich konkrete Angaben zu geeigneten Studienpopulationen, Studiendesigns, Erhebungsinstrumenten, primären und sekundären Endpunkten, Studiendauer, statistischen Auswertestrategien, etc. und sie berücksichtigen die oben beschriebenen methodischen Standards (Übersicht zu den indikationsspezifischen Leitlinien in Tab. 1). Die EMA-Leitlinien sollen den pharmazeutischen Unternehmen die Planung ihrer Entwicklungsprogramme erleichtern, sind aber gleichzeitig für methodisch interessierte Kliniker und Prüfärzte von Bedeutung, um ein vertieftes Verständnis für diese Fragestellungen und deren adäquate Umsetzung zu bekommen.
Tab. 1
EMA-Leitlinien1 zu klinischen Prüfungen für psychiatrische Indikationen
Indikation
Leitlinie
Depressive Störung
Clinical investigation of medicinal products in the treatment of depression
(Klinische Prüfung Arzneimittel zur Behandlung von Depression)
Bipolare Störung
Clinical investigation of medicinal products for the treatment and prevention of bipolar disorder
(Klinische Prüfung Arzneimittel zur Behandlung und Prävention von bipolarer Störung)
Clinical investigation of medicinal products, including depot preparations in the treatment of schizophrenia
(Klinische Prüfung Arzneimittel einschliesslich der Depotpräparate zur Behandlung von Schizophrenie)
Appendix on the methodology of clinical trials concerning the development of depot preparations of approved medicinal products in schizophrenia
(Anhang zur Methodik klinischer Prüfungen für die Entwicklung von Depotpräparaten aus zugelassenen Pharmaka für die Schizophreniebehandlung)
Clinical investigation of medicinal products indicated for panic disorder
(Klinische Prüfung Arzneimittel für die Indikation Panikstörung)
Clinical investigation of medicinal products indicated for the treatment of social anxiety
(Klinische Prüfung Arzneimittel zur Behandlung von sozialen Ängsten)
Development of medicinal products for the treatment of post-traumatic stress disorder
(Entwicklung Arzneimittel zur Behandlung von posttraumatischer Belastungsstörung)
Zwangsstörung
Clinical investigation of medicinal products for the treatment of obsessive compulsive disorder
(Klinische Prüfung Arzneimittel zur Behandlung von Zwangsstörung)
Demenzerkrankungen
Need for revision of the guideline on medicinal products for the treatment of Alzheimer's disease and other dementias
(Notwendigkeit einer Revision der Leitlinie zu den Arzneimitteln zur Behandlung von Alzheimer-Erkrankung und anderen Demenzen)
Medicinal products for the treatment of Alzheimer's disease and other dementias
(Arzneimittel zur Behandlung von Alzheimer-Erkrankung und anderen Demenzen)
Suchtstörungen
Development of medicinal products for the treatment of alcohol dependence
(Entwicklung von Arzneimittel zur Behandlung von Alkoholabhängigkeit)
Development of new medicinal products for the treatment of smoking
(Entwicklung neuer Arzneimittel zur Behandlung von Nikotinsucht)
Autismusstörung
Development of medicinal products for the treatment of autism-spectrum disorder
(Entwicklung Arzneimittel zur Behandlung von Autismus-Spektrum-Störung)
Treatment of premenstrual dysphoric disorder
(Behandlung der prämenstruellen dysphorischen Störung)
Medicinal products for the treatment of insomnia
(Arzneimittel zur Behandlung von Schlafstörungen)
1Sämtliche Leitlinien sind auf der Webseite der European Medicines Agency (EMA) http://www.ema.europa.eu/ema/index.jsp?curl=pages/regulation/general/general_content_000425.jsp&mid=WC0b01ac0580034cf5
In der Regel werden für die Einschlusskriterien die Diagnosekriterien des Diagnostischen und Statistischen Manuals psychischer Störungen (DSM) in der jeweils aktuellen Version empfohlen, mit nachvollziehbaren Begründungen kann davon aber auch abgewichen werden. Diese Leitlinien werden regelmäßig überarbeitet, um neueren Entwicklungen Rechnung zu tragen. So befindet sich z. B. die Leitlinie für die Alzheimer-Erkrankung in einer grundsätzlichen Revision, um die neueren Diagnosekriterien, den möglichen Stellenwert von Biomarkern und die evtl. Therapieoptionen früher Krankheitsstadien zu berücksichtigen. Ähnlich verhält es sich mit der Leitlinie zu Antidepressiva, hier wird die Überarbeitung auch kognitive Defizite bei depressiven Störungen als eigenständige Indikation oder Ansätze für teilremittierte und therapierefraktäre Patienten mit Depression adressieren. Trotz dieser ausführlichen Dokumente wird von klinischen Forschern, v. a. aber auch von der pharmazeutischen Industrie, die Möglichkeit wissenschaftlicher Beratungsgespräche bei den Zulassungsbehörden in Anspruch genommen, um die klinischen Prüfungen auch im Detail und an neue Entwicklungen angepasst durchführen zu können.
Wenn ein Arzneimittel wirksam ist und sicher angewendet werden kann, erhält es mit der Zulassung den Marktzugang. Neue Arzneimittel müssen gegenüber früher schon zugelassenen Arzneimitteln nach den Vorgaben des Arzneimittelgesetzes aber nicht überlegen sein. Aus methodischen Gründen haben die Regulatoren bei psychopharmakologischen Entwicklungsprogrammen seit vielen Jahren neben Plazebokontrollen zwar schon aktive Kontrollgruppenarme mit etablierten Standards gefordert, z. B. bei Antidepressiva oder Antipsychotika. Allerdings mussten die Studien in der Regel nur für die Überlegenheit gegenüber Plazebo gepowert sein, nicht für Überlegenheit oder Nichtunterlegenheit gegenüber dem aktiven Komparator, was sonst die Studienpopulation erheblich vergrößert hätte. Vorausgesetzt wurde dabei auch von regulatorischer Seite, dass ein Plazebobehandlungsarm im Setting einer klinischen Prüfung nach heutigen Standards bei diesen Indikationen keinesfalls einer Nichtbehandlung entspricht. Gegen die Anwendung von Plazebo wurden trotzdem immer wieder ethische Bedenken vorgebracht, gerade auch bei psychiatrischen Indikationsgebieten. Eines der Hauptargumente lautet, dass Patienten eine effektive Therapie mit z. B. Psychopharmaka vorenthalten wird und sie damit einem Risiko, bzw. einem möglichen Schaden ausgesetzt werden könnten. Des Weiteren wird angeführt, dass aktiv kontrollierte Studien, in welchen ein Prüfmedikament gegenüber einem etablierten Standardmedikament auf Überlegenheit oder Nichtunterlegenheit geprüft würde, plazebokontrollierte Studien überflüssig machen könnten. Dies ist wie in den Vorkapiteln ausgeführt, methodisch so aber nicht ohne weiteres umzusetzen und ohne Plazebokontrolle birgt die Prüfung auf Nichtunterlegenheit das Risiko, dass gerade im Bereich der Psychopharmaka eine nicht geringe Zahl unwirksamer Arzneimittel zugelassen werden könnten (Broich 2005). Die Vor- und Nachteile von plazebokontrollierten und aktiv kontrollierten Studien sind in Tab. 2 nochmals zusammengefasst, ein mehrarmiges Studiendesign mit Plazebo, aktiver Kontrolle und neuer Prüfsubstanz stellt daher aus regulatorischer Sicht den bestmöglichen Kompromiss der verschiedenen Studiendesigns dar, da die Vorteile der verschiedenen Studiendesigns unter Minimierung der Nachteile berücksichtigt werden. Der Plazeboarm ermöglicht die Bestimmung der Assaysensitivität in der klinischen Prüfung und die Abschätzung der Effektstärke des Prüfmedikamentes. Darüber hinaus erlaubt dieses Design die Einschätzung der klinischen Relevanz der Studienergebnisse der neuen Prüfsubstanz im Vergleich zu Plazebo und zum etablierten Standardpräparat, auch lässt sich das Nebenwirkungsprofil der Prüfsubstanz plazebobereinigt gegenüber der Standardreferenz vergleichen.
Tab. 2
Vor- und Nachteile plazebokontrollierter und aktiv kontrollierter Studien
 
Vorteile
Nachteile
Plazebokontrollierte Studien
• Ermöglicht Abschätzung der Assaysensitivität und damit interne Validierung der Studie
• Abschätzung der klinischen Relevanz besser möglich
• Stichprobenumfang geringer
• Studienkosten geringer
• Evtl. erhöhtes Risiko durch „Nichtbehandlung“
• Evtl. stärker eingeschränkte Generalisierbarkeit der Ergebnisse auf die Grundgesamtheit
Aktiv kontrollierte Studien
• Daten zu relativer Wirksamkeit und Verträglichkeit
• Zumindest theoretisch keine inaktive Behandlung
• Weniger Therapieabbrüche wegen mangelnder Wirksamkeit
• Evtl. eher akzeptabel bei Ethikkommissionen
• Wegen fehlender Assaysensitivität Risiko falsch positiver Studien
• Äquivalenz/Nichtunterlegenheit nicht als Wirksamkeitsnachweis geeignet
• Aktiver Komparator evtl. kein Therapiestandard
• Mehr Therapieabbrüche wegen unerwünschter Wirkungen
• Tendenz Wirksamkeitsunter schiede zu minimieren
• Stichprobenumfang größer
• Höhere Studienkosten
Die Berücksichtigung dieser Prinzipien ist in Deutschland aktuell auch mit Einführung des Arzneimittelmarktneuordnungsgesetzes (AMNOG) noch wichtiger geworden. Wenige Monate nach Markteinführung ist beim Gemeinsamen Bundesausschuss (G-BA) ein Dossier mit Studiendaten einzureichen, dass einen Zusatznutzen des neuen Arzneimittels im Vergleich zu etablierten Therapiestandards nachweisen muss, hierfür wird vom G-BA eine sog. „zweckmässige Vergleichstherapie“ festgelegt. Basis der Beurteilung durch den G-BA sind in der Regel auch die für die Zulassung durchgeführten Phase-III-Studien, die ggf. um weitere klinische Prüfungen ergänzt werden müssen. Während die Zulassung europaweit durch die Arzneimittelgesetze harmonisiert ist, gilt dies für die Zusatznutzenbewertung nicht, die Vorgaben für diese Bewertung kommen in Deutschland aus dem nationalen SGB V und sind dort in § 35a festgelegt. Entscheidend sind dabei neben dem Nachweis der Wirksamkeit für die Zusatznutzenbewertung die Berücksichtigung patientenrelevanter Endpunkte wie Mortalität, Morbidität und Lebensqualität. Um die unterschiedlichen Anforderungen der klinischen Prüfungen für Zulassung und Zusatznutzenbewertung zu berücksichtigen, sind frühe gemeinsame Beratungen von akademischen Studienzentren oder der pharmazeutischen Industrie durch Zulassungsbehörden, wie das BfArM, und Einrichtungen, wie den G-BA, notwendig und werden zunehmend häufig durchgeführt (Beinlich et al. 2015). Das alles verbindende, gemeinsame Ziel muss es sein, wirksame, sichere und kosteneffiziente Arzneimittel für Patientinnen und Patienten mit psychiatrischen Störungen bedarfsgerecht zur Verfügung zu haben, ohne notwendige Neuentwicklungen zu verhindern.
Literatur
Adam D, Kasper S, Möller HJ, Singer EA (2005) Placebo-controlled trials in major depression are necessary and ethically justifiable: how to improve the communication between researchers and ethical committees. Eur Arch Psychiatry Clin Neurosci 255:258–260CrossRefPubMed
Ambuhl H, Grawe K (1988) The effects of psychotherapy as a result of the relation of therapeutic availability and acceptance by the client. Z Klin Psychol Psychopathol Psychother 36:308–327PubMed
Ambuhl H, Grawe K (1989) Psychotherapeutic activity as a realization of therapeutic heuristics. A process comparison of 3 therapy forms from a new perspective. Psychother Psychosom Med Psychol 39:1–10PubMed
Arnold E, Grawe K (1989) Deskriptive Einzelfallanalysen – Eine Strategie zur Untersuchung von Wirkungszusammenhängen in der Psychotherapie. Z Klin Psychol Psychopathol Psychother 37:262–276PubMed
Baldwin D, Broich K, Fritze J et al (2003) Placebo-controlled studies in depression: necessary, ethical and feasible. Eur Arch Psychiatry Clin Neurosci 253:22–28CrossRefPubMed
Barth J, Munder T, Gerger H et al (2013) Comparative efficacy of seven psychotherapeutic interventions for patients with depression: a network meta-analysis. PLoS Med 10:e1001454CrossRefPubMedPubMedCentral
Bateman A, Fonagy P (1999) Effectiveness of partial hospitalization in the treatment of borderline personality disorder: a randomized controlled trial. Am J Psychiatry 156:1563–1569CrossRefPubMed
Baumann U, Stieglitz RD (1983) Test-Manual zum AMDP-System. Empirische Studien zur Psychopathologie. Springer, Berlin/Heidelberg/New York/Tokio
Beinlich P, Müller-Berghaus J, Sudhop T, Vieths S, Broich K (2015) Zusammenspiel zwischen Zulassung und Nutzenbewertung von Arzneimitteln. Bundesgesundheitsblatt 58:227–231CrossRef
Berger M, Klein HE (1984) Der Dexamethason-Suppressions-Test: Ein biologischer Marker der endogenen Depression? Eur Arch Psychiatry Neurol Sci 234:137–146CrossRefPubMed
Bergin AE, Strupp HH (1972) Changing frontiers in the science of psychotherapy. Aldine, Chicago/New York
Brewin CR, Bradly C (1989) Patient preferences and randomised clinical trials. BMJ 299:313–315
Broich K (2005) Klinische Prüfungen mit Antidepressiva und Antipsychotika. Bundesgesundheitsblatt 48:541–547CrossRef
Campbell DT, Stanley JC (1963) Experimental and quasi-experimental designs for research on teaching. In: Gage NL (Hrsg) Handbook of research on teaching. Rand McNally, Chicago, S 117–246
Carnap R (1966) Philosphical foundations of physics. Nymphenburger Verlagsbuchhandlung. Dt. Übers. Hoering W, München/New York/London
Caspi A, Moffit TE (2006) Gene-environment interactions in psychiatry: joining forces with neuroscience. Nat Rev Neurosci 7:583–590CrossRefPubMed
Cook TH, Campbell DT (1976) The design and conduct of quasi-experiments and true experiments in field settings. In: Dunnette MD (Hrsg) Handbook of industrial and organizational psychology. Rand McNally, Chicago, S 223–326
Cuijpers P, van Straten A, Warmerdam L et al (2009) Psychotherapy versus the combination of psychotherapy and pharmacotherapy in the treatment of depression: a meta-analysis. Depress Anxiety 26:279–288CrossRefPubMed
Cuijpers P, Berking M, Andersson G et al (2013) A metaanalysis of cognitive-behavioural therapy for adult depression, alone and in comparison with other treatments. Can J Psychiatry 58:376–385PubMed
Flint J, Cuijpers P, Horder J et al (2015) Is there an excess of significant findings in published studies of psychotherapy of depression. Psychol Med 45:439–446CrossRefPubMed
Fountoulakis KN, Veroniki AA, Siamouli M et al (2013) No role for initial severity on the efficacy of antidepressants: results of a multi-meta-analysis. Ann Gen Psychiatry 12:26CrossRefPubMedPubMedCentral
Frey S, von Zerssen D, Hansen W, Harders S (1979) Probleme der Verhaltensmessung in Einzelfalluntersuchungen. In: Petermann F, Hehl FJ (Hrsg) Einzelfall-Analyse. Urban & Schwarzenberg, München/Wien/Baltimore, S 159–182
Fritze J, Möller HJ (2001) Design of clinical trials of antidepressants. Should a placebo control arm be included? CNS Drugs 16:755–765CrossRef
Garfield SL (1973) Basic ingredients or common factors in psychotherapy. J Consult Clin Psychol 14:9–12CrossRef
Gottman JM, Markman HJ (1978) Experimental designs in psychotherapy research. In: Garfield SL, Bergin AE (Hrsg) Handbook of psychotherapy and behavior change, 2. Aufl. Wiley, New York, S 23–63
Grawe K (1998) Psychologische Therapie. Hogrefe, Göttingen
Grawe K, Bernauer F, Donati R (1990) Psychotherapie im Vergleich: Haben wirklich alle einen Preis verdient? Psychother Psychosom Med Psychol 40:102–114PubMed
Grawe K, Donati R, Bernauer F (1994) Psychotherapie im Wandel. Von der Konfession zur Profession. Hogrefe, Göttingen
Greden JF, Gardner R, Kind D et al (1983) Dexamethasone suppression tests in antidepressant treatment of melancholia. Arch Gen Psychiatry 40:493–500CrossRefPubMed
Gueorguieva R, Krystal JH (2004) MOVE over ANOVA: progress in analyzing repeated-measures data and its reflection in papers. Arch Gen Psychiatry 61:310–317CrossRefPubMed
Hegerl U, Mergl R (2010) The clinical significance of antidepressant treatment effects cannot be derived from placebo-verum response differences. J Psychopharmacol 24:445–448CrossRefPubMed
Hegerl U, Hautzinger M, Mergl R et al (2010) Effects of pharmacotherapy and psychotherapy in depressed primary-care patients: a randomized, controlled trial including a patients’ choice arm. Int J Neuropsychopharmacol 13:31–44CrossRefPubMed
Helmchen H (2001) Therapeutische Wirksamkeit. Nervenarzt 72:56–60CrossRefPubMed
Hoffmann SO, Gebhardt R (1973) Möglichkeiten der Kontrolle von psychotherapeutischen Ergebnissen. Prax Psychother 18:241–252
Huber G (1976) Zur Problematik quantitativer Verlaufsbeobachtungen bei Schizophrenen. Psychopathometrie 2:61–66
Janzarik W (1989) Menschenkundliche Anmerkungen zu Wissenschaft und Wissenschaftsbetrieb. Nervenarzt 60:612–618PubMed
Jones PB, Barnes TR, Davies L et al (2006) Randomized controlled trial of the effect on quality of life of second- vs. first-generation antipsychotic drugs in schizophrenia: Cost Utility of the Latest Antipsychotic Drugs in Schizophrenia Study (CUtLASS 1). Arch Gen Psychiatry 63:1079–1087CrossRefPubMed
Kahn A, Leventhal RM, Khan SR, Brown WA (2002) Severity of depression and response to antidepressants and placebo: an analysis of the Food and Drug Administration database. J Clin Psychopharmacol 22:40–45CrossRef
Kallert TW (2005) Braucht psychiatrische Versorgungsforschung randomisierte kontrollierte Studien? Psychiatr Prax 32:375–377CrossRefPubMed
Katschnig H, Simhandl C (1987) Neuere Ansätze in der Klassifikation und Diagnostik psychischer Krankheiten. In: Simhandl C, Berner P, Luccioni H, Alf C (Hrsg) Moderne Psychiatrie, Klassifikationsprobleme in der Psychiatrie. Medizinisch-Pharmazeutische Verlagsgesellschaft, Purkersdorf
Khan A, Faucett J, Lichtenberg P et al (2012) A systematic review of comparative efficacy of treatments and controls for depression. PLoS One 7:e41778CrossRefPubMedPubMedCentral
Kiesler DJ (1977) Experimentelle Untersuchungspläne in der Psychotherapie-Forschung. In: Petermann F, Schmook C (Hrsg) Grundlagentexte der Klinischen Psychologie I. Huber, Bern/Stuttgart/Wien, S 106–148
Kirsch I (2002) The emperor’s new drug: an analysis of antidepressant medication data submitted to the U.S. food and drug administration. Prev Treat 5, No Pagination Specified, Article 23
Kuhn TS (1970) The structure of scientific revolutions. Enlarged. 2. Aufl. University of Chicago Press, Chicago
Leff JP, Vaughn CE (1980) The interaction of life events and relatives expressed emotion in schizophrenia and depressive neurosis. Br J Psychiatry 136:146–153CrossRefPubMed
Leichsenring F, Rabung S, Leibing E (2004) The efficacy of short-term psychodynamic psychotherapy in specific psychiatric disorders. Arch Gen Psychiatry 61:1208–1216CrossRefPubMed
Leucht S, Corves C, Arbter D et al (2009a) Second-generation versus first-generation antipsychotic drugs for schizophrenia: a meta-analysis. Lancet 373:31–41CrossRefPubMed
Leucht S, Komossa K, Rummel-Kluge C et al (2009b) A meta-analysis of head-to-head comparisons of second-generation antipsychotics in the treatment of schizophrenia. Am J Psychiatry 166:152–163CrossRefPubMed
Lieberman JA, Stroup TS, McEvoy JP et al (2005) Effectiveness of antipsychotic drugs in patients with chronic schizophrenia. N Engl J Med 352:1209–1223CrossRef
Linehan MM, Comtois KA, Murray AM et al (2006) Two-year randomized controlled trial and follow-up of dialectical behaviour therapy vs therapy by experts for suicidal behaviours and borderline personality disorder. Arch Gen Psychiatry 63:757–766CrossRefPubMed
Luborsky L, Chandler M, Auerbach A et al (1971) Factors influencing the outcome of psychotherapy: a review of quantitative research. Psychol Bull 75:145–185CrossRefPubMed
Maier W, Möller H-J (2010) Meta-analyses: a method to maximise the evidence from clinical studies? Eur Arch Psychiatry Clin Neurosci 260:17–23CrossRefPubMed
Mallinckrodt CH, Raskin J, Wohlreich MM et al (2004) The efficacy of duloxetine: a comprehensive summary of results from MMRM and LOCF_ANCOVA in eight clinical trials. BMC Psychiatry 4:26CrossRefPubMedPubMedCentral
Meisenzahl EM, Scheuerecker J, Zipse M et al (2006) Effects of treatment with the atypical neuroleptic quetiapine on working memory function: a functional MRI follow-up investigation. Eur Arch Psychiatry Clin Neurosci 256:522–531CrossRefPubMed
Meisenzahl EM, Schmitt G, Gründer G et al (2008) Striatal D2/D3 receptor occupancy, clinical response and side effects with amisulpride: an iodine-123-iodobenzamide SPECT study. Pharmacopsychiatry 41:169–175CrossRefPubMed
Möller HJ (1976) Methodische Grundprobleme der Psychiatrie. Kohlhammer, Stuttgart
Möller HJ (1978) Psychoanalyse – erklärende Wissenschaft oder Deutungskunst? Zur Grundlagendiskussion in der Psychowissenschaft. Fink, München
Möller HJ (1989) Standardisierte psychiatrische Befunderhebung. In: Kisker KP, Lauter H, Meyer JE et al (Hrsg) Psychiatrie der Gegenwart, Bd 9, 3. Aufl., Brennpunkte der Psychiatrie. Springer, Berlin/Heidelberg/New York/Tokio, S 13–45CrossRef
Möller HJ (1991) Outcome criteria in antidepressant drug trials: self-rating versus observer-rating scales. Pharmacopsychiatry 24:71–75CrossRefPubMed
Möller HJ (1998) Probleme der Klassifkation und Diagnostik. In: Reinecker H (Hrsg) Lehrbuch der Klinischen Psychologie, Modelle psychischer Störungen, 3. Aufl., Hogrefe, Göttingen/Toronto/Zürich, S 3–24
Möller HJ (2001) Methodological issues in psychiatry as an empirical science. World J Biol Psychiatry 2:38–47CrossRefPubMed
Möller HJ (2005) Problems associated with the classification and diagnosis of psychiatric disorders. World J Biol Psychiatry 6:45–56CrossRefPubMed
Möller HJ (2008a) Isn’t the efficacy of antidepressants clinically relevant? A critical comment on the results of the metaanalysis by Kirsch et al 2008. Eur Arch Psychiatry Clin Neurosci 258:451–455CrossRefPubMed
Möller HJ (2008b) Do effectiveness („real world“) studies on antipsychotics tell us the real truth? Eur Arch Psychiatry Clin Neurosci 258:257–270CrossRefPubMed
Möller HJ (2009) Development of DSM-V and ICD-11: tendencies and potential of new classifications in psychiatry at the current state of knowledge. Psychiatry Clin Neurosci 63:595–612CrossRefPubMed
Möller HJ, Benkert O (1980) Methoden und Probleme der Beurteilung der Effektivität psychopharmakologischer und psychologischer Therapieverfahren. In: Biefang S (Hrsg) Evaluationsforschung in der Psychiatrie. Fragestellungen und Methoden. Enke, Stuttgart, S 54–128
Möller HJ, Broich K (2010) Principle standards and problems regarding proof of efficacy in clinical psychopharmacology. Eur Arch Psychiatry Clin Neurosci 260:3–16CrossRefPubMed
Möller H-J, Maier W (2010) Evidence-based medicine in psychopharmacotherapy: possibilities, problems and limitations. Eur Arch Psychiatry Clin Neurosci 260:35–39
Möller HJ, Kissling W, Bottermann P (1986) The dexamethasone suppression test in depressive and schizophrenic patients under controlled treatment conditions. Eur Arch Psychiatry Neurol Sci 235:263–268CrossRefPubMed
Möller HJ, Blank R, Steinmeyer EM (1989) Single-case evaluation of sleep-deprivation effects by means of nonparametric time-series analysis (according to the HTAKA model). Eur Arch Psychiatry Neurol Sci 239:133–139CrossRefPubMed
Möller HJ, Langer S, Schmauss M (2007) Escitalopram in clinical practice: results of an open-label trial in outpatients with depression in a naturalistic setting in Germany. Pharmacopsychiatry 40:53–57CrossRefPubMed
Möller HJ, Bandelow B, Bauer M et al (2015a) DSM-5 reviewed from different angles: goal attainment, rationality, use of evidence, consequences – part 1: general aspects and paradigmatic discussion of depressive disorders. Eur Arch Psychiatry Clin Neurosci 265:5–18CrossRefPubMed
Möller HJ, Bandelow B, Bauer M et al (2015b) DSM-5 reviewed from different angles: goal attainment, rationality, use of evidence, consequences – part 2: bipolar disorders, schizophrenia spectrum disorders, anxiety disorders, obsessive-compulsive disorders, trauma- and stressor-related disorders, personality disorders, substance-related and addictive disorders, neurocognitive disorders. Eur Arch Psychiatry Clin Neurosci 265:87–106CrossRefPubMed
Mombour W (1972) Verfahren zur Standardisierung des psychopathologischen Befundes. Psychiatr Clin 5:73–120, /137–157
Muche R, Imhof A, SARAH-Studiengruppe (2003) Das Comprehensive Cohort Design als Alternative zur randomisierten kontrollierten Studie in der Rehabilitationsforschung: Vor- und Nachteile sowie Anwendungen in der SARAH-Studie. Rehabilitation 42:343–349CrossRefPubMed
Murphy GE, Carney RM, Kneserich MA et al (1995) Cognitive behavior therapy, relaxation training, and tricyclic antidepressant medication in the treatment of depression. Psychol Rep 77:403–420CrossRefPubMed
Palm U, Möller H-J (2011) Reception of Kraepelins idea’s 1900–1960. Psychiatry Clin Neurosci 65:301–325CrossRef
Paykel ES (2003) Life events and affective disorder. Acta Psychiatr Scand Suppl 418:61–66CrossRefPubMed
Petermann F (1977) Methodische Ansätze der Einzelfall-Analyse in der Psychotherapie-Forschung. In: Verhaltenstherapie. Kongreß-Bericht 1976. Herausgegeben von der Deutschen Gesellschaft für Verhaltenstherapie. Sonderheft I der „Mitteilungen der DGVT“
Petermann F, Hehl FJ, Schneider W (1977) Veränderungsmessungen im Rahmen der klassischen Test-Theorie. In: Petermann F (Hrsg) Methodische Grundlagen klinischer Psychologie. Beltz, Weinheim/Basel, S 129–154
Pogarell O, Juckel G, Norra C et al (2007) Prediction of clinical response to antidepressants in patients with depression: neurophysiology in clinical practice. Clin EEG Neurosci 38:74–77CrossRefPubMed
Popper KR (1969) Logik der Forschung, 3. Aufl. Mohr, Tübingen
Razin AM (1977) Effective psychotherapy. A handbook of research. Pergamon, Oxford
Rosenberg W, Donald A (1995) Evidence based medicine: an approach to clinical problem solving. BMJ 310:1122–1126CrossRefPubMedPubMedCentral
Rush AJ, Trivedi MH, Wisniewski SR et al (2006) Acute and long-term outcomes in depressed outpatients requiring one or several treatment steps: a STAR*D report. Am J Psychiatry 163:1905–1917CrossRefPubMed
Sackett DL, Rosenberg W, Gray JA et al (1996) Evidence-based medicine: what it is and what it isn’t. BMJ 312:71–72CrossRefPubMedPubMedCentral
Schmitt G-JE, Meisenzahl EM, Dresel S et al (2002) Striatal dopamine D2 receptor binding of risperidone in schizophrenic patients as assessed by 123-iodobenzamide SPECT: a comparative study with olanzapine. J Psychopharmacol 16:200–206CrossRefPubMed
Seemüller F, Riedel M, Obermeier M et al (2010) Outcomes of 1014 naturalistically treated inpatients with major depressive disorder. Eur Neuropsychopharmacol 20:346–355CrossRefPubMed
Seemüller F, Meier S, Obermeier M et al (2014) Three-year long-term outcome of 458 naturalistically treated inpatients with major depressive episode: severe relapse rates and risk factors. Eur Arch Psychiatry Clin Neurosci 264:567–575CrossRefPubMed
Seidenstücker G, Baumann U (1978) Multimethodale Diagnostik. In: Baumann U, Berbalk H, Seidenstücker G (Hrsg) Klinische Psychologie. Trends in Forschung und Praxis I. Huber, Bern/Stuttgart/Wien, S 134–176
Stille G, Hippius H (1971) Kritische Stellungnahme zum Begriff der Neuroleptika (anhand von pharmakologischen und klinischen Befunden mit Clozapin). Pharmacopsychiatry 4:182–191CrossRef
Taves DR (1974) Minimization: a new method of assigning patients to treatment and control groups. Clin Pharmacol Ther 15:443–453CrossRefPubMed
Turner EH, Matthews AM, Linardatos E et al (2008) Selective publication of antidepressant trials and its influence on apparent efficacy. N Engl J Med 358:252–260CrossRefPubMed
Überla K (1973) Versuchsplanung und Statistik in Phase II und III. Arzneimittelforschung (Drug Research) 23:1192–1196
von Zerssen D (1979) Klinisch-psychiatrische Selbstbeurteilungs-Fragebögen. In: Baumann U, Berbalk H, Seidenstücker G (Hrsg) Klinische Psychologie. Trends in Forschung und Praxis. Huber, Bern, S 130–159
von Zerssen D (1986) Clinical self-rating-scales (CSRF) of the Munich Psychiatric Information System (PSYHIS München). In: Sartorius N, Ban TA (Hrsg) Assessment of depression. Springer, Berlin/Heidelberg/New York/Tokio, S 270–303CrossRef
von Zerssen D, Möller HJ (1980) Psychopathometrische Verfahren in der psychiatrischen Therapieforschung. In: Biefang S (Hrsg) Evaluationsforschung in der Psychiatrie: Fragestellungen und Methoden. Enke, Stuttgart, S 129–166
Woolf SH (1999) The need for perspective in evidence-based medicine. JAMA 282:2358–2365CrossRefPubMed
Zimmermann M, Mattia JI, Posternak MA (2002) Are subjects in pharmacological treatment trials of depression representative of patients in routine clinical practice? Am J Psychiatry 2002(159):469–473CrossRef