Zum Inhalt
Psychologische Begutachtung
Info
Publiziert am: 29.06.2023 Bitte beachten Sie v.a. beim therapeutischen Vorgehen das Erscheinungsdatum des Beitrags.

Einzelfallbezogene Veränderungsdiagnostik

Verfasst von: Steffen Zitzmann
Mit den Methoden der psychologischen Diagnostik lassen sich nicht nur Fragen bezüglich des Ist-Zustands psychischer Merkmale adressieren sondern auch Fragen bezüglich der Veränderung dieser Merkmale. In diesem Beitrag werden verschiedene Ansätze zur Quantifizierung individueller, den Einzelfall betreffender Veränderungen diskutiert. Zunächst wird der gewöhnliche Veränderungswert (im Englischen Change Score genannt) dargestellt, den man erhält, indem man zunächst Skalenwerte zweier aufeinanderfolgender Messungen berechnet und diese Werte dann voneinander abzieht. Zur Vereinfachung der Interpretation wird dieser Wert in manchen Anwendungskontexten noch am Wert der vorherigen Messung relativiert und mit 100 % multipliziert oder am Standardfehler relativiert. Es folgt der Adhoc-Ansatz, wonach ebenfalls eine Differenz berechnet wird, allerdings aus zwei Regressionswerten anstatt aus Skalenwerten. Abschließend wird kurz auf Kelleys Ansatz eingegangen, der den Veränderungswert direkt aus einer Regression gewinnt. Es wird argumentiert und illustriert, dass sowohl der Adhoc-Ansatz als auch Kelleys Ansatz Veränderungswerte liefern, die genauer sein können als der gewöhnliche Veränderungswert, und dass Kelleys Ansatz unter bestimmten Bedingungen sogar genauer sein kann als der Adhoc-Ansatz.

Einleitung

Psychische Merkmale wie etwa Persönlichkeitsmerkmale beschreiben interindividuelle Unterschiede in Verhalten, Gedanken und Gefühlen, die über Situationen und Zeiträume hinweg konsistent zum Ausdruck kommen, und sie sagen wichtige Aspekte wie Wohlbefinden und Gesundheit vorher (Roberts et al., 2007). Eine wichtige Erkenntnis ist, dass selbst wenn diese Unterschiede über einen langen Zeitraum bestehen bleiben, es dennoch zu individuellen Persönlichkeitsveränderungen kommen kann. Annahmen zur Veränderlichkeit von psychischen Merkmalen wurden bereits in den Anfängen der Psychologie getroffen. Nach Allport (1937) ist die Persönlichkeit idiografisch und über die gesamte Lebensspanne veränderlich (vgl. auch Jayawickreme et al., 2021). Zum Beispiel werden Personen mit zunehmendem Alter selbstbewusster und emotional stabiler (z. B. Roberts et al., 2006; Wagner et al., 2019). Darüber hinaus wurde festgestellt, dass Lebensereignisse (Bleidorn et al., 2018), klinische Interventionen (Roberts et al., 2017), die Absichten von Personen, sich zu ändern (Hudson & Fraley, 2015), und sogar nicht-klinische Interventionen (Stieger et al., 2021) die Persönlichkeit ändern können. Angesichts der Tatsache, dass bestimmte Merkmale positiv mit Erfolg im Leben einhergehen (z. B. Hill et al., 2014), wurde vorgeschlagen, Veränderungen durch Interventionen zu fördern (Bleidorn et al., 2019; Reiss et al., 2014), was auch im Einklang mit dem Wunsch vieler Personen steht, bestimmte Aspekte ihrer Person zu ändern (Hudson & Roberts, 2014).
Eine methodische Frage von hoher praktischer Relevanz ist dabei, wie individuelle Veränderungen am genauesten quantifiziert werden können. In diesem Beitrag werden verschiedene Ansätze zur Quantifizierung individueller Veränderung vorgestellt und diese mit Blick auf die Messgenauigkeit miteinander vergleichen: (a) der am weitesten verbreitete, gewöhnliche Veränderungswert, der sich durch Subtraktion von Skalenwerten zweier aufeinanderfolgender Messungen ergibt, (b) der noch weitgehend unbekannte Adhoc-Ansatz, der Regressionswerte anstelle von Skalenwerten verwendet, und (c) Kelleys Ansatz, der den Veränderungswert als Regression berechnet und – obwohl historisch gesehen alt – bislang weder in der Diagnostik noch in der Forschung eine größere Rolle spielt. Der Beitrag adressiert die alte Frage, wie Veränderung am besten quantifiziert werden kann, mit potenziellen Konsequenzen für die zukünftige veränderungsdiagnostische Praxis.
Eine möglichst genaue Messung ist aus ethischer Sicht wünschenswert, weswegen es wichtig ist, einen möglichst genauen Ansatz zur Quantifizierung individueller Veränderungen zu wählen. Interessanterweise empfahlen Cronbach und Furby (1970) in ihrem berühmten Artikel How should we measure „change“ – Or should we?, gar keine Veränderungswerte zu verwenden. Ihre Empfehlung beruhte auf der inhärenten Unreliabilität von Veränderungswerten (vgl. auch Lord, 1956) und wurde zum Diktum in der Forschung, während Veränderungswerte in der Veränderungsdiagnostik nach wie vor eingesetzt werden. Allerdings gab es auch Bemühungen, Lösungen für das Dilemma zu finden. Das prominenteste Argument beruht darauf, dass Reliabilität nur eine notwendige, aber nicht hinreichende Bedingung für Validität darstellt. Wenn es also gelingt Validität nachzuweisen, dann ist damit auch nachgewiesen, dass die Genauigkeit hinreichend hoch ist. Mit anderen Worten, wenn ein Modell auf die Daten passt, ist es valide und genau. Diese Strategie ist jedoch bestenfalls indirekt, und es fehlt ein konkreter Wert für die Genauigkeit der Veränderungsmessung. Eine andere Option besteht darin, nach alternativen, genaueren Ansätzen zu suchen.
In diesem Beitrag wird „Genauigkeit“ mit dem mittleren quadratischen Fehler (MSE) gleichgesetzt, der die systematische Verzerrung (Bias) eines Veränderungswerts mit seinem Standardfehler kombiniert. Genauer gesagt, der MSE ist die Summe aus quadriertem Bias und quadriertem Standardfehler. Der MSE gibt Auskunft darüber, wie dicht der gemessene Veränderungswert am wahren Veränderungswert liegt, wobei ein kleinerer MSE auf eine größere Nähe hinweist (Greenland, 2000; Hoff, 2009; Zitzmann et al., 2021b; vgl. auch Zitzmann et al. 2021a). Zur einfachen Veranschaulichung des MSEs dient die Dartspiel-Metapher, bei der drei Spieler (unterschiedliche Ansätze zur Quantifizierung individueller Veränderung) versuchen, das Zentrum der Dartscheibe (wahre Veränderung) zu treffen (vgl. Zitzmann et al., 2023a). Die Pfeile von Spieler 1 treffen zwar im Mittel das Zentrum, sind aber weit über die Dartscheibe verteilt. Die Pfeile von Spieler 2 treffen im Mittel nicht ganz, streuen aber weniger als die von Spieler 1. Und die Pfeile von Spieler 3 verfehlen das Zentrum, allerdings mit einer noch kleineren Streuung als die von Spieler 2. Spieler 1 steht stellvertretend für einen unverzerrten, stark streuenden Ansatz zur Quantifizierung von Veränderung mit einem relativ großen MSE. Spieler 2 repräsentiert einen leicht verzerrten, wenig streuenden Ansatz mit einem mittelgroßen MSE, und Spieler 3 repräsentiert einen verzerrten, aber nur geringfügig streuenden Ansatz mit einem kleinen MSE. Somit schlägt Spieler 2 Spieler 1 aufgrund einer besseren Balance zwischen Bias und Standardfehler, und Spieler 3 schlägt Spieler 2 aufgrund einer noch besseren Balance. Etwas technischer ausgedrückt: alternative Schätzer, die verzerrte, aber weniger streuende Ergebnisse liefern, können genauer sein als der unverzerrte, stark streuende Standardschätzer (Lüdtke & Robitzsch, 2017; Wainer & Thissen, 2001; Zitzmann et al., 2023b).
Im Folgenden werden drei konkrete Ansätze zur Quantifizierung individueller Veränderungen diskutiert. Es wird mit dem gewöhnlichen Veränderungswert – der auch Change Score genannt wird – begonnen, der sich ergibt, indem zuerst zwei aufeinanderfolgende Messwerte ermittelt und diese dann voneinander subtrahiert werden. Die beiden Werte sind einfache Summen- oder Skalenwerte (d. h. Aggregate der Antworten einer Person). Alternativ können anstelle der Skalenwerte Regressionswerte verwenden werden, bei denen es sich um Faktorwerte handelt, die als Regressionen von wahren Werten auf Skalenwerte definiert sind. Eine weitere Möglichkeit besteht darin, den Änderungswert direkt als Regression zu berechnen.

Ansätze zur Quantifizierung individueller Veränderungen

Der gewöhnlicher Veränderungswert

Eine konzeptuelle Einbettung und Veranschaulichung individueller Veränderungen liefert Cattells (1946) Datenbox. Dabei werden drei Messdimensionen voneinander unterschieden: Personen, Variablen und Zeit. Wird eine Person aus der Personendimension der Datenbox ausgewählt, dann erlauben die resultierenden Daten (d. h. die Antworten der Person zu den verschiedenen Messzeitpunkten) die Beantwortung der Frage, ob sich ihre psychischen Merkmale im Laufe der Zeit verändert haben.
Zur Vereinfachung wird im Folgenden auf zwei aufeinanderfolgende Messungen fokussiert, die wir mit unterschiedlichen Indizes 1 (vorheriger Messzeitpunkt) und 2 (nachfolgender Messzeitpunkt) bezeichnen. Unter der Annahme, dass die Messungen nicht durch Messfehler verunreinigt sind (d. h. sie sind identisch mit den wahren Werten), kann die Veränderung angegeben werden als:
$$ {T}_2-{T}_1 $$
(1)
wobei T1 und T2 die Skalenwerte der vorherigen beziehungsweise der nachfolgenden Messung der Person bezeichnen und Δ die Veränderung der Person ist.
Nach der klassischen Testtheorie, die die psychometrische Grundlage der meisten in der Psychologie verwendeten Skalen bildet, ist jede Messung jedoch fehlerbehaftet. Formaler ausgedrückt besteht ein Maß aus zwei unabhängigen Komponenten, einem unbeobachteten wahren Wert und einer Abweichung von diesem wahren Wert, die als Messfehler bezeichnet wird. Wenn wir den gemessenen Skalenwert mit S bezeichnen, kann dieser Sachverhalt wie folgt ausgedrückt werden:
$$ S=T+E $$
(2)
wobei T den wahren Wert darstellt und E der Messfehler ist. Wenn man sich vor Augen führt, dass eine Messung grundsätzlich wiederholt werden könnte (z. B. um zu sehen, wie zuverlässig sie ist), wird klar, dass der Skalenwert eine Zufallsvariable darstellt, die um den wahren Wert zentriert ist und eine Streuung aufweist. Diese Streuung wird Standardfehler der Messung genannt und hängt von der Reliabilität der Skala ab (McDonald, 2011).
Werden die wahren Werte in Gl. 1 durch die zugehörigen gemessenen Skalenwerte (d. h. die Summen- oder Durchschnittswerte der Antworten einer Person) ersetzt, erhält man den gewöhnlichen Veränderungswert:
$$ {S}_2-{S}_1 $$
(3)
Dieser Veränderungswert kann aus statistischer Perspektive betrachtet auch als ein Maximum-Likelihood-Schätzer der Veränderung einer Person aufgefasst werden (Mellenbergh & van der Brink, 1998) und weist die typischen Eigenschaften auf, allen voran Unverzerrtheit, und entspricht damit Spieler 1 in der Dartspielmetapher. Ob die gemessene Veränderung einer Person auch einer zufallskritischen Betrachtung standhält, kann mit Hilfe des 95 %-Konfidenzintervalls entschieden werden, indem überprüft wird, ob das Konfidenzintervall die Null enthält oder nicht. Enthält es die Null nicht, kann man davon ausgehen, dass sich die Person tatsächlich verändert hat. Berücksichtigt man, dass sich der Standardfehler des Veränderungswerts anhand der Reliabilität der Skala und den Varianzen der Skalenwerte geschätzt werden kann, kann das Konfidenzintervall angegeben werden als:
$$ \left({S}_2-{S}_1\right)\pm 1.96\cdotp \sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)} $$
(4)
wobei ρ die Reliabilität der Skala ist und \( {\upsigma}_1^2 \) und \( {\upsigma}_2^2 \) die Varianzen der beiden Skalenwerte über Personen sind. In der einzelfallbezogenen Diagnostik wird für die Reliabilität oft eine Abschätzung verwendet, die anhand einer großen Stichprobe gewonnen wurde. Gleiches gilt für die Varianzen der Skalenwerte. Im Forschungskontext werden diese Größen nicht selten anhand der eigenen Studie ermittelt – eine Strategie, die sowohl Vor- als auch Nachteile hat. Generell gilt: wenn Ergebnisse aus einer deutlich größeren Stichprobe (derselben Population) vorliegen, sollten diese in die Berechnung des Konfidenzintervalls eingehen. Liegt nur ein Teil der Informationen (z. B. die Reliabilität) aus der großen Strichprobe vor, kann auch eine Mischstrategie verwendet und die fehlenden Informationen (z. B. die Varianzen der Skalenwerte) anhand der eigenen Strichprobe ermittelt werden.
Manchmal wird der Veränderungswert noch am vorherigen Wert relativiert und mit 100 % multipliziert,
$$ \left({S}_2/{S}_1-1\right)\cdotp 100\% $$
(5)
und erlaubt dadurch eine Interpretation des Veränderungswerts als „prozentuale Änderung gegenüber dem Ausgangswert oder der Baseline“.
Dieser Wert erfordert eine eigene zufallskritische Absicherung, denn es kann aus der Signifikanz des Veränderungswerts in Gl. 3 nicht geschlossen werden, dass auch der relative Veränderungswert signifikant ist. Ein 95 %-Konfidenzintervall für den relativen Veränderungswert kann mittels der Taylor-Erweiterung gewonnen werden. Mit dieser Methode ergibt sich für das Konfidenzintervall:
$$ \left({S}_2/{S}_1-1\right)\cdotp 100\%\pm 1.96\cdotp \sqrt{\left(1-\uprho \right)\cdotp \left(1+{S}_2^2/{S}_1^2\cdotp {\upsigma}_1^2/{\upsigma}_2^2\right)\cdotp {\upsigma}_2^2/{S}_1^2}\cdotp 100\% $$
(6)
Die Breite dieses Konfidenzintervalls unterscheidet sich im Gegensatz zum Konfidenzintervall in Gl. 4 von Person zu Person (Zitzmann et al., 2023). Die Größenordnung des Unterschieds hängt davon ab, wie sehr sich Personen im relativen Veränderungswert unterscheiden und wie sehr sie sich in der Baseline unterscheiden.
Oft wird der Veränderungswert auch am Standardfehler (gernauer: am Standardmessfehler) relativiert:
$$ \frac{S_2-{S}_1}{\sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)}} $$
(7)
Dieser Index, im Englischen auch Reliable Change Index genannt, folgt der Standardnormalverteilung und erlaubt es direkt abzulesen, ob eine signifikante Veränderung vorliegt. Fällt sein Wert vom Betrag her größer als 1.96 aus, dann spricht dies für eine signifikante individuelle Veränderung (Jacobson & Truax, 1991).

Adhoc-Ansatz

Wie aus Gl. 3 hervorgeht, erfordert es die Berechnung des Veränderungswerts, dass zuvor die Werte der beiden aufeinanderfolgenden Messungen ermittelt wurden. Während die übliche Wahl für diese Werte der schon eingeführte Skalenwert ist, können auch andere (Faktor-)Werte eingesetzt werden. Eine vielversprechende Option ist der Regressionswert. Anders als der Skalenwert ergibt sich der Regressionswert aus einer Regression des wahren Werts auf den Skalenwert (McDonald, 2011; Zitzmann, 2023). Der Regressionswert kann wie folgt ausgedrückt werden:
$$ \left(1-\uprho \right)\cdotp M+\uprho \cdotp S $$
(8)
wobei M der Mittelwert der Skala über Personen ist. Der Regressionswert weist im Allgemeinen eine Verzerrung in Richtung des Mittelwerts auf, hat aber den Vorteil, dass er trotz seiner Verzerrung einen kleineren MSE haben kann als der Skalenwert (Wainer & Thissen, 2001; Zitzmann et al., 2023b). Dies liegt daran, dass der Regressionswert weniger stark streut und somit einen kleineren Standardfehler aufweist, vor allem wenn die Reliabilität der Skala nicht sehr groß ist (Lord & Novick, 1968).
Werden anstelle der zwei Skalenwerten die Regressionswerte verwendet, nennt man dies den Adhoc-Ansatz (vgl. Zitzmann et al., 2023a, die die Bezeichnung geprägt haben). Den Veränderungswert erhält man folglich, indem die Skalenwerte durch die Regressionswerte ausgetauscht werden:
$$ \left(1-\uprho \right)\cdotp \left({M}_2-{M}_1\right)+\uprho \cdotp \left({S}_2-{S}_1\right) $$
(9)
Anhand der Gleichung wird ersichtlich, dass dieser Veränderungswert eine reskalierte Version des gewöhnlichen Veränderungswerts darstellt. Die Reskalierung bewirkt eine Verschiebung hin zur mittleren Veränderung (gemittelt über Personen). Wie der Regressionswert ist auch er verzerrt, kann aber einen kleineren MSE haben als der gewöhnliche Veränderungswert, insbesondere für mittelgroße Veränderungen von Personen (Zitzmann et al., 2023a). Er entspricht damit Spieler 2 in der Dartspielmetapher. Je größer der Messfehler/geringer die Reliabilität der Skala, desto größer ist der Bereich, für den der Adhoc-Ansatz einen genaueren Wert liefert als der gewöhnliche Veränderungswert. Bei extremen Veränderungen ist der Adhoc-Ansatz allerdings weniger genau. Trotzdem weist der Adhoc-Ansatz einen kleineren durchschnittlichen MSE (gemittelt über die gesamte Bandbreite möglicher wahrer Veränderungen) auf, was heißt, dass der mit dem Adhoc-Ansatz gewonnene Veränderungswert im Schnitt genauer ist als der gewöhnliche Veränderungswert. Dies liegt in erster Linie an dem kleineren Standardfehler, den der Adhoc-Ansatz mit sich bringt.
Das Konfidenzintervall ergibt sich als:
$$ \left(1-\uprho \right)\cdotp \left({M}_2-{M}_1\right)+\uprho \cdotp \left({S}_2-{S}_1\right)\pm 1.96\cdotp \uprho \cdotp \sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)} $$
(10)

Kelleys Ansatz

Eine weitere, historisch gesehen schon alte Alternative zum gewöhnlichen Veränderrungswert ist Kelleys Ansatz, der als direkte Anwendung von Kelleys Formel auf einen Veränderungwert aufgefasst werden kann (Lord & Novick, 1968). Bei diesem Ansatz wird der Veränderungswert durch Regression der wahren Veränderung auf den gewöhnlichen Veränderungswert ermittelt. Wie beim Adhoc-Ansatz ist der resultierende Änderungswert eine reskalierte Version des gewöhnlichen Veränderungswerts (vgl. Feldt & Brennan, 1989; Mellenbergh & van der Brink, 1998), jedoch mit einem anderen Skalierungsfaktor:
$$ \left(1-r\right)\cdotp \left({M}_2-{M}_1\right)+r\cdotp \left({S}_2-{S}_1\right) $$
(11)
wobei r die Reliabilität des gewöhnlichen Veränderungswerts ist. Eine Formel zur einfachen Berechnung dieser Reliabilität liefert Gl. 2 in Cronbach and Furby (1970). Ähnlich wie der Adhoc-Ansatz ist auch dieser Veränderungswert verzerrt, hat aber für mittelgroße Veränderungen von Personen einen kleineren MSE als der gewöhnliche Veränderungswert. Er ist in diesem Bereich sogar genauer als der Adhoc-Ansatz (Zitzmann et al., 2023a), und entspricht damit Spieler 3 in der Dartspielmetapher. In extremeren Bereichen jedoch kehrt sich diese Beziehung zwischen den Ansätzen um, was bedeutet, dass Kelleys Ansatz in diesem Fall weniger genau ist als der Adhoc-Ansatz. Kelleys Ansatz ist aber im Mittel genauer, was ihn insgesamt zum im Schnitt genauesten unter den drei Ansätzen macht.
Das Konfidenzintervall lautet:
$$ \left(1-r\right)\cdotp \left({M}_2-{M}_1\right)+r\cdotp \left({S}_2-{S}_1\right)\pm 1.96\cdotp r\cdotp \sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)} $$
(12)
Eine interessante Beobachtung ist, dass der nach Kelleys Ansatz resultierende Veränderungswert auch als eine Bayes-Schätzung interpretiert werden kann, die analytisch gewonnen werden kann, wenn zusätzliche Annahmen getroffen werden (z. B. eine Normalverteilung der Veränderung, eine normale Priorverteilung). Eine solche Bayes-Schätzung wird auch EAP-Schätzung genannt und lässt sich – entgegen der landläufigen Meinung – nicht nur für die probabilistische Testtheorie angeben, sondern kann auch für die klassische Testtheorie gefunden werden. Die Herleitung erfolgt in Analogie zur Herleitung des EAPs des Mittelwerts der Normalverteilung (Hoff, 2009; Lüdtke & Robitzsch, 2017; Zitzmann et al., 2022).

Illustration: Persönlichkeitsveränderung

Die wichtigsten Unterschiede im Verhalten, Denken und Fühlen lassen sich in den Big Five Persönlichkeitsmerkmalen zusammenfassen, die als Extraversion, Verträglichkeit, Gewissenhaftigkeit, negative Emotionalität und Aufgeschlossenheit Eingang in die wissenschaftliche Literatur gefunden haben. Auch wenn die Unterschiede zwischen Personen weitgehend bestehen bleiben, kann sich die individuelle Persönlichkeit ändern.
Angenommen, wir haben 200 Personen gebeten, digitale Versionen des Big Five Inventory-2 (BFI-2; Soto & John, 2017) an 12 aufeinanderfolgenden Messzeitpunkten mit einem Abstand von ungefähr zwei Wochen dazwischen über einen Zeitraum von sechs Monaten auszufüllen. Die Zustimmung zu den Items wurde anhand einer fünfstufigen Likert-Skala erfasst mit den Labels „stimme überhaupt nicht zu“ (1) bis „stimme stark zu“ (5), die so rekodiert wurden, dass die Skala von −2 bis 2 reichte. Beginnend mit der zweiten Messung wurde nach jeder Messung und für jede Person die individuelle Veränderung seit der vorherigen Messung erfasst. Zur Illustration greifen wir die Veränderung von der sechsten zur siebenten Messung heraus. Außerdem konzentrieren wir uns auf das Merkmal Extraversion. Es werden Daten von Zitzmann et al. (Zitzmann et al., 2023a) genutzt, die unter https://figshare.com/articles/dataset/Quantifying_Individual_Personality_Change_More_Accurately_by_Regression-Based_Change_Scores/21320796 heruntergeladen werden können, um die Ergebnisse nachzurechnen. Der Datensatz enthält die Skalenwerte der beiden Messungen. Unter Verwendung dieser Werte können für jede Person die drei Veränderungswerte bestimmt werden: der gewöhnliche Veränderungswert und die Veränderungswerte, die sich mit dem Adhoc- und Kelleys Ansatz ergeben.
Die Veränderungswerte von 10 zufällig ausgewählten Personen sind in Abb. 1 zusammengestellt. Folgende Beobachtungen sind bemerkenswert: erstens ist aus dieser Abbildung ersichtlich, dass sich die Veränderungswerte der drei Ansätzen teilweise stark voneinander unterscheiden. Die tendenziell vom Betrag her extremsten Werte wies der gewöhnliche Veränderungswert auf (z. B. Person p173), gefolgt vom Adhoc-Ansatz. Dass der Adhoc-Ansatz etwas kleinere Werte lieferte überrascht kaum, wenn man bedenkt, dass dieser Ansatz die Reliabilität der Skalenwerte zur Reskalierung nutzt. Weil diese Reliabilität mit 0,88 recht hoch ausfiel wurden die resultierenden Veränderungswerte nicht allzu stark in Richtung der mittleren Veränderung von 0,25 verzerrt. Die kleinsten Veränderungswerte ergaben sich mit Kelleys Ansatz, der dank einer Reliabilität des gewöhnlichen Veränderungswerts von nur 0,25 als Skalierungsfaktor die resultierenden Veränderungswerte noch deutlicher in Richtung Mittelwert zog.
Abb. 1
Vergleich der verschiedenen Ansätze zur Messung individueller Veränderung. Die schwarzen horizontalen Linien geben die (halbe) Breite der Konfidenzintervalle an. Weißer Balken = gewöhnlicher Veränderungswert; hellgrauer Balken = Adhoc-Ansatz; dunkelgrauer Balken = Kelleys Ansatz
Die zweite, für die Diskussion bedeutendere Beobachtung bezieht sich auf die Konfidenzintervalle, deren Breite bekanntlich vom Standardfehler abhängt. Das breiteste Konfidenzintervall und damit den größten Standardfehler hatte der gewöhnliche Veränderungswert. In gewisser Weise spiegelt dieser Befund die Kritik von Cronbach und Furby (1970) wider. Ein etwas schmaleres Konfidenzintervall wies der Adhoc-Ansatz auf, was daran liegt, dass sein Standardfehler dadurch ermittelt wird, dass der Standardfehler des gewöhnlichen Veränderungswerts mit dem Skalierungsfaktor 0,88 (d. h. der Reliabilität der Skalenwerte) multipliziert wird (Zitzmann et al., 2023a). Der Adhoc-Ansatz wird von Kelleys Ansatz gefolgt, der mit Abstand das schmalste Konfidenzintervall lieferte, da dessen Standardfehler sich durch Multiplikation mit einem kleinen Wert von 0,25 (d. h. der Reliabilität des gewöhnlichen Veränderungswerts) ergibt.
Die Beobachtungen stehen damit im Einklang mit den Aussagen über die Unterschiede der verschiedenen Ansätzen in der Genauigkeit beziehungsweise im MSE.

Zusammenfassung und Fazit

Fragen bezüglich der Veränderung von Persönlichkeitsmerkmale können mit den Methoden der psychologischen Diagnostik adressiert werden. Einer Empfehlung von Cronbach und Furby (1970) zufolge sollen individuelle Veränderungswerte wegen ihrer Ungenauigkeit nicht verwendet werden. Diese Empfehlung beruht jedoch auf der Betrachtung der Reliabilität dieser Werte, die im Allgemeinen nicht besonders hoch ausfällt. Dem aktuellen Beitrag liegt ein alternatives Genauigkeitsverständnis zugrunde – der MSE, der darüber informiert, wie nahe der gemessene Veränderungswert der wahren Veränderung kommt. Vor diesem Hintergrund wurden drei Ansätze zur Quantifizierung individueller Veränderungen diskutiert. Es wurde argumentiert, dass der Adhoc-Ansatz Veränderungswerte liefert, die über einen weiten Bereich genauer sind als der gewöhnliche Veränderungswert, sich diese Relation aber bei extremen Veränderungen umkehrt. Dennoch liefert der Ad-hoc-Ansatz im Schnitt genauere Veränderungswerte. Hinsichtlich des Vergleichs von Kelleys Ansatz mit dem Ad-hoc-Ansatz wurde argumentiert, dass Kelleys Ansatz bei mittleren Veränderungen ebenfalls genauer ist als der gewöhnliche Veränderungswert, allerdings über einen kleineren Bereich als der Ad-hoc-Ansatz. Kelleys Ansatz ist jedoch im Bereich mittlerer Veränderungen und auch im Schnitt genauer als der Adhoc-Ansatz.
Aufgrund dieser Argumente sollte der gewöhnliche Veränderungswert nur mit Vorsicht eingesetzt werden. Vielmehr sollte der Adhoc-Ansatz oder Kelleys Ansatz zum Einsatz kommen. Welchem dieser beiden Ansätze der Vorzug zu geben ist hängt von der zu messenden Person ab. Wird etwa erwartet, dass diese Person eine zwar nicht extreme, aber immerhin noch große Veränderung ihrer Persönlichkeit durchmacht, ist es ratsam zum Adhoc-Ansatz zu greifen, weil dieser Ansatz in diesem Fall genauer ist als der gewöhnliche Veränderungswert and auch genauer als Kelleys Ansatz.
Während Kelleys Ansatz alt ist und schon von Lord und Novick (1968) diskutiert wurde, sind neuere Alternativen wie der Adhoc-Ansatz Gegenstand aktueller Debatten. Ob sich solche im Sinne des MSEs genaueren Ansätze in der Diagnostik von Veränderungen der Persönlichkeit und anderer psychischer Merkmalen durchsetzen, wird die Zukunft zeigen.
Literatur
Allport, G. W. (1937). Personality: A psychological interpretation. Holt.
Bleidorn, W., Hopwood, C. J., & Lucas, R. E. (2018). A random walk down university avenue: Life paths, life events, and personality trait change at the transition to university life. Journal of Personality, 86, 620–637. https://doi.org/10.1037/a0023743CrossRef
Bleidorn, W., Hill, P. L., Back, M. D., Denissen, J. J. A., Hennecke, M., Hopwood, C. J., … Brent, R. (2019). The policy relevance of personality traits. American Psychologist, 74, 1056–1067. https://doi.org/10.1037/amp0000503
Cattell, R. B. (1946). Personality structure and measurement. i. the operational determination of trait unities. British Journal of Psychology, 36, 88–103. https://doi.org/10.1111/j.2044-8295.1946.tb01110.xCrossRef
Cronbach, L. J., & Furby, L. (1970). How we should measure “change” – Or should we? Psychological Bulletin, 74, 68–80. https://doi.org/10.1037/h0029382CrossRef
Feldt, L. S., & Brennan, R. L. (1989). Reliability. In R. L. Linn (Hrsg.), Educational measurement (S. 105–146). Macmillan.
Greenland, S. (2000). Principles of multilevel modelling. International Journal of Epidemiology, 29, 158–167. https://doi.org/10.1093/ije/29.1.158CrossRefPubMed
Hill, P. L., Nickel, L. B., & Roberts, B. W. (2014). Are you in a healthy relationship? Linking conscientiousness to health via implementing and immunizing behaviors. Journal of Personality, 82, 485–492. https://doi.org/10.1111/jopy.12051CrossRefPubMed
Hoff, P. D. (2009). A first course in Bayesian statistical methods. Springer.CrossRef
Hudson, N. W., & Fraley, R. C. (2015). Volitional personality trait change: Can people choose to change their personality traits? Journal of Personality and Social Psychology, 109, 490–507. https://doi.org/10.1037/pspp0000021CrossRefPubMed
Hudson, N. W., & Roberts, B. W. (2014). Goals to change personality traits: Concurrent links between personality traits, daily behavior, and goals to change oneself. Journal of Research in Personality, 53, 68–83. https://doi.org/10.1016/j.jrp.2014.08.008CrossRef
Jacobson, N. S., & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12–19. https://doi.org/10.1037//0022-006x.59.1.12CrossRefPubMed
Jayawickreme, E., Fleeson, W., Beck, E. D., Baumert, A., & Adler, J. M. (2021). Personality dynamics. Personality Science, 2, 1–18. https://doi.org/10.5964/ps.6179CrossRef
Lord, F. M. (1956). The measure of growth. Educational and Psychological Measurement, 16, 421–437. https://doi.org/10.1002/j.2333-8504.1956.tb00058.xCrossRef
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Addison-Wesley.
Lüdtke, O., & Robitzsch, A. (2017). Einführung in die Plausible-Values-Technik für die psychologische Forschung [An introduction to the plausible value technique for psychological research]. Diagnostica, 63, 193–205. https://doi.org/10.1026/0012-1924/a000175CrossRef
McDonald, R. P. (2011). Measuring latent quantities. Psychometrika, 76, 511–536. https://doi.org/10.1007/s11336-011-9223-7CrossRefPubMed
Mellenbergh, G. J., & van der Brink, W. P. (1998). The measurement of individual change. Psychological Methods, 3, 470–485. https://doi.org/10.1037/1082-989X.3.4.470CrossRef
Reiss, D., Eccles, J. S., & Nielsen, L. (2014). Conscientiousness and public health: Synthesizing current research to promote healthy aging. Developmental Psychology, 50, 1303–1314. https://doi.org/10.1037/a0036473CrossRefPubMed
Roberts, B. W., Walton, K. E., & Viechtbauer, W. (2006). Patterns of mean-level change in personality traits across the life course: A meta-analysis of longitudinal studies. Psychological Bulletin, 132, 1–25. https://doi.org/10.1037/0033-2909.132.1.1CrossRefPubMed
Roberts, B. W., Kuncel, N. R., Shiner, R., Caspi, A., & Goldberg, L. R. (2007). The power of personality: The comparative validity of personality traits, socioeconomic status, and cognitive ability for predicting important life outcomes. Perspectives on Psychological Science, 2, 313–345. https://doi.org/10.1111/j.1745-6916.2007.00047.xCrossRefPubMedPubMedCentral
Roberts, B. W., Luo, J., Briley, D. A., Chow, P. I., Su, R., & Hill, P. L. (2017). A systematic review of personality trait change through intervention. Psychological Bulletin, 143, 117–141. https://doi.org/10.1037/bul0000088CrossRefPubMed
Soto, C. J., & John, O. P. (2017). The next Big Five Inventory (BFI-2): Developing and assessing a hierarchical model with 15 facets to enhance bandwidth, fidelity, and predictive power. Journal of Personality and Social Psychology, 113, 117–143. https://doi.org/10.1037/pspp0000096CrossRefPubMed
Stieger, M., Flücker, C., Rüegger, D., Kowatsch, T., Roberts, B. W., & Allemand, M. (2021). Changing personality traits with the help of a digital personality change intervention. Proceedings of the National Academy of Sciences, 118, 1–9. https://doi.org/10.1073/pnas.2017548118CrossRef
Wagner, J., Lüdtke, O., & Robitzsch, A. (2019). Does personality become more stable with age? Disentangling state and trait effects for the big five across the life span using local structural equation modeling. Journal of Personality and Social Psychology, 116, 666–680. https://doi.org/10.1037/pspp0000203CrossRefPubMed
Wainer, H., & Thissen, D. (2001). True score theory: The traditional method. In D. Thissen & H. Wainer (Hrsg.), Test scoring (S. 23–72). Lawrence Erlbaum.
Zitzmann, S. (2023). A cautionary note regarding multilevel factor score estimates from lavaan. Psych, 5, 38–49. https://doi.org/10.3390/psych5010004CrossRef
Zitzmann, S., Lindner, C., Leucht, C., & Leucht, S. (2023). Taking uncertainty in the assessment of response into account: An advanced guideline for computing responder rates in clinical trials. Manuskript eingereicht zur Veröffentlichung.
Zitzmann, S., Helm, C., & Hecht, M. (2021a). Prior specification for more stable Bayesian estimation of multilevel latent variable models in small samples: A comparative investigation of two different approaches. Frontiers in Psychology, 11, 1–11. https://doi.org/10.3389/fpsyg.2020.611267CrossRef
Zitzmann, S., Lüdtke, O., Robitzsch, A., & Hecht, M. (2021b). On the performance of Bayesian approaches in small samples: A comment on Smid, McNeish, Miočević, and van de Schoot (2020). Structural Equation Modeling, 28, 40–50. https://doi.org/10.1080/10705511.2020.1752216CrossRef
Zitzmann, S., Lohmann, J. F., Krammer, G., Helm, C., Aydin, B., & Hecht, M. (2022). A Bayesian EAP-based nonlinear extension of Croon and van Veldhoven’s model for analyzing data from micro-macro multilevel designs. Mathematics, 10, 1–15. https://doi.org/10.3390/math10050842CrossRef
Zitzmann, S., Bardach, L., Horstmann, K., Ziegler, M., & Hecht, M. (2023a). Quantifying individual personality change more accurately by regression-based change scores. Manuskript eingereicht zur Veröffentlichung.
Zitzmann, S., List, M., Lechner, C., Hecht, M., & Krammer, G. (2023b). Reporting factor score estimates of teaching quality based on student ratings back to teachers: Recommendations from psychometrics. Manuskript eingereicht zur Veröffentlichung.