Der gewöhnlicher Veränderungswert
Eine konzeptuelle Einbettung und Veranschaulichung
individueller Veränderungen liefert Cattells (1946) Datenbox. Dabei werden drei Messdimensionen voneinander unterschieden: Personen, Variablen und Zeit. Wird eine Person aus der Personendimension der Datenbox ausgewählt, dann erlauben die resultierenden Daten (d. h. die Antworten der Person zu den verschiedenen Messzeitpunkten) die Beantwortung der Frage, ob sich ihre psychischen Merkmale im Laufe der Zeit verändert haben.
Zur Vereinfachung wird im Folgenden auf zwei aufeinanderfolgende Messungen fokussiert, die wir mit unterschiedlichen Indizes 1 (vorheriger Messzeitpunkt) und 2 (nachfolgender Messzeitpunkt) bezeichnen. Unter der Annahme, dass die Messungen nicht durch Messfehler verunreinigt sind (d. h. sie sind identisch mit den wahren Werten), kann die Veränderung angegeben werden als:
wobei
T1 und
T2 die Skalenwerte der vorherigen beziehungsweise der nachfolgenden Messung der Person bezeichnen und Δ die Veränderung der Person ist.
Nach der klassischen Testtheorie, die die psychometrische Grundlage der meisten in der Psychologie verwendeten Skalen bildet, ist jede Messung jedoch fehlerbehaftet. Formaler ausgedrückt besteht ein Maß aus zwei unabhängigen Komponenten, einem unbeobachteten wahren Wert und einer Abweichung von diesem wahren Wert, die als Messfehler bezeichnet wird. Wenn wir den gemessenen Skalenwert mit S bezeichnen, kann dieser Sachverhalt wie folgt ausgedrückt werden:
wobei
T den wahren Wert darstellt und
E der Messfehler ist. Wenn man sich vor Augen führt, dass eine Messung grundsätzlich wiederholt werden könnte (z. B. um zu sehen, wie zuverlässig sie ist), wird klar, dass der Skalenwert eine Zufallsvariable darstellt, die um den wahren Wert zentriert ist und eine Streuung aufweist. Diese Streuung wird Standardfehler der Messung genannt und hängt von der Reliabilität der Skala ab (McDonald,
2011).
Werden die wahren Werte in Gl.
1 durch die zugehörigen gemessenen Skalenwerte (d. h. die Summen- oder Durchschnittswerte der Antworten einer Person) ersetzt, erhält man den gewöhnlichen Veränderungswert:
Dieser Veränderungswert kann aus statistischer Perspektive betrachtet auch als ein Maximum-Likelihood-Schätzer der Veränderung einer Person aufgefasst werden (Mellenbergh & van der Brink,
1998) und weist die typischen Eigenschaften auf, allen voran Unverzerrtheit, und entspricht damit Spieler 1 in der Dartspielmetapher. Ob die gemessene Veränderung einer Person auch einer zufallskritischen Betrachtung standhält, kann mit Hilfe des 95 %-Konfidenzintervalls entschieden werden, indem überprüft wird, ob das
Konfidenzintervall die Null enthält oder nicht. Enthält es die Null
nicht, kann man davon ausgehen, dass sich die Person tatsächlich verändert hat. Berücksichtigt man, dass sich der Standardfehler des Veränderungswerts anhand der Reliabilität der Skala und den
Varianzen der Skalenwerte geschätzt werden kann, kann das Konfidenzintervall angegeben werden als:
$$ \left({S}_2-{S}_1\right)\pm 1.96\cdotp \sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)} $$
(4)
wobei ρ die Reliabilität der Skala ist und
\( {\upsigma}_1^2 \) und
\( {\upsigma}_2^2 \) die
Varianzen der beiden Skalenwerte über Personen sind. In der einzelfallbezogenen Diagnostik wird für die Reliabilität oft eine Abschätzung verwendet, die anhand einer großen
Stichprobe gewonnen wurde. Gleiches gilt für die Varianzen der Skalenwerte. Im Forschungskontext werden diese Größen nicht selten anhand der eigenen Studie ermittelt – eine Strategie, die sowohl Vor- als auch Nachteile hat. Generell gilt: wenn Ergebnisse aus einer deutlich größeren Stichprobe (derselben Population) vorliegen, sollten diese in die Berechnung des
Konfidenzintervalls eingehen. Liegt nur ein Teil der Informationen (z. B. die Reliabilität) aus der großen Strichprobe vor, kann auch eine Mischstrategie verwendet und die fehlenden Informationen (z. B. die Varianzen der Skalenwerte) anhand der eigenen Strichprobe ermittelt werden.
Manchmal wird der Veränderungswert noch am vorherigen Wert relativiert und mit 100 % multipliziert,
$$ \left({S}_2/{S}_1-1\right)\cdotp 100\% $$
(5)
und erlaubt dadurch eine Interpretation des Veränderungswerts als „prozentuale Änderung gegenüber dem Ausgangswert oder der Baseline“.
Dieser Wert erfordert eine eigene zufallskritische Absicherung, denn es kann aus der Signifikanz des Veränderungswerts in Gl.
3 nicht geschlossen werden, dass auch der relative Veränderungswert signifikant ist. Ein 95 %-Konfidenzintervall für den relativen Veränderungswert kann mittels der Taylor-Erweiterung gewonnen werden. Mit dieser Methode ergibt sich für das
Konfidenzintervall:
$$ \left({S}_2/{S}_1-1\right)\cdotp 100\%\pm 1.96\cdotp \sqrt{\left(1-\uprho \right)\cdotp \left(1+{S}_2^2/{S}_1^2\cdotp {\upsigma}_1^2/{\upsigma}_2^2\right)\cdotp {\upsigma}_2^2/{S}_1^2}\cdotp 100\% $$
(6)
Die Breite dieses
Konfidenzintervalls unterscheidet sich im Gegensatz zum Konfidenzintervall in Gl.
4 von Person zu Person (Zitzmann et al.,
2023). Die Größenordnung des Unterschieds hängt davon ab, wie sehr sich Personen im relativen Veränderungswert unterscheiden und wie sehr sie sich in der Baseline unterscheiden.
Oft wird der Veränderungswert auch am Standardfehler (gernauer: am Standardmessfehler) relativiert:
$$ \frac{S_2-{S}_1}{\sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)}} $$
(7)
Dieser Index, im Englischen auch Reliable Change Index genannt, folgt der Standardnormalverteilung und erlaubt es direkt abzulesen, ob eine signifikante Veränderung vorliegt. Fällt sein Wert vom Betrag her größer als 1.96 aus, dann spricht dies für eine signifikante individuelle Veränderung (Jacobson & Truax,
1991).
Adhoc-Ansatz
Wie aus Gl.
3 hervorgeht, erfordert es die Berechnung des Veränderungswerts, dass zuvor die Werte der beiden aufeinanderfolgenden Messungen ermittelt wurden. Während die übliche Wahl für diese Werte der schon eingeführte Skalenwert ist, können auch andere (Faktor-)Werte eingesetzt werden. Eine vielversprechende Option ist der Regressionswert. Anders als der Skalenwert ergibt sich der Regressionswert aus einer
Regression des wahren Werts auf den Skalenwert (McDonald,
2011; Zitzmann,
2023). Der Regressionswert kann wie folgt ausgedrückt werden:
$$ \left(1-\uprho \right)\cdotp M+\uprho \cdotp S $$
(8)
wobei
M der Mittelwert der Skala über Personen ist. Der Regressionswert weist im Allgemeinen eine Verzerrung in Richtung des Mittelwerts auf, hat aber den Vorteil, dass er trotz seiner Verzerrung einen kleineren MSE haben kann als der Skalenwert (Wainer & Thissen,
2001; Zitzmann et al.,
2023b). Dies liegt daran, dass der Regressionswert weniger stark streut und somit einen kleineren Standardfehler aufweist, vor allem wenn die Reliabilität der Skala nicht sehr groß ist (Lord & Novick,
1968).
Werden anstelle der zwei Skalenwerten die Regressionswerte verwendet, nennt man dies den Adhoc-Ansatz (vgl. Zitzmann et al.,
2023a, die die Bezeichnung geprägt haben). Den Veränderungswert erhält man folglich, indem die Skalenwerte durch die Regressionswerte ausgetauscht werden:
$$ \left(1-\uprho \right)\cdotp \left({M}_2-{M}_1\right)+\uprho \cdotp \left({S}_2-{S}_1\right) $$
(9)
Anhand der Gleichung wird ersichtlich, dass dieser Veränderungswert eine reskalierte Version des gewöhnlichen Veränderungswerts darstellt. Die Reskalierung bewirkt eine Verschiebung hin zur mittleren Veränderung (gemittelt über Personen). Wie der Regressionswert ist auch er verzerrt, kann aber einen kleineren MSE haben als der gewöhnliche Veränderungswert, insbesondere für mittelgroße Veränderungen von Personen (Zitzmann et al.,
2023a). Er entspricht damit Spieler 2 in der Dartspielmetapher. Je größer der Messfehler/geringer die Reliabilität der Skala, desto größer ist der Bereich, für den der Adhoc-Ansatz einen genaueren Wert liefert als der gewöhnliche Veränderungswert. Bei extremen Veränderungen ist der Adhoc-Ansatz allerdings weniger genau. Trotzdem weist der Adhoc-Ansatz einen kleineren durchschnittlichen MSE (gemittelt über die gesamte Bandbreite möglicher wahrer Veränderungen) auf, was heißt, dass der mit dem Adhoc-Ansatz gewonnene Veränderungswert im Schnitt genauer ist als der gewöhnliche Veränderungswert. Dies liegt in erster Linie an dem kleineren Standardfehler, den der Adhoc-Ansatz mit sich bringt.
$$ \left(1-\uprho \right)\cdotp \left({M}_2-{M}_1\right)+\uprho \cdotp \left({S}_2-{S}_1\right)\pm 1.96\cdotp \uprho \cdotp \sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)} $$
(10)
Kelleys Ansatz
Eine weitere, historisch gesehen schon alte Alternative zum gewöhnlichen Veränderrungswert ist Kelleys Ansatz, der als direkte Anwendung von Kelleys Formel auf einen Veränderungwert aufgefasst werden kann (Lord & Novick,
1968). Bei diesem Ansatz wird der Veränderungswert durch
Regression der wahren Veränderung auf den gewöhnlichen Veränderungswert ermittelt. Wie beim Adhoc-Ansatz ist der resultierende Änderungswert eine reskalierte Version des gewöhnlichen Veränderungswerts (vgl. Feldt & Brennan,
1989; Mellenbergh & van der Brink,
1998), jedoch mit einem anderen Skalierungsfaktor:
$$ \left(1-r\right)\cdotp \left({M}_2-{M}_1\right)+r\cdotp \left({S}_2-{S}_1\right) $$
(11)
wobei
r die Reliabilität des gewöhnlichen Veränderungswerts ist. Eine Formel zur einfachen Berechnung dieser Reliabilität liefert Gl.
2 in Cronbach and Furby (
1970). Ähnlich wie der Adhoc-Ansatz ist auch dieser Veränderungswert verzerrt, hat aber für mittelgroße Veränderungen von Personen einen kleineren MSE als der gewöhnliche Veränderungswert. Er ist in diesem Bereich sogar genauer als der Adhoc-Ansatz (Zitzmann et al.,
2023a), und entspricht damit Spieler 3 in der Dartspielmetapher. In extremeren Bereichen jedoch kehrt sich diese Beziehung zwischen den Ansätzen um, was bedeutet, dass Kelleys Ansatz in diesem Fall weniger genau ist als der Adhoc-Ansatz. Kelleys Ansatz ist aber im Mittel genauer, was ihn insgesamt zum im Schnitt genauesten unter den drei Ansätzen macht.
$$ \left(1-r\right)\cdotp \left({M}_2-{M}_1\right)+r\cdotp \left({S}_2-{S}_1\right)\pm 1.96\cdotp r\cdotp \sqrt{\left(1-\uprho \right)\cdotp \left({\upsigma}_1^2+{\upsigma}_2^2\right)} $$
(12)
Eine interessante Beobachtung ist, dass der nach Kelleys Ansatz resultierende Veränderungswert auch als eine Bayes-Schätzung interpretiert werden kann, die analytisch gewonnen werden kann, wenn zusätzliche Annahmen getroffen werden (z. B. eine
Normalverteilung der Veränderung, eine normale Priorverteilung). Eine solche Bayes-Schätzung wird auch EAP-Schätzung genannt und lässt sich – entgegen der landläufigen Meinung – nicht nur für die probabilistische Testtheorie angeben, sondern kann auch für die klassische Testtheorie gefunden werden. Die Herleitung erfolgt in Analogie zur Herleitung des EAPs des Mittelwerts der Normalverteilung (Hoff,
2009; Lüdtke & Robitzsch,
2017; Zitzmann et al.,
2022).