Skip to main content
Erschienen in: German Journal of Exercise and Sport Research 2/2012

01.06.2012 | Hauptbeiträge

Fehlende Werte in sportwissenschaftlichen Untersuchungen

Eine anwendungsorientierte Einführung in die multiple Imputation mit SPSS

verfasst von: Dr. Darko Jekauc, Manuel Völkle, Lena Lämmle, Alexander Woll

Erschienen in: German Journal of Exercise and Sport Research | Ausgabe 2/2012

Einloggen, um Zugang zu erhalten

Zusammenfassung

Fehlende Werte sind in der empirischen Forschung ein ernstzunehmendes Problem, das gerade in sportwissenschaftlichen Studien oft vernachlässigt wird. Häufig eingesetzte Verfahren wie Regressionsmethode, fallweiser und paarweiser Ausschluss und Mittelwertsersetzungen stellen aus methodischer Sicht keine befriedigende Lösung dar. Neuere Verfahren wie Maximum-Likelihood-Schätzungen (ML) und multiple Imputation (MI) finden nach wie vor zu selten Anwendung. Ziel des vorliegenden Artikels ist es, dem entgegenzuwirken. Basierend auf der statistischen Theorie fehlender Werte nach Rubin (1976) werden verschiedene Verfahren zum Umgang mit fehlenden Werten vorgestellt und kritisch diskutiert. Im Fokus steht dabei das Verfahren der multiplen Imputation (MI). Seit der Implementierung von MI in SPSS Version 17 (SPSS 2009) steht dem routinemäßigen Einsatz durch eine breite Anwenderschaft nichts mehr im Wege. Illustriert wird der Einsatz von MI im letzten Teil des Artikels anhand einer empirischen Studie mit einem für sportwissenschaftliche Untersuchungen typischen Ausfallprozess. Vorteile des MI, aber auch Grenzen und Schwierigkeiten bei der Umsetzung werden anhand dieses Beispiels diskutiert.
Fußnoten
1
Predictive Mean Matching ähnelt dabei stark einer anderen Klasse an Imputationsverfahren, der sog. Hot-Deck-Imputation (Ford, 1983). Hierunter versteht man ganz allgemein eine Verfahrensklasse, die darauf abzielt, fehlende Werte einer Person durch die Werte einer möglichst ähnlichen anderen (Geber-)Person zu ersetzen. Die einzelnen Ansätze unterscheiden sich darin, wie genau diese Ähnlichkeit quantifiziert wird. Gerade in der Umfrageforschung haben Hot-Deck-Imputationen einige Aufmerksamkeit erhalten (Scheuren, 2005).
 
2
Bei der Posteriorverteilung der Kovarianzmatrix handelt es sich um eine inverse Wishart-Verteilung, während es sich bei der Posteriorverteilung des Mittelwertvektors um eine multivariate Normalverteilung handelt. Das Konzept der Posteriorverteilung (sowie die Methode der multiplen Imputation an sich) ist eng mit dem bayesianischen Wahrscheinlichkeitsbegriff verbunden, auf welchen im Rahmen dieses Artikels jedoch nicht näher eingegangen werden kann. Für ein tiefergehendes Verständnis empfehlen wir die Lektüre von Enders (2010).
 
3
Seit 2009 wird das Statistikprogramm SPSS (Statistical Package for the Social Sciences) unter dem Namen PASW (Predictive Analysis SoftWare) vermarktet.
 
4
Von einem monotonen Muster spricht man, wenn der Ausfall betrachtet über einzelne Items oder Personen aufeinander aufbauend verläuft. In der Praxis kommt das monotone Ausfallmuster selten vor. Beispielsweise in Längsschnittstudien, in denen Testpersonen von Messzeitpunkt zu Messzeitpunkt sukzessive ausfallen, kann dieses Muster auftreten. Das monotone Muster vereinfacht den Schätzprozess, da iterative Algorithmen nicht mehr gebraucht werden, weder bei ML- noch bei Bayes-Schätzungen. Im Fall eines nicht monotonen Musters empfiehlt SPSS (2009), den oben beschriebenen MCMC-Algorithmus anzuwenden. SPSS bietet auch die Möglichkeit des Einsatzes des weniger rechenaufwendigen Verfahrens für monotone Ausfallmuster.
 
5
Bei dieser Spezifikation der Minimal- und Maximalwerte wird versucht, die Werte innerhalb dieser Grenzen zu erzeugen. Falls dies nicht gelingt, wird die Prozedur für Fall- und Parameterziehungen wiederholt. SPSS 18 bietet die Möglichkeit, die maximale Anzahl der Fall- und Parameterziehungen festzulegen. Je höher die maximale Anzahl der Ziehungen, desto wahrscheinlicher ist eine Ziehung innerhalb der aufgestellten Grenzen, aber umso größer fällt der Rechenaufwand aus. Wie groß die maximale Anzahl dieser Ziehungen sein sollte, ist im Einzelfall abzuwägen.
 
Literatur
1.
Zurück zum Zitat Allison, P.D. (2002). Missing Data. Thousand Oaks: Sage. Allison, P.D. (2002). Missing Data. Thousand Oaks: Sage.
2.
Zurück zum Zitat American Psychological Association (2009). Publication manual of the American Psychological Association. Washington D.C.: American Psychological Association. American Psychological Association (2009). Publication manual of the American Psychological Association. Washington D.C.: American Psychological Association.
3.
Zurück zum Zitat Arbuckle, J.L. (1996). Full information estimation in the presence of incomplete data. In G.A. Marcoulides & R.E. Schumacker (Eds.), Advanced structural equation modeling (pp. 243–277). Mahwah, NJ: Lawrence Erlbaum. Arbuckle, J.L. (1996). Full information estimation in the presence of incomplete data. In G.A. Marcoulides & R.E. Schumacker (Eds.), Advanced structural equation modeling (pp. 243–277). Mahwah, NJ: Lawrence Erlbaum.
4.
Zurück zum Zitat Bös, K., Abel, T., Woll, A., Niemann, S., Tittlbach, S. & Schott, N. (2002). Der Fragebogen zur Erfassung des motorischen Funktionsstatus (FFB-Mot): Bericht über die Entwicklung und Überprüfung. Diagnostica, 48, 101–111. Bös, K., Abel, T., Woll, A., Niemann, S., Tittlbach, S. & Schott, N. (2002). Der Fragebogen zur Erfassung des motorischen Funktionsstatus (FFB-Mot): Bericht über die Entwicklung und Überprüfung. Diagnostica, 48, 101–111.
5.
Zurück zum Zitat Demirtas, H. and Schafer, J.L. (2003). On the performance of random-coefficient pattern-mixture models for non-ignorable dropout. Statistics in Medicine, 22, 2553–2575. Demirtas, H. and Schafer, J.L. (2003). On the performance of random-coefficient pattern-mixture models for non-ignorable dropout. Statistics in Medicine, 22, 2553–2575.
6.
Zurück zum Zitat Dempster, A.P., Laird, N & Rubin, D.B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, B39, 1–38. Dempster, A.P., Laird, N & Rubin, D.B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, B39, 1–38.
7.
Zurück zum Zitat Dillman, D.A. (2000). Mail and internet surveys. The tailored design method. New York: Wiley. Dillman, D.A. (2000). Mail and internet surveys. The tailored design method. New York: Wiley.
8.
Zurück zum Zitat Enders, C.K. (2010). Applied missing data analysis. New York: Guilford Press. Enders, C.K. (2010). Applied missing data analysis. New York: Guilford Press.
9.
Zurück zum Zitat Enders, C.K., & Bandalos, D.L. (2001). The relative performance of full information maximum likelihood estimation for missing data in structural equation models. Structural Equation Modeling, 8, 430–457. Enders, C.K., & Bandalos, D.L. (2001). The relative performance of full information maximum likelihood estimation for missing data in structural equation models. Structural Equation Modeling, 8, 430–457.
10.
Zurück zum Zitat Enders, C.K., & Peugh, J.L. (2004). Using an EM covariance matrix to estimate structural equation models with missing data: Choosing an adjusted sample size to improve the accuracy of inferences. Structural Equation Modeling, 11, 1–19. Enders, C.K., & Peugh, J.L. (2004). Using an EM covariance matrix to estimate structural equation models with missing data: Choosing an adjusted sample size to improve the accuracy of inferences. Structural Equation Modeling, 11, 1–19.
11.
Zurück zum Zitat Ford, B.L. (1983). An overview of hot-deck procedures. In W.G. Madow, I. Olkin & D.B. Rubin (Eds.), Incomplete data in sample surveys (pp. 185–207). New York: Academic Press. Ford, B.L. (1983). An overview of hot-deck procedures. In W.G. Madow, I. Olkin & D.B. Rubin (Eds.), Incomplete data in sample surveys (pp. 185–207). New York: Academic Press.
12.
Zurück zum Zitat Glynn, R.J., Laird, N.M. & Rubin, D.B. (1993). Multiple imputation in mixture models for nonignorable nonresponse with followups. Journal of American Statistical Association, 88, 984–93. Glynn, R.J., Laird, N.M. & Rubin, D.B. (1993). Multiple imputation in mixture models for nonignorable nonresponse with followups. Journal of American Statistical Association, 88, 984–93.
13.
Zurück zum Zitat Graham, J.W. (2009). Missing data analysis: making it work in the real world. Annual Review of Psychology, 60, 549–576. Graham, J.W. (2009). Missing data analysis: making it work in the real world. Annual Review of Psychology, 60, 549–576.
14.
Zurück zum Zitat Graham, J.W. & Hofer, S.M. (2000). Multiple Imputation in Multivariate Research. In T.D. Little, K.U. Schnabel & J. Baumert (Hrsg). Modeling longitudinal and multilevel data. Mahwah: Erlbaum. Graham, J.W. & Hofer, S.M. (2000). Multiple Imputation in Multivariate Research. In T.D. Little, K.U. Schnabel & J. Baumert (Hrsg). Modeling longitudinal and multilevel data. Mahwah: Erlbaum.
15.
Zurück zum Zitat Groves, R.M., Fowler, F.J., Couper, M.P., Lepkowski, J.M., Singer, E. & Tourangeau, R. (2009). Survey Methodology. Hoboken: Wiley Groves, R.M., Fowler, F.J., Couper, M.P., Lepkowski, J.M., Singer, E. & Tourangeau, R. (2009). Survey Methodology. Hoboken: Wiley
16.
Zurück zum Zitat King, K., Honaker, J., Joseph, A. & Scheve, K. (2001). Analyzing incomplete political science data: an alternative algorithm for multiple imputation. American Political Science Review, 95, 49–69. King, K., Honaker, J., Joseph, A. & Scheve, K. (2001). Analyzing incomplete political science data: an alternative algorithm for multiple imputation. American Political Science Review, 95, 49–69.
17.
Zurück zum Zitat Little, R.J.A. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83, 1198–1202. Little, R.J.A. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83, 1198–1202.
18.
Zurück zum Zitat Little, R.J.A. & Rubin, D.B. (2002). Statistical analysis with missing data. New Jersey: Wiley. Little, R.J.A. & Rubin, D.B. (2002). Statistical analysis with missing data. New Jersey: Wiley.
19.
Zurück zum Zitat Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Daten in der psychologischen Forschung. Probleme und Lösungen. Psychologische Rundschau, 58, 103–117. Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Daten in der psychologischen Forschung. Probleme und Lösungen. Psychologische Rundschau, 58, 103–117.
20.
Zurück zum Zitat O’Conner, B.P. (1999). Simple and flexible SAS and SPSS programs for analysing lag-sequential categorical data. Behavior Research Methods, Instruments and Computers, 31, 718–726. O’Conner, B.P. (1999). Simple and flexible SAS and SPSS programs for analysing lag-sequential categorical data. Behavior Research Methods, Instruments and Computers, 31, 718–726.
21.
Zurück zum Zitat Peugh, J.L. & Enders, C.K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525–556. Peugh, J.L. & Enders, C.K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525–556.
22.
Zurück zum Zitat Rubin, D.B. (1976). Inference and missing data. Biometrika, 63, 581–592. Rubin, D.B. (1976). Inference and missing data. Biometrika, 63, 581–592.
23.
Zurück zum Zitat Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley. Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley.
24.
Zurück zum Zitat Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of American Statistical Association, 91, 473–489. Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of American Statistical Association, 91, 473–489.
25.
Zurück zum Zitat Schafer, J.L. (1997). NORM: multiple imputation of incomplete multivariate data under a normal model, version 2.03. Online: http://www.stat.psu.edu/~jls/misoftwa.html (24.09.2010). Schafer, J.L. (1997). NORM: multiple imputation of incomplete multivariate data under a normal model, version 2.03. Online: http://​www.​stat.​psu.​edu/​~jls/​misoftwa.​html (24.09.2010).
26.
Zurück zum Zitat Schafer, J.L. (1999). Multiple imputation: a primer. Statistical Methods in Medical Research, 8, 3–15. Schafer, J.L. (1999). Multiple imputation: a primer. Statistical Methods in Medical Research, 8, 3–15.
27.
Zurück zum Zitat Schafer, J.L. (2000). Analysis of incomplete multivariate data. Boca Raton: Chapman & Hall. Schafer, J.L. (2000). Analysis of incomplete multivariate data. Boca Raton: Chapman & Hall.
28.
Zurück zum Zitat Schafer, J.L. & Graham, J.W. (2002). Missing data: our view of the state of the art. Psychological Methods, 7, 147–177. Schafer, J.L. & Graham, J.W. (2002). Missing data: our view of the state of the art. Psychological Methods, 7, 147–177.
29.
Zurück zum Zitat Scheuren, F. (2005). Multiple imputation: How it began and continues. The American Statistician, 59, 315–319. Scheuren, F. (2005). Multiple imputation: How it began and continues. The American Statistician, 59, 315–319.
30.
Zurück zum Zitat Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Ausmaß, Entwicklungen und Ursachen. Opladen: Leske & Budrich. Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Ausmaß, Entwicklungen und Ursachen. Opladen: Leske & Budrich.
31.
Zurück zum Zitat SPSS (2009). SPSS Missing Values 17.0. Chicago, IL: SPSS. SPSS (2009). SPSS Missing Values 17.0. Chicago, IL: SPSS.
32.
Zurück zum Zitat Tanner, M.A. & Wong, W.H. (1987). The calculation of posterior distributions by data augmentation. Journal of American Statistical Association, 82, 528–50. Tanner, M.A. & Wong, W.H. (1987). The calculation of posterior distributions by data augmentation. Journal of American Statistical Association, 82, 528–50.
33.
Zurück zum Zitat Tukey, J.W. (1977). Exploratory data analysis. Reading, MA: Addison-Wesley Publishing. Tukey, J.W. (1977). Exploratory data analysis. Reading, MA: Addison-Wesley Publishing.
34.
Zurück zum Zitat Van Buuren, S. & Oudshoorn, C.G.M. (1999) Flexible multivariate imputation by MICE. TNO-rapport PG 99.054. TNO Prevention and Health. Leiden: TNO. Van Buuren, S. & Oudshoorn, C.G.M. (1999) Flexible multivariate imputation by MICE. TNO-rapport PG 99.054. TNO Prevention and Health. Leiden: TNO.
35.
Zurück zum Zitat Wirtz, M. (2004). Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation, 43, 109–115. Wirtz, M. (2004). Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation, 43, 109–115.
36.
Zurück zum Zitat Woll, A., Tittlbach, S. & Schott, N. (2004). Diagnose körperlich-sportlicher Aktivität, Fitness und Gesundheit – Methodenband II. Berlin: Dissertation.de. Woll, A., Tittlbach, S. & Schott, N. (2004). Diagnose körperlich-sportlicher Aktivität, Fitness und Gesundheit – Methodenband II. Berlin: Dissertation.de.
Metadaten
Titel
Fehlende Werte in sportwissenschaftlichen Untersuchungen
Eine anwendungsorientierte Einführung in die multiple Imputation mit SPSS
verfasst von
Dr. Darko Jekauc
Manuel Völkle
Lena Lämmle
Alexander Woll
Publikationsdatum
01.06.2012
Verlag
Springer-Verlag
Erschienen in
German Journal of Exercise and Sport Research / Ausgabe 2/2012
Print ISSN: 2509-3142
Elektronische ISSN: 2509-3150
DOI
https://doi.org/10.1007/s12662-012-0249-5

Weitere Artikel der Ausgabe 2/2012

German Journal of Exercise and Sport Research 2/2012 Zur Ausgabe

Buchbesprechungen

Die Sprache des Sports

Editorial

Auf geht’s!

Arthropedia

Grundlagenwissen der Arthroskopie und Gelenkchirurgie. Erweitert durch Fallbeispiele, Videos und Abbildungen. 
» Jetzt entdecken

Notfall-TEP der Hüfte ist auch bei 90-Jährigen machbar

26.04.2024 Hüft-TEP Nachrichten

Ob bei einer Notfalloperation nach Schenkelhalsfraktur eine Hemiarthroplastik oder eine totale Endoprothese (TEP) eingebaut wird, sollte nicht allein vom Alter der Patientinnen und Patienten abhängen. Auch über 90-Jährige können von der TEP profitieren.

Arthroskopie kann Knieprothese nicht hinauszögern

25.04.2024 Gonarthrose Nachrichten

Ein arthroskopischer Eingriff bei Kniearthrose macht im Hinblick darauf, ob und wann ein Gelenkersatz fällig wird, offenbar keinen Unterschied.

Therapiestart mit Blutdrucksenkern erhöht Frakturrisiko

25.04.2024 Hypertonie Nachrichten

Beginnen ältere Männer im Pflegeheim eine Antihypertensiva-Therapie, dann ist die Frakturrate in den folgenden 30 Tagen mehr als verdoppelt. Besonders häufig stürzen Demenzkranke und Männer, die erstmals Blutdrucksenker nehmen. Dafür spricht eine Analyse unter US-Veteranen.

Ärztliche Empathie hilft gegen Rückenschmerzen

23.04.2024 Leitsymptom Rückenschmerzen Nachrichten

Personen mit chronischen Rückenschmerzen, die von einfühlsamen Ärzten und Ärztinnen betreut werden, berichten über weniger Beschwerden und eine bessere Lebensqualität.

Update Orthopädie und Unfallchirurgie

Bestellen Sie unseren Fach-Newsletter und bleiben Sie gut informiert.