Zusammenfassung
Entgegen einer oft zu hörenden Auffassung ist die Item-Response-Theorie (IRT (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer, 1996) nicht als Alternative zur Klassischen Testtheorie (KTT) (s. Moosbrugger, 2011a, ► Kap. 5 in diesem Band) aufzufassen, sondern besser als Ergänzung. Der KTT sind große Verdienste in der Psychodiagnostik zuzuschreiben: Mit ihrer Hilfe ist es möglich, auf Basis der Reaktionen in mehreren Items die wahre Ausprägung (»true score«) des zu erfassenden Merkmals zu schätzen und die Messgenauigkeit des Testergebnisses (Reliablilität, s. Schermelleh-Engel & Werner, 2011, ► Kap. 6 in diesem Band) zu bestimmen. Mit Hilfe der Reliabilität bzw. des Standardmessfehlers ist es darüber hinaus moglich, ein Konfidenzintervall für den »true score« anzugeben.
This is a preview of subscription content, log in via an institution.
Buying options
Tax calculation will be finalised at checkout
Purchases are for personal use only
Learn about institutional subscriptionsPreview
Unable to display preview. Download preview PDF.
Literatur
Amelang, M., Bartussek, D., Stemmler, G. & Hagemann, D. (2011). Differentielle Psychologie und Persönlichkeitsforschung (7. Aufl.). Stuttgart: Kohlhammer.
Amthauer, R. (1970). Intelligenz-Struktur-Test (I-S-T 70). Gottingen: Hogrefe.
Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123–140.
Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam: North Holland.
Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 271–291). New York: Springer.
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561–573.
Baumert, J., Artelt, C., Klieme, E. & Stanat, P. (2001). PISA. Programme for International Student Assessment. Zielsetzung, theoretische Konzeption und Entwicklung von Messverfahren. In F. E. Weinert (Hrsg.) Leistungsmessung in Schulen. Weinheim: Beltz.
Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395–479). Reading, MA: Addison-Wesley.
Beaton, E. & Allen, N. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191–204.
Beck, B. & Klieme, E. (2003). DESI – Eine Large scale-Studie zur Untersuchung des Sprachunterrichts in deutschen Schulen. Zeitschrift für empirische Pädagogik, 17, 380–395.
Bos, W., Lankes, E.-M., Schwippert, K., Valtin, R., Voss, A., Badel, I. & Plasmeier, N. (2003). Lesekompetenzen deutscher Grundschulerinnen und Grundschuler am Ende der vierten Jahrgangsstufe im internationalen Vergleich. In W. Bos, E.-M. Lankes, M. Prenzel, K. Schwippert, G. Walther & R. Valtin (Hrsg.) Erste Ergebnisse aus IGLU. Münster, New York: Waxmann.
De Boeck, P. & Wilson, M. (2004). Explanatory Item Response Models. A Generalized Linear and Nonlinear Approach. New York: Springer.
Carstensen, C. H., Frey, A., Walter, O. & Knoll, S. (2007). Technische Grundlagen des dritten internationalen Vergleichs. In M. Prenzel, C. Artelt, J., Baumert, W., Blum, M., Hammann, E., E. Klieme & R. Pekrun (Hrsg.), PISA 2006. Die Ergebnisse der dritten internationalen Vergleichsstudie (S. 367–390). Münster: Waxmann.
Embretson, S. E. (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197.
Embretson, S. E. (1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396.
Embretson, S. E. (2006). The Continued Search for nonarbitrary metrics in psychology. American Psychologist, 61, 50–55.
Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar FPI-R mit neuer Normierung. Handanweisung (7. Auflage). Gottingen: Hogrefe.
Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.
Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of Psychology, 2, 298–319.
Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen (S. 604–692). Gottingen: Hogrefe.
Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 157–180). New York: Springer.
Fischer, G. H. (1995b). The linear logistic test model, In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 131–155). New York: Springer.
Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie. In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673–729). Gottingen: Hogrefe.
Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments, and applications. New York: Springer.
Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of treatment effects. Psychometrika, 56, 637–651.
Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing change. In G. H. Fischer, I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353–370). New York: Springer.
Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der Holtzman Inkblot Technique. Bern: Huber.
Formann, A. K. (1984). Die Latent-Class-Analyse. Weinheim: Beltz.
Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of polytomous items. Methodika, 7, 62–78.
Frey, A. (2011). Adaptives Testen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Raschskalierter Test zur Messung des raumlichen Vorstellungsvermogens. Weinheim: Beltz.
Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115–139). Weinheim: Psychologie Verlags Union.
Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54, 635–659.
Gollwitzer, M (2011). Latent Class-Analysis. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215–231.
Graf, M., Greb, K. & Jeising, E. (In Vorbereitung). Mathematiktest Eingangsuntersuchung. In: Faust, G. & F. Lipowsky (Hrsg.). Dokumentation der Erhebungsinstrumente zur Eingangsuntersuchung im Projekt »Persönlichkeits- und Lernentwicklung von Grundschulkindern (PERLE)«.
Greb, K. (2007). Measuring number reading skills of students entering elementary school. Poster prasentiert auf der Summer Academy 2007 on Educational Measurement. Berlin.
Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American Soldier. Studies in social psychology in World War II. Princeton: Princeton University Press.
Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G. Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp. 23–52). New York: Hemisphere Publishing Corporation.
Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications. Boston: Kluwer-Nijhoff Publishing.
Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In E. Klieme & B. Beck (Hrsg.), Sprachliche Kompetenzen – Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 83–99). Weinheim: Beltz.
Hartig, J., (2008). Psychometric models for the assessment of competencies. In J. Hartig, E. Klieme D. Leutner. Assessment competencies in educational contexts (S. 69–90). Gottingen: Hogrefe.
Hartig, J., Frey, A. & Jude. N. (2011). Validitat. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Hartig, J. & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127–143). Berlin: Springer.
Hartig, J., Klieme, E. & Leutner, D. (Eds.). (2008). Assessment of competencies in educational contexts. Gottingen: Hogrefe.
Helmke, A. & Hosenfeld, I. (2004). Vergleichsarbeiten – Standards – Kompetenzstufen: Begriffliche Klarungen und Perspektiven. In R. S. Jager & A. Frey (Hrsg.), Lernprozesse, Lernumgebung und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert. Landau: Verlag Empirische Padagogik.
Hill, C. H., Schilling, S. G., Loewenberg Ball, D. (2004). Developing Measures of Teachers' Mathematics Knowledge for Teaching. The Elementary School Journal, 105 (1), 11–30.
Jonkisz, E., Moosbrugger, H. & Brandt, H. (2011). Planung und Entwicklung von Tests und Fragebogen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Kelava, A. & Moosbrugger, M. (2011). Deskriptivstatistische Analyse von Items (Itemanalyse) und Testwertverteilungen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency with the Rasch model. Psychometrika, 56, 213–228.
Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp.97–110). New York: Springer.
Klieme, E., Baumert, J., Koller, O. & Bos, W. (2000). Mathematische und naturwissenschaftliche Grundbildung: Konzeptuelle Grundlagen und die Erfassung und Skalierung von Kompetenzen. In J. Baumert, W. Bos & R. H. Lehmann (Hrsg.), TIMSS/III. Dritte internationale Mathematik- und Naturwissenschaftsstudie. Band 1: Mathematische und naturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit. Opladen: Leske + Buderich.
Klieme, E. & Beck, B. (Hrsg.). (2007). Sprachliche Kompetenzen – Konzepte und Messung. DESI-Studie (Deutsch Englisch Schulerleistungen International) Weinheim: Beltz.
Klieme, E., Artelt, C., Hartig, J., Jude, N., Koller, O., Prenzel, M., Schneider, W. & Stanat, P. (2010).(Hrsg.), PISA 2009 Bilanz nach einem Jahrzehnt. Münster: Waxmann.
Koller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-Rasch-Modells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaft für Psychologie in Kiel. Empirische Padagogik (o. A.).
Kubinger, K. D., (1989). Aktueller Stand und kritische Wurdigung der Probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie – Ein Abriß samt neuesten Beiträgen (2. Aufl., S. 19–83). Weinheim: Beltz
Kubinger, K. D. (1995). Einführung in die Diagnostik. Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (2003). Adaptives Testen. In K. D. Kubinger & R. S. Jager (Hrsg.), Schlüsselbegriffe der Psychologischen Diagnostik. Weinheim: Beltz PVU.
Kubinger, K. D. & Wurst, E. (2000). Adaptives Intelligenz Diagnostikum (AID 2). Gottingen: Hogrefe.
Lazarsfeld, P. F. & Henry, N. W. (1968). Latent structure analysis. Boston: Houghton Mifflin.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum.
Lord, F. N. & Nowick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.
Masters, G. N. & Wright, B. D. (1984). The essential process in a family of measurement models. Psychometrika, 49, 529–544.
Molenaar, I. W. (1995). Estimation of item parameters. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 39–51). Berlin, Heidelberg, New York: Springer
Molenaar, I. W. & Hoijtink, H. (1990). The many null distributions of person fit indices. Psychometrika, 55, 75–106.
Moosbrugger, H. (1984). Konzeptuelle Probleme und praktische Brauchbarkeit von Modellen zur Erfassung von Personlichkeitsmerkmalen. In M. Amelang & H. J. Ahrens (Hrsg.), Brennpunkte der Persönlichkeitsforschung (S. 67–86). Gottingen: Hogrefe.
Moosbrugger, H. (2006). Item-Response-Theorie (IRT). In Amelang & Schmidt-Atzert, Psychologische Diagnostik und Intervention. (4. Auflage). Heidelberg: Springer.
Moosbrugger, H. (2011a). Klassische Testtheorie. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Moosbrugger, H. (2011b). Lineare Modelle. Regressions- und Varianzanalysen. (4. Auflage). Unter Mitarbeit von J. Engel, S. Etzler, K. Fischer und M. Weigand. Bern: Huber.
Moosbrugger, H. (2011c). Item-Response-Theorie (IRT). In M. Amelang & L. Schmidt-Atzert, Psychologische Diagnostik und Intervention. (5. Auflage). Heidelberg: Springer.
Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung. Bern, Gottingen: Huber.
Moosbrugger, H. & Frank, D. (1995). Clusteranalytische Verfahren zur typologischen Analyse. In K. Pawlik & M. Amelang (Hrsg.), Enzyklopädie der Psychologie: Serie VIII: Differentielle Psychologie (Bd. 1, S. 731–774). Gottingen: Hogrefe.
Moosbrugger, H. & Goldhammer, F. (2007). FAKT II. Frankfurter Adaptiver Konzentrationsleistungs-Test. (2. Aufl.). Bern: Huber.
Moosbrugger, H. & Kelava, A. (2011). Qualitatsanforderungen an einen psychologischen Test (Testgutekriterien). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Muller, H. (1987). A Rasch model for continuous ratings. Psychometrika, 52, 165–181.
Muller, H. (1999). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber.
Nold, G. & Rossa, H. (2007). Horverstehen. In Klieme, E. & Beck, B. (Hrsg.) 2007. Sprachliche Kompetenzen – Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 178–196). Weinheim: Beltz.
OECD (2001). Lernen für das Leben. Erste Ergebnisse der internationalen Schulleistungsstudie PISA 2000. Paris: OECD.
OECD. (2004a). Lernen für die Welt von morgen. Erste Ergebnisse von PISA 2003. Paris: OECD.
OECD. (2004b). Problem Solving for Tomorrow's World – First Measures of Cross-Curricular Skills from PISA 2003. Paris: OECD.
PISA-Konsortium Deutschland (Hrsg.) (2004). PISA 2003. Der Bildungsstand der Jugendlichen in Deutschland – Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Kopenhagen: The Danish Institute for Educational Research.
Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman (Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321–333). Berkeley, CA: University of California Press.
Rauch, D. & Hartig J. (2011). Interpretation von Testwerten in der IRT. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. (2., aktualisierte und uberarbeitete Auflage). Heidelberg: Springer.
Rauch, W. & Moosbrugger, H. (2011). Klassische Testtheorie. Grundlagen und Erweiterungen für heterogene Tests und Mehrfacettenmodelle. In L. Hornke, M. Amelang & M. Kersting (Hrsg.), Methoden der psychologischern Diagnostik. Enzyklopädie der Psychologie (Themenbereich B: Methodologie und Methoden, Serie II: Psychologische Diagnostik, Band 2; S. 1–86). Gottingen: Hogrefe.
Roskam, E. E. (1996). Latent-Trait-Modelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 431–458). Weinheim: Psychologie Verlags Union.
Rost, J. (1988). Quantitative und qualitative probabilistische Testtheorie. Bern: Huber.
Rost, J. (1990). Rasch models in latent classes: An integration of two approaches to item analysis. Applied Psychological Measurement, 14, 271–282.
Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2. Aufl.). Bern: Huber.
Rost, J. (2006). Item-Response-Theorie. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik. Gottingen: Hogrefe.
Rost, J. & Langenheine, R. (Eds.). (1996). Applications of latent trait and latent class models in the social sciences. Münster: Waxmann.
Rost, J. & Spada, H. (1983). Die Quantifizierung von Lerneffekten anhand von Testdaten. Zeitschrift für Differentielle und Diagnostische Psychologie, 4, 29–49.
Rost, J. & Straus, B. (1992). Review: Recent developments in psychometrics and test-theory. The German Journal of Psychology, 16, 2, 91–119.
Scheiblechner, H. (1972). Das Lernen und Losen komplexer Denkaufgaben. Zeitschrift für experimentelle und angewandte Psychologie, 19, 476–506.
Scheiblechner, H. (1996). Item-Response-Theorie: Prozesmodelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 459–466). Weinheim: Psychologie Verlags Union.
Schermelleh-Engel, K. & Werner, Ch. (2011) Methoden der Reliabilitatsbestimmung. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktualisiserte und überarbeitete Auflage). Heidelberg: Springer.
Skrondal, A. & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, longitudinal, and structural equation models. Boca Raton, London, New York, Washington, D.C.: Chapman & Hall/CRC.
Steyer, R. & Eid, M. (2001). Messen und Testen. 2. Aufl., Berlin, Heidelberg, New York: Springer.
Straus, B., Koller, O. & Moller, J. (1996). Geschlechtsrollentypologien – eine empirische Prufung des additiven und des balancierten Modells. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 67–83.
Strobl, C., Kopf, J.& Zeileis, A. (2010). Wissen Frauen weniger oder nur das Falsche? Ein statistisches Modell für unterschiedliche Aufgabenschwierigkeiten in Teilstichproben. In: S. Trepte & M. Verbeet (Hrsg.), Allgemeinbildung in Deutschland (S. 255 – 272). Wiesbaden: VS Verlag für Sozialwissenschaften.
Tarnai, C. & Rost, J. (1990). Identifying aberrant response patterns in the Rasch model. The Q Index. Sozialwissenschaftliche Forschungsdokumentation. Münster: Institut für sozialwissenschaftliche Forschung e.V.
Teresi, J. A., Ramirez, M., Lai, J. S. & Silver, S. (2008).Occurence and sources of Differential Item Functioning (DIF) in patientreported outcome measures: Description of DIF methods, and review of measures of depression, quality of life and general health. Psychology Science Quaterly, 50, 538–612.
Thissen, D., Chen, W-H. & Bock, R. D. (2003). Multilog (version 7). Lincolnwood, IL: Scientific Software International.
van der Linden, W. J. & Hambleton, R. K. (Eds.). (1996). Handbook of modern item response theory. New York: Springer.
van den Wollenberg, A. L. (1988). Testing a latent trait model. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 31–50). New York: Plenum.
von Davier, M. (2001). WINMIRA (Version 2001) [Computer Software]. University Ave, St. Paul: Assessment Systems Corporation.
Weiss, D. J. & Davison, M. L. (1981). Test theory and methods. Annual Review of Psychology, 32, 629–658.
Wilson, M. R. (2003). On choosing a model for measuring. Methods of Psychological Research Online, 8, 1–22.
Wilson, M. & De Boeck, P. (2004). Descriptive and explanatory item response models. In P. De Boeck, & M. Wilson (Eds.), Explanatory item response models: A generalized linear and nonlinear approach (S. 43–74). New York: Springer.
Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press.
Wu, M. L., Adams, R. J., Wilson, M. R. & Haldane, S. A. (2007). ACER ConQuest Version 2: Generalised item response modelling software. Camberwell: Australian Council for Educational Research.
Author information
Authors and Affiliations
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2012 Springer-Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Moosbrugger, H. (2012). Item-Response-Theorie (IRT). In: Moosbrugger, H., Kelava, A. (eds) Testtheorie und Fragebogenkonstruktion. Springer-Lehrbuch. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-20072-4_10
Download citation
DOI: https://doi.org/10.1007/978-3-642-20072-4_10
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-20071-7
Online ISBN: 978-3-642-20072-4
eBook Packages: Humanities, Social Science (German Language)