Methodische Fragen der Kompetenzdiagnostik

Gemäß dem Auftrag, die Bildungsstandards zu operationalisieren und ihr Erreichen zu überprüfen, wird am IQB eine Reihe großer Schulleistungsstudien (Large-Scale-Assessments) durchgeführt und ausgewertet. Damit verbunden sind zahlreiche methodische Herausforderungen, denen angemessen zu begegnen ist, um valide Schlussfolgerungen aus den Studien ziehen zu können. Einige der daraus entstehenden praktischen Fragestellungen werden im Forschungsbereich „Methodische Fragen der Kompetenzdiagnostik“ bearbeitet. Eine zentrale Fragestellung ist: Wie müssen Large-Scale-Assessments gestaltet sein, um mit vertretbarem Aufwand für Schülerinnen und Schüler und mit möglichst großer Messpräzision die theoretisch definierten Konstrukte valide zu messen?

Die Untersuchung von Kontexteffekten ist eine Möglichkeit, diese Fragen zu bearbeiten. Kontexteffekte stellen ungewollte Einflüsse auf die gezeigte Testleistung dar, so etwa Einflüsse der Motivation, Ermüdung oder von Umgebungsbedingungen. Können substanzielle Einflüsse von Kontextbedingungen auf die Testleitung gezeigt werden, würde dies eine valide Messung gegebenenfalls einschränken. Die Modellierung von Kontexteinflüssen ist jedoch nur innerhalb komplexer und aufwändiger Modelle der Item-Response-Theorie (IRT) möglich. Die Wissenschaftlerinnen und Wissenschaftler am IQB entwickeln und evaluieren zum einen solche IRT-Modelle und suchen zum anderen nach Möglichkeiten, wie die Einflüsse unerwünschter Kontexteffekte auf die Testleitung in der Praxis möglichst minimiert werden können. Das ist etwa durch speziell angepasste Testdesigns möglich, die Kontextbedingungen über alle Testteilnehmerinnen und Testteilnehmer sowie alle Instrumente des Tests (Testhefte) ausbalancieren.

Ein anderes Forschungsfeld konzentriert sich auf die Vergleichbarkeit der IQB-Bildungstrends mit den Ergebnissen internationaler Studien, etwa IGLU oder PIRLSS. Die Vergleichbarkeit kann überprüft werden, indem man die Ergebnisse eines Tests den Ergebnissen eines anderen Tests gegenüberstellt, der prinzipiell dasselbe Konstrukt abbilden soll. Bei hoher Vergleichbarkeit beider Tests sollten die Messergebnisse hoch korrelieren.

Ebenso ist es wichtig, die Vergleichbarkeit der Ergebnisse eines Tests für verschiedene Teilpopulationen sicherzustellen. Ein Lesetest soll etwa die Lesefähigkeit für Regelschülerinnen und Regelschüler sowie Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf in derselben Weise abbilden. Wenn jedoch die Adminstrationsbedingungen oder das Testformat beispielsweise die Gruppe der Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf vor besondere Schwierigkeiten stellt, kann es geschehen, dass diese Kinder ihre Fähigkeiten in dem Test nicht unter Beweis stellen können. Es ist daher wichtig zu prüfen, dass der Test in allen Teilpopulationen das intendierte Konstrukt in derselben Weise valide abbildet. Welche Eigenschaften ein Test haben muss, um diese Voraussetzungen zu erfüllen, ist ebenfalls Gegenstand der Forschung am IQB.

Ausgewählte Publikationen

  • Böhme, K., Richter, D., Weirich, S., Haag, N., Wendt, H., Bos, W., Pant, H. A. & Stanat, P. (2014). Messen wir dasselbe? Zur Vergleichbarkeit des IQB-Ländervergleichs 2011 mit den internationalen Studien IGLU und TIMSS 2011. Zeitschrift für Lernforschung, 42(4), 342-365.
  • Hecht, M., Weirich, S., Siegle, T. & Frey, A. (2014). Modeling booklet effects for nonequivalent group designs in large-scale assessment. Educational and Psychological Measurement, 75(4), 568–584
  • Hecht, M., Weirich, S., Siegle, T. & Frey, A. (2015). Effects of design properties on parameter estimation in large-scale assessments. Educational and Psychological Measurement, 76, 1–24.
  • Sachse, K. A., Roppelt, A. & Haag, N. (in press). A comparison of linking methods for estimating national trends in international comparative large-scale assessments in the presence of cross-national DIF. Journal of Educational Measurement.
  • Weirich, S., Hecht, M. & Böhme, K. (2014). Modeling item position effects using generalized linear mixed models. Applied Psychological Measurement, 38(7), 535–548.
  • Weirich, S., Haag, N., Hecht, M., Böhme, K., Siegle, T. & Lüdtke, O. (2014). Nested multiple imputation in large-scale assessments. Large-scale Assessments in Education, 2(9), 1-18.
Kontakt

Dr. Sebastian Weirich

(030) 2093.46512

sebastian.weirich@
iqb.hu-berlin.de

SWe