Methodische Fragen der Kompetenzdiagnostik
Um zu überprüfen, inwieweit Schüler*innen die Bildungsstandards erreichen, werden am IQB regelmäßig große Schulleistungsstudien (Large-Scale-Assessments) durchgeführt und ausgewertet. Die Studien sind mit einer Reihe methodischer Herausforderungen verbunden, denen angemessen zu begegnen ist, um valide Schlussfolgerungen aus den Ergebnissen ableiten zu können. Die dabei entstehenden Fragestellungen werden im Forschungsbereich „Methodische Fragen der Kompetenzdiagnostik“ bearbeitet und betreffen u. a. die Frage wie Large-Scale-Assessments gestaltet sein müssen, um die theoretisch definierten Konstrukte mit vertretbarem Aufwand für die Schüler*innen mit möglichst großer Messpräzision valide zu messen. Aus dieser zentralen Fragestellung lassen sich verschiedene einzelnen Themenbereiche ableiten, die in diesem Forschungsbereich bearbeitet werden:
1. Untersuchung von Kontexteffekten
Kontexteffekte stellen ungewollte Einflüsse auf die gezeigte Testleistung dar, so etwa Einflüsse der Motivation, Ermüdung oder von Umgebungsbedingungen. Können substanzielle Einflüsse von Kontextbedingungen auf die Testleitung gezeigt werden, würde dies eine valide Messung gegebenenfalls einschränken – etwa wenn Schüler*innen aufgrund motivationaler Faktoren und nicht aufgrund ihrer eigentlichen Kompetenzen ungünstige Testergebnisse zeigen. Die Modellierung von Kontexteffekten ist jedoch nur innerhalb komplexer und aufwändiger Modelle der Item-Response-Theorie (IRT) möglich. Die Wissenschaftler*innen am IQB evaluieren solche IRT-Modelle und nutzen sie, um nach Möglichkeiten zu suchen, wie die Einflüsse unerwünschter Kontexteffekte auf die Testleitung in der Praxis minimiert werden können. Das ist etwa durch speziell angepasste Testdesigns möglich, die Kontextbedingungen über alle Testteilnehmer*innen sowie alle Instrumente des Tests (Testhefte) ausbalancieren.
- Hecht, M., Weirich, S., Siegle, T. & Frey, A. (2015). Effects of design properties on parameter estimation in large-scale assessments. Educational and Psychological Measurement, 76, 1–24.
- Weirich, S., Hecht, M. & Böhme, K. (2014). Modeling item position effects using generalized linear mixed models. Applied Psychological Measurement, 38(7), 535–548.
2. Bearbeitungszeit und Fairness von Tests
Da die Kompetenzbereiche der Bildungsstandards jeweils über eine große Menge von Testaufgaben operationalisiert werden, die eine einzelne Testperson nicht bearbeiten kann, wird der Test unter den Schüler*innen aufgeteilt: Jede Person bearbeitet in ihrem Testheft eine unterschiedliche Auswahl aller Aufgaben in unterschiedlicher Reihenfolge. Die Aufgaben werden dabei so zusammengestellt, dass sie in einer vorher festgelegten Zeit bearbeitet werden sollen. Wenn diese Zeitschätzung inakkurat ausfällt und einige Testhefte eine höhere Bearbeitungszeit erfordern als andere, könnten diese Schüler*innen benachteiligt sein, da sie den Test in der vorgegebenen Testzeit mit größerer Wahrscheinlichkeit nicht zu Ende bearbeiten können und fehlende Antworten als falsch bewertet werden. Die Zusammenstellung von Testheften erfordert daher nicht nur eine Ausbalancierung bezogen auf ihre Schwierigkeit, sondern auch hinsichtlich ihrer Bearbeitungszeit. Beide Aspekte hängen jedoch mit Merkmalen der Schüler*innen zusammen. Um verschiedene Testhefte oder Testformen zu gestalten, die sowohl bezüglich ihrer Schwierigkeit als auch ihrer Bearbeitungszeit ausbalanciert sind, kommen Modelle zum Einsatz, die Itemantworten und Itembearbeitungszeiten simultan modellieren. Solche Modelle zu evaluieren, weiter zu entwickeln und für die Gestaltung von Testdesigns nutzbar zu machen, ist ebenfalls Gegenstand der Forschung am IQB.
- Becker, B., Debeer, D., Weirich, S. & Goldhammer, F. (2021). On the speed sensitivity parameter in the lognormal model for response times and implications for high-stakes measurement practice. Mansucript accepted for publication in Applied Psychological Measurement.
3. Differenzielles Itemfunktionieren und Stabilität von Trendschätzungen
Sollen Ergebnisse von Bildungsstudien im zeitlichen Vergleich dargestellt werden (etwa die Ergebnisse des IQB-Bildungstrends 2018 in Relation zum IQB-Ländervergleich 2012), setzt das die Invarianz des Messinstruments voraus. In beiden Untersuchungen muss eine Teilmenge gemeinsamer Items eingesetzt werden. Die Annahme der Invarianz ist verletzt, wenn differenzielles Itemfunktionieren (DIF) auftritt und die Items im Jahr 2012 beispielsweise eine höhere empirische Schwierigkeit aufweisen als im Jahr 2018 oder umgekehrt. Die Schätzung des Trends – d. h., der Veränderung der mittleren Schülerleistungen zwischen beiden Erhebungszeitpunkten – könnte dann verzerrt sein. Daher muss geprüft werden, inwiefern sich differenzielles Itemfunktionieren auf Trendschätzungen auswirkt, unter welchen Bedingungen die Auswirkungen verstärkt auftreten und wie dies mit Hilfe von bestimmten Linkingmethoden vermieden werden kann.
Zum einen geht es in diesem Forschungsfeld somit um die Identifikation differenziell funktionierenden Items sowie um die Frage, welche Linkingmethode geeignet ist, um Verschätzungen im Falle differenziellen Itemfunktionierens zu verringern. Darüber hinaus muss DIF für die Berechnung von Standardfehlern bei Trendschätzungen berücksichtigt werden.
- Sachse, K. A., & Haag, N. (2017). Standard errors for national trends in international large-scale assessments in the case of cross-national differential item functioning. Applied Measurement in Education, 30(2), 102-116. http://dx.doi.org/10.1080/08957347.2017.1283315.
- Sachse, K. A., Roppelt, A. & Haag, N. (2016). A comparison of linking methods for estimating national trends in international comparative large-scale assessments in the presence of cross-national DIF. Journal of Educational Measurement, 53(2), 152-171. https://doi.org/10.1111/jedm.12106
4. Fehlende Werte
Fehlende Werte sind ein häufiges Phänomen in Untersuchungen, die auf Fragebogenerhebungen beruhen. Sie treten auf, wenn Schüler*innen einzelne Fragen auslassen oder im Rahmen der vorgegebenen Zeit nicht bis ans Ende der Testbearbeitung gelangen. Eine umfangreiche methodische Forschungsliteratur belegt die Konsequenzen fehlender Werte bezüglich der Akkuratheit von Parameterschätzungen und liefert auch Vorschläge, wie diesem Problem etwa durch Imputationsverfahren begegnet werden kann.
Die Forschung am IQB konzentriert sich auf spezifische Herausforderungen im Umgang mit fehlenden Werten im Rahmen von Schulleistungsstudien. Wenn sich etwa der Anteil fehlender Werte in zwei Erhebungen, die Gegenstand einer Trenduntersuchung sind, unterscheidet, kann das die Schätzung des Trends verzerren. Alternative Messmodelle, die die Fähigkeitsdimension und die Auslassungstendenz separat modellieren, liefern dann zuverlässigere Schätzungen von Trends.
Wenn fehlenden Werten durch mehrfache Imputation begegnet wird, hat das ebenfalls Auswirkungen auf die Bestimmung der Standardfehler. Hier ist zum einen der Mechanismus der fehlenden Werte (zufällig, bedingt zufällig, nicht-zufällig) als auch die Struktur des Imputationsverfahrens (einstufig, mehrstufig oder mehrstufig genestet) zu berücksichtigen.
- Sachse, K. A., Mahler, N. & Pohl, S. (2019). When nonresponse mechanisms change: Effects on trends and group comparisons in international large-scale assessments. Educational and Psychological Measurement, 79(4), 699-726. https://doi.org/10.1177/0013164419829196
- Weirich, S., Haag, N., Hecht, M., Böhme, K., Siegle, T. & Lüdtke, O. (2014). Nested multiple imputation in large-scale assessments. Large-scale Assessments in Education, 2(9), 1-18.
- Pohl, S., and Becker, B. (2020). Performance of missing data approaches under nonignorable missing data conditions. Methodology 16, 147–165. doi: 10.5964/meth.2805