Skalierung

Bei der Skalierung werden die empirischen Aufgabenschwierigkeiten bestimmt. Mathematisch spricht man hier von einer Schätzung, wobei dieser Begriff nicht dazu verleiten sollte, die ermittelten Werte als ungenau zu begreifen; eher ist das Gegenteil der Fall.

Dabei wird davon ausgegangen, dass die Schwierigkeit der Aufgaben und die Fähigkeit der Schülerinnen und Schüler, diese Aufgaben zu lösen, auf einer gemeinsamen Skala abgebildet werden können.

Eine Analogie kann diese gemeinsame Skalierung verdeutlichen: Man stelle sich einen Hindernislauf vor, ausgetragen über zahlreiche 400-Meter-Runden im Stadion, allerdings – im Unterschied zum bekannten Sportwettkampf – mit unterschiedlich hohen Hürden. Bei einem solchen Hindernislauf könnte man diese verschiedenen Höhen der Hürden und die Fähigkeit eines Sportlers, eine bestimmte Höhe zu springen, auf einer metrischen Skala angeben: Die Hürden sind beispielsweise 1,10 m, 1,25 m und 1,45 m hoch und der Sportler kann 1,30 m hoch springen. Weiterhin ist die Überlegung wichtig, dass das tatsächliche Richtiglösen einer Aufgabe auch von äußeren Einflüssen abhängig ist – wie bei dem Sportler, der an einem Tag mit Gegenwind oder Blutdruckschwankungen zu kämpfen hat und deshalb nur 1,20 m springt, und an einem anderen Tag aber durch günstige Begleitumstände 1,40 m schafft. Wenn dem Sportler nun viele verschieden hohe Hürden hintereinander aufgestellt werden und er den Hindernisparcours mehrfach absolviert, dann lässt sich eine maximale Hürdenhöhe bestimmen, die dieser Sportler meistens – beispielsweise in 62,5% aller Durchläufe – schafft, und diese Hürdenhöhe wird dann als seine "Sprungfähigkeit" festgelegt. Analog funktioniert der VERA-Test – allerdings mit dem Problem, dass zunächst nicht bekannt ist, wie hoch die einzelnen Hürden bzw. wie schwer die Aufgaben tatsächlich sind – zu Beginn gibt es nur die groben Einschätzungen der Aufgabenentwickler.

Dieses Problem ist dadurch lösbar, dass nicht nur eine Schülerin/ein Schüler (bzw. Sportler), sondern sehr viele – genauer: etwa 400 – die einzelnen Aufgaben (Hürden) zu lösen (zu überspringen) versuchen und das Ergebnis für jede Aufgabe (Hürde) – geschafft/nicht geschafft – notiert wird: Damit ist sowohl bekannt, welche Schülerinnen und Schüler wie viele Punkte erreicht haben, als auch, welche Aufgaben wie häufig gelöst wurden. Da davon ausgegangen werden kann, dass Schülerinnen und Schüler mit höheren Punktzahlen kompetenter sind als solche mit geringeren Punktzahlen, und dass Aufgaben mit höheren Lösungshäufigkeiten leichter sind als solche mit niedrigen, können mit mathematischen Verfahren die einzelnen Aufgabenschwierigkeiten so geschätzt werden, dass die gefundenen Ergebnisse aller Schülerinnen und Schüler wie aller Aufgaben das wahrscheinlichste Testresultat bilden. Auf das Hürdenlauf-Beispiel übertragen: 2.000 bis 3.000 Sportler überspringen die Hürden der zu diesem Zeitpunkt noch unbekannten Höhe, wobei jede Hürde von mindestens 400 Sportlern übersprungen wird, und sowohl für die einzelnen Sportler wie auch für die einzelnen Hürden wird das jeweilige Gesamtergebnis zusammengestellt: Wie viele Hürden haben die einzelnen Sportler jeweils geschafft, und wie oft wurden die einzelnen Hürden übersprungen bzw. nicht geschafft? Es werden also je Sportler bzw. je Hürde nur die Häufigkeiten erhoben: geschafft/nicht geschafft, 0 oder 1. Wenn diese Häufigkeitsverteilungen in Beziehung gesetzt werden, unter Berücksichtigung der 62,5%-igen Wirkung des Zufalls (s.o.), kann jeder einzelnen Hürde ein dezidierter Wert zugewiesen werden (und so auch jedem Sportler). Und diese so geschätzten Hürdenhöhen sind in dem Sinne mathematisch richtig, dass alternative Schätzungen (also: andere Hürdenhöhen) die Wahrscheinlichkeit der hundertfach tatsächlich erzielten Sportler-Ergebnisse geringer werden ließen.

So lange es auf der Runde keine Ankerhürde bekannter Höhe gibt, bleibt immer noch ein Problem: Nach dieser Schätzung können den Hürden wie auch den Sprungfähigkeiten zwar klare Werte zugeordnet werden – diese Werte sind jedoch sind in ihrer numerischen Bezugsgröße beliebig. Das heißt, es kann nach dieser Schätzung nicht gesagt werden, dass die Hürde "K" 1,25 m hoch ist und der Sportler Nr. 97 eine Höhe von 1,45 m mit 62,5%-iger Wahrscheinlichkeit überspringen wird; sondern es ergeben sich Zahlenwerte auf einer Skala, die zuvor frei festgelegt wurde – festgelegt werden musste, da kein absoluter Maßstab zur Verfügung stand. Demnach kann im Ergebnis einer solchen Erprobung die Hürde "K" auch den Wert 545 und der Sportler Nr. 97 den Wert 812 haben. Beim Hürdenlauf wäre das unbefriedigend – auch wenn die Ergebnisse völlig exakt sind. Es ist ganz ähnlich, wie wenn eine Temperatur in Grad Fahrenheit benannt wird, aber diese Skala mit der gewohnten Celsius-Welt und / oder der alltäglichen Wärme-Erfahrung nicht in Verbindung gebracht werden kann. Bei Aufgabenschwierigkeiten und Schülerfähigkeiten ist diese Bezugslosigkeit jedoch ein großer Vorteil: die Skala kann nach praktischen Gesichtspunkten gewählt werden. Man kann – und genau das ist üblich – die durchschnittliche Schülerfähigkeit zum Ausgangspunkt machen und auf einen anschaulichen Wert festsetzen. Dieser Wert ist unter Wissenschaftlern die „0“ (bzw. in der Außendarstellung 500 – die PISA-Skala). Und dadurch, dass die Schülerfähigkeit derart fixiert wird, bestimmt man automatisch auch die Aufgabenschwierigkeiten – die Werte liegen ja auf der gleichen Skala.

Entscheidend ist dabei, dass die so gewonnenen Werte – im Unterschied zu metrischen Höhenangaben bei den Hürden – ausschließlich für die Schülerinnen und Schüler gelten, für die der Durchschnitt gebildet, also normiert worden ist – also beispielsweise für Neunt- und Zehntklässler. Wenn die Aufgabenschwierigkeiten für Gymnasiasten normiert wurden, kann über die Aufgabenschwierigkeit für Real- und Hauptschüler ohne Weiteres nichts gesagt werden. Und wenn die Aufgabenschwierigkeit für Neunt- und Zehntklässler aller allgemeinbildenden Schulen ermittelt wurden, kann nur grob und unzuverlässig aus der Erfahrung abgeschätzt werden, wie schwer diese Aufgaben für Achtklässler sein werden (hier handelt es sich um die oben angedeutete Jahrgangskorrektur).

Wenn die Pilotierung mit Anker-Aufgaben erfolgt, steht hingegen ein Startwert zur Verfügung, aus dem sich die Schwierigkeiten der neuen Aufgaben schätzen lassen. Doch auch hier ist es notwendig, die Skala anschließend zu verschieben, so dass die mittlere Schülerfähigkeit bei 0 (bzw. 500) liegt, da der Ankerwert sich auf eine andere Schülergruppe ergeben hat.

Diese Skalierung der Aufgabenschwierigkeiten wird mehrfach durchgeführt: Nach dem Überprüfen des Funktionierens der Aufgaben in der Gesamtgruppe (s.o.) wird nun für verschiedene Schüler-Teilgruppen getrennt skaliert: Vor allem nach Geschlecht, Sprache zu Hause und Schulart. Sollten sich für die Teilgruppen deutlich unterschiedliche Aufgabenschwierigkeiten ergeben, ist dies ein Hinweis darauf, dass die Aufgaben zusätzlich zur fraglichen Kompetenz unerwünschterweise auch Anderes messen: Unterschiedliche Interessen, kulturelles Verständnis etc. Üblicherweise werden solche Aufgaben aussortiert, und die verbleibenden Aufgaben werden neu skaliert.

PKu