Testtheorie

Grundannahme der VERA-Tests ist, dass sich die in den nationalen Bildungsstandards beschriebenen fachlichen Kompetenzen der Schülerinnen und Schüler je Fach bzw. je Kompetenzbereich in einem einzigen Zahlenwert ausdrücken lassen. Dieser Wert soll zum einen den übergreifenden Vergleich ermöglichen, also die Schülerinnen und Schüler im Vergleich zu anderen Klassen nicht nur der Schule, sondern auch der Schulform und des Bundeslandes beschreiben. Er wird derzeit oftmals noch als Prozentsatz der richtig gelösten Aufgaben angegeben. Angestrebt wird jedoch – wie seit PISA üblich – die Verortung auf einer Skala mit dem Mittelwert 500 und einer durchschnittlichen Abweichung von 100. Das bedeutet, dass die Ergebniswerte aller teilnehmenden Schülerinnen und Schüler eines Landes mathematisch so transformiert werden, dass der Durchschnitt bei 500 und die typische Abweichung bei +/- 100 liegt (d.h., ca. 2/3 aller Schülerinnen und Schüler erreichen zwischen 400 und 600 Punkten). Eine solche Transformation von sog. Rohwerten in Normwerte ändert in ähnlicher Weise nichts an den ursprünglichen Ergebnissen wie die Umrechnung von Grad Celsius in Grad Fahrenheit an der Temperatur (tatsächlich ist diese Transformation bei VERA jedoch komplizierter, da nicht mit den Punktwerten selbst, sondern mit Wahrscheinlichkeiten für bestimmte Punktwerte gerechnet wird, und da jahrgangsbezogene Korrekturfaktoren einbezogen werden).

Zum anderen soll dieser Wert auf konkrete Anforderungen und Fähigkeiten des bewerteten Fachs bezogen werden können (Beispiel: "Schüler kann Leseaufgaben mäßiger Komplexität lösen, die Fähigkeiten erfordern wie " – es folgt eine detaillierte Aufzählung). Dies steht wiederum im Unterschied zu Schulnoten, die auf abstrakte Leistungserwartungen hin definiert sind (Beispiel: ausreichend = die Leistung weist zwar Mängel auf, entspricht aber im Ganzen noch den Anforderungen.). Für eine solche inhaltliche, standardisierte Beschreibung wird die 500/100-Skala in meist fünf sogenannte Kompetenzstufen unterteilt. Für die Übergänge von einer Kompetenzstufe zur nächsten sind beispielhafte Aufgaben formuliert, die illustrieren, was von den Schülern der höheren Stufen bereits gekonnt wird, von den Schülern der niedrigeren Stufe jedoch noch nicht.

Dabei beanspruchen diese Ergebnisse der VERA-Tests, objektiver, zuverlässiger und zutreffender fachliche Kompetenzen zu bewerten, als dies üblicherweise Lehrkräfte mit Klassenarbeiten erreichen können. Hierbei ist wichtig zu verstehen, dass Lehrkräfte oftmals durchaus in der Lage sind, die Kompetenzen ihrer Schülerinnen und Schüler besser einzuschätzen, als dies standardisierte Tests können (zumal wenn diese nur 60 oder 80 Minuten dauern), dass aber zum einen dem einzelnen Lehrkräfteurteil seine jeweilige Qualität nicht anzusehen ist, und dass zum anderen auf diese Weise keine übergreifende Vergleichbarkeit hergestellt werden kann. VERA-Tests bestehen – wie viele andere Schulleistungstests auch – aus einer Ansammlung unterschiedlich schwieriger Aufgaben. Für jede richtig gelöste Aufgabe wird ein Punkt vergeben, für jede falsche Lösung werden null Punkte gegeben. Wird eine Aufgabe ausgelassen, werden entweder null Punkte vergeben oder diese Aufgabe wird bei der Auswertung nicht berücksichtigt. Diese Vorgehensweise beruht auf der Grundannahme, dass die Punktsumme bzw. der Anteil der richtig gelösten Aufgaben (z. B. 34 von 45) eine erschöpfende Aussage zur Kompetenz desjenigen Schülers bietet, der den Test bearbeitet hat (solange das Punktergebnis nicht im extremen unteren oder oberen Bereich angesiedelt ist). Umgekehrt ausgedrückt: Es ist unerheblich, welche Aufgaben der Schüler/die Schülerin gelöst hat und welche nicht, und deshalb werden – wiederum im Unterschied zur üblichen Praxis von Klassenarbeiten – alle Aufgaben, egal ob schwierig oder leicht – mit der gleichen Punktzahl (nämlich "1") bewertet.

Das könnte im schlechtesten Fall praktisch bedeuten, dass in einem beispielhaften Test mit zehn Aufgaben, davon fünf sehr leicht und fünf sehr schwer, von zwei Schülern das gleiche Resultat erzielt wird, wenn von Schüler A nur die fünf schweren und von Schüler B nur die fünf leichten Aufgaben bewältigt werden. Beide bekommen die gleiche Kompetenz zugeschrieben. Offenbar ist die Punktsumme hier keine erschöpfende Aussage, sondern es müsste zusätzlich mitgeteilt werden, welche Aufgaben geschafft und welche nicht geschafft wurden. Dies würde jedoch den Test und seine Aussagekraft erheblich (und unnötig) verkomplizieren.

Damit die Grundannahme der erschöpfenden Aussage tatsächlich in hinreichendem Maße zutrifft, müssen daher die Aufgaben zum einen mathematisch-statistisch "funktionieren". Das bedeutet etwa, dass eine gegebene Aufgabe für kompetentere Schülerinnen und Schüler mit hinreichender Wahrscheinlichkeit leichter zu lösen ist als für weniger kompetente Schülerinnen und Schüler. Diese Bedingung ist in dem oben genannten Beispiel eindeutig nicht erfüllt. Ähnliches gilt beispielsweise, wenn kompetente Schülerinnen/Schüler in einer an sich leichten Aufgabe eine "Falle" vermuten. Zum anderen muss der Test aus psychologischen und mathematischen Gründen in der zeitlichen und schwierigkeitsmäßigen Abfolge der Aufgaben sorgfältig "getaktet" werden (s.u.).

Diese beiden Vorbedingungen werden über die sog. Pilotierung/Normierung sicher gestellt: Es werden nur Aufgaben bzw. Aufgabenblöcke in die Tests genommen, die in einem umfassenden Probelauf definierten Prüfkriterien standgehalten haben. In diesem Probelauf wird zudem die tatsächliche Schwierigkeit der Aufgaben empirisch ermittelt. Das bedeutet, dass beim tatsächlichen Testeinsatz bekannt ist, wie gut Schülerinnen und Schüler eine bestimmte Aufgabe lösen können und dass die Aufgabe keine nennenswerten Bevorzugungen oder Benachteiligungen für Schüler eines bestimmten Geschlechts, eines bestimmten kulturellen Hintergrunds, einer bestimmten Schulform etc. darstellt.

PKu