„Psst, nicht vorsagen!“ – Gütekriterien in der Testkonstruktion
Wenn ein neuer psychologischer Test fast fertig ist, wird er nocheinmal anhand von drei großen Gütekriterien geprüft: Er soll objektiv sein, also unabhängig vom Anwender. Er soll reliabel sein, das getestete Merkmal stets verlässlich messen. Und er soll valide sein, also wirklich das messen, was er zu messen vorgibt.
Objektivität
Objektivität steht für das Ausmaß, in dem die Testergebnisse unabhängig von der Person des Anwenders sind.
- Diese Unabhängigkeit versuchen die Testautoren durch die Standardisierung zu erreichen, das heißt durch eine möglichst exakte Vorschrift zur Durchführung und Auswertung des Tests und zur Interpretation der Testergebnisse. Zentrale Bedeutung für die Durchführungsobjektivität besitzt das schriftliche Vorliegen einer eindeutigen Aufgabeninstruktion und die Vorgabe von Verhaltensregeln für den Testleiter bei Nachfragen des Probanden oder Störungen.
- Auswertungsobjektivität ist dann gegeben, wenn jeder Testleiter gleichen Itemantworten oder Aufgabenlösungen auch gleiche Zahlenwerte oder Scores zuordnet.
- Die Interpretationsobjektivität stellt sicher, dass die aus dem zahlenmäßigen Testergebnis gezogenen Schlüsse unabhängig sind von der Person des Testleiters. Bei der Prüfung der Objektivität eines Tests werden Testprotokolle aus der Eichstichprobe von den Testautoren entsprechend analysiert.
Die Forderung nach Objektivität durch eine perfekte Standardisierung ist im Grunde paradox: Zwei Menschen sollen miteinander interagieren, aber bitteschön so, als gäbe es diese Interaktion nicht, also ohne sich dabei gegenseitig zu beeinflussen. Dies wohl wissend, versuchen die Testautoren mit Hilfe der Standardisierung die Interaktionseffekte bei einer testpsychologischen Untersuchung möglichst klein zu halten.
Reliabilität
Die klassische Testtheorie geht davon aus, dass jede Messung mit einem psychologischen Test mit einem Messfehler behaftet ist. Die Reliabilität bestimmt nun die Größe dieses Messfehlers und beschreibt damit die Präzision bzw. Zuverlässigkeit, mit der ein Merkmal gemessen wird: Je geringer der Messfehler, umso größer die Reliabilität. Zur Abschätzung des Messfehlers oder der Reliabilität stehen mehrere Methoden oder Ansätze zur Verfügung:
- Bei der Testwiederholungsmethode oder Retest-Reliabilität führt man ein und denselben Test mit einer Probandengruppe in einem zeitlichen Abstand von etwa 4 Wochen zweimal durch. Die Ergebnisse der beiden Messungen korreliert man miteinander (Suche nach einem systematischen statistischen Zusammenhang). Der auf diese Weise sich ergebende Korrelationskoeffizient wird als Reliabilitätskoeffizient bezeichnet. Die Reliabilitätskoeffizienten bewegen sich zwischen 0 und 1 oder zwischen 0 und -1, wobei 1 und -1 für einen hohen, perfekten Zusammenhang stehen und 0 für keinerlei Zusammenhang. Diese Art der Reliabilitätsprüfung funktioniert jedoch nur, wenn sichergestellt ist, dass sich die Merkmalsausprägung zwischen erster und zweiter Messung nicht verändert hat, also keine Entwicklung im untersuchten Bereich stattgefunden hat.
- Gibt es bei einem Test zwei gleichwertige Testformen (Testheft A und Testheft B zum Beispiel), so kann man einer Probandengruppe beide Testformen nacheinander vorlegen und die Ergebnisse beider Messungen wieder miteinander korrelieren. Nun hat man den Reliabilitätskoeffizienten über die Paralleltestmethode bestimmt und spricht deswegen von Paralleltest-Reliabilität.
- Ist die Testwiederholungsmethode aufgrund der Instabilität des Merkmals nicht möglich und existieren auch keine parallelen Testformen, können als Alternative zwei Testformen durch die Aufteilung des Gesamttests in zwei gleichwertige Hälften geschaffen werden. Der Reliabilitätskoeffizient ergibt sich hier wieder über die Korrelation der Ergebnisse in beiden Testteilen. Dieses Vorgehen bezeichnet man als Testhalbierungsmethode, mit der logischerweise die Split-Half-Reliabilität berechnet wird.
- Die Konsistenzanalyse verallgemeinert die Testhalbierungsmethode, indem jede einzelne Aufgabe, jedes einzelne Item als eigenständiger Testteil oder eigenständige Testform aufgefasst wird. Konsequenterweise werden dann alle Items miteinander korreliert, was wiederum zu einem Reliabilitätskoeffizienten führt.
Validität
Unter Validität (Gültigkeit) versteht man das Maß an Genauigkeit, mit dem ein psychologischer Test tatsächlich das Merkmal misst, das er messen soll oder zu messen vorgibt. Die Validität ist offensichtlich das wichtigste Gütekriterium; denn was nützt ein psychologischer Test, der sich als objektiv und hoch reliabel erwiesen hat, von dem aber unklar ist, welches Merkmal er eigentlich erfasst?
Drei Arten der Validität werden unterschieden:
- Mit der Inhaltsvalidität soll geklärt werden, inwieweit der Test und seine Items eine repräsentative Stichprobe aus allen Verhaltensmöglichkeiten bezüglich eines bestimmten Merkmals darstellen. Wie gut repräsentieren die ausgewählten Aufgaben die Rechenkompetenzen von Schülern am Ende der vierten Klasse? Die Inhaltsvalidität wird in der Regel nicht mit Hilfe eines Kennwertes bestimmt, sondern aufgrund logischer und fachlicher Überlegungen (logische Validität). Manchmal erkennt auch der Laie unmittelbar den offensichtlichen Zusammenhang zwischen Merkmal (z.B. Lesekompetenz) und Testaufgabe (z.B. Wörter, Sätze und kleine Texte lesen). In einem solchen Fall spricht man von Augenscheinvalidität.
- Bestimmt man den Zusammenhang zwischen der Testleistung und einem außerhalb des Tests liegenden Kriteriums (Intelligenztestleistung und Schulnoten in Mathematik, Intelligenzleistung in einem Test und Intelligenzleistung in einem vergleichbaren anderen Test) handelt es sich um die Kriteriumsvalidität. Die Validität des Außenkriteriums stellt einen entscheidenden Faktor bei dieser Art der Gültigkeitsbestimmung dar.
- Die Konstruktvalidität kann als eine Synthese aus Inhalts- und Kriteriumsvalidität verstanden werden. Dabei wird untersucht, inwieweit sich die Merkmalsdimensionen der Items in das Gefüge eines theoretischen Konstruktes einbetten lassen. Einfach stellt sich diese Prüfung dar, wenn nach hohen statistischen Zusammenhängen zwischen zwei Tests gesucht wird, die auf dem gleichen theoretischen Konstrukt aufbauen (konvergente Validität) oder nach niedrigen zwischen zwei Tests, die auf der Basis unterschiedlicher theoretischen Modelle entwickelt wurden (divergente Validität). Weitaus komplizierter ist das Einordnen der in einem Persönlichkeitstest erfassten Persönlichkeitsdimensionen in eine umfassende Persönlichkeitstheorie.
Dies ist der 5. Artikel aus der Reihe „Testdiagnostik“. Sie finden alle Artikel der Reihe unter diesem Schlagwort.
Weiterführende Literatur:
Breitenbach, Erwin (2005): Einführung in die pädagogisch-psychologische Diagnostik. In: Stephan Ellinger & Roland Stein (Hg.): Grundstudium Sonderpädagogik. Oberhausen: Athena Verlag, S. 114–141.
Fisseni, Hermann-Josef (2004): Lehrbuch der psychologischen Diagnostik. Mit Hinweisen zur Intervention. 3. Aufl. Göttingen: Hogrefe.
Das ist Gold für mich! Danke für Ihre Artikel!
Das freut uns wirklich sehr, herzlichen Dank für das Kompliment!
Liebe Grüße,
Miriam Stiehler