Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Gütekriterien eines Tests
- 20. Juli 2018
- Posted by: Mika
In der Psychologischen Diagnostik wird ein Messinstrument zur Erfassung einer psychologischen Eigenschaft als Test bezeichnet. Solche Eigenschaften sind z.\, B. Einstellungen, Symptome zur Diagnose psychischer Krankheiten, Konzentrationsfähigkeit oder sprachliche Intelligenz, Persönlichkeitseigenschaften oder momentane Zustände (Stimmung, positiver Affekt). Die voneinander unabhängigen Bestandteile eines Tests, also seine kleinsten Bausteine, nennt man Items.
Grundvoraussetzung für einen Test ist, dass er das zu messende Merkmal, möglichst gut und genau abbilden kann. Angenommen, Du möchtest beispielsweise die Fahreignung einer Person testen. Lässt Du die Person ein Autorennen am Computer spielen, hat das Ergebnis wohl wenig mit der Fahrtauglichkeit einer Person gemeinsam. Eine Fahrprobe, ein klassisches Beispiel für eine Verhaltensstichprobe, ist dahingegen ein geeigneter Test. Wenn die Fahrprobe allerdings nur daraus besteht, den Motor zu starten und wenige Meter geradeaus zu fahren, trennt der Test zwar zwischen Personen, die sehr schlecht oder gar nicht Auto fahren können und solchen, die es können. Allerdings wird er zu einfach sein, das heißt, sehr viele Personen können ihn bestehen ohne das Autofahren gut zu beherrschen.
Differenzierung und Standardisierung
Es ist also eine wichtige Grundvoraussetzung für einen psychometrischen Test, dass er zwischen unterschiedlichen Merkmalsausprägungen differenzieren kann. Der Test soll ein möglichst breites Spektrum der unterschiedlichen Merkmalsausprägungen abbilden und differenzieren können. Nehmen wir das Beispiel eines Intelligenztests: Im Falle von extrem einfachen oder schwierigen Items können alle oder keiner der Probanden die Fragen richtig beantworten. Dann trägt der Test nichts zur Differenzierung des Merkmals Intelligenz bei. Sind alle Items dagegen mittelschwierig, kann der Test zwar sehr gut zwischen mehr und weniger intelligenten Personen unterscheiden, differenziert aber nicht in den unteren oder oberen Leistungsbereichen. Deswegen ist eine Streuung der Schwierigkeit innerhalb der Items wünschenswert. Nicht differenzierende Items können manchmal als Eisbrecher oder Beispielaufgaben verwendet werden.
Beispiel für eine einfache Aufgabe. Hier geht es erst einmal darum, dass die Personen die Aufgabe verstehen und sich mit dem Material vertraut machen können.
Während man manche Aufgaben sofort durch Hinsehen lesen kann, erfordern andere Aufgabe einiges Knobeln. Manche Aufgaben können sogar so schwierig sein, dass sie für viele Personen selbst nach langem Nachdenken nicht lösbar sind.
Eine weitere Grundvoraussetzung ist die Standardisierung. Das heißt alle Probanden sollten den Test unter gleichen Bedingungen durchführen, also etwa gleich viel Zeit haben, die gleichen Instruktionen bekommen und die Auswertung muss auf gleiche Weise erfolgen. Situative Faktoren beeinflussen das Verhalten von Probanden. Damit diese nicht als Störeinflüsse in die Messung einfließen, müssen sie für alle Probanden konstant gehalten werden.
Haupt- und Nebengütekriterien
Selbst wenn ein Test die Grundvoraussetzungen erfüllt, ist es noch lange kein gutes Instrument. Ein Test muss eine Reihe von Gütekriterien erfüllen und die verschiedenen Ziele können teilweise im Konflikt zueinanderstehen. In solchen Fällen gilt es dann abzuwägen, welche Testeigenschaften theoretisch sinnvoll und wichtig sind und Kompromisse zwischen gegensätzlichen Zielen zu finden.
Gerade im Stadium der Testkonstruktion und -validierung stellt sich oft die Frage, welche Items in einen Test aufgenommen werden sollen und welche nicht. Die Auswahl erfordert ein hohes Maß an Abwägung von theoretischen Argumenten, Faustregeln und Itemselektionskennwerten, um schließlich zu einem möglichst guten Test zu gelangen.
Zum Beispiel wird ein Test umso reliabler (s. u.), je mehr Items er hat, allerdings geht dies auf Kosten der Ökonomie und Zumutbarkeit. Außerdem wird die Reliabilität oft über die interne Konsistenz gemessen (s. u.), was aber bei sehr heterogenen Konstrukten möglicherweise nicht gerecht wird.
Die drei Hauptgütekriterien eines Testes sind Objektivität, Reliabilität und Validität.
Zudem gibt es eine Vielzahl an Nebengütekriterien, zu den wichtigsten gehört die Normierung, die Testfairness, Nützlichkeit, Ökonomie, Unverfälschbarkeit und Zumutbarkeit.
Verhältnis der Gütekriterien untereinander
Die Hauptgütekriterien werden gewissermaßen immer strenger. Das bedeutet, damit ein Test reliabel sein kann, muss er auch objektiv sein. Ein nicht reliabler Test kann wiederum niemals valide sein. Andersherum bedeutet es aber nicht, dass ein objektiver Test auch reliabel oder valide ist, und aus Reliabilität kann man auch nicht auf Validität schließen.
Denn angenommen, ein Test ist nicht objektiv, das heißt verschiedene Testleiter kommen zu unterschiedlichen Ergebnissen, dann kann er erst recht präzise, also reliabel sein. Und ein Test kann hoch reliabel sein, aber nicht präzise: wenn Dein Instrument zur Bestimmung der Windgeschwindigkeit in Wirklichkeit nur die Straßenlautstärke misst, das aber mit enormer Präzision, hast Du zwar ein sehr reliables, aber kein valides Werkzeug.