Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Validität
- 20. Juli 2018
- Posted by: Mika
Die Validität eines Tests zu messen, kann manchmal etwas Kopfzerbrechen bereiten. Ein valider Test misst das, was er messen soll. Wenn ein Test die Sehstärke einer Person messen soll, aber eigentlich die Lichtverhältnisse misst (weil mal die Stimuli zu wenig beleuchtet sind, mal zu stark blenden), ist der Test nicht valide. Wenn er fehlerfrei die Sehschärfe bestimmt, ohne dass die Person durch Zufall, Glück oder geschicktes Raten auf die richtige Lösung kommt, ist er perfekt valide.
So einfach die Definition der Validität auch ist, umso schwieriger gestaltet sich manchmal ihre Bestimmung. Misst ein Depressionsfragebogen auch Depression, und ein Intelligenztest Intelligenz? Misst ein Fragebogen zur Extraversion die Extraversion? Oftmals gibt es keine anderen äußeren Kriterien als den Testwert. Um zu beurteilen, ob der Extraversionsfragebogen auch Extraversion misst, bedarf es eines anderen geeichten Messinstrumentes, das Extraversion messen kann. Und da beißt sich die Katze in den Schwanz.
Deswegen sagen Diagnostiker auch manchmal scherzhaft, Intelligenz sei das, was der Intelligenztest misst. Es ist wichtig zu verstehen, wie sich Validität und Reliabilität voneinander unterscheiden. Validität beantwortet die Frage, ob das Richtige gemessen wird. Reliabilität wie gut oder wie präzise diese Messung ist. Bei physikalischen Größen wie Luftdruck oder Gewicht ist die Messgröße ganz klar definiert. Aber was genau ist Intelligenz und aus welchen Facetten setzt sie sich zusammen. Sicherlich tragen verschiedene Aspekte wie sprachliche Ausdrucksfähigkeit, das Gedächtnis oder Kreativität zur Intelligenz bei. Ein Test, der nur aus Auswendiglernen besteht, deckt also möglicherweise nur einen Teilbereich von Intelligenz ab. Ob er valide Intelligenz messen kann, muss begründet und untersucht werden.
Kriteriumsvalidität
Manchmal gibt es gute äußere Kriterien, die zur Beurteilung der Validität herangezogen werden können. Zum Beispiel kann die Validität eines Führerscheintests damit beurteilt werden, wie viele Unfälle oder Verkehrsvergehen Fahranfänger innerhalb der ersten Jahre ihrer Fahrpraxis begehen. Für einen Intelligenztest können Schul- und Berufserfolg als Kriterien herangezogen werden.
In diesem Fall spricht man von Kriteriumsvalidität, das meint also wie hoch der Test mit äußeren, relevanten Kriterien im echten Leben korreliert. Liegt das Kriterium, anhand dessen der Test bewertet wird, in der Zukunft, spricht man auch von prädiktiver Validität. Betrachtet man bestimmte neuronale Masse im Gehirn unter einem MRT-Scan kann getestet werden, ob die Person ein erhöhtes Risiko hat an neurodegenerativen Krankheiten zu erkranken. Betrachtet man dann viele Jahre später bei den gleichen Personen im hohen Alter, ob sie tatsächlich an der Krankheit erkrankt sind, und hängt das signifikant mit dem Testergebnis zusammen, dann hat der Test sich als prädiktiv erwiesen. Er dient also zur Prognose eines bestimmten Kriteriums. Der Wetterbericht kann ebenfalls anhand seiner prädiktiven Validität beurteilt werden.
Inhaltliche Validität
Die inhaltliche Validität benennt das Ausmaß, in dem vom Testergebnis auf das zu beurteilende Ergebnis geschlossen werden kann. Ist das Testverhalten repräsentativ für das interessierende Verhalten? Die Fähigkeit, Farben zu vergleichen, kann mit sogenannten Ishihara-Farbtafen getestet werden. Hier ist es augenscheinlich, dass der Test inhaltlich valide ist, also genau die Personen die bunte Zahl vor dem bunten Hintergrund erkennen, die die Farben unterschiedlich wahrnehmen können. Es bedarf keiner weiteren Prüfung der Validität dieses Tests.
Anders verhält es sich mit der inhaltlichen Validität von impliziten Messverfahren. Um implizite Einstellungen gegenüber bestimmten Personengruppen zu messen, müssen Probanden beim sogenannten Implicit Association Test (IAT) Reaktionszeitaufgaben am Computer durchführen. Die Reaktionszeiten sollen dann Aufschluss darüber geben, wie positiv oder negativ man einem bestimmten Einstellungsobjekt gegenüber eingestellt ist. Hier bedarf es einer empirischen Begründung, dass der Test valide ist. Eine augenscheinliche inhaltliche Validität geht oft einher mit der Akzeptanz, also dem Maß, in dem der Test von der allgemeinen Bevölkerung als passend angesehen wird.
Bei der Erfassung von latenten Merkmalen zeigten Forscherinnen und Forscher oft einige Kreativität. Z. B. gab es mal dein Versuch, die Aggressivität einer Person darüber zu ermitteln, für welche Farben sie sich entscheidet beim Legen von Pyramiden aus bunten Dreiecken. Dieser Test hat sich als inhaltlich nicht valide herausgestellt. Welche Farben man bevorzugt, sagt also nichts über die Aggressivität einer Person aus.
Konkurrente und divergente Validität
Eine weitere Unterscheidung ist die konkurrente (oder konvergente) und divergente (oder diskriminante) Validität. Während bei der konvergenten Validität ein ähnliches Testverfahren zu einem möglichst ähnlichen Ergebnis kommen soll (z. B. verschiedene Intelligenztests, oder ein Fragebogen zur Extraversion einmal als Selbstbericht und einmal als Fremdbericht von einer Person aus dem Freundeskreis beurteilt), soll die divergente Validität eine sinnvolle Abgrenzung zweier Konstrukte voneinander ermöglichen. Kreativität und Intelligenz korrelieren miteinander, die jeweiligen Tests sollten also auch das jeweils Unterschiedliche erfassen; wenn die Tests zu hoch untereinander korrelieren, kann nicht mehr sinnvoll argumentiert werden, dass die verschiedenen Konstrukte sinnvoll erfasst werden.
Konstruktvalidität
Schließlich gibt es noch den Begriff der Konstruktvalidität. Damit soll der Test in ein Gesamtbild aus Tests und Kriterien eingebettet werden. Cronbach und Meehl sprechen in einer Publikation von 1995 von einem nomologischen Netzwerk um das Konstrukt herum, und dass die Konstruktvalidierung ein nie abgeschlossener Prozess sei. In der Praxis wird die Konstruktvalidität eines Messinstrumentes so untersucht, in dem er mit verschiedenen anderen Tests auf Gemeinsamkeit und Unterschiedlichkeit (konvergente vs. diskriminante Validität) hin untersucht wird und mit verschiedenen externen Kriterien korreliert wird. Dadurch erhält man einerseits ein besseres Verständnis von den Möglichkeiten und Grenzen des Tests als auch ein besseres Verständnis über das Konstrukt selbst, wie homogen oder stabil es ist und wie es im Zusammenhang mit anderen, evtl. verwandten Konstrukten steht.
Mit dem Multitrait-Aultimethod-Ansatz soll dieser Forderung zumindest im Ansatz nachgekommen werden, indem unterschiedliche Konstrukte jeweils mit unterschiedlichen Methoden gemessen und die Ergebnisse verglichen werden. Methodenvielfalt soll sicherstellen, dass die Ergebnisse nicht allein durch die Messmethode zustande kommen, sondern robust unter verschiedenen Betrachtungsweisen sind. Zum Beispiel könnte man die Frage untersuchen, ob Nervosität mit der Wortflüssigkeit und -gewandheit bei einem Bewerbungsgespräch zusammenhängt. Die Nervosität soll mithilfe von selbstberichteter Nervosität, der Beurteilung eines unabhängigen Experten und physiologischen Maßen (also wie stark die Person schwitzt und wie groß ihre Hautleitfähigkeit ist) gemessen werden. Auch die rhetorischen Fähigkeiten sollen auf verschiedene Weise, also z. B. durch eine unabhängige externe Beurteilung und eine computergesteuerte Auswertung, wie viele Wörter pro Minute die Person spricht und wie umfangreich ihr Wortschatz ist, gemessen werden. In dem Multitrait-Multimethod-Ansatz würde man dann alle Ergebniswerte untereinander korrelieren und wenn die Zusammenhänge zwischen beiden Merkmalen ähnlich unter verschiedenen Methoden-Kombinationen sind, würde das als Bestätigung der Konstruktvalidität gewertet werden.
Achtung, die Testvalidität ist nicht zu verwechseln mit den Begriffen der internen und externen Validität einer Untersuchung. Damit ist gemeint, in wie weit ein Untersuchungsdesign logisch schlüssig ist (intern valide) und sich das Ergebnis auf relevante, reale Situationen von der Laborsituation übertragen lässt (extern valide).
Die Hauptgütekriterien werden gewissermaßen immer strenger. Das bedeutet, damit ein Test reliabel sein kann, muss er auch objektiv sein. Ein nicht reliabler Test kann wiederum niemals valide sein. Andersherum bedeutet es aber nicht, dass ein objektiver Test auch reliabel oder valide ist, und aus Reliabilität kann man auch nicht auf Validität schließen.