Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Grundgesamtheit, Generalisierbarkeit, Repräsentativität
- 20. Juli 2018
- Posted by: Mika
Grundgesamtheit oder Population bezeichnet die Gruppe an Merkmalsträgern, aus der die untersuchte Stichprobe stammt. Die Generalisierbarkeit bezieht sich darauf, wie groß die Population ist, auf die sich die gefundenen Ergebnisse anwenden lassen. Und Repräsentativität besagt, ob eine Stichprobe hinsichtlich interessierender/bedeutsamer Variablen die gleiche Verteilung aufweist wie die ihr zugrundeliegende Population.
Diese Begriffe sind von zentraler Bedeutung für die empirische Forschung. Um ihre Tragweite aufzuzeigen, folgen verschiedene Beispiele und Szenarien, in denen Überlegungen zu Repräsentativität und Generalisierbarkeit eine Rolle spielen.
Angenommen, Du interessierst Dich für ein bestimmtes Merkmal und möchtest wissen, wie es verteilt ist, also seinen Mittelwert und seine Standardabweichung.
Dafür ziehst Du eine Stichprobe von 100 Personen und bestimmst die Stichprobenkennwerte. Zwei Monate später ziehst Du wieder eine Stichprobe, führst die gleiche Untersuchung durch, aber die Stichprobenkennwerte weichen signifikant von Deinen vorherigen Ergebnissen ab. Wodurch sind die Abweichungen zustande gekommen?
Dafür gibt es viele mögliche Gründe. Zunächst könnte es sich um einen alpha-Fehler handeln. Dieser liegt ja typischerweise bei 5%, also besteht eine 5%-ige Wahrscheinlichkeit, dass der Unterschied nur durch Zufallsschwankungen zustande gekommen ist, aber keine tatsächlichen Unterschiede zwischen den Stichproben zugrunde liegen.
Das Merkmal, das Du gemessen hast, könnte auch wenig stabil sein; d. h. innerhalb der zwei Monate gab es einige intraindividuelle Schwankungen. Wenn diese völlig unsystematisch in der Population waren, sollten sie sich nicht in den Stichprobenmittelwerten und -varianzen niederschlagen. Zum Beispiel, wenn man die Personen befragt, wie gut sie in der letzten Nacht geschlafen haben, hängt diese Befragung erheblich vom Zeitpunkt ab (in manchen Nächten schläft man besser, an anderen schlechter), das Einkommen hingegen schwankt weniger stark und weist geringere Veränderungen innerhalb einer Person im Laufe von zwei Monaten auf. Aber im Mittel sollte sich die Schlafqualität einer Population über zwei Monate hinweg nicht deutlich ändern. Das heißt, obwohl es sich um ein wenig stabiles Merkmal handelt, bleiben die Mittelwerte einigermaßen konstant. Befragst Du die Personen aber nach ihrer Tageslaune, könnte man zumindest vermuten, dass an einem regnerischen Wintertag die Ergebnisse systematisch schlechter ausfallen als an einem sonnigen Frühlingstag zwei Monate später (die Forschung zeigt allerdings, dass das Wetter einen geringeren Einfluss auf die Stimmung hat als laienmäßig angenommen, dies soll also eher ein Beispiel, als einen inhaltlich gesicherten Befund darstellen). Das heißt, Du würdest bei Deiner späteren Messung einen spürbar höheren Mittelwert erhalten.
Die Messung könnte auch messfehlerbehaftet und daher wenig reliabel sein. Angenommen, Du misst das Körpergewicht von Personen, aber die Batterie der Waage ist beinahe leer. Dann können die Messungen vom tatsächlichen Gewicht abweichen. Ein unreliables Messinstrument sollte natürlich nicht eingesetzt werden, sondern vor der Untersuchung solltest Du sicherstellen, dass Du geeignetes und möglichst präzises Messinstrument verwendest.
Schließlich könnten die Stichproben unterschiedlichen Bevölkerungen entstammen. Sind in der einen Stichprobe nur Personen unter 30 und in der anderen Stichprobe nur Personen über 60 Jahre, werden die Ergebnisse deutlich unterschiedlich ausfallen. Das bedeutet, dass die Ergebnisse der ersten Untersuchung nicht generalisierbar sind auf Populationen mit einer anderen Altersstruktur.
Die Begriffe Repräsentativität, Population, und Generalisierbarkeit beeinflussen sich gegenseitig. In wie fern Repräsentativität eine Voraussetzung für die Generalisierbarkeit ist, hängt aber auch noch von der Universalität und statistischen Einschränkungen ab.
Population und Repräsentativität stehen in einem unmittelbar wechselseitigen Verhältnis. Wenn Du eine Stichprobe aus der Population der deutschen Bevölkerung ziehen möchtest, und in der Stichprobe nur weibliche Personen sind, ist diese Stichprobe nicht repräsentativ. Alternativ könnte man auch sagen, dass die Stichprobe eben der Population der Frauen der Bundesrepublik entstammt. Hinsichtlich dieser Population könnte die Stichprobe durchaus repräsentativ sein.
Es ist also immer die Frage, in welchen Populationen das gefundene Ergebnis gültig ist. Oder anders, wie weit kann man das Ergebnis generalisieren? Generalisierbarkeit wird auch als externe Validität bezeichnet, also in wie weit sind die Ergebnisse im Alltag und für eine bedeutsame Anzahl von Personen relevant?
Dazu noch ein Beispiel. Dich interessiert, wie sehr eine bestimmte Lernmethode das Lernen eines bestimmten Themas erleichtert. Und Du findest heraus, dass in der untersuchten Schulklasse das Thema mit der neuen Methode viel besser gelernt werden kann als mit älteren Methoden. Angenommen, dieser Zusammenhang ist nur in einer Schulklasse gültig, aber nicht in anderen Schulklassen, Schulformen oder Jahrgängen, ist es weniger aussagekräftig oder relevant, als wenn es sich um einen allgemeinen Zusammenhang handelt, der für Schülerinnen und Schülern verschiedenen Alters und aus verschiedenen Ländern gilt. Dies ist aber nur ein Aspekt der Generalisierbarkeit, die Methode bezieht sich ja nicht nur auf die Schüler, sondern auch auf das zu erlernende Thema. Ihre Bedeutsamkeit hängt also auch davon ab, ob sie für verschiedene Fächer und Themen oder nur eine spezielle Lerneinheit geeignet ist. In diesem Fall spricht man auch von Stimulusvarianz, auf dessen Wichtigkeit Westfall und Yarkoni in einem einflussreichen Artikel in der Plos ONE (2016) hinweisen.
Auf die fundamentale Bedeutsamkeit von Repräsentativität ist schon der einleitende Artikel dieses Kapitels ausführlich eingegangen. Zwei Aspekte werden hier noch einmal herausgegriffen. Je universeller ein Merkmal ist, desto weniger diverser und repräsentativer Stichproben bedarf es, um es zu untersuchen. In der Extremform werden Untersuchungen an Tieren auf Menschen übertragen.
Die Stichprobe ist nicht repräsentativ für die Grundgesamtheit. Kann man von dieser Stichprobe auf die Population schließen?
In der Soziologie bzw. Ethnologie gibt es einige Kontroversen, inwieweit einige Prozesse in allen Menschen universell ablaufen, welche Prozesse kulturabhängig sind. Die Interpretation von Emotionen am Gesichtsausdruck scheint über viele Kulturen hinweg gleich zu sein. Das heißt, alle Menschen, egal auf welchem Kontinent oder unter welchen Bedingungen sie aufgewachsen sind, bewerten einen bestimmten Gesichtsausdruck übereinstimmend als traurig. Ob man seine Emotionen zeigen sollte oder darüber reden sollte, bewerten aber verschiedene Kulturen unterschiedlich. Befragt man Menschen zu ihrer Meinung, welcher Emotionsausdruck angemessen ist, wird das Ergebnis von der untersuchten Kultur abhängen. Viele empirische Befunde sind vor allem an Stichproben aus westlichen Kulturen untersucht worden.
Deswegen waren diese Wissenschaften mit dem Vorwurf konfrontiert, dass sie eine Wissenschaft der „WEIRD“ People seien. Das ist ein englisches Akronym für Western, Educated, Industrialized, Rich, and Democratic und soll darauf hinweisen, dass die postulierten Mechanismen und Zusammenhänge in anderen Teilen der Weltbevölkerung möglicherweise ganz anders ausfallen, weil es dort unterschiedliche Werte, Verhaltensweisen oder gesellschaftliche Strukturen gibt.
Zunehmend versucht man nun, auch andere Kulturkreise in die Forschung miteinzubeziehen und nimmt oft bspw. Kulturvergleiche zwischen den USA und China vor, als Stellvertreter für sogenannte individualistische und kollektivistische Kulturen. Sicherlich sind aber Personen in ländlichen oder armen Gebieten mit geringerer Verbreitung von Internetanschlüssen deutlich unterrepräsentiert in der Forschungskultur.
Universalität meint aber nicht nur Kulturuniversalismus, andere Kontexteffekte können auch situativer Natur sein (z. B. wie die momentane Stimmung ist oder ob man alleine oder in einer Gruppe handelt), Persönlichkeitsvariablen und vieles mehr sein.
Ein zweiter Aspekt der Repräsentativität von Stichproben ist die Varianzeinschränkung. Wenn zum Beispiel der Zusammenhang von Licht und Wasser und dem Wachstum von einer bestimmten Pflanzensorte untersucht werden soll, und alle untersuchten Pflanzen am gleichen Ort mit ähnlichen Wetterbedingungen stehen, wird man die gefundenen Größenunterschiede nicht auf unterschiedliche Licht- und Bewässerungsverhältnisse zurückführen können. Man würde dann schlussfolgern, dass es keinen signifikanten Zusammenhang zwischen Licht und Wasser und Wachstum gibt. Diese Schlussfolgerung übersieht aber, dass Varianzeinschränkungen einen sehr wohl vorhandenen Zusammenhang maskieren.
Die gefundenen Unterschiede liegen dann eher an genetischen Unterschieden der Pflanzen oder verschiedenen Nährstoffen im Boden. Wachsen aber einige der Pflanzen in dürren Regionen, andere in sehr sonnenarmen etc., kann man die gefundenen Wachstumsraten sehr wohl auf die Licht- und Wasserverhältnisse zurückführen.
Dieses Problem mag hier offensichtlich erscheinen. Untersucht man aber den Zusammenhang zwischen Bildungsgrad der Eltern und Leistung im Studium nur an einer Stichprobe von Medizinstudierenden, deren Eltern allesamt eine akademische Ausbildung haben, wird man möglicherweise vorschnell schlussfolgern, dass es keinen Zusammenhang gibt.
Repräsentativität ist eine Eigenschaft der Stichprobe. Diese kann z. B. dadurch erreicht werden, dass die Stichprobe hinreichend groß ist und durch eine echte Zufallsziehung zustande kam.