Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Abhängige Stichprobe / unabhängige Stichprobe
- 20. Juli 2018
- Posted by: Mika
Bei der Analyse von Mittelwertsunterschieden unterscheidet man Stichproben übrigens auch danach, ob sie abhängig oder unabhängig sind. Unabhängige Stichproben setzen sich aus voneinander unabhängigen Personen und Messungen zusammen. Im Gegensatz dazu handelt es sich bei abhängigen oder auch verbundenen Stichproben um Datenpaare oder Datengruppen, die zusammengehören und keine statistisch voneinander unabhängigen Messungen darstellen. Abhängige Stichproben liegen zum Beispiel bei Messwiederholungsdesigns vor: Die gleichen Personen nehmen zu verschiedenen Zeitpunkten an der Befragung teil, die interessierende Variable ist dann die Veränderung über die Zeit.
Messwiederholungsdesigns tauchen sehr oft in der empirischen Forschung auf, weil oft Fragen von Interesse sind, ob sich bestimmte Eigenschaften über die Zeit oder im Zuge von gezielten Interventionen verbessern. Beispielsweise könnte man die Frage untersuchen, ob 30-jährige Personen im Mittel ein geringeres Einkommen haben als 50-jährige Personen. Dazu könnte man eine Stichprobe mit 30-Jahre alten Personen, und eine Stichprobe mit 50-Jährigen ziehen und einen -Test für unabhängige Stichproben berechnen. Alternativ könnte man eine Gruppe 50-Jähriger nach ihrem jetzigen und ihrem Einkommen vor 20 Jahren befragen. Der Unterschied beim zweiten Vorgehen ist, dass die beiden Altersgruppen sich nun aus den gleichen Personen zusammensetzen.
Daher kommt auch die Bezeichnung „abhängige“ Stichprobe: Beide Gruppen hängen voneinander ab und die Probanden aus der einen und anderen Gruppe können einander zugeordnet werden. Auch die Berechnung in beiden Vorgehensweisen unterscheidet sich: bei der ersten Variante, mit zwei unabhängigen Stichproben, berechnet man erst die Mittelwerte und Varianzen beider Gruppen und testet dann die Differenz auf Signifikanz. Bei der zweiten Methode berechnet man erst die Merkmalsdifferenzen der Paare und berechnet dann deren Mittelwert und Standardabweichung.
Bei der Untersuchung von natürlichen Paaren, also zum Beispiel Ehepaaren, Geschwistern oder Verkäufer-Kunden-Paaren, handelt es sich auch um abhängige Stichproben. Natürliche Paare sind also Stichproben, in denen Unterschiede zwischen Dyaden betrachtet werden sollen. Diese Paarungen sind nicht wahllos zugeordnet, sondern durch die Struktur der Daten vorgegeben. Du könntest also die Fragestellung untersuchen, ob das ältere von zwei Geschwistern früher aus dem Elternhaus auszieht oder als das jüngere. Oder Dich könnte bei Ehepaaren interessieren, ob in Ehen typischerweise der Mann älter oder größer ist als die Ehefrau. Die Tabelle zeigt einen fiktiven Datensatz von Ehepaaren, in denen das Alter der jeweiligen Paare erhoben wurde.
Wie in dem obigen Zahlenbeispiel deutlich wird, wird ein -Test mit unabhängigen Stichproben nicht signifikant: Das heißt die Gruppe der Ehefrauen und Ehemänner unterscheiden sich nicht hinsichtlich ihres Alters. Dass der Altersunterschied von durchschnittlich rund 43 und 40 Jahren bei den Männern bzw. Frauen nicht signifikant wird, liegt vor allem an der großen Varianz innerhalb der Gruppen: es gibt beträchtliche Altersunterschiede zwischen den Personen, bei den Männern reicht das Alter z.B. von 31 bis 67 Jahren. Das trägt zu einem großen Standardfehler bei für die unabhängigen Stichproben. Aus den Standardabweichungen von 14.39 und 12.42 in den beiden Gruppen ergibt sich ein Standardfehler von 8.74.
Bei einem -Test mit verbundenen Stichproben werden hingegen die Alterslevelschwankungen zwischen den Personen gar nicht berücksichtigt, das heißt, auch bei sehr heterogenen Stichproben wirkt sich die Varianz im Merkmal nicht auf den Standardfehler aus. Stattdessen betrachtet man in diesem Fall nur die Differenzen, und hier zeigt sich ein deutlich einheitlicheres Bild: bei fast allen Paaren ist der Ehemann älter als die Ehefrau. Die durchschnittliche Altersdifferenz beträgt 3,125 Jahre, genauso wie die Differenz der Gruppenmittelwerte. Aber die Standardfehler unterscheiden sich erheblich, sodass ein -Test für verbundene Stichproben ein signifikantes Ergebnis erzielt.
Dieser ist auch theoretisch sinnvoller: Die Frage lautet ja nicht, ob die Männer sind als die Frauen, sondern ob innerhalb der Paare ein entsprechender Altersunterschied vorliegt. Die Altersdifferenz zwischen den Paaren ist also gar nicht von Belang.
Verbundene Stichproben haben gegenüber unabhängigen Stichproben den Vorteil, dass sie eine höhere Power, also eine höhere Teststärke liefern. Das liegt daran, dass sich bspw. beim -Test für unabhängige Stichproben die Varianz innerhalb der Gruppen auf den Standardfehler niederschlägt. Wenn beide Gruppen sehr heterogen sind, kann das Unterschiede zwischen den Gruppen überschatten. Bei abhängigen Stichproben hingegen spielt die Gruppenvarianz keine Rolle. Hier werden lediglich die Differenzen zwischen den Paaren betrachtet und auf Signifikanz getestet. Die Fragestellung lautet also, „ist die mittlere Differenz zwischen den Paaren signifikant von Null verschieden?“.
Im Datenbeispiel aus Tabelle xx würdest du bei einem -Test für abhängige Stichproben also die Standardabweichung der Differenzen in der letzten Spalte ausrechnen. Wenn du nicht weiß, dass die Probanden in der Stichprobe Ehepaare sind und deswegen der Frage, ob sich die Gruppen in ihrem Alter unterscheiden, mit einem -Test für unabhängige Stichproben nachgehst, erhältst du einen deutlich größeren Standardfehler.
Da statistische Tests für abhängige Stichproben normalerweise eine größere Teststärke haben als für unabhängige Stichproben, bietet es sich manchmal an, Personen zu „matchen“. Das bedeutet, jeder Person aus der einen Stichprobe wird eine hinsichtlich einiger entscheidenden Variablen (etwa Geschlecht, Alter, Berufserfahrung, etc.) ähnliche Person zugeordnet. Dadurch entstehen künstliche Paarungen, die ebenfalls als abhängige Stichproben analysiert werden können.