Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Vierfeldertafel
- 26. April 2018
- Posted by: Mika
Unter einer Vierfeldertafel verstehst Du eine Kontingenztabelle aus zwei binären Merkmalen beliebigen Skalenniveaus, die also beide nur zwei Ausprägungen haben. Du kannst mit der Vierfeldertafel sowohl die absoluten wie die relativen Häufigkeiten darstellen, die Stärke des Zusammenhangs berechnen und testen, ob die beiden Merkmale unabhängig sind.
Du möchtest beispielsweise wissen, ob die Wartezeit von Patienten in einer Praxis von deren Krankenversicherung abhängig ist.
Dazu notierst Du bei den n=26 Patienten, die an einem Tag in einer Arztpraxis behandelt werden, die Realisationen des Merkmals X: Versicherung mit den Ausprägungen (X=1: Kassenpatient und X=2: Privatpatient) und die Wartezeit Y (Y=1: maximal 30 Minuten und Y=2: mehr als 30 Minuten).
Aus Deinen Aufzeichnungen kannst Du eine Vierfeldertafel mit absoluten Häufigkeiten erstellen, indem Du in die möglichen Merkmalsausprägungen von X in die Zeilen, die von Y in die Spalten schreibst und die vier Felder mit den beobachteten Häufigkeiten füllst:
Absolute Häufigkeiten | Y: Wartezeit | Summe | |||
kurze Wartezeit | lange Wartezeit | ||||
Y=1 | Y=2 | ||||
X: Krankenversicherung. |
PKV | X=1 | =3 | =1 | =4 |
GKV | X=2 | =10 | =12 | =22 | |
Summe | =13 | =13 | =26 |
Die und stellen die Randhäufigkeiten dar, mit denen die i-te Ausprägung von X bzw. die j-te Ausprägung von Y beobachtet wurde.
In der Grafik sind die Zahlen der Tabelle dargestellt:
Dividierst Du alle absoluten Häufigkeiten durch die Zahl der Beobachtungen, so erhältst Du die Vierfeldertafel mit relativen Häufigkeiten:
Relative Häufigkeiten |
Y: Wartezeit | Summe | |||
kurze Wartezeit | lange Wartezeit | ||||
Y=1 | Y=2 | ||||
X: Krankenversicherung. |
PKV | X=1 | =0,1154 | =0,0385 | =0,1538 |
GKV | X=2 | =0,3846 | =0,4615 | =0,8462 | |
Summe | =0,5 | =0,5 | =26 |
Die relativen Häufigkeiten kannst Du als Schätzwerte für die Wahrscheinlichkeiten annehmen, mit denen die Merkmalskombinationen auftreten;
Die Randhäufigkeiten sind dann Schätzwerte für die Wahrscheinlichkeiten, mit denen die Ausprägungen von X und Y eintreten, ohne dass die Ausprägung des anderen Merkmals bekannt ist.
und
Falls X und Y unabhängig voneinander sind, müsste gelten:
Die unter Unabhängigkeit zu erwartenden Anzahlen erhältst Du dann als .
Für Dein Beispiel ergibt sich:
unter Unabhängigkeit von X und Y zu erwartende Anzahlen |
Y: Wartezeit | ||||
kurze Wartezeit | lange Wartezeit | ||||
Y=1 | Y=2 | ||||
X: Krankenversicherung. |
PKV | X=1 | =2 | =2 | =4 |
GKV | X=2 | =11 | =11 | =22 | |
=13 | =13 | =26 |
Je stärker sich jetzt die von den unterscheiden, desto größer ist der Zusammenhang und damit die Abhängigkeit der beiden Merkmale X und Y.
Daraus kannst Du etwa den Chi-Quadrat- oder Kontingenzkoeffizienten Deiner Vierfeldertafel berechnen als Summe der quadratischen Abweichungen, normiert durch die geschätzten Anzahlen:
ist -verteilt mit Freiheitsgraden. Du kannst daher die Hypothesen
: X und Y sind unabhängig
gegen
: X und Y sind nicht unabhängig
testen.
Der Vergleich von mit dem kritischen Wert zum Niveau von bei einem Freiheitsgrad führt nicht zum Verwerfen der Nullhypothese von Unabhängigkeit.
Als Zusammenhangsmaß ist nicht geeignet, da es nicht auf das Intervall [0;1] beschränkt ist; Du berechnest daher Pearsons C,
und normierst diese Kennzahl auf das Intervall [0;1], indem Du durch dividierst, durch den Wert, den C maximal annehmen kann:
Du erhältst den korrigierten Kontingenzkoeffizienten als:
Der Wert des korrigierten Kontingenzkoeffizienten Deiner Vierfeldertafel weist auf einen geringen Zusammenhang zwischen der Wartezeit von Patienten und ihrer Versicherung hin.