Shapiro-Wilk-Test

Shapiro-Wilk-Test

18. November 2016
Posted by: Mika

Mit dem Shapiro-Wilk-Test hast Du für metrische Daten einen starken Test auf Normalverteilung gegeben, der für Stichprobengrößen ab 3 Beobachtungen eingesetzt werden kann. Damit kannst Du ihn auch bei sehr kleinen Stichproben verwenden und prüfen, ob die Daten der Normalverteilungsannahme widersprechen, die bei parametrischen Tests oft gefordert wird.

Bei einer Untersuchung von n=12 Patienten mit einer seltenen Herzkrankheit hast Du beispielsweise unter anderem den diastolischen Blutdruck erhoben. Da Du diesen mit Hilfe von parametrischen Testverfahren weiter untersuchen möchtest, möchtest Du zuerst auf Normalverteilung testen und entscheidest Dich daher für den Shapiro-Wilk-Test.

Lfd. Nummer i	1	2	3	4	5	6	7	8	9	10	11	12
Diastolischer  Blutdruck $x_i$	64	68	70	70	80	80	82	84	84	86	92	99

Aufstellen von Hypothesen

Deine Hypothesen lauten entsprechend:

$H_0$ : die Zufallsvariable „Diastolischer Blutdruck“ folgt einer Normalverteilung

$H_1$ : die Zufallsvariable „Diastolischer Blutdruck“ folgt keiner Normalverteilung

Als Teststatistik bildest Du den Quotienten aus zwei Schätzungen für die Varianz:

$\begin{equation*} W_{pr} = \frac {b^2} {(n-1)s_x^2}\end{equation*}$

der unter Normalverteilung erwarteten Varianz der Stichprobe $b^2$
und der nicht korrigierten Stichprobenvarianz $s_x^2$

$W_{pr}$ kannst Du damit als Korrelationskoeffizienten interpretieren, der Werte zwischen Null und eins annehmen kann. Falls die Nullhypothese gilt, müssten beide Schätzungen also ähnlich ausfallen und der Wert der Teststatistik in der Nähe von 1 liegen. Je kleiner $W_{pr}$ zudem wird, umso wahrscheinlicher ist es also, dass die Nullhypothese verworfen werden muss. Die kritischen Werte liegen übrigens in Abhängigkeit vom Stichprobenumfang und des Signifikanzniveaus tabelliert vor und die Nullhypothese wird verworfen, falls

$\begin{equation*} W_{pr} < W_{kr}\end{equation*}$

Die Testentscheidung

Für die unter der Normalverteilung zu erwartete Varianz $b^2$ sortiert der Shapiro-Wilk-Test die Stichprobenwerte in aufsteigender Reihe und berechnet paarweise die Differenzen zwischen dem größten und kleinsten, dem zweitgrößten und zweitkleinsten Wert usw., bis im Fall einer geraden Anzahl von Stichprobenwerten alle Werte berücksichtigt sind oder bei ungeraden Anzahlen der mittlere Wert übrigbleibt. Diese Differenzen werden dann mit vom Testverfahren vorgegebenen Koeffizienten multipliziert, über alle Paare addiert und die Summe quadriert. Für Dein Beispiel berechnest Du folglich für den Nenner der Teststatistik

$\begin{equation*} \bar x = \frac 1 n \cdot \sum_{i=1}^n x_i = 79,92 \quad und \quad s_x^2 = \frac 1 n \cdot \sum_{i=1}^n (x_i- \bar x)^2 = 106,99 \end{equation*}$

sowie für den Zähler die Summe der paarweisen Differenzen von außen nach innen, jeweils multipliziert mit testspezifischen Koeffizienten:

$\begin{align*} b^2 = [&0,5475 \cdot (99-64) + 0,3325 \cdot (92-68) + 0,2347 \cdot (86-70) + \\ &0,1586 \cdot (84-70) +0,0922 \cdot (84-80) + 0,0303 \cdot (82-80)]^2=1125,43 \end{align*}$

Deine Testentscheidung lautet demnach

$\begin{equation*} W_{pr} = \frac {1125,43} {11 \cdot 106,99} = 0,9563 > 0,859 = W_{kr}(n=12;\alpha=0,05) \end{equation*}$

und Du schließt, dass Du die Nullhypothese einer Normalverteilung aufgrund Deiner Daten nicht verwerfen musst.

KOSTENLOSES ANGEBOT

KOSTENLOSES ANGEBOT

KOSTENLOSES ANGEBOT

KOSTENLOSES ANGEBOT

Aufstellen von Hypothesen

Die Testentscheidung

Anpassungstests / Prüfung auf Verteilung