Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Korrespondenzanalyse
- 26. April 2018
- Posted by: Mika
Mit der Korrespondenzanalyse kannst Du Beziehungen zwischen zwei mindestens nominalskalierten Variablengruppen visuell darstellen. So kannst Du zum Beispiel in der Marktforschung eine Gruppe von Produkten, zu denen Du bestimmte Eigenschaften erhoben hast, in einer zweidimensionalen Ebene so abbilden, dass die Distanzen den Unterschieden in den Eigenschaften entsprechen. Dazu reduzierst Du die Anzahl der beschreibenden Faktoren in der Regel auf zwei.
Man spricht daher auch von nicht-metrischer Faktoren- oder Hauptkomponentenanalyse.
Das Verfahren erfolgt in drei Schritten:
Im ersten Schritt erstellst Du aus Deinen Daten eine Kontingenztabelle und berechnest den zugehörigen -Prüfwert.
Im zweiten Schritt extrahierst Du die Dimensionen so, dass Du einerseits möglichst wenig Dimensionen erhältst (das menschliche Auge kann nicht mehr als drei Dimensionen sehen, am besten überschaubar sind für uns zwei Dimensionen), andererseits aber möglichst wenig Information dabei verloren geht.
Im dritten Schritt normalisierst Du die Koordinaten symmetrisch und interpretierst die Dimension.
Als Beispieldaten dienen die Ergebnisse eines Tests zu Waschmitteln. Vier konkurrierende Waschmittel ,i=1,..,4 wurden bezüglich drei Kriterien , j=1,…3 untersucht und sie erhielten Punkte zwischen 1 und 40. Es ergaben sich die folgenden Ergebnisse:
j | 1 | 2 | 3 | |||
i | Waschwirkung | Textilschonung | Umwelteigenschaften | Zeilensummen |
||
1 | Wasch Gerne | 11 | 2 | 36 | 49 | |
2 | Sauber und Gut | 17 | 45 | 27 | 89 | |
3 | Bravo Wasch | 38 | 28 | 15 | 81 | |
4 | Ultra Sauber | 23 | 37 | 32 | 92 | |
Spaltensummen |
89 | 112 | 110 | 311 |
Mit Hilfe der Zeilen- und Spaltensummen kannst Du die erwarteten Anzahlen berechnen, die sich im Fall von Unabhängigkeit ergeben würden, als
Du erhältst die folgende Tabelle:
j | 1 | 2 | 3 | |||
i | Waschwirkung | Textilschonung | Umwelteigenschaften | Zeilensummen |
||
1 | Wasch Gerne | 14,02 | 17,65 | 17,33 | 49 | |
2 | Sauber und Gut | 25,47 | 32,05 | 31,48 | 89 | |
3 | Bravo Wasch | 23,18 | 29,17 | 28,65 | 81 | |
4 | Ultra Sauber | 26,33 | 33,13 | 32,54 | 92 | |
Spaltensummen |
89 | 112 | 110 | 311 |
Daraus berechnest Du die normierten Differenzen zwischen den und den , dividiert durch :
Quadrierst Du die über alle i und alle j, so erhältst Du die -Prüfgröße der Kontingenzanalyse zu
Die Prüfgröße folgt einer -Verteilung mit Freiheitsgraden.
Sie ist allerdings abhängig von der Gesamtanzahl n Deiner Erhebung. Um diesen Effekt zu bereinigen, berechnest Du die Total Inertia T als Quotient aus und n,
T liegt zwischen Null und (k-1), wobei k der kleinere der beiden Werte I und J ist. In Deinem Beispiel liegt T also zwischen Null und Zwei.
Im zweiten Schritt der Analyse geht es um die Reduzierung der Dimensionen. Dazu zerlegst Du die (I x J)-dimensionale Matrix mittels Singularwertzerlegung in:
Dabei sind
die (I x J)- Matrix der standardisierten Häufigkeitsdifferenzen | |
die (I x K)- Matrix der Zeilenelemente | |
die (K x K)- Diagonalmatrix der Singularwerte | |
die (K x J)- Matrix der Spaltenelemente |
Du erhältst die Diagonalelemente von S als positive Quadratwurzel der Eigenwerte der Matrix . Hier sind und.
Die Summe der Eigenwerte ist gleich dem Wert der oben berechneten Total Inertia T=0,1936; ihr Anteil an der Total Intertia drückt den prozentualen Beitrag aus, den der k-te Faktor zur Erklärung der Beobachtungen leistet. Demnach trägt der erste Faktor mit , der zweite Faktor mit zur Erklärung der Beobachtungen bei.
Die Matrizen V und U ergeben sich aus den zu den Eigenwerten zugehörigen Eigenvektoren; sie sind nicht eindeutig bestimmt.
Im dritten Schritt werden U und V daher normiert, üblicherweise wählt man eine symmetrische Normierung. Dann kannst Du die Koordinaten der Realisationen von (abhängigen) Variablen und ursprünglichen (unabhängigen) Merkmalen als
berechnen, mit
Die Grafik zeigt das Ergebnis der Korrespondenzanalyse für das Beispiel des Waschmitteltests:
Am Ende bleibt Dir die Interpretation der Grafik. Die Durchschnittsprofile liegen im Ursprung des Koordinatensystems. Je weiter eine Beobachtung vom Ursprung entfernt liegt, desto stärker unterscheidet sie sich in der Wahrnehmung der Probanden vom Durchschnitt; je näher zwei Beobachtungen zueinander liegen, desto ähnlicher sind sie.
Es erstaunt nicht, dass Waschwirkung und Umwelt-bzw. Textilschonung in entgegengesetzter Richtung auf der vertikalen Achse abgetragen sind; möglicherweise drückt diese Achse den Anteil von chemischen Flecklösern aus. Die horizontale Achse, gibt an, ob ein Waschmittel eher als umweltfreundlich oder textilschonend wahrgenommen wird.