Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Multiple lineare Regression
- 2. Mai 2017
- Posted by: Mika
Im Unterschied zur einfachen linearen Regression, bei der Du nur eine unabhängige Variable (UV) untersuchen kannst, modelliert die multiple lineare Regression die Einflüsse mehrerer UVs auf eine abhängige Variable (AV). Allerdings wird auch bei dieser Methode angenommen, dass die Zusammenhänge zwischen UV und AV linearer Natur sind. Auch dieses Modell beschreibst Du also als lineare mathematische Funktion. Die Funktion ist quasi identisch zu jener der einfachen linearen Regression, es wird aber für jede weitere UV ein neuer mathematischer Term hinzugefügt. Eine lineare Regressionsgleichung mit zwei UVs (x und z) würde folgendermaßen aussehen:
Modellannahmen
Für die multiple lineare Regression sollte, zusätzlich zu den Modellannahmen der einfachen linearen Regression, noch eine weitere Annahme erfüllt sein, nämlich jene der linearen Unabhängigkeit der UVs. Man spricht in diesem Zusammenhang auch vom Problem der „Multikolinearität“. Das bedeutet, dass es sehr problematisch sein kann, wenn eine starke Korrelation zwischen zwei oder mehr UVs besteht. Wenn eine UV zu großen Teilen aus einer anderen UV vorhergesagt werden kann, führt das unter Umständen zu sehr großen Standardfehlern der Regressionskoeffizienten. Dadurch können Einflüsse einer UV auf die AV in der Realität zwar bestehen, statistisch aber nicht mehr eindeutig zu erkennen sein.
Beziehen wir nun in unser bereits viel verwendetes Beispiel wieder die UV Lärmpegel mit ein und adaptieren die Abstufung im Vergleich zur Varianzanalyse feiner (kann nun Ausprägungen zwischen 0 und 10 aufweisen, wobei 10 einen sehr starken Lärmpegel widerspiegelt), so wie wir es auch bei der Variable Koffeinkonsum gemacht haben. Damit erweitern wir unsere fiktiven Rohdaten wie folgt:
Person 1 | Person 2 | Person 3 | Person 4 | Person 5 | Person 6 | |
Koffeinkonsum (x) | 3 | 0 | 5 | 2 | 1 | 4 |
Lärmpegel (z) | 0 | 6 | 2 | 4 | 3 | 9 |
Konzentrationsfähigkeit (y) | 85 | 41 | 87 | 64 | 58 | 53 |
Wenn Du anhand der oben abgebildeten Daten eine multiple lineare Regression berechnest, solltest Du zu dem Ergebnis kommen, dass alle Regressionskoeffizienten signifikant sind, wobei und .
Interpretation der Ergebnisse
Die Koeffizienten bilden sehr schön ab, dass die Konzentrationsfähigkeit steigt, je mehr Koffein konsumiert wurde. Gleichzeitig sinkt er, je höher der Lärmpegel ist. Der F-Test zeigt Dir, wie schon bei der einfachen linearen Regression, eine hohe Signifikanz des Gesamtmodells .
Das Bestimmtheitsmaß ist nach Einbezug der zweiten UV Lärmpegel sogar noch gestiegen . Das bedeutet, dass durch die beiden UVs 99.4 % der Varianz der Variable Konzentrationsfähigkeit aufgeklärt werden. Hierbei solltest Du jedoch aufpassen. Da das Bestimmtheitsmaß einen umso höheren Zahlenwert aufweist, je mehr UVs in Deinem Modell vorkommen, ist es gerade bei Modellen die viele UVs beinhalten wichtig, diesbezüglich Korrekturen vorzunehmen.
Diese Korrekturen kannst Du ganz einfach durchführen, indem Du Dir das adjustierte ansiehst, anstelle das normalen Bestimmtheitsmaßes. Das adjustierte ermöglicht es, Modelle mit unterschiedlicher Anzahl an UVs zu vergleichen. Denn es bereinigt den Anteil der erklärten Varianz diesbezüglich.
Bei unserem Beispiel sind die Zahlenwerte des adjustierten und des normalen allerdings fast gleich . Das kann aber auch an daran liegen, dass die Zahlenwerte frei erfunden sind. Bei regulär erhobenen Datensätzen kann die Adjustierung des Bestimmtheitsmaßes große Unterschiede offenbaren.