Normalverteilung und Regressionsanalyse

Die Voraussetzung der Normalverteilung der Variablen bei der Regressionsanalyse ist ein Luxus-Problem, das eher auf einem Missverständnis beruht und keine Voraussetzung für die Regressionsanalyse darstellt. Zurückzuführen ist das Missverständnis wahrscheinlich darauf, dass die Residuen normalverteilt sein sollten und dass die Auswahl des richtigen Regressionsverfahrens von der Verteilungseigenschaften der Zielvariable (Abhängige Variable) abhängt.

Nach Gellman [2] Seite 45 gelten folgende Voraussetzungen für die (lineare) Regressionsanalyse
in absteigender Wichtigkeit
1. Gültigkeit des Models (Validity).
2. Additivität und Linearität.
3. Unabhängigkeit der Fehler (Independence of errors)
4. Gleiche Fehlervarianz (Equal variance of errors)
5. Normalverteilung des Fehlers (Normality of errors)
Die Prüfung dieser Voraussetzungen erfolgt am zweckmäßigsten durch Streudiagramme der Daten und einer Residualanalyse.
Zur Veranschaulichung habe ich hier die Anscombe-Daten [1] untersucht. Der Datensatz beinhaltet 4 Beispieldaten (a, b, c und d) mit den gleichen statistischen Eigenschaften (Mittelwert, Varianz, Korrelation, usw.) aber mit ganz unterschiedlichen Voraussetzungen.

Tab 1: Shapiro-Wilk Normality Test und Kolmogorov-Smirnov-Z
Daten Variablen Statistik shapiro.test KS.Test Normalverteilung
a y.1 7.50 (2.03) W=0.98 p=.947 Z=0.300 p=1.000 ja
x.1 9.00 (3.32) W=0.97 p=.870 Z=0.399 p=.997 ja
b y.2 7.50 (2.03) W=0.83 p=.022 Z=0.300 p=1.000 ja
x.2 9.00 (3.32) W=0.97 p=.870 Z=0.837 p=.486 ja
c y.3 7.50 (2.03) W=0.83 p=.026 Z=0.300 p=1.000 ja
x.3 9.00 (3.32) W=0.97 p=.870 Z=0.639 p=.809 ja
d y.4 7.50 (2.03) W=0.88 p=.091 Z=1.750 p=.004 nein
x.4 9.00 (3.32) W=0.34 p=.000 Z=0.544 p=.929 ja
Bei einem p<0.05 (signifikantes Ergebnis) ist keine Normalverteilung gegeben.

In der Tabelle 1 sind die Mittelwerte mit Standardabweichung sowie der Normalverteilungs-Test abgebildet. Bei Anwendung des Statistik-Programm SPSS wird zur Prüfung auf die Normalverteilung oft der KS-Test empfohlen. Im vorliegenden Beispiel zeigt sich, dass mit Ausnahme des letzten Datensatzes (d) alle Daten annähernd normalverteilt sind, also die Voraussetzung “Normalverteilung” erfüllt ist. In Tabelle 2 sind die Ergebnisse der Regressionsanalyse abgebildet. Es zeigt sich, dass alle Koeffizienten, sowie die Modelgüte identisch sind.

Tab 2: Regression analysis: B (SE)
a b c d
(Intercept) 3.00 (1.12)* 3.00 (1.13)* 3.00 (1.12)* 3.00 (1.12)*
x.1 0.50 (0.12)**
x.2 0.50 (0.12)**
x.3 0.50 (0.12)**
x.4 0.50 (0.12)**
R2 0.67 0.67 0.67 0.67
Adj. R2 0.63 0.63 0.63 0.63
Num. obs. 11 11 11 11
RMSE 1.24 1.24 1.24 1.24
***p < 0.001, **p < 0.01, *p < 0.05


Zusammenfassend würde man aus den vorliegenden Ergebnissen zu den 4 Datensätzen schließen, dass bei allen 4 Beispielen ein statistisch signifikanter linearer Zusammenhang besteht und nur beim Datensatz (d) hinsichtlich der Normalverteilung Unsicherheiten bestehen.
Betrachtet man aber zusätzlich die Streudiagramme der Daten (Abbildung 1) wird schnell deutlich, dass nur bei Datensatz (a) die Voraussetzung der Linearität gegeben ist und es nur hier gerechtfertigt ist, mittels linearer Regression zu rechnen. Bei den Daten (b) ist eine Kurve (nicht linearer Zusammenhang) gegeben, bei (c) liegt ein Ausreißer vor der das Ergebnis verzerrt und bei (d) ist gar kein Zusammenhang vorhanden sondern das Ergebnis ist nur ein Artefakt eines extremen Ausreißers.

Streudiagramm
Abbildung 1: Streudiagramm
Die Residual-Analyse in Abbildung 2 zeigt deutlich, dass nur Datensatz (a) die Voraussetzungen erfüllt. Wenn man sich also nur auf die klassischen Parameter wie Signifikanz (p-Wert) und R² und auf die falschen Voraussetzungen verlässt, kann es leicht passieren, dass man zu falschen Interpretationen der Ergebnisse kommt.

residuen
Abbildung 2: standartisierte Residuen
Quellen
[1] Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17-21.
[2] Gelman, Hill, Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge, 2009
[3] Sachs, Lothar; und Jürgen Hedderich, Angewandte Statistik: Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R
[4] Wikipedia Eintrag zu Anscombe, https://de.wikipedia.org/wiki/Anscombe-Quartett, 28-09-2016
[5] Bernhard Baltes-Götz, Lineare Regressionsanalyse mit SPSS, Universität Trier, https://www.uni-trier.de/fileadmin/urt/doku/linreg/linreg.pdf 28-09-2016

Auswertung mit R version 3.3.1 (2016-06-21)

Tagged with:
 

Comments are closed.