Normalverteilung und Regressionsanalyse

Die Voraussetzung der Normalverteilung der Variablen bei der Regressionsanalyse ist ein Luxus-Problem, das eher auf einem Missverständnis beruht und keine Voraussetzung für die Regressionsanalyse darstellt. Zurückzuführen ist das Missverständnis wahrscheinlich darauf, dass die Residuen normalverteilt sein sollten und dass die Auswahl des richtigen Regressionsverfahrens von der Verteilungseigenschaften der Zielvariable (Abhängige Variable) abhängt.

Nach Gellman [2] Seite 45 gelten folgende Voraussetzungen für die (lineare) Regressionsanalyse
in absteigender Wichtigkeit
1. Gültigkeit des Models (Validity).
2. Additivität und Linearität.
3. Unabhängigkeit der Fehler (Independence of errors)
4. Gleiche Fehlervarianz (Equal variance of errors)
5. Normalverteilung des Fehlers (Normality of errors)
Die Prüfung dieser Voraussetzungen erfolgt am zweckmäßigsten durch Streudiagramme der Daten und einer Residualanalyse.
Zur Veranschaulichung habe ich hier die Anscombe-Daten [1] untersucht. Der Datensatz beinhaltet 4 Beispieldaten (a, b, c und d) mit den gleichen statistischen Eigenschaften (Mittelwert, Varianz, Korrelation, usw.) aber mit ganz unterschiedlichen Voraussetzungen.

Tab 1: Shapiro-Wilk Normality Test und Kolmogorov-Smirnov-Z
Daten Variablen Statistik shapiro.test KS.Test Normalverteilung
a y.1 7.50 (2.03) W=0.98 p=.947 Z=0.300 p=1.000 ja
x.1 9.00 (3.32) W=0.97 p=.870 Z=0.399 p=.997 ja
b y.2 7.50 (2.03) W=0.83 p=.022 Z=0.300 p=1.000 ja
x.2 9.00 (3.32) W=0.97 p=.870 Z=0.837 p=.486 ja
c y.3 7.50 (2.03) W=0.83 p=.026 Z=0.300 p=1.000 ja
x.3 9.00 (3.32) W=0.97 p=.870 Z=0.639 p=.809 ja
d y.4 7.50 (2.03) W=0.88 p=.091 Z=1.750 p=.004 nein
x.4 9.00 (3.32) W=0.34 p=.000 Z=0.544 p=.929 ja
Bei einem p<0.05 (signifikantes Ergebnis) ist keine Normalverteilung gegeben.

In der Tabelle 1 sind die Mittelwerte mit Standardabweichung sowie der Normalverteilungs-Test abgebildet. Bei Anwendung des Statistik-Programm SPSS wird zur Prüfung auf die Normalverteilung oft der KS-Test empfohlen. Im vorliegenden Beispiel zeigt sich, dass mit Ausnahme des letzten Datensatzes (d) alle Daten annähernd normalverteilt sind, also die Voraussetzung “Normalverteilung” erfüllt ist. In Tabelle 2 sind die Ergebnisse der Regressionsanalyse abgebildet. Es zeigt sich, dass alle Koeffizienten, sowie die Modelgüte identisch sind.

Tab 2: Regression analysis: B (SE)
a b c d
(Intercept) 3.00 (1.12)* 3.00 (1.13)* 3.00 (1.12)* 3.00 (1.12)*
x.1 0.50 (0.12)**
x.2 0.50 (0.12)**
x.3 0.50 (0.12)**
x.4 0.50 (0.12)**
R2 0.67 0.67 0.67 0.67
Adj. R2 0.63 0.63 0.63 0.63
Num. obs. 11 11 11 11
RMSE 1.24 1.24 1.24 1.24
***p < 0.001, **p < 0.01, *p < 0.05


Zusammenfassend würde man aus den vorliegenden Ergebnissen zu den 4 Datensätzen schließen, dass bei allen 4 Beispielen ein statistisch signifikanter linearer Zusammenhang besteht und nur beim Datensatz (d) hinsichtlich der Normalverteilung Unsicherheiten bestehen.
Betrachtet man aber zusätzlich die Streudiagramme der Daten (Abbildung 1) wird schnell deutlich, dass nur bei Datensatz (a) die Voraussetzung der Linearität gegeben ist und es nur hier gerechtfertigt ist, mittels linearer Regression zu rechnen. Bei den Daten (b) ist eine Kurve (nicht linearer Zusammenhang) gegeben, bei (c) liegt ein Ausreißer vor der das Ergebnis verzerrt und bei (d) ist gar kein Zusammenhang vorhanden sondern das Ergebnis ist nur ein Artefakt eines extremen Ausreißers.

Streudiagramm
Abbildung 1: Streudiagramm
Die Residual-Analyse in Abbildung 2 zeigt deutlich, dass nur Datensatz (a) die Voraussetzungen erfüllt. Wenn man sich also nur auf die klassischen Parameter wie Signifikanz (p-Wert) und R² und auf die falschen Voraussetzungen verlässt, kann es leicht passieren, dass man zu falschen Interpretationen der Ergebnisse kommt.

residuen
Abbildung 2: standartisierte Residuen
Quellen
[1] Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17-21.
[2] Gelman, Hill, Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge, 2009
[3] Sachs, Lothar; und Jürgen Hedderich, Angewandte Statistik: Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R
[4] Wikipedia Eintrag zu Anscombe, https://de.wikipedia.org/wiki/Anscombe-Quartett, 28-09-2016
[5] Bernhard Baltes-Götz, Lineare Regressionsanalyse mit SPSS, Universität Trier, https://www.uni-trier.de/fileadmin/urt/doku/linreg/linreg.pdf 28-09-2016

Auswertung mit R version 3.3.1 (2016-06-21)

Tagged with:
 

30% der Ergebnisse in Studien sind falsch

Der Signifikanztest ist die wahrscheinlich am häufigsten benutzte statistische Prozedur in wissenschaftlichen Arbeiten. Aber es gibt immer wieder kritische Stimmen die mahnen, dass 30% der Ergebnisse in Studien auf Grund der falschen Interpretation von p-Werten falsch sind[1].

Die Zeitschrift Basic and Applied Social Psychology Academic journal bans p-value significance test you will be wrong at least 30% of the time

So sind 30% der Ergebnisse in Studien sind falsch, daher ist eine richtige Interpretation dieser p-Werte sehr wichtig.

Literatur:
[1] Colquhoun, David, An investigation of the false discovery rate and the misinterpretation of p-values 2014/11/19, Royal Society Open Science

 

Revolution Analytics von Microsoft aufgekauft

Revolution Analytics programmieren Enterprise Lösungen für R, die für Data Mining in großen Unternehmen oder im akademischen Bereich angewendet werden.

Es ist beachtlich, dass Microsoft in diese Firma einsteigt, die sehr viel mit Open Source macht. Es berichtet Joseph Sirosh in the Official Microsoft Blog darüber. Revolution Analytics hat jetzt einen großen Partner der nicht so bekannt ist für die Open Source Programme. Microsoft arbeitet eher im Hintergrund mit Open Source und es ein Indiz darauf, dass Microsoft sein Geschäftsmodell umstellt.

Revolution_Analytics
Quelle: http://www.revolutionanalytics.com/

Ich bin gespannt, welche Veränderungen durch so einen großen Partner auf Revolution Analytics und in weiterer Folge auf die Software R zukommen.

Link: Revolution Analytics

 

Was ist Signifikanz?

In der Zeit.de habe ich einen kleinen Artikel gefunden der recht anschlich erklärt was es mit dem Begriff statistisch Signifikant auf sich hat.
Link: http://www.zeit.de/2014/01/statisitk-wissenschaft-signifikanz

 

Bevölkerungsentwicklung von Österreich

Bei dieser interaktiven Karte der Statistik Austria wird sehr schön die Prognose der Bevölkerungsveränderung von Österreich bis 2050 visualisiert. Durch schöne Visualisierungen werden rasch die Veränderungen offensichtlich.

Mit diesem Link ist eine Vollansicht möglich.

Unter dem Reiter “Karten” sind weitere Themen zu finden.

Via Blog Christoph Chorherr der sich mit den damit verbundenen Herausforderungen und Möglichkeiten beschäftigt.

 

Online Datenquellen aufbereiten

In der Computer -Zeitschrift c’t vom 13-02-2012 habe ich einen Artikel zu einem interessanten Tool Google Refine entdeckt. Mit Google Refine soll es möglich sein große Datensätze aus dem Internet zu sortieren und aufzubereiten.

 

Lineare Regression

Die Bezeichnung Regression stammte historisch gesehen von Francis Galton, er untersuchte den Zusammenhang der Körpergröße von Eltern und Kindern (Regression to the Mean). Ziel der Regressionsanalyse ist eine funktionale Beziehung zwischen zwei Größen zu finden.[1] Mathematisch lässt sich das folgend formulieren Y = a + b*X + e, dabei ist X die unabhängige und Y die abhängige Variable und e der statistische Fehler. Gesucht wird, die “Formel” der Gerade, die in der graphischen Darstellung durch den Mittelwert verläuft. Die Regression ist quasi die Erweiterung der Korrelationsanalyse die ja die Stärke des Zusammenhangs ermittelt.
Die Berechnung kann mit allen gängigen Statistik-Programmen durchführt werden. Auf der Seite der University of Basel (Department of Chemistry) findet sich sogar ein sehr schöner Onlinerechner für Regressionen von Hanspeter Huber. Dort findet man, gut aufbereitet die wichtigsten Formel für die Berechnung.

Die Fortsetzung mit kleinen Beispielen folgt…

[1] Sachs, Lothar; und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R Seite 109
[2]Data Analysis Using Regression and Multilevel/Hierarchical Models; Cambridge;2009; Gelman, Hill

Tagged with:
 

Nichtlineare Regression

In naturwissenschaftlich- technischen Anwendungen stellt sich oft das Problem, die Beziehungen von zwei Variablen in optimaler Weise zu beschreiben. Wird ein nicht -linearer Zusammenhang vermutet, stehen mehre Verfahren zur Verfügung.
Ein Verfahren ist die Annäherung der Funktion durch ein Polynom (z.B. y = ax² + bx + c). Mit dem Verfahren lassen sich zwar die Messpunkte gut anpassen, es besteht aber immer die Gefahr, dass die Messpunkte zwar auf der Kurve liegen aber die Kurve nicht den naturwissenschaftlichen  Zusammenhang beschreibt.
Ist die grundlegende Kenntnis über die zugrunde liegenden Zusammenhänge vorhanden, ist es oft möglich nicht lineare Ausgangsprobleme auf lineare zurückzuführen. Dabei müssen die Parameter der Funktion in linearer Form dargestellt werden. Zum Beispiel die Entladung eines Kondensators u(t) = u0*exp(-t/R*C) lässt sich in die Form ln(u) = ln(u0) – t/R*C bringen.

Tabelle 1 Gemessene Werte Entladung eines Kondensators( u=Spannung, t= Zeit, u0=Anfangsspannung, R = Widerstand, C= Kapazität)

t 1 4 7 10 15
u 80 45 25 14 5

Entladung eines Kondensators

Mit den Daten aus dem Beispiel lassen sich die Parameter über eine Lineare Regression mit RC= 5, 6 s und u0= 99 V bestimmen.  Weiter unten dazu der R-Code.

#-- Gemessene Werte Entladung eines Kondensators

#-- u=Spannung, t= Zeit, u0=Anfangsspannung, R = Widerstand, C= Kapazität
#-- u(t) = u0*exp(-t/R*C)
#-- ln(u) = ln(u0) - t/R*C
t <- c(1,4,7,10,15);  u <- c(80,45,25,14,5)
x<-t; y<-log(u)
#-- lineare Regression

summary(fit<-lm( y ~ x ))
#-- Rücktransformation der Parameter
(u0<-exp(coef(fit)[1]))
(RC<- -1/coef(fit)[2])

In Fällen, in denen keine Linearisierung existiert oder wenn durch die Linearisierung die Voraussetzungen der Regressionsrechnung verletzt werden, kann durch geeigneter Iterationsverfahren schrittweise eine Lösung bestimmt werden. Mehr dazu folgt bald  in einem weiterführenden Blogeintrag.

Literatur:

Papula,  L., Mathematik für Ingenieure und Naturwissenschaftler Band3, 3 Auflage, Viewegs, 1999

Tagged with:
 

Test auf linearen Trend bei relativen Häufigkeiten

Erfolgt eine Zunahme der relativen Häufigkeit in einer Kreuztabelle mit zwei Kategorien gleichmäßig, dann ist unter Umständen der Trend (Anstieg) von besonderen Interesse. Um das zu veranschaulichen, nehme ich wieder mein Beispiel aus dem Beitrag “Odds Ratio und relatives Risiko” auf. Bei dem die Wirkung eines Luftschadstoffs auf eine Krankheit untersucht wird.

Trend bei relativen Häufigkeiten

Der Cochran-Armitage Test prüft eine als linear ansteigend gedachte Häufigkeit mit Hilfe der Chi²-Statistik (vergl.  Sachs, Seite 599). Der Test ist vom Rechenaufwand eher einfach und kann durchaus von  Hand oder mit Excel bewerkstelligt werden. Die Formel dafür findet man bei Wikipedia Cochran-Armitage_test_for_trend. Wie der Test mit R umgesetzt werden kann hat Matthew Markus auf Posterous beschrieben matthewmarkus.

Cochran Armitage Test Wert
Chi²-Trend 14,93
Sig 2-Seitig <0,001

Im Fall meines Beispiels liefert der  Chi²-Test nach Ansatz von Cochran und Armitag die Werte  Chi²=14,93 und p<0,01.  Der Wert für den Trend zeigt einen signifikanten Anstieg der Erkrankungsrate mit der Zunahme der Schadstoffkonzentration.

Literatur:

[1] Sachs, Lothar; und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R

Tagged with:
 

IG-Luft

Endlich, könnte man sagen, ist die Novelle zum IG-Luft im Umweltausschuss angenommen.
Die in der Novelle vorgesehenen “Umweltzonen” finde ich persönlich eine sehr gute Idee, weil so Behörden gezielt Belastungsräume sanieren können.
Im Rahmen meiner wissenschaftlichen Arbeit habe ich mich letztes Jahr intensiv mit dem Thema Stickoxide und Feinstaub beschäftigt. Konkret ging es um die statistische Bewertung des Einflusses der Tempo 100 Regelung auf die NOx- Belastung in Tirol im Zeitraum von 1999 bis 2009. Das Ergebnis lässt den vorsichtigen Schluss zu, dass die Tempo 100-Regelung die NOx-Belastung reduziert.

Ich habe dabei zwei Ansätze verfolgt: Der Erste war die Effekte über eine klassische Varianzanalyse zu beschreiben mit dieser Methode bleiben aber saisonale Schwankungen unberücksichtigt. Der zweite Ansatz, baute auf einen Vorschlag von Roger D. Peng auf die Messdaten in ihre saisonalen Komponenten zu zerlegen und diese Komponenten weiter zu untersuchen. Bei beiden Methoden war eine Tendenz zur Verringerung der NOx-Konzentration durch die Tempo 100-Regelung nachweisbar.

Literatur:
Peng, F. Dominici R.: Statistical Methods for Enviromental Epidemiology with R. Springer, New York, 2008.
Peter, W.: Detaillierte Studie der NOx Emissionen im Zuge der Tempo 100 Verordnung in Tirol, MCI, Innsbruck, 2009
Daten:
Amt der Tiroler Landesregierung; Andreas Weber, Abt. Waldschutz FB Luftgüte; Franz Schöler, Abt. Waldschutz Gruppe Forst

Tagged with: