Methodenvergleich in der Medizin

Oft interessiert die Mediziner die Zuverlässigkeit und Reproduzierbarkeit einer Diagnose. Die Beurteilung kann dabei durch einen Bewerter (Messverfahren) in wiederholter Form erfolgen und wird dann als Intra-Rater bezeichnet oder die Beurteilung eines Merkmals erfolgt durch mehrere Bewerter (Messverfahren). Hier spricht man von Inter-Rater. Die Methode der Beurteilung der Übereinstimmung hängt von den jeweiligen Verteilungseigenschaften ab.

Bei nominal verteilten Daten wird abgezählt und die Rate der Übereinstimmung bewertet (Cohen-Koeffizient) Bei Ordinalen-Daten werden die gewichteten Übereinstimmungen ausgezählt (gewichteter Cohen-Koeffizient). Bei metrischen(stetigen) Daten werden die Differenzen beurteilt (Bland-Altman-Methode oder auch Tukey Mean Difference).

Hier in diesem fiktiven Beispiel aus der Zahnmedizin wird die Sondiertiefe mit zwei unterschiedlichen Methoden (A und C) bestimmt. A ist dabei die klassische Methode und C die Bestimmung mittels einer neu entwickelten Sonde. In der Grafik unten werden drei Visualisierungen dargestellt: Links sehen Sie ein Streudiagramm mit der Regressionsgeraden, in der Mitte ein BA-Plot über die Differenzen, und rechts der BA-Plot über die Prozentuale Differenz.
Wir erwarten dass beide Verfahren die gleichen Ergebnisse liefern.

Die Idee hinter der Bland-Altman-Methode ist dass der wahre Messwert des Patienten unbekannt ist, aber durch beide Methoden mit einer unbekannte Präzession gemessen wird – also quasi der Mittelwert aus den beiden Messungen. Wenn ich jetzt diesen Mittelwert gegen die Differenz der Messwerte auftrage, kann ich ablesen, wie groß die die Variabilität der Messungen ist und ob diese Variabilität über den gesamten Messbereich konstant ist.

Aus der Abbildung des Streudiagramms ist erkenntlich, dass die beiden Messungen linear verlaufen, es gibt also keine Sprünge oder abrupten Veränderungen. Der BA-Plot über die Differenz zeigt dass im Bereich von 0.5mm bis 1.5mm die Streuung gleichmäßig verteilt ist und im Bereich von 2.0mm ist auffallend die Differenzen schief verteilt ist, dadurch erkennen wir das die Methode C höhere Sondiertiefe misst.
Die durchschnittliche Differenz beträgt 0.72mm (d = [39.12, 39.12]), d.H. die Sondiertiefe ist bei Methode C kleiner.
Im BA-Plot mit den Prozentuale Differenzen ist gut ersichtlich, dass bei kleinen Sondiertiefen bis 0.5mmm große Abweichungen bestehen, die durchschnittliche Abweichung liegt bei 60%.

Bland-Altman-Methode Bias

Notation:
d … Bland-Altman-Methode Bias
s … systematische Abweichung Messfehle
LOA Standardabweichung der Differenz (Limits of agreement)
d+-1.96 Intervall von 95% (es wird eine Normalverteilung unterstellt)

Literatur:
[1] Vergleich von Messmethoden, Grouven, Bender, Ziegler, Lange, DMW Nr. 24 www.thieme-connect.com/products/ejournals/issue/10.1055/s-002-6753
[2] Understanding Bland Altman analysis, Davide Giavarina, Biochemia medica 2015;25(2) 141-51 doi: 10.11613/BM.2015.015

Anmerkung zu den Daten:
Es wurde folgender R-Code zur Erstellung der Daten verwendet:

# set.seed(0815)
A = rnorm( 100, 100, 50 )
C = A + rnorm(100, -5, 20)

 

T-Test oder ANOVA

Beim Verfassen von wissenschaftlichen Arbeiten stellt sich oft die Frage welcher der Tests jetzt der richtige ist? T-Test? ANOVA? Und wenn der T-Test der Richtige ist, welcher davon? Die Antwort ist dabei recht einfach. Im Zweifel haben wir immer ein Generalized Linear Model (GLM).
T-Test und ANOVA unterscheiden sich nicht (Voraussetzung wenn df=1 gilt). In diesen Fall sind F-Wert und T-Wert dieselben Zahlen F=T². Die (lineare) Regressionsanalyse ist quasi die Verallgemeinerung der (Mittelwert)-Analyse und liefert exakt die gleichen Ergebnisse wie die ANOVA. Der Unterschied ist, dass die Regression mehr Informationen liefert.
Aber Achtung, die statistische Hypothese ist verschieden.(ANOVA: H0:μ1=…=μn; Regression H0:β1=β2=0 wobei yi=β0+β1xi+…)
Hier ein kleines Beispiel mit den Daten aus dem SPSS-Buch von Bühl Seite 300. Hier testen wir die Senkung des systolischen Blutdrucks vom Ausgangswert zum Wert nach einem Monat.

Tab 1: UV = Zeit
Item  Ausgangswert  nach 1 Monat Differenz cohens’d T.test
syst.Blutdruck 172 (13) 156 (15) 15 [12, 18] 1.06 T(343)=9.87, p<.001
Welch Two Sample t-test

Mit dem Welch Two Sample T-Test erhalten wir T(343)=9.87, p<.001, mit der ANOVA F(1, 346)=97.34, p<.001. Wobei hier gilt T²=F also 9.87² = 97.34. Die Regressionsanalyse liefert exakt dasselbe Ergebnis.

Tab 2: AV: syst.Blutdruck Obs: 348
Quelle B SE statistic p
(Intercept) 170.00 1.10 156.19 <.001
Zeit[T.nach 1 Monat] -15.00 1.56  -9.87 <.001
Model: gaussian

Jetzt interessiert vielleicht noch warum wir überhaupt noch zwischen T-Test und ANOVA unterscheiden wird. Hier ist die Antwort simpel – es geht um Didaktik der T-Test ist in einer Vorlesung einfach zu erklären und händisch leicht nachzurechnen und schließlich benötigen wir noch Prüfungsfragen. Für die Praxis ist das Generalisierte Lineare Modell meist das informativere Werkzeug.

Anmerkung die Berechnungen habe ich mit R erstellt

##-- T-Test Buehl Seite 282
GetData(hyper)

DF <- data.frame(syst.Blutdruck= c(hyper$rrs0, hyper$rrs1), Zeit=gl(2, nrow(hyper), labels = c("Ausgangswert", "nach 1 Monat"))) t.test(syst.Blutdruck~Zeit, DF, var.equal=TRUE) aov(syst.Blutdruck~Zeit, DF) lm(syst.Blutdruck~Zeit, DF) ##-- wenn wir ungleiche Varianz-voraussetzten t.test(syst.Blutdruck~Zeit, DF, var.equal=FALSE) require(nlme) summary(gls(syst.Blutdruck~Zeit, DF, weights=varIdent(form = ~ 1 | Zeit))

Literatur:
Achim Buehl, (2014), SPss 22 Einfuehrung in die moderne Datenanalyse, 14. aktualisierte Auflage, Pearson

 

Normalverteilung und Regressionsanalyse

Die Voraussetzung der Normalverteilung der Variablen bei der Regressionsanalyse ist ein Luxus-Problem, das eher auf einem Missverständnis beruht und keine Voraussetzung für die Regressionsanalyse darstellt. Zurückzuführen ist das Missverständnis wahrscheinlich darauf, dass die Residuen normalverteilt sein sollten und dass die Auswahl des richtigen Regressionsverfahrens von der Verteilungseigenschaften der Zielvariable (Abhängige Variable) abhängt.

Nach Gellman [2] Seite 45 gelten folgende Voraussetzungen für die (lineare) Regressionsanalyse
in absteigender Wichtigkeit
1. Gültigkeit des Models (Validity).
2. Additivität und Linearität.
3. Unabhängigkeit der Fehler (Independence of errors)
4. Gleiche Fehlervarianz (Equal variance of errors)
5. Normalverteilung des Fehlers (Normality of errors)
Die Prüfung dieser Voraussetzungen erfolgt am zweckmäßigsten durch Streudiagramme der Daten und einer Residualanalyse.
Zur Veranschaulichung habe ich hier die Anscombe-Daten [1] untersucht. Der Datensatz beinhaltet 4 Beispieldaten (a, b, c und d) mit den gleichen statistischen Eigenschaften (Mittelwert, Varianz, Korrelation, usw.) aber mit ganz unterschiedlichen Voraussetzungen.

Tab 1: Shapiro-Wilk Normality Test und Kolmogorov-Smirnov-Z
Daten Variablen Statistik shapiro.test KS.Test Normalverteilung
a y.1 7.50 (2.03) W=0.98 p=.947 Z=0.300 p=1.000 ja
x.1 9.00 (3.32) W=0.97 p=.870 Z=0.399 p=.997 ja
b y.2 7.50 (2.03) W=0.83 p=.022 Z=0.300 p=1.000 ja
x.2 9.00 (3.32) W=0.97 p=.870 Z=0.837 p=.486 ja
c y.3 7.50 (2.03) W=0.83 p=.026 Z=0.300 p=1.000 ja
x.3 9.00 (3.32) W=0.97 p=.870 Z=0.639 p=.809 ja
d y.4 7.50 (2.03) W=0.88 p=.091 Z=1.750 p=.004 nein
x.4 9.00 (3.32) W=0.34 p=.000 Z=0.544 p=.929 ja
Bei einem p<0.05 (signifikantes Ergebnis) ist keine Normalverteilung gegeben.

In der Tabelle 1 sind die Mittelwerte mit Standardabweichung sowie der Normalverteilungs-Test abgebildet. Bei Anwendung des Statistik-Programm SPSS wird zur Prüfung auf die Normalverteilung oft der KS-Test empfohlen. Im vorliegenden Beispiel zeigt sich, dass mit Ausnahme des letzten Datensatzes (d) alle Daten annähernd normalverteilt sind, also die Voraussetzung “Normalverteilung” erfüllt ist. In Tabelle 2 sind die Ergebnisse der Regressionsanalyse abgebildet. Es zeigt sich, dass alle Koeffizienten, sowie die Modelgüte identisch sind.

Tab 2: Regression analysis: B (SE)
a b c d
(Intercept) 3.00 (1.12)* 3.00 (1.13)* 3.00 (1.12)* 3.00 (1.12)*
x.1 0.50 (0.12)**
x.2 0.50 (0.12)**
x.3 0.50 (0.12)**
x.4 0.50 (0.12)**
R2 0.67 0.67 0.67 0.67
Adj. R2 0.63 0.63 0.63 0.63
Num. obs. 11 11 11 11
RMSE 1.24 1.24 1.24 1.24
***p < 0.001, **p < 0.01, *p < 0.05


Zusammenfassend würde man aus den vorliegenden Ergebnissen zu den 4 Datensätzen schließen, dass bei allen 4 Beispielen ein statistisch signifikanter linearer Zusammenhang besteht und nur beim Datensatz (d) hinsichtlich der Normalverteilung Unsicherheiten bestehen.
Betrachtet man aber zusätzlich die Streudiagramme der Daten (Abbildung 1) wird schnell deutlich, dass nur bei Datensatz (a) die Voraussetzung der Linearität gegeben ist und es nur hier gerechtfertigt ist, mittels linearer Regression zu rechnen. Bei den Daten (b) ist eine Kurve (nicht linearer Zusammenhang) gegeben, bei (c) liegt ein Ausreißer vor der das Ergebnis verzerrt und bei (d) ist gar kein Zusammenhang vorhanden sondern das Ergebnis ist nur ein Artefakt eines extremen Ausreißers.

Streudiagramm
Abbildung 1: Streudiagramm
Die Residual-Analyse in Abbildung 2 zeigt deutlich, dass nur Datensatz (a) die Voraussetzungen erfüllt. Wenn man sich also nur auf die klassischen Parameter wie Signifikanz (p-Wert) und R² und auf die falschen Voraussetzungen verlässt, kann es leicht passieren, dass man zu falschen Interpretationen der Ergebnisse kommt.

residuen
Abbildung 2: standartisierte Residuen
Quellen
[1] Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17-21.
[2] Gelman, Hill, Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge, 2009
[3] Sachs, Lothar; und Jürgen Hedderich, Angewandte Statistik: Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R
[4] Wikipedia Eintrag zu Anscombe, https://de.wikipedia.org/wiki/Anscombe-Quartett, 28-09-2016
[5] Bernhard Baltes-Götz, Lineare Regressionsanalyse mit SPSS, Universität Trier, https://www.uni-trier.de/fileadmin/urt/doku/linreg/linreg.pdf 28-09-2016

Auswertung mit R version 3.3.1 (2016-06-21)

Tagged with:
 

Data manipulation with dplyr

Das Tutorial Data manipulation with dplyr mit Hadley Wickham
ist auf der UseR! 2015 in Aalborg für mich das erste Highlight.

Tutorial UseR! 2015 in Aalborg Dänemark

Tutorial UseR! 2015 in Aalborg Dänemark

Ich denke, da werden gerade mit den Keynotes noch einige weitere Highlights folgen. Neben sehr netten Leuten, mit denen ich mich schon unterhalten konnte, ist auch das Wetter sehr schön hier in Dänemark.

Tagged with:
 

R-Conference 2015

Ich freue mich schon auf die R-Konferenz in Aalborg Ende Juni.
Am 30. Juni startet die diesjährige R-Konferenz in Aalborg mit den Tutorials, wo ich auch teilnehmen werde.

Aalborg.

Bis 3 Juli findet die Konferenz statt, bei der ich dieses mal dabei sein kann.
Die Reise ist gebucht und ich freue mich darauf viele tolle neue Inputs zu bekommen und nette Menschen kennen zu lernen bzw. wieder zu treffen.

Tagged with:
 

30% der Ergebnisse in Studien sind falsch

Der Signifikanztest ist die wahrscheinlich am häufigsten benutzte statistische Prozedur in wissenschaftlichen Arbeiten. Aber es gibt immer wieder kritische Stimmen die mahnen, dass 30% der Ergebnisse in Studien auf Grund der falschen Interpretation von p-Werten falsch sind[1].

Die Zeitschrift Basic and Applied Social Psychology Academic journal bans p-value significance test you will be wrong at least 30% of the time

So sind 30% der Ergebnisse in Studien sind falsch, daher ist eine richtige Interpretation dieser p-Werte sehr wichtig.

Literatur:
[1] Colquhoun, David, An investigation of the false discovery rate and the misinterpretation of p-values 2014/11/19, Royal Society Open Science

 

Neues frisches Statistikprogramm

JASP, a low fat alternative to SPSS, a delicious alternative to R.

JASP ist eine neue Statistiksoftware, die als Alternative zu SPSS verwendet werden kann.
Diese Software ist frei und Open Source. Einige Tests sind schon verwendbar, durch die ständige Weiterentwicklung werden neue Tests implementiert.
Die Oberfläche und das ganze Programm sind schöner und aufgeräumter als SPSS.

Die Funktionsweise der JASP Version 0.4 A ist im Video anschaulich dargestellt.

 

Revolution Analytics von Microsoft aufgekauft

Revolution Analytics programmieren Enterprise Lösungen für R, die für Data Mining in großen Unternehmen oder im akademischen Bereich angewendet werden.

Es ist beachtlich, dass Microsoft in diese Firma einsteigt, die sehr viel mit Open Source macht. Es berichtet Joseph Sirosh in the Official Microsoft Blog darüber. Revolution Analytics hat jetzt einen großen Partner der nicht so bekannt ist für die Open Source Programme. Microsoft arbeitet eher im Hintergrund mit Open Source und es ein Indiz darauf, dass Microsoft sein Geschäftsmodell umstellt.

Revolution_Analytics
Quelle: http://www.revolutionanalytics.com/

Ich bin gespannt, welche Veränderungen durch so einen großen Partner auf Revolution Analytics und in weiterer Folge auf die Software R zukommen.

Link: Revolution Analytics

 

Was ist Signifikanz?

In der Zeit.de habe ich einen kleinen Artikel gefunden der recht anschlich erklärt was es mit dem Begriff statistisch Signifikant auf sich hat.
Link: http://www.zeit.de/2014/01/statisitk-wissenschaft-signifikanz

 

Bevölkerungsentwicklung von Österreich

Bei dieser interaktiven Karte der Statistik Austria wird sehr schön die Prognose der Bevölkerungsveränderung von Österreich bis 2050 visualisiert. Durch schöne Visualisierungen werden rasch die Veränderungen offensichtlich.

Mit diesem Link ist eine Vollansicht möglich.

Unter dem Reiter “Karten” sind weitere Themen zu finden.

Via Blog Christoph Chorherr der sich mit den damit verbundenen Herausforderungen und Möglichkeiten beschäftigt.