Odds Ratio und relatives Risiko

Besonders in der Medizin ist der Vergleich zweier Häufigkeiten wichtig. Eine beispielhafte Fragestellung dazu ist: Ist ein neues Medikament oder eine neue Operationstechnik erfolgversprechend? Dabei wird eine Kontrollgruppe mit einer Experimentalgruppe verglichen und untersucht ob für die Untersuchungsgruppe ein Nutzen oder ein Schaden entsteht. Dieser Nutzen bzw. Schaden wird als “relatives Risiko” bezeichnet, das Chancen-Verhältnis eines Nutzens/Schaden wird als Odds Ratio bezeichnet.

Zur Veranschaulichung habe ich hier ein konstruiertes Beispiel. In einer Landesweiten Studie wird die Wirkung eines Luftschadstoffs auf das Auftreten eine bestimmten Krankheit untersucht. Dazu werden in unterschiedlichen Gebieten mit bekannten durchschnittlichen Konzentrationen  eines Luftschadstoffs Erhebungen über das Auftreten einer bestimmten Krankheit durchgeführt.

Tabelle 1: Beispieldaten

Schadstoffkonzentration
Personen >0,1 mg/m³ 4 mg/m³ 14 mg/m³ 23 mg/m³ 64 mg/m³ 121 mg/m³
krank 15 14 16 29 30 25
nicht krank 1575 1367 945 1284 1379 967

Das Gebiet mit einer Konzentration von >0,1 mg/³ sei dabei die Kontrollgruppe. Die Risiko-Maße errechnen sich wir folgt.

(1) Erkrankungsrate bei Exponierten (4 mg/m³): 14/(1367+14) = 0,010
(2) Erkrankungsrate Kontrollgruppe:            15/(1575+15) = 0,009
(3) Relative Risiko:          (14/(1367+14))/(15/(1575+15)) = 1,075
(4) Odds-Ratio:                         (14/15)*(1575/1367) = 1,075

Das Erkrankungsrisiko ist bei einer Konzentration 4 mg/m³ nicht größer als bei Nicht-Exponierten. Eine Zusammenfassung der anderen Werte ist in der Tabelle 2 aufgelistet.  (Das sich die Werte Relatives Risiko und Odds Ratio ähnlich sind ist reiner Zufall und durch runden auf eine Kommastelle bedingt.)

Tabelle 2:  Zusammenfassung der Risiko-Maße  (Erkrankungsrate Kontrollgruppe 0,9%)

Konzentration Erkrankungsrate Relatives Risiko Odds-Ratio Exposition
4 mg/m³ 1,0% 1,1 1,1 kein Effekt
14 mg/m³ 1,7% 1,9 1,9 Schaden
23 mg/m³ 2,2% 2,5 2,5 Schaden
64 mg/m³ 2,1% 2,4 2,4 starker Schaden
121 mg/m³ 2,5% 2,9 2,9 starker Schaden

Aus der Analyse des Odds-Ratio lässt sich ableiten, dass ab einer Konzentration von 14 mg/m³ eine Beeinträchtigung zu erwarten ist. Ob das Ergebnis signifikant ist, lässt sich durch die Risiko-Maße noch nicht beurteilen, dazu müssten noch die Konfidenzintervalle der Odds-Ratio berechnet werden. Eine  Berechnung der 95%-Konfidenzintervalle  kann z.B. mit SPSS über Kreuztabellen angefordert werden oder mit R, mittels der Funktion oddsratio(), die im dem Paket library(vcd) enthalten ist, ausgeführt werden. Die sich abzeichnende Zunahme der Erkrankungsrate kann mit dem Cochran-Armitage Test geprüft werden.

Tabelle 1: Relatives Risiko und Exposition entnommen  Sachs 2009 Seite 569

relatives Risiko Exposition
≤ 0,3 starker Nutzen
0,4 – 0,8 Nutzen
0,9 – 1,1 kein Effekt
1,2 – 2,5 Schaden
2,6 starker Schaden

Literatur:

[1] Sachs, Lothar; und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R

Tagged with:
 

Statistische Tests (Chi²)

Die Untersuchungen von Zusammenhängen zwischen Gruppen (Beruf, Einkommen, oder Geschlecht von Personen) ist eine sehr häufige Fragestellung. Die einfachste Methode zur Veranschaulichung dieser Zusammenhängen ist eine Kreuztabelle (Kontingenztabelle). Für die Beschreibung der systematischen Zusammenhänge existieren verschiedene Zusammenhangsmaße, der bekannteste ist der Chi² -Test. Der Chi² -Test prüft ob ein Merkmal in zwei oder mehren Stichproben identisch verteilt ist. Die dazugehörige Nullhypothese lautet: H0: Der Anteil jeder Merkmalsausprägung ist in beiden Stichproben gleich.

Beispiel für eine zwei mal zwei Tabelle
1. Frage: Kreuzen Sie ihr Geschlecht an.
Antwortmöglichkeiten: männlich/weiblich

2 Frage: Sehen sie sich die Fußball-EM im TV an?
Antwortmöglichkeiten: ja/nein


Tab 1: Kreuztabelle
.
H0: Zwischen Männern und Frauen besteht hinsichtlich der Absicht sich die EM im TV anzusehen kein signifikanter Unterschied.

Wenn die Analyse mit SPSS durchgeführt wird, ergibt der Output eine Tabelle mit einer Vielzahl an Signifikanzen: Asymptotische Signifikanz, Exakte Signifikanz, Chi-Quadrat nach Pearson Kontinuitätskorrektur, Likelihood-Quotient, Exakter Test nach Fisher, Zusammenhang linear-mit-linear. Welcher Wert zu interpretieren ist, ist für einen Anfänger oft nicht sofort ersichtlich.

Chi-Quadrat-Test
Tab 2: Ergebnisse Chi-Quadrat-Test (SPSS-Output)

Um den richtigen Wert herauszufinden sind ein paar Grundüberlegungen zu tätigen. Die erste Frage ist immer, welches Skalenniveau liegt vor. Die zweite Frage lautet nach der Größe der Stichprobe. Und die letzte, welche ist die unabhängige und Welche ist die abhängige Variable.

Dabei gelten folgende Faustregeln:
Wenn die Stichprobe weniger als 20 Fälle hat, wird der exakte Fisher-test verwendet. Zwischen 20 und 60 Fällen, wird bei der Teststatistik die Yates-Korrektur (Kontinuitätskorrektur) verwendet. Bei mehr als 60 Fällen der Chi-Quadrat-Test nach Pearson.[1]

In diesem Beispiel ist ganz klar ersichtlich, welche die unabhängige und die abhängige Variable ist. Es ist nicht vom Fernsehen abhängig, welches Geschlecht die Personen haben. Also ist Geschlecht die unabhängige Variable.
Aus dieser Angabe lässt sich die Hypothese ableiten.
Die Hypothese lautet: H0: Es besteht kein signifikanter Unterschied zwischen den Geschlechtern.

Da die Stichprobengröße zwischen 20 und 60 liegt, wird bei der Teststatistik Chi-Quadrat-Test die Yates-Korrektur (Kontinuitätskorrektur) verwendet.
Die Geschlechter unterscheiden sich signifikant (p=0,027) hinsichtlich ihrer Bereitschaft Die Fußball-EM im Fernsehen zu sehen. Will man mehr über die Zusammenhänge wissen, muss man noch weitere Assoziationsmaße berechnen. Die bekanntesten Tests dazu sind der Phi-Koeffizient und die Korrelation. In unserem Fall ist der Phi-Koeffizient ein gutes Maß um die Stärke des Zusammenhang zu testen. Auch hier kann bei SPSS eine Vielzahl von Tests gewählt werden und die Ausgabe ist umfangreich.

Phi Qhi-Quadrat
Tab 3: Assoziationsmaße

Für den Phi -Wert besteht folgende Faustregel; ein Wert größer 0,30 wird als bedeutend betrachtet [1]. In unserem Fall besteht also ein bedeutender Zusammenhang. Zur Veranschaulichung des Zusammenhangs sind aber die vorgestellten Maßzahlen nur für Experten brauchbar. Anschaulicher ist immer ein Diagramm und da ist leider SPSS etwas aufwendiger zu bedienen, weshalb oft auf Open Office oder Ms-Offfice zurückgegriffen werden muss.

Kreuztabellen mit R

Unter Umständern ist es etwas einfacher ist die Auswertung mit der freien Statistik Software R zu machen. R berechnet bei der Auswahl des Chi² -Test sofort den richtigen Wert. Phi kann über das Zusatzpaket “Psych” berechnet werden (oder man rechnet die Teststatistik selbst aus).

# Erstellung der Kreuztabelle
my.table <- matrix(c(6,14,21,11),2,2)
dimnames(my.table)<- list( Sex=c("Frauen","Männer" ) ,Fußball=c("Ja","Nein" ))

# Chi-Test
chisq.test(my.table)

R Chi -Quadrat- Test
Tab 4: Chi -Quadrat- Test mit R

Die eigentliche Stärke von R ist die Möglichkeit das statistische Grafiken mit vergleichsweise wenig Aufwand erstellt werden können.
Balkendiagramme
Abb 1: Balkendiagramm, Mosaicplot und Gestapelte Balkendiagramme
Im ersten Diagramm sieht man eine einfache Häufigkeitsverteilung. Der zweite Plot ist ein Mosaicplot der die Residuen (die Abweichungen zwischen den beobachteten Häufigkeiten und den zu erwarteten Häufigkeiten) darstellt. Die beiden unteren Plots sind jeweils gestapelte Balkendiagramme die die Zeilen bzw. Spaltenprozent der Kreuztabelle grafisch darstellen.

Eine noch anspruchsvollere Darstellung der Residuen kann über das R-modul vcd (Visualizing Categorical Data) aufgerufen werden (assoc).

Residuen
Abb 2: Darstellung der Residuen als Flächen

Download:
SPSS Syntax- File
R-File

Literatur:
[1] Backhaus Erichson Plinke Weiber 2006, Multivariate Analysemethoden, Eine anwendungsorientierte Einführung – 11. Auflage; Springer-Lehrbuch Seite 244 – 257 Multivariate Analysemethoden: Eine anwendungsorientierte Einführung

R-Module:
Mosaik

Exakter Fisher-Test

In der letzten Zeit ist öfter die Frage, nach dem F-Wert und welcher signifikante Wert den der richtige Wert ist, an mich herangetragen worden. Also gleich vorweg, ein F-Wert hat mehr etwas mit Mikrobiologie zu tun als mit Statistik. Es gibt einen F-Test der grob gesagt die Varianzen testet und den Exakter Fisher-Test der wie ein Chi²-Test zu interpretieren ist und eine F-Verteilung … und…und…
Man soll sich bloß nicht verwirren lassen “Exakt” ist ein mathematischer Terminus und bedeutet das Gegenteil von Approximativ, also schon bei kleinen Stichprobengrössen “richtig” (vergl. www.reiter1.com/Glossar). Und Ronald Aylmer Fisher war ein Bedeutender Statistiker der vielen Tests seinen Namen gab.

Der Exakter Fisher-Test wird immer dann verwendet, wenn man eine 2×2 Kreuztabelle vorliegen hat bei der die Beobachtung (Zellenhäufigkeit) sehr gering ist, so als Faustregel wird ein Wert von unter 5 angegeben. (Oder exakter; wenn Erwartungswerte kleiner 5 auftreten.)
Der “Exakte Fisher-Test” liefert uns als Ergebnis eine “bedingte Wahrscheinlichkeit”.
Es können zwei p-Werten errechnet werden. Exakte Signifikanz (1-seitig): Die einseitige Wahrscheinlichkeit wird benutzt, wenn getestet werden soll, ob die Merkmale sich gegenseitig negativ beeinflussen. (Manche Programme berechnen hier zwei Werte einen “Links” und einen “Rechs” ist aber exakt das gleiche wie 1-seitig). Exakte Signifikanz (2-seitig): Der zweiseitige Test ist anzuwenden, wenn eine allgemeine Abhängigkeit nachgewiesen werden soll (vergl. Øyvind Langsrud). In den meisten Fragestellungen ist der 2-seitig anzuwenden, aber es kommt immer auf die Fragestellung an.
Berechnen kann man den Test mit fast allen Statistikprogrammen oder auch Online bei www.matforsk.no. Unter SPSS findet sich der Test unter -> Analysieren -> Deskriptive Statistiken -> Kreuztabellen wenn man die Option Chi² auswählt (Wird nur bei 2×2 Tabellen berechnet).

Mit Gnu R Lässt sich der Exakter Fisher-Test so berechnen:

x <- matrix(c(37,3,45,15),2,2) # Erstellung der Kreuztabelle
dimnames(x) <- list(c("Maenner", "Frauen"), c("Ja", "Nein"))

fisher.test(x) # Ausfuehren des Exakter Fisher-Test
chisq.test(x) # Ausfuehren des Exakter Chi-Quadrat-Test

Weiter Optionen
"two.sided", "greater" or "less".
fisher.test(x, alternative = "two.sided")
Mehr zur Syntax in Gnu R gibt es bei www.maths.lth.se

Gnu R Fischer Test

Tagged with: