Odds Ratio und relatives Risiko

Besonders in der Medizin ist der Vergleich zweier Häufigkeiten wichtig. Eine beispielhafte Fragestellung dazu ist: Ist ein neues Medikament oder eine neue Operationstechnik erfolgversprechend? Dabei wird eine Kontrollgruppe mit einer Experimentalgruppe verglichen und untersucht ob für die Untersuchungsgruppe ein Nutzen oder ein Schaden entsteht. Dieser Nutzen bzw. Schaden wird als “relatives Risiko” bezeichnet, das Chancen-Verhältnis eines Nutzens/Schaden wird als Odds Ratio bezeichnet.

Zur Veranschaulichung habe ich hier ein konstruiertes Beispiel. In einer Landesweiten Studie wird die Wirkung eines Luftschadstoffs auf das Auftreten eine bestimmten Krankheit untersucht. Dazu werden in unterschiedlichen Gebieten mit bekannten durchschnittlichen Konzentrationen  eines Luftschadstoffs Erhebungen über das Auftreten einer bestimmten Krankheit durchgeführt.

Tabelle 1: Beispieldaten

Schadstoffkonzentration
Personen >0,1 mg/m³ 4 mg/m³ 14 mg/m³ 23 mg/m³ 64 mg/m³ 121 mg/m³
krank 15 14 16 29 30 25
nicht krank 1575 1367 945 1284 1379 967

Das Gebiet mit einer Konzentration von >0,1 mg/³ sei dabei die Kontrollgruppe. Die Risiko-Maße errechnen sich wir folgt.

(1) Erkrankungsrate bei Exponierten (4 mg/m³): 14/(1367+14) = 0,010
(2) Erkrankungsrate Kontrollgruppe:            15/(1575+15) = 0,009
(3) Relative Risiko:          (14/(1367+14))/(15/(1575+15)) = 1,075
(4) Odds-Ratio:                         (14/15)*(1575/1367) = 1,075

Das Erkrankungsrisiko ist bei einer Konzentration 4 mg/m³ nicht größer als bei Nicht-Exponierten. Eine Zusammenfassung der anderen Werte ist in der Tabelle 2 aufgelistet.  (Das sich die Werte Relatives Risiko und Odds Ratio ähnlich sind ist reiner Zufall und durch runden auf eine Kommastelle bedingt.)

Tabelle 2:  Zusammenfassung der Risiko-Maße  (Erkrankungsrate Kontrollgruppe 0,9%)

Konzentration Erkrankungsrate Relatives Risiko Odds-Ratio Exposition
4 mg/m³ 1,0% 1,1 1,1 kein Effekt
14 mg/m³ 1,7% 1,9 1,9 Schaden
23 mg/m³ 2,2% 2,5 2,5 Schaden
64 mg/m³ 2,1% 2,4 2,4 starker Schaden
121 mg/m³ 2,5% 2,9 2,9 starker Schaden

Aus der Analyse des Odds-Ratio lässt sich ableiten, dass ab einer Konzentration von 14 mg/m³ eine Beeinträchtigung zu erwarten ist. Ob das Ergebnis signifikant ist, lässt sich durch die Risiko-Maße noch nicht beurteilen, dazu müssten noch die Konfidenzintervalle der Odds-Ratio berechnet werden. Eine  Berechnung der 95%-Konfidenzintervalle  kann z.B. mit SPSS über Kreuztabellen angefordert werden oder mit R, mittels der Funktion oddsratio(), die im dem Paket library(vcd) enthalten ist, ausgeführt werden. Die sich abzeichnende Zunahme der Erkrankungsrate kann mit dem Cochran-Armitage Test geprüft werden.

Tabelle 1: Relatives Risiko und Exposition entnommen  Sachs 2009 Seite 569

relatives Risiko Exposition
≤ 0,3 starker Nutzen
0,4 – 0,8 Nutzen
0,9 – 1,1 kein Effekt
1,2 – 2,5 Schaden
2,6 starker Schaden

Literatur:

[1] Sachs, Lothar; und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R

Tagged with:
 

Statistische Tests (Chi²)

Die Untersuchungen von Zusammenhängen zwischen Gruppen (Beruf, Einkommen, oder Geschlecht von Personen) ist eine sehr häufige Fragestellung. Die einfachste Methode zur Veranschaulichung dieser Zusammenhängen ist eine Kreuztabelle (Kontingenztabelle). Für die Beschreibung der systematischen Zusammenhänge existieren verschiedene Zusammenhangsmaße, der bekannteste ist der Chi² -Test. Der Chi² -Test prüft ob ein Merkmal in zwei oder mehren Stichproben identisch verteilt ist. Die dazugehörige Nullhypothese lautet: H0: Der Anteil jeder Merkmalsausprägung ist in beiden Stichproben gleich.

Beispiel für eine zwei mal zwei Tabelle
1. Frage: Kreuzen Sie ihr Geschlecht an.
Antwortmöglichkeiten: männlich/weiblich

2 Frage: Sehen sie sich die Fußball-EM im TV an?
Antwortmöglichkeiten: ja/nein


Tab 1: Kreuztabelle
.
H0: Zwischen Männern und Frauen besteht hinsichtlich der Absicht sich die EM im TV anzusehen kein signifikanter Unterschied.

Wenn die Analyse mit SPSS durchgeführt wird, ergibt der Output eine Tabelle mit einer Vielzahl an Signifikanzen: Asymptotische Signifikanz, Exakte Signifikanz, Chi-Quadrat nach Pearson Kontinuitätskorrektur, Likelihood-Quotient, Exakter Test nach Fisher, Zusammenhang linear-mit-linear. Welcher Wert zu interpretieren ist, ist für einen Anfänger oft nicht sofort ersichtlich.

Chi-Quadrat-Test
Tab 2: Ergebnisse Chi-Quadrat-Test (SPSS-Output)

Um den richtigen Wert herauszufinden sind ein paar Grundüberlegungen zu tätigen. Die erste Frage ist immer, welches Skalenniveau liegt vor. Die zweite Frage lautet nach der Größe der Stichprobe. Und die letzte, welche ist die unabhängige und Welche ist die abhängige Variable.

Dabei gelten folgende Faustregeln:
Wenn die Stichprobe weniger als 20 Fälle hat, wird der exakte Fisher-test verwendet. Zwischen 20 und 60 Fällen, wird bei der Teststatistik die Yates-Korrektur (Kontinuitätskorrektur) verwendet. Bei mehr als 60 Fällen der Chi-Quadrat-Test nach Pearson.[1]

In diesem Beispiel ist ganz klar ersichtlich, welche die unabhängige und die abhängige Variable ist. Es ist nicht vom Fernsehen abhängig, welches Geschlecht die Personen haben. Also ist Geschlecht die unabhängige Variable.
Aus dieser Angabe lässt sich die Hypothese ableiten.
Die Hypothese lautet: H0: Es besteht kein signifikanter Unterschied zwischen den Geschlechtern.

Da die Stichprobengröße zwischen 20 und 60 liegt, wird bei der Teststatistik Chi-Quadrat-Test die Yates-Korrektur (Kontinuitätskorrektur) verwendet.
Die Geschlechter unterscheiden sich signifikant (p=0,027) hinsichtlich ihrer Bereitschaft Die Fußball-EM im Fernsehen zu sehen. Will man mehr über die Zusammenhänge wissen, muss man noch weitere Assoziationsmaße berechnen. Die bekanntesten Tests dazu sind der Phi-Koeffizient und die Korrelation. In unserem Fall ist der Phi-Koeffizient ein gutes Maß um die Stärke des Zusammenhang zu testen. Auch hier kann bei SPSS eine Vielzahl von Tests gewählt werden und die Ausgabe ist umfangreich.

Phi Qhi-Quadrat
Tab 3: Assoziationsmaße

Für den Phi -Wert besteht folgende Faustregel; ein Wert größer 0,30 wird als bedeutend betrachtet [1]. In unserem Fall besteht also ein bedeutender Zusammenhang. Zur Veranschaulichung des Zusammenhangs sind aber die vorgestellten Maßzahlen nur für Experten brauchbar. Anschaulicher ist immer ein Diagramm und da ist leider SPSS etwas aufwendiger zu bedienen, weshalb oft auf Open Office oder Ms-Offfice zurückgegriffen werden muss.

Kreuztabellen mit R

Unter Umständern ist es etwas einfacher ist die Auswertung mit der freien Statistik Software R zu machen. R berechnet bei der Auswahl des Chi² -Test sofort den richtigen Wert. Phi kann über das Zusatzpaket “Psych” berechnet werden (oder man rechnet die Teststatistik selbst aus).

# Erstellung der Kreuztabelle
my.table <- matrix(c(6,14,21,11),2,2)
dimnames(my.table)<- list( Sex=c("Frauen","Männer" ) ,Fußball=c("Ja","Nein" ))

# Chi-Test
chisq.test(my.table)

R Chi -Quadrat- Test
Tab 4: Chi -Quadrat- Test mit R

Die eigentliche Stärke von R ist die Möglichkeit das statistische Grafiken mit vergleichsweise wenig Aufwand erstellt werden können.
Balkendiagramme
Abb 1: Balkendiagramm, Mosaicplot und Gestapelte Balkendiagramme
Im ersten Diagramm sieht man eine einfache Häufigkeitsverteilung. Der zweite Plot ist ein Mosaicplot der die Residuen (die Abweichungen zwischen den beobachteten Häufigkeiten und den zu erwarteten Häufigkeiten) darstellt. Die beiden unteren Plots sind jeweils gestapelte Balkendiagramme die die Zeilen bzw. Spaltenprozent der Kreuztabelle grafisch darstellen.

Eine noch anspruchsvollere Darstellung der Residuen kann über das R-modul vcd (Visualizing Categorical Data) aufgerufen werden (assoc).

Residuen
Abb 2: Darstellung der Residuen als Flächen

Download:
SPSS Syntax- File
R-File

Literatur:
[1] Backhaus Erichson Plinke Weiber 2006, Multivariate Analysemethoden, Eine anwendungsorientierte Einführung – 11. Auflage; Springer-Lehrbuch Seite 244 – 257 Multivariate Analysemethoden: Eine anwendungsorientierte Einführung

R-Module:
Mosaik

Kreuztabellen mit Excel

Kreuztabellen und Kontingenzanalyse sind eine sehr häufige Methoden um nominal skalierte Variablen zu untersuchen. Typische Beispiele sind Zusammenhänge zwischen Einkommen, Beruf, Geschlecht, usw. Mit MS- Excel lassen sich solche Zusammenhänge am einfachsten mit Pivot-Tabellen untersuchen und tabellarisch und grafisch darstellen.
Pivot-Tabellen scheinen, wenn man noch nie mit ihnen gearbeitet hat, auf den ersten Blick etwas kompliziert zu sein, sind aber nach kurzer “Eingewöhnungszeit” recht praktisch.

Als fiktives Beispiel untersuche ich hier den Zusammenhang: Haben Manager ein höheres Herzinfarktrisiko als Hilfsarbeiter.

Als erstes braucht man eine Urliste mit den Daten man kann dabei die Merkmale Ausschreiben oder als Zahlen Kodieren.

Urliste Pivot Assistent Pivot

Um die Pivot-Tabelle zu erstellen genügt es den Cursor (Mauszeiger) in die Datenzeile zu bringen und über Daten -> Pivot Tabellen die Funktion Aufzurufen und sofort auf Fertig stellen klicken.
Danach brauch man die entsprechenden Felder nur mehr mit der Maus in die Bereiche Datenfelder, Spaltenfelder,und Zielfelder zu ziehen. Das geht nach einigen probieren recht intuitiv selbst wenn es am Anfang nicht so ausschauen sollte. Eine ausführliche Beschreibung mit vielen Screenshots findet man unter Pivot-Tabellen in Excel (hrz.uni-dortmund.de).

Update leider funktioniert dieser Link nicht mehr hier ein alternativer Link.

Pivot Tabelle

Weiterführende Links
www.faes.de: tiefer gehende Einführung in Kreuz- oder Kontingenztabelle mit Beispielen in Open Office und MS Excel
www.hrz.uni-dortmund.de Pivot Tabellen

Tagged with:
 

Histogramme mit Excel

Excel kennt zwei Verfahren um Histogramme zu erstellen: Das Erstens ist sie ‘händisch’ zu erstellen, das Zweiten Verfahren ist sie mittels der Analyse- Funktion zu erstellen.

Histogramme und somit Häufigkeiten sind eine gern genutzte Methode um Daten zu verdichten, es wird dabei zwischen absolute Häufigkeit, relative Häufigkeit und kumulative Häufigkeit unterschieden.

Die absolute Häufigkeit gibt an, wie viele Merkmalsträger zu einer bestimmten Merkmalsausprägung in einem Datensatz existieren. Bei der relativen Häufigkeiteng handelt es sich um die absolute Häufigkeit dividiert durch die Anzahl der Objekte in der Grundgesamtheit, sie wird oft in Prozentwerten angegeben. Als kumulative Häufigkeit bezeichnet man die Summenhäufigkeit und eine Summe aller Häufigkeiten bis zu einer bestimmten Merkmalsausprägung.
(Vergl.Wikipedia: Häufigkeiten)

Beispiel: In einem Krankenhaus wurden die Krankentage aller Mitarbeiter über den Zeitrahmen von einem Jahr erfasst.

1 1 2 2 1 3
1 4 1 3 3 7
7 1 2 7 14 0
1 0 0 0 0 0
0 1 2 4 5 14
0 0 0 0 0 0
1 2 3 4 5 6
3 3 3 3 3 3
5 1 2 27 1 0

Urliste

Um in Excel die Häufigkeit zu berechnen, muss im ersten Schritt die Urliste sortiert werden
Urliste Sortieren

Im zweiter Schritt werden die Klassengrenzen definiert. (Ziel der Klassengrenzen ist die Daten zu reduzieren, damit sie übersichtlicher darzustellen sind.)

Im dritter Schritt ist die Excel Funktion Häufigkeit auszuwählen. Bei Daten die sortierte Liste angeben und bei Klassen die gewählten Klassen angeben. Auf Ok klicken.

Häufigkeit
Der vierte Schritt ist ganz wichtig, aber nicht ganz trivial. Excel behandelt Häufigkeiten als Matrixfunktion und die müssen mit einer Tastenkombination aktiviert werden.
Dazu muss die Zelle mit der Funktion und der Bereich darunter (wo die Werte ausgegeben werden) markiert werden und mit der Taste F2 “aktivieren”.

Wichtig: die Eingabe muss mit STRG + UMSCHALT + EINGABE abgeschlossen werden.
F2

Jetzt kann über die Diagrammoptionen ein Balkendiagramm ausgeben und ein Histogramm erstellt werden.

Einfacher geht es aber, wenn man das Add- Ins Analyse- Funktion “Histogramm” verwendet. Diese Add-Ins Analyse Funktion muss vorab in Excel erst installiert werden, ist aber Inhalt von Microsoft Office Paket. Schritt 1 und Schritt 2 bleiben wie oben beschrieben gleich, dann über die Add-Ins die Histogrammfunktion auswählen und den Eingabebereich die sortierte Liste einfügen und den Klassenbereich die Klassengrenzen angeben. Ebenfalls mit OK bestätigen und es wird die Häufigkeiten mit dem Histogramm erstellt.
Add Ins
Bei der Tabelle werden Häufigkeit Kumuliert % 0 Häufigkeit Kumuliert % , das Diagramm muss allerdings noch formatiert werden.

Histogramm
Mehr Info gibt es bei learn-line.nrw.de.

Wenn in Bezug auf die Auswertung von Kreuztabellen Fragen offen sind, können Sie sich gerne an mich wenden hier der Link zum Kontaktformular.

Tagged with:
 

Exakter Fisher-Test

In der letzten Zeit ist öfter die Frage, nach dem F-Wert und welcher signifikante Wert den der richtige Wert ist, an mich herangetragen worden. Also gleich vorweg, ein F-Wert hat mehr etwas mit Mikrobiologie zu tun als mit Statistik. Es gibt einen F-Test der grob gesagt die Varianzen testet und den Exakter Fisher-Test der wie ein Chi²-Test zu interpretieren ist und eine F-Verteilung … und…und…
Man soll sich bloß nicht verwirren lassen “Exakt” ist ein mathematischer Terminus und bedeutet das Gegenteil von Approximativ, also schon bei kleinen Stichprobengrössen “richtig” (vergl. www.reiter1.com/Glossar). Und Ronald Aylmer Fisher war ein Bedeutender Statistiker der vielen Tests seinen Namen gab.

Der Exakter Fisher-Test wird immer dann verwendet, wenn man eine 2×2 Kreuztabelle vorliegen hat bei der die Beobachtung (Zellenhäufigkeit) sehr gering ist, so als Faustregel wird ein Wert von unter 5 angegeben. (Oder exakter; wenn Erwartungswerte kleiner 5 auftreten.)
Der “Exakte Fisher-Test” liefert uns als Ergebnis eine “bedingte Wahrscheinlichkeit”.
Es können zwei p-Werten errechnet werden. Exakte Signifikanz (1-seitig): Die einseitige Wahrscheinlichkeit wird benutzt, wenn getestet werden soll, ob die Merkmale sich gegenseitig negativ beeinflussen. (Manche Programme berechnen hier zwei Werte einen “Links” und einen “Rechs” ist aber exakt das gleiche wie 1-seitig). Exakte Signifikanz (2-seitig): Der zweiseitige Test ist anzuwenden, wenn eine allgemeine Abhängigkeit nachgewiesen werden soll (vergl. Øyvind Langsrud). In den meisten Fragestellungen ist der 2-seitig anzuwenden, aber es kommt immer auf die Fragestellung an.
Berechnen kann man den Test mit fast allen Statistikprogrammen oder auch Online bei www.matforsk.no. Unter SPSS findet sich der Test unter -> Analysieren -> Deskriptive Statistiken -> Kreuztabellen wenn man die Option Chi² auswählt (Wird nur bei 2×2 Tabellen berechnet).

Mit Gnu R Lässt sich der Exakter Fisher-Test so berechnen:

x <- matrix(c(37,3,45,15),2,2) # Erstellung der Kreuztabelle
dimnames(x) <- list(c("Maenner", "Frauen"), c("Ja", "Nein"))

fisher.test(x) # Ausfuehren des Exakter Fisher-Test
chisq.test(x) # Ausfuehren des Exakter Chi-Quadrat-Test

Weiter Optionen
"two.sided", "greater" or "less".
fisher.test(x, alternative = "two.sided")
Mehr zur Syntax in Gnu R gibt es bei www.maths.lth.se

Gnu R Fischer Test

Tagged with: