Statistische Tests (Chi²)

Die Untersuchungen von Zusammenhängen zwischen Gruppen (Beruf, Einkommen, oder Geschlecht von Personen) ist eine sehr häufige Fragestellung. Die einfachste Methode zur Veranschaulichung dieser Zusammenhängen ist eine Kreuztabelle (Kontingenztabelle). Für die Beschreibung der systematischen Zusammenhänge existieren verschiedene Zusammenhangsmaße, der bekannteste ist der Chi² -Test. Der Chi² -Test prüft ob ein Merkmal in zwei oder mehren Stichproben identisch verteilt ist. Die dazugehörige Nullhypothese lautet: H0: Der Anteil jeder Merkmalsausprägung ist in beiden Stichproben gleich.

Beispiel für eine zwei mal zwei Tabelle
1. Frage: Kreuzen Sie ihr Geschlecht an.
Antwortmöglichkeiten: männlich/weiblich

2 Frage: Sehen sie sich die Fußball-EM im TV an?
Antwortmöglichkeiten: ja/nein


Tab 1: Kreuztabelle
.
H0: Zwischen Männern und Frauen besteht hinsichtlich der Absicht sich die EM im TV anzusehen kein signifikanter Unterschied.

Wenn die Analyse mit SPSS durchgeführt wird, ergibt der Output eine Tabelle mit einer Vielzahl an Signifikanzen: Asymptotische Signifikanz, Exakte Signifikanz, Chi-Quadrat nach Pearson Kontinuitätskorrektur, Likelihood-Quotient, Exakter Test nach Fisher, Zusammenhang linear-mit-linear. Welcher Wert zu interpretieren ist, ist für einen Anfänger oft nicht sofort ersichtlich.

Chi-Quadrat-Test
Tab 2: Ergebnisse Chi-Quadrat-Test (SPSS-Output)

Um den richtigen Wert herauszufinden sind ein paar Grundüberlegungen zu tätigen. Die erste Frage ist immer, welches Skalenniveau liegt vor. Die zweite Frage lautet nach der Größe der Stichprobe. Und die letzte, welche ist die unabhängige und Welche ist die abhängige Variable.

Dabei gelten folgende Faustregeln:
Wenn die Stichprobe weniger als 20 Fälle hat, wird der exakte Fisher-test verwendet. Zwischen 20 und 60 Fällen, wird bei der Teststatistik die Yates-Korrektur (Kontinuitätskorrektur) verwendet. Bei mehr als 60 Fällen der Chi-Quadrat-Test nach Pearson.[1]

In diesem Beispiel ist ganz klar ersichtlich, welche die unabhängige und die abhängige Variable ist. Es ist nicht vom Fernsehen abhängig, welches Geschlecht die Personen haben. Also ist Geschlecht die unabhängige Variable.
Aus dieser Angabe lässt sich die Hypothese ableiten.
Die Hypothese lautet: H0: Es besteht kein signifikanter Unterschied zwischen den Geschlechtern.

Da die Stichprobengröße zwischen 20 und 60 liegt, wird bei der Teststatistik Chi-Quadrat-Test die Yates-Korrektur (Kontinuitätskorrektur) verwendet.
Die Geschlechter unterscheiden sich signifikant (p=0,027) hinsichtlich ihrer Bereitschaft Die Fußball-EM im Fernsehen zu sehen. Will man mehr über die Zusammenhänge wissen, muss man noch weitere Assoziationsmaße berechnen. Die bekanntesten Tests dazu sind der Phi-Koeffizient und die Korrelation. In unserem Fall ist der Phi-Koeffizient ein gutes Maß um die Stärke des Zusammenhang zu testen. Auch hier kann bei SPSS eine Vielzahl von Tests gewählt werden und die Ausgabe ist umfangreich.

Phi Qhi-Quadrat
Tab 3: Assoziationsmaße

Für den Phi -Wert besteht folgende Faustregel; ein Wert größer 0,30 wird als bedeutend betrachtet [1]. In unserem Fall besteht also ein bedeutender Zusammenhang. Zur Veranschaulichung des Zusammenhangs sind aber die vorgestellten Maßzahlen nur für Experten brauchbar. Anschaulicher ist immer ein Diagramm und da ist leider SPSS etwas aufwendiger zu bedienen, weshalb oft auf Open Office oder Ms-Offfice zurückgegriffen werden muss.

Kreuztabellen mit R

Unter Umständern ist es etwas einfacher ist die Auswertung mit der freien Statistik Software R zu machen. R berechnet bei der Auswahl des Chi² -Test sofort den richtigen Wert. Phi kann über das Zusatzpaket “Psych” berechnet werden (oder man rechnet die Teststatistik selbst aus).

# Erstellung der Kreuztabelle
my.table <- matrix(c(6,14,21,11),2,2)
dimnames(my.table)<- list( Sex=c("Frauen","Männer" ) ,Fußball=c("Ja","Nein" ))

# Chi-Test
chisq.test(my.table)

R Chi -Quadrat- Test
Tab 4: Chi -Quadrat- Test mit R

Die eigentliche Stärke von R ist die Möglichkeit das statistische Grafiken mit vergleichsweise wenig Aufwand erstellt werden können.
Balkendiagramme
Abb 1: Balkendiagramm, Mosaicplot und Gestapelte Balkendiagramme
Im ersten Diagramm sieht man eine einfache Häufigkeitsverteilung. Der zweite Plot ist ein Mosaicplot der die Residuen (die Abweichungen zwischen den beobachteten Häufigkeiten und den zu erwarteten Häufigkeiten) darstellt. Die beiden unteren Plots sind jeweils gestapelte Balkendiagramme die die Zeilen bzw. Spaltenprozent der Kreuztabelle grafisch darstellen.

Eine noch anspruchsvollere Darstellung der Residuen kann über das R-modul vcd (Visualizing Categorical Data) aufgerufen werden (assoc).

Residuen
Abb 2: Darstellung der Residuen als Flächen

Download:
SPSS Syntax- File
R-File

Literatur:
[1] Backhaus Erichson Plinke Weiber 2006, Multivariate Analysemethoden, Eine anwendungsorientierte Einführung – 11. Auflage; Springer-Lehrbuch Seite 244 – 257 Multivariate Analysemethoden: Eine anwendungsorientierte Einführung

R-Module:
Mosaik

Histogramme mit Excel

Excel kennt zwei Verfahren um Histogramme zu erstellen: Das Erstens ist sie ‘händisch’ zu erstellen, das Zweiten Verfahren ist sie mittels der Analyse- Funktion zu erstellen.

Histogramme und somit Häufigkeiten sind eine gern genutzte Methode um Daten zu verdichten, es wird dabei zwischen absolute Häufigkeit, relative Häufigkeit und kumulative Häufigkeit unterschieden.

Die absolute Häufigkeit gibt an, wie viele Merkmalsträger zu einer bestimmten Merkmalsausprägung in einem Datensatz existieren. Bei der relativen Häufigkeiteng handelt es sich um die absolute Häufigkeit dividiert durch die Anzahl der Objekte in der Grundgesamtheit, sie wird oft in Prozentwerten angegeben. Als kumulative Häufigkeit bezeichnet man die Summenhäufigkeit und eine Summe aller Häufigkeiten bis zu einer bestimmten Merkmalsausprägung.
(Vergl.Wikipedia: Häufigkeiten)

Beispiel: In einem Krankenhaus wurden die Krankentage aller Mitarbeiter über den Zeitrahmen von einem Jahr erfasst.

1 1 2 2 1 3
1 4 1 3 3 7
7 1 2 7 14 0
1 0 0 0 0 0
0 1 2 4 5 14
0 0 0 0 0 0
1 2 3 4 5 6
3 3 3 3 3 3
5 1 2 27 1 0

Urliste

Um in Excel die Häufigkeit zu berechnen, muss im ersten Schritt die Urliste sortiert werden
Urliste Sortieren

Im zweiter Schritt werden die Klassengrenzen definiert. (Ziel der Klassengrenzen ist die Daten zu reduzieren, damit sie übersichtlicher darzustellen sind.)

Im dritter Schritt ist die Excel Funktion Häufigkeit auszuwählen. Bei Daten die sortierte Liste angeben und bei Klassen die gewählten Klassen angeben. Auf Ok klicken.

Häufigkeit
Der vierte Schritt ist ganz wichtig, aber nicht ganz trivial. Excel behandelt Häufigkeiten als Matrixfunktion und die müssen mit einer Tastenkombination aktiviert werden.
Dazu muss die Zelle mit der Funktion und der Bereich darunter (wo die Werte ausgegeben werden) markiert werden und mit der Taste F2 “aktivieren”.

Wichtig: die Eingabe muss mit STRG + UMSCHALT + EINGABE abgeschlossen werden.
F2

Jetzt kann über die Diagrammoptionen ein Balkendiagramm ausgeben und ein Histogramm erstellt werden.

Einfacher geht es aber, wenn man das Add- Ins Analyse- Funktion “Histogramm” verwendet. Diese Add-Ins Analyse Funktion muss vorab in Excel erst installiert werden, ist aber Inhalt von Microsoft Office Paket. Schritt 1 und Schritt 2 bleiben wie oben beschrieben gleich, dann über die Add-Ins die Histogrammfunktion auswählen und den Eingabebereich die sortierte Liste einfügen und den Klassenbereich die Klassengrenzen angeben. Ebenfalls mit OK bestätigen und es wird die Häufigkeiten mit dem Histogramm erstellt.
Add Ins
Bei der Tabelle werden Häufigkeit Kumuliert % 0 Häufigkeit Kumuliert % , das Diagramm muss allerdings noch formatiert werden.

Histogramm
Mehr Info gibt es bei learn-line.nrw.de.

Wenn in Bezug auf die Auswertung von Kreuztabellen Fragen offen sind, können Sie sich gerne an mich wenden hier der Link zum Kontaktformular.

Tagged with: