Statistische Tests (Chi²)

Die Untersuchungen von Zusammenhängen zwischen Gruppen (Beruf, Einkommen, oder Geschlecht von Personen) ist eine sehr häufige Fragestellung. Die einfachste Methode zur Veranschaulichung dieser Zusammenhängen ist eine Kreuztabelle (Kontingenztabelle). Für die Beschreibung der systematischen Zusammenhänge existieren verschiedene Zusammenhangsmaße, der bekannteste ist der Chi² -Test. Der Chi² -Test prüft ob ein Merkmal in zwei oder mehren Stichproben identisch verteilt ist. Die dazugehörige Nullhypothese lautet: H0: Der Anteil jeder Merkmalsausprägung ist in beiden Stichproben gleich.

Beispiel für eine zwei mal zwei Tabelle
1. Frage: Kreuzen Sie ihr Geschlecht an.
Antwortmöglichkeiten: männlich/weiblich

2 Frage: Sehen sie sich die Fußball-EM im TV an?
Antwortmöglichkeiten: ja/nein


Tab 1: Kreuztabelle
.
H0: Zwischen Männern und Frauen besteht hinsichtlich der Absicht sich die EM im TV anzusehen kein signifikanter Unterschied.

Wenn die Analyse mit SPSS durchgeführt wird, ergibt der Output eine Tabelle mit einer Vielzahl an Signifikanzen: Asymptotische Signifikanz, Exakte Signifikanz, Chi-Quadrat nach Pearson Kontinuitätskorrektur, Likelihood-Quotient, Exakter Test nach Fisher, Zusammenhang linear-mit-linear. Welcher Wert zu interpretieren ist, ist für einen Anfänger oft nicht sofort ersichtlich.

Chi-Quadrat-Test
Tab 2: Ergebnisse Chi-Quadrat-Test (SPSS-Output)

Um den richtigen Wert herauszufinden sind ein paar Grundüberlegungen zu tätigen. Die erste Frage ist immer, welches Skalenniveau liegt vor. Die zweite Frage lautet nach der Größe der Stichprobe. Und die letzte, welche ist die unabhängige und Welche ist die abhängige Variable.

Dabei gelten folgende Faustregeln:
Wenn die Stichprobe weniger als 20 Fälle hat, wird der exakte Fisher-test verwendet. Zwischen 20 und 60 Fällen, wird bei der Teststatistik die Yates-Korrektur (Kontinuitätskorrektur) verwendet. Bei mehr als 60 Fällen der Chi-Quadrat-Test nach Pearson.[1]

In diesem Beispiel ist ganz klar ersichtlich, welche die unabhängige und die abhängige Variable ist. Es ist nicht vom Fernsehen abhängig, welches Geschlecht die Personen haben. Also ist Geschlecht die unabhängige Variable.
Aus dieser Angabe lässt sich die Hypothese ableiten.
Die Hypothese lautet: H0: Es besteht kein signifikanter Unterschied zwischen den Geschlechtern.

Da die Stichprobengröße zwischen 20 und 60 liegt, wird bei der Teststatistik Chi-Quadrat-Test die Yates-Korrektur (Kontinuitätskorrektur) verwendet.
Die Geschlechter unterscheiden sich signifikant (p=0,027) hinsichtlich ihrer Bereitschaft Die Fußball-EM im Fernsehen zu sehen. Will man mehr über die Zusammenhänge wissen, muss man noch weitere Assoziationsmaße berechnen. Die bekanntesten Tests dazu sind der Phi-Koeffizient und die Korrelation. In unserem Fall ist der Phi-Koeffizient ein gutes Maß um die Stärke des Zusammenhang zu testen. Auch hier kann bei SPSS eine Vielzahl von Tests gewählt werden und die Ausgabe ist umfangreich.

Phi Qhi-Quadrat
Tab 3: Assoziationsmaße

Für den Phi -Wert besteht folgende Faustregel; ein Wert größer 0,30 wird als bedeutend betrachtet [1]. In unserem Fall besteht also ein bedeutender Zusammenhang. Zur Veranschaulichung des Zusammenhangs sind aber die vorgestellten Maßzahlen nur für Experten brauchbar. Anschaulicher ist immer ein Diagramm und da ist leider SPSS etwas aufwendiger zu bedienen, weshalb oft auf Open Office oder Ms-Offfice zurückgegriffen werden muss.

Kreuztabellen mit R

Unter Umständern ist es etwas einfacher ist die Auswertung mit der freien Statistik Software R zu machen. R berechnet bei der Auswahl des Chi² -Test sofort den richtigen Wert. Phi kann über das Zusatzpaket “Psych” berechnet werden (oder man rechnet die Teststatistik selbst aus).

# Erstellung der Kreuztabelle
my.table <- matrix(c(6,14,21,11),2,2)
dimnames(my.table)<- list( Sex=c("Frauen","Männer" ) ,Fußball=c("Ja","Nein" ))

# Chi-Test
chisq.test(my.table)

R Chi -Quadrat- Test
Tab 4: Chi -Quadrat- Test mit R

Die eigentliche Stärke von R ist die Möglichkeit das statistische Grafiken mit vergleichsweise wenig Aufwand erstellt werden können.
Balkendiagramme
Abb 1: Balkendiagramm, Mosaicplot und Gestapelte Balkendiagramme
Im ersten Diagramm sieht man eine einfache Häufigkeitsverteilung. Der zweite Plot ist ein Mosaicplot der die Residuen (die Abweichungen zwischen den beobachteten Häufigkeiten und den zu erwarteten Häufigkeiten) darstellt. Die beiden unteren Plots sind jeweils gestapelte Balkendiagramme die die Zeilen bzw. Spaltenprozent der Kreuztabelle grafisch darstellen.

Eine noch anspruchsvollere Darstellung der Residuen kann über das R-modul vcd (Visualizing Categorical Data) aufgerufen werden (assoc).

Residuen
Abb 2: Darstellung der Residuen als Flächen

Download:
SPSS Syntax- File
R-File

Literatur:
[1] Backhaus Erichson Plinke Weiber 2006, Multivariate Analysemethoden, Eine anwendungsorientierte Einführung – 11. Auflage; Springer-Lehrbuch Seite 244 – 257 Multivariate Analysemethoden: Eine anwendungsorientierte Einführung

R-Module:
Mosaik

2 Responses to “Statistische Tests (Chi²)”

  1. Neus says:

    Hallo,
    Erstmal danke für die schöne Erklärung.
    Ich wollte nun fragen, was der Bedeutung von die zeile b) (im Chi-quadrat tabelle) ist.
    zB: a)4 Zellen (26,7%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,56.
    Ich habe es gesucht und habe gefunden, dass wen der Prozent > 20% ist, muss man der Likelihood-Quotient verwenden. Ist das richtig?
    Vielen Dank im Voraus!

  2. […] Statistische Tests (Chi²) Die Untersuchungen von Zusammenhängen zwischen Gruppen (Beruf, Einkommen, oder Geschlecht von Personen) ist eine sehr häufige Fragestellung. Die einfachste Methode zur Veranschaulichung dieser Zusammenhängen ist eine Kreuztabelle (Kontingenztabelle). Für die Beschreibung der systematischen Zusammenhänge existieren verschiedene Zusammenhangsmaße, der bekannteste ist der Chi² -Test. Der Chi² -Test prüft ob ein Merkmal in zwei oder mehren Stichproben identisch verteilt ist. […]