Odds Ratio und relatives Risiko

Besonders in der Medizin ist der Vergleich zweier Häufigkeiten wichtig. Eine beispielhafte Fragestellung dazu ist: Ist ein neues Medikament oder eine neue Operationstechnik erfolgversprechend? Dabei wird eine Kontrollgruppe mit einer Experimentalgruppe verglichen und untersucht ob für die Untersuchungsgruppe ein Nutzen oder ein Schaden entsteht. Dieser Nutzen bzw. Schaden wird als “relatives Risiko” bezeichnet, das Chancen-Verhältnis eines Nutzens/Schaden wird als Odds Ratio bezeichnet.

Zur Veranschaulichung habe ich hier ein konstruiertes Beispiel. In einer Landesweiten Studie wird die Wirkung eines Luftschadstoffs auf das Auftreten eine bestimmten Krankheit untersucht. Dazu werden in unterschiedlichen Gebieten mit bekannten durchschnittlichen Konzentrationen  eines Luftschadstoffs Erhebungen über das Auftreten einer bestimmten Krankheit durchgeführt.

Tabelle 1: Beispieldaten

Schadstoffkonzentration
Personen >0,1 mg/m³ 4 mg/m³ 14 mg/m³ 23 mg/m³ 64 mg/m³ 121 mg/m³
krank 15 14 16 29 30 25
nicht krank 1575 1367 945 1284 1379 967

Das Gebiet mit einer Konzentration von >0,1 mg/³ sei dabei die Kontrollgruppe. Die Risiko-Maße errechnen sich wir folgt.

(1) Erkrankungsrate bei Exponierten (4 mg/m³): 14/(1367+14) = 0,010
(2) Erkrankungsrate Kontrollgruppe:            15/(1575+15) = 0,009
(3) Relative Risiko:          (14/(1367+14))/(15/(1575+15)) = 1,075
(4) Odds-Ratio:                         (14/15)*(1575/1367) = 1,075

Das Erkrankungsrisiko ist bei einer Konzentration 4 mg/m³ nicht größer als bei Nicht-Exponierten. Eine Zusammenfassung der anderen Werte ist in der Tabelle 2 aufgelistet.  (Das sich die Werte Relatives Risiko und Odds Ratio ähnlich sind ist reiner Zufall und durch runden auf eine Kommastelle bedingt.)

Tabelle 2:  Zusammenfassung der Risiko-Maße  (Erkrankungsrate Kontrollgruppe 0,9%)

Konzentration Erkrankungsrate Relatives Risiko Odds-Ratio Exposition
4 mg/m³ 1,0% 1,1 1,1 kein Effekt
14 mg/m³ 1,7% 1,9 1,9 Schaden
23 mg/m³ 2,2% 2,5 2,5 Schaden
64 mg/m³ 2,1% 2,4 2,4 starker Schaden
121 mg/m³ 2,5% 2,9 2,9 starker Schaden

Aus der Analyse des Odds-Ratio lässt sich ableiten, dass ab einer Konzentration von 14 mg/m³ eine Beeinträchtigung zu erwarten ist. Ob das Ergebnis signifikant ist, lässt sich durch die Risiko-Maße noch nicht beurteilen, dazu müssten noch die Konfidenzintervalle der Odds-Ratio berechnet werden. Eine  Berechnung der 95%-Konfidenzintervalle  kann z.B. mit SPSS über Kreuztabellen angefordert werden oder mit R, mittels der Funktion oddsratio(), die im dem Paket library(vcd) enthalten ist, ausgeführt werden. Die sich abzeichnende Zunahme der Erkrankungsrate kann mit dem Cochran-Armitage Test geprüft werden.

Tabelle 1: Relatives Risiko und Exposition entnommen  Sachs 2009 Seite 569

relatives Risiko Exposition
≤ 0,3 starker Nutzen
0,4 – 0,8 Nutzen
0,9 – 1,1 kein Effekt
1,2 – 2,5 Schaden
2,6 starker Schaden

Literatur:

[1] Sachs, Lothar; und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R

Tagged with:
 

Analyse von wiederholten Messungen

Viele Studienansätze liefern wiederholte Messungen eines bestimmten Merkmals an verschiedenen Zeitpunkten.  Die Auswertung  und Berechnung mit SPSS  gelingt einem meist irgendwie, aber spätestens der Output wird für erstmalige SPSS- Anwender kaum zu deuten sein (vgl. Bühl, S 409). Hier gibt es “Multivariate Tests”, “Test der Innersubjekteffekte”, “Tests der Zwischensubjekteffekte” usw. und überall gibt es signifikante Werte.

Um all die Tabellen zu deuten bedarf es eines statistischen Hintergrundwissens daher beschreibe ich hier ein fiktives  Beispiel für eine Datenreihe mit Messwiederholung.

Die Messwerte sind die Beobachtung von zwei Patienten-Gruppen Kontrollgruppe und Untersuchungsgruppe. Bei den Patienten handelt es sich um Intensivpatienten, beim  Messwert um die Restmenge an Mageninhalt der  über die Zeit beobachtet wird.

Messwiederholung

Abb1: Profildiagramm zu den Daten im Beispiel

Bei der Betrachtung von Messwiederholungen sind zwei wesentliche Eigenschaften von Interesse der Gipfelwert und das Wachstum.  In der Abbildung wird deutlich, dass die Patientengruppe mit der Therapie einen andern Verlauf in der Restmenge aufweist als die Kontrollgruppe.  Start und Endwert sind nicht sehr unterschiedlich, das Maximum ist deutlich unterschiedlich und bei der Kontrollgruppe zeigt sich ein deutlich ausgeprägter Gipfelwert.

Auswerten mit Excel

Der Verlauf eines Gipfelwerts lässt sich bereits mit  MS-Excel  auswerten.  Mit den Bordmitteln von Excel lassen sich Minimum,  Maximum,  Regressionskoefizienten und AUC (Fläche unter der Kurve) berechnen und mit einem T-Test auf Signifikanz prüfen.  Den T-Test gibt es bei Excel über die Analysefunktionen.  Das Excel Beispiel dazu  habe ich hier. (Die zugrunde liegenden Formeln finden sich bei Sachs 2009  Seite 545).

Aus den vorliegenden Ergebnisse lässt sich ableiten: Der Startwert unterscheidet sich nicht signifikant.  Der Maximalwert(p=0,007) und die Fläche (p0,032)  unter der Kurve sind signifikant verschieden. Zum Zeitpunkt der letzten Messung kann aus den Daten kein Unterschied belegt werden.

Tab1:  Wiederholte Messung in zwei Gruppen (Untersuchungsgruppe mit Therapie Kontrollgruppe ohne Therapie) zu 5 verschiedenen Zeitpunkten angegeben. In der Tabelle sind Mittelwerte, T-Wert und Signifikanz. Auswertung mit MS- Excel

Therapie Ja Therapie Nein T-Wert p-Wert
Max 569 843 -2,88 0,007
AUC 1451 1897 -2,22 0,032
REGR -62 -30 -1,22 0,230
Startwert 446 547 -1,11 0,273
Endwert 199 293 -1,56 0,125

Als erste Betrachtung ist diese Auswertung mit Excel durchaus hinreichend für weitergehende Analysen ist es notwendig sich genauer Gedanken über Verteilung der Daten und der zugrunde liegenden Hypothesen zu machen.

Auswerten mit SPSS

Der traditionelle Ansatz für die Analyse von Messwiederholungen ist die Varianzanalyse (ANOVA) die drei spezielle Fragestellungen prüft: die Wechselwirkung zwischen den Gruppen und der Zeit, der Effekt durch den Studienfaktor und der Effekt durch die Wiederholung (Zeit). Mit MS-Excel ist eine solche Auswertung schon recht aufwändig, daher ist es besser mit einer Statistik-Software weiterzuarbeiten.

Wichtige Voraussetzung ist, das die Messwerte angenähert der Normalverteilung entsprechen und das die so genannte Sphärizität gegeben ist (Sphärizität bedeutet das die Differenzen zwischen den Faktorstufen gleich sind).  Weiter  muss man sich Gedanken über das zugrunde liegende Modell machen (Modell I für  feste Effekte, Modell II für  zufällige Effekte oder  Modell III für gemischte Effekte). Wenn die Daten mit SPSS ausgewertet werden,  braucht man sich scheinbar um die zugrunde liegenden Modelle und Voraussetzungen keine Gedanken zu machen.  Da SPSS standardmäßig alles berechnet was eventuell von Nutzen sein könnte und es dem kundigen Nutzer überlässt die relevanten Zahlen zu finden.

Zunächst wird eine Berechnung zum Faktor Zeit und zu den Wechselwirkungen ausgegeben (Multivariate Tests – Methode des allgemeinen linearen Modells) dabei gilt die “Pillai-Spur” als robustester Test.  Es wird ein höchst signifikanter Einfluss der Zeit Festgestellt, die Wechselwirkung mit der Zeit ist hingegen nicht signifikant (Zeit p<0,0001  Zeit:Therapie p=0,385).  Es folgt der Mauchly-Test auf  Sphärizität, er prüft ob die Voraussetzung der Sphärizität gegeben sind. In unserem Beispiel ist der Wert Signifikant (p<0,0001) das bedeutet die Voraussetzung ist nicht gegeben. Daher werden die Ergebnisse in der Tabelle “Tests der Innersubjekteffekte”  (Methode nach Fischer) die Zeile “Greenhouse-Geisser” entnommen. Es ergeben sich ähnliche Ergebnisse wie bei der “Pillai-Spur” (Zeit p<0,0001  Zeit:Therapie p=0,263). Es folgt die Berechnung der Nicht-Messwiederholungsfaktoren (Tests der Zwischensubjekteffekte). Es ergibt sich ein nicht signifikanter Einfluss der Therapie (p=0,073). (Vergl. Bühl 2005)

Tab2:  Multivariate Tests

Effekt Wert F Hypothese df Fehler df Signifikanz
Zeit Pillai-Spur 0,411 7,3 4 42 0,000
Wilks-Lambda 0,589 7,3 4 42 0,000
Hotelling-Spur 0,699 7,3 4 42 0,000
Größte char Wurzel nach Roy 0,699 7,3 4 42 0,000
Zeit* Therapie Pillai-Spur 0,092 1,1 4 42 0,385
Wilks-Lambda 0,908 1,1 4 42 0,385
Hotelling-Spur 0,102 1,1 4 42 0,385
Größte char Wurzel nach Roy 0,102 1,1 4 42 0,385

Tab3:  Mauchly-Test auf Sphärizität prüft ob die Voraussetzung der Sphärizität gegeben ist.

Innersubjekteffekt Mauchly-W Chi-Quadrat df Signifikanz
ZEIT 0,298 53 9 0,000

Tab4: Tests der Innersubjekteffekte

Quelle Quadratsumme vom Typ II df Mittel der Quadrate F Signifikanz
Zeit Sphärizität angenommen 2526380 4,0 631595 7,9 0,000
Greenhouse-Geisser 2526380 3,1 825275 7,9 0,000
Huynh-Feldt 2526380 3,4 746785 7,9 0,000
Untergrenze 2526380 1,0 2526380 7,9 0,007
Zeit* Therapie Sphärizität angenommen 426332 4,0 106583 1,3 0,256
Greenhouse-Geisser 426332 3,1 139267 1,3 0,263
Huynh-Feldt 426332 3,4 126022 1,3 0,261
Untergrenze 426332 1,0 426332 1,3 0,253
Fehler(Zeit) Sphärizität angenommen 14306507 180,0 79481
Greenhouse-Geisser 14306507 137,8 103854
Huynh-Feldt 14306507 152,2 93976
Untergrenze 14306507 45,0 317922

Tab5: Tests der Zwischensubjekteffekte

Quelle Quadratsumme vom Typ II df Mittel der Quadrate F Signifikanz
Intercept 38701552 1 38701552 263,6 0,000
Therapie 493543 1 493543 3,4 0,073
Fehler 6607055 45 146823

Auswerten mit R

Wenn die Auswertung mit R berechnet wird, schaut das Ergebnis kompakter und übersichtlicher aus. Allerdings muss man sich “vorher” Gedanken machen, welche Zusammenhänge wichtig sind. Eine gute Anleitung dazu gibt es hier R and Analysis of Variance und hier  Katholieke Universiteit Leuven, weiterführende Aspekte (Post-Hoc Tests)  beschreibt  Paul Gribble in seinem Blogbeitrag  Repeated Measures ANOVA using R.
Ich habe den traditionellen Ansatz mit einem F-Test gewählt den R-Code dazu gibt es hier zum Ausprobieren dabei habe ich mich weitgehend  an Sachs 2009 Seite 547 angelehnt. Die Berechnungen sind identisch mit denen von SPSS da die gleichen Rechenschritte zugrunde liegen, der Einfluss der Zeit ist signifikant (p<0,0001) die Wechselwirkung hingegen ist nicht signifikant (p=0,257) und er Einfluss der Therapie ist nicht Signifikant (p=0,073).

Tab 6: Auswertung mit R aov(formula = Messwert ~ Therapie * Zeit + Error(Proband))

Error: Proband
Df Sum Sq Mean Sq F value Pr(>F)
Therapie 1 493543 493543 3,36 0,073
Residuals 45 6607055 146823

Tab7: Zwischensubjekteffekte

Error: Within
Df Sum Sq Mean Sq F value Pr(>F)
Zeit 4 2526380 631595 7,95 0,000
Therapie:Zeit 4 426332 106583 1,34 0,257
Residuals 180 14306507 79481

Interpretation der Ergebnisse

Die Interpretation der Ergebnisse geht von der Hypothese aus: “Es besteht keine Wechselwirkung zwischen Therapie (Studienfaktor) und der Zeit. Laut den Ergebnissen der Varianzanalyse besteht keine Wechselwirkung mit der Therapie. Im Profildiagramm (Abb. 1) und in der Berechnung der Maximalwerte und der Fläche unter der Kurve (AUC, area under curve) zeichnet sich aber ein messbarer Effekt der Therapie ab.  Die Daten im Beispiel zeigen deutlich das manchmal einfachere Methoden besser geeignet sind Daten zu beschreiben.

Wenn in Bezug auf die Auswertung von Messwiederholungen Fragen offen sind, können Sie sich gerne an mich wenden hier der Link zum Kontaktformular.

Literatur:

[1] Sachs, Lothar ;und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R

[2]  Bühl, Achim und Peter Zöfel; SPSS 12. Einführung in die moderne Datenanalyse unter Windows. 9. Auflage. München u.a., Pearson Studium, 2005 SPSS 18 (ehemals PASW): Einführung in die moderne Datenanalyse
[3] Everitt, Brian and Hothorn Torsten; A Handbbook of Statistical Analyses Using R,Chapman & Hall; 2006 (Chapter 10 Analysing Longitudinal Data)

Tagged with:
 

Ratingskala

Bei Onlinebefragungen sieht man immer häufiger die Ratingskala bei der Merkmalsausprägung, die in eine Rangordnung gebracht werden muss. Die Auswertung solcher Rangreihen hingegen ist eine nicht triviale Angelegenheit. Die ermittelten Rangwerte stellen eine Ordinalskala dar, die einfachste Darstellung kann mit Modalwert (Häufigster Wert) und Medianwert (50% Wert) erfolgen. Um mehr Informationen aus den Daten zu erhalten, sind die Werte der Rangskala in geeigneter Form zu transformieren. Eine Methode ist die Transformation der Rangreihen in die intervallskalierte Merkmale überführt werden. Die Grundidee dieser Methode geht auf Thurstone (1927) nach dem “Law of Categorical Judgement” zurück. Dabei werden die kumulierten Häufigkeiten in Normalverteilte z-Werte übergeführt und aus diesen die intervallskalierten Markmalsausprägungen gebildet.[1]
Mit R ist dies elegant zu berechnen. Mit den Funktionen tabel() und cumsum() lassen sich die kumulierten Häufigkeiten berechnen und mit der Funktion qnorm() die entsprechenden z-Werte.

Zur Veranschaulichung habe ich hier ein fiktives Beispiel. Es handelt von einer Befragung von Kunden eines Supermarktes. Die Kunden werden befragt, welche Art von Lebensmitteln sie bevorzugen: (a) Produkte aus konventioneller Landwirtschaft (Tab. 1) und (b) Produkte aus biologischer Landwirtschaft. Dabei Reihen die Kunden Begriffe die im Zusammengang mit den Produkten stehen nach Wichtigkeit, zu den Kriterien zählen Qualität, Aussehen, Vielfalt, Verfügbarkeit und Preis. Durch die Betrachtung der Häufigkeiten der Rangplätze lässt sich schon gut abschätzen, welcher Begriff an erster Stelle steht, hier ist bei den Produkte aus konventioneller Landwirtschaft der “Geschmack” an erster Stelle und bei Produkte aus biologischer Landwirtschaft die “Qualität”.
(a) Produkte aus konventioneller Landwirtschaft
konventionelle Produkte

Was sich nicht aus den Häufigkeiten ableitet, ist die Information wie bedeutend der Unterschied unter den Rangplätzen ist. Dafür kann die oben beschriebene Maßzahl angewendet werden. Da es sich um einen z-Transformierten Wert handelt, kann der Wert zum Abschätzen der “Wichtigkeit” dienen.
(b) Produkte aus biologischer Landwirtschaft
biologische Produkte
In diesem Beispiel zeigt sich, dass bei Kunden die Bioprodukte kaufen “Qualität” überdurchschnittlich an erster Stelle steht und das bei Kunden die konventionelle Produkte kaufen, “Geschmack”, “Preis” und “Vielfalt” gleichwertig sind und hier an erster Stelle stehen.

Rangreihe
(c)Gegenüberstellung biologischer Landwirtschaft mit konventioneller Landwirtschaft

Literatur:
[1]Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (4. Auflage). Berlin: Springer. Seite 155 Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler

Tagged with:
 

Image Profile mit R

Einen interessanten “Codeschnipsel” für die Visualisierung von Semantischen Differenzialen habe ich in der R Graph Gallery entdeckt. Mehr Info findet man direkt beim Autor Detlev Reymann unter Wettbewerbsanalysen für kleine und mittlere Unternehmen (KMUs).

Tagged with:
 

Kano-Modell

Die Kundenzufriedenheitsanalyse mit der Kano-Methode ist eine leider viel zu wenig beachtete Befragungsmethode.
Das Kano-Modell wurde von Noriaki Kano in den 70ern für die Firma Konica (Minolta Kameras) entwickelt. Die Marketingabteilung stellte damals fest, dass Kunden bei einer direkten Befragung nur geringfügige Änderungen am Produkt wünschten. Ein tief greifendes Verständnis der unausgesprochenen Bedürfnisse des Kunden konnte nicht abgeleitet werden.
Kano entwickelte daraufhin eine Methode die Wünsche und Erwartungen von Kunden zu erfassen.

Das Kano-Modell unterscheidet fünf Ebenen der Qualität:
Basis-Merkmale, selbstverständlich Eigenschaft (Must-be)
Leistungs-Merkmale, bewusste Eigenschaften (One-dimensional)
Begeisterungs-Merkmale, nutzen stiftende Merkmale (Attractive)
Unerhebliche Merkmale (Indifferent)
Rückweisungs-Merkmale (Reverse)

Der so genannte Kano-Fragebogen besteht aus zwei hypothetischen Fragen, die funktionale Frage und die dysfunktionale Frage. Für die Beantwortung steht eine sechsteilige Antwortskala bzw. eine dreiteilige modifizierte Antwortskala zur Verfügung.
Die funktionale Frage bezieht sich auf vorhandene Attribute eines Produkts
und die dysfunktionale Frage auf die Nicht-Existenz des Attributs.

Beispiel:
Das Geschäft ist leicht zu finden. Was denken Sie darüber?
• Das würde mich sehr freuen
• Das setze ich voraus
• Das ist mir egal

Das Geschäft ist nicht leicht zu finden. Was denken Sie darüber?
• Das ist mir egal
• Das könnte ich in Kauf nehmen
• Das würde mich sehr stören

Die Datenerhebung ist die eigentliche Herausforderung eines Kano-Umfrageprojektes. Durch den Aufbau der Fragen ist die Befragung sehr monoton und verlangt viel Einsatz vom Befragten. Es ist daher für den Erfolg der Untersuchung wichtig seine Untersuchungsgruppe genau zu kennen und Anweisungen zum richtigen Ausfüllen in Form von Beispielen dem Fragebogen beizulegen.

Die Datenanalyse der Kano-Methode erfolgt über Auswertung nach Häufigkeiten dazu existieren Auswertungsregeln. Technisch werden die Häufigkeiten mittels der Auswertungstabelle kodiert. Bei wenigen Daten empfiehlt es sich die Kodierung händisch zu erfassen. Bei großen Datenmengen mit Excel oder Open Office über Formeln (wenn dann Bezüge) mit SPSS geht es über Umcodieren der Variablen. Am eleganteste geht es mit der Statistik-Software R.

Category Strength ist eine Maßzahl die die angibt ob eine Anforderung nur in eine Kategorie gehört.

Total Strength als zweite Maßzahl gibt an wie hoch der Anteil an bedeutenden Produktmerkmalen ist.

Eine detaillierte Datenanalyse stellen die Kundenzufriedenheitskoeffizienten dar (CS+ Zufriedenheits-Koeffizient und CS- Un-Zufriedenheits-Koeffizient ).

Der Wertebereich reicht von eins bis null (CS+) und von null bis minus eins (CS-). Werte ab 0,5 bzw.-0,5 werden als bedeutsam betrachtet.

Self-Stated Importance (Fong-Test) Signifikanz der Zuordnung

auswertung-kano
Beispiel Auswertung Kano-Methode

kano-zufriedenheit
Beispiel Grafik Kano-Methode Zufriedenheitsfaktoren


Literatur:
[1] Elmar Sauerwein; Das Kano-Modell der Kundenzufriedenheit; 2000 Das Kano- Modell der Kundenzufriedenheit.

[2] Wikipedia; Kano-Modell; http://de.wikipedia.org/wiki/Kano-Modell

[3] Jörg A. Holzing; Die Kano-Theorie der Kundenzufriedenheitsmessung; 2008 Die Kano-Theorie der Kundenzufriedenheitsmessung: Eine theoretische und empirische Überprüfung

Beratung:
Wenn Sie eine Professionelle Auswertung Ihrer Daten benötigen können Sie mich gerne kontaktieren.
DI Wolfgang Peter Data Engineering & Statistics www.statistik-peter.at

SPSS-Blog

Einer der “wichtigsten” Blogs ist mir doch tatsächlich entgangen der Statistik-Blog. Das Blog behandelt Themen rund um das Produkt SPSS wie neu Versionen oder die Ankündigungen von Workshops.

Tagged with:
 

Befragung im Schwimmbad

Heute verbrachte ich den Vormittag im Hallenbad, schwimmen, lesen, entspannen, bis ein junge Frau mit einer Bitte auf mich zu kam.
Sie ist Studentin und ich solle ihr bitte einige Fragen des Fragebogens beantworten. Immer in Sachen Fragebogen interessiert, war ich gerne bereit den zweiseitigen Fragebogen zum Preis/Leistungsangebot der städtischen Hallenbädern zu beantworten.
Abgefragt wurde der Zweck und die Häufigkeit meiner Schimmbadbesuche, sowie die gewählte Zahlungsart, also Einzelticket oder Punktekarte.
So ging es weiter, würde ich eher eine Sommer- oder Wintersaisonkarte wünschen, oder vielleicht noch eine Kombination mit einer Regionalcard. Achja und gefragt wurde auch, ob ich die Regionalcard auch überhaupt kenne.

An und für sich durchaus interessante Fragen, wenn überlegt wird, andere Angebote einzuführen. Wozu aber eh statistisch vorhandene Fragen (ich nehme an, dass am Abend beim Automaten eine Aufstellung der verkauften Einzel, 10er Karten etc. ausgegeben wird) abgefragt werden.

Gefehlt haben mir vor allem die Fragen nach den Leistungsangebot. Habe ich Wünsche, Anregungen, Beschwerden.
Die Chance von den Besuchern ein Feedback zu bekommen. Vertan!

Wassertropfen

Wasser

Dieses tolle Bild ist von wetwater und auf flickr unter CC zu finden.

 

Kunden-Feedback

Ich biete Unterstützung bei Diplomarbeiten und Dissertationen an, dabei helfe ich den Studierenden bei der Auswertung ihrer Daten mit SPSS. Nun ist es so, dass diese Aufträge meist nach wenigen Stunden erarbeitet sind und ich eher in wenigen Fällen eine Rückmeldung bekomme. Aus diesem Grund habe ich eine Kundenbefragung durchgeführt. Dazu habe ich einen sehr kleinen Onlinefragebogen aufgesetzt und an die E-Mailadressen meiner Kunden versendet. Da die meisten Studierenden, wie es scheint, ihr Studium abgeschlossen hatten, waren leider nicht mehr alle Adressen aktuell, somit war der Rücklauf etwas geringer als erwartet.
Das Ergebnis der Umfrage ist sehr positiv: alle waren mit meiner Leistung zufrieden die meisten sogar sehr zufrieden. Es gab eine einzelne Stimmen die etwas kritisch waren. Alle waren war positiv überacht von der Schnelligkeit mit der wir die Daten analysiert haben. Bei der Preisgestaltung gaben die meisten an “Preis war ok.”, einige gaben sogar an “es sei sehr Kostengünstig”.
Bei der offenen Frage habe ich einige wertvolle Tipps erhalten die ich bereits aufgegriffen und in mein pädagogisches Konzept integriert habe.

Abschließend kann noch gesagt werden, dass ein durchgeführtes Kundenfeedback sehr spannend ist. Ich freue mich über die schnellen Feedbacks kurz nach dem Versand per E-Mail und ebenso freue ich mich über die positiven Feedbacks und danke allen für ihre Anregungen.

 

Statistische Tests (Chi²)

Die Untersuchungen von Zusammenhängen zwischen Gruppen (Beruf, Einkommen, oder Geschlecht von Personen) ist eine sehr häufige Fragestellung. Die einfachste Methode zur Veranschaulichung dieser Zusammenhängen ist eine Kreuztabelle (Kontingenztabelle). Für die Beschreibung der systematischen Zusammenhänge existieren verschiedene Zusammenhangsmaße, der bekannteste ist der Chi² -Test. Der Chi² -Test prüft ob ein Merkmal in zwei oder mehren Stichproben identisch verteilt ist. Die dazugehörige Nullhypothese lautet: H0: Der Anteil jeder Merkmalsausprägung ist in beiden Stichproben gleich.

Beispiel für eine zwei mal zwei Tabelle
1. Frage: Kreuzen Sie ihr Geschlecht an.
Antwortmöglichkeiten: männlich/weiblich

2 Frage: Sehen sie sich die Fußball-EM im TV an?
Antwortmöglichkeiten: ja/nein


Tab 1: Kreuztabelle
.
H0: Zwischen Männern und Frauen besteht hinsichtlich der Absicht sich die EM im TV anzusehen kein signifikanter Unterschied.

Wenn die Analyse mit SPSS durchgeführt wird, ergibt der Output eine Tabelle mit einer Vielzahl an Signifikanzen: Asymptotische Signifikanz, Exakte Signifikanz, Chi-Quadrat nach Pearson Kontinuitätskorrektur, Likelihood-Quotient, Exakter Test nach Fisher, Zusammenhang linear-mit-linear. Welcher Wert zu interpretieren ist, ist für einen Anfänger oft nicht sofort ersichtlich.

Chi-Quadrat-Test
Tab 2: Ergebnisse Chi-Quadrat-Test (SPSS-Output)

Um den richtigen Wert herauszufinden sind ein paar Grundüberlegungen zu tätigen. Die erste Frage ist immer, welches Skalenniveau liegt vor. Die zweite Frage lautet nach der Größe der Stichprobe. Und die letzte, welche ist die unabhängige und Welche ist die abhängige Variable.

Dabei gelten folgende Faustregeln:
Wenn die Stichprobe weniger als 20 Fälle hat, wird der exakte Fisher-test verwendet. Zwischen 20 und 60 Fällen, wird bei der Teststatistik die Yates-Korrektur (Kontinuitätskorrektur) verwendet. Bei mehr als 60 Fällen der Chi-Quadrat-Test nach Pearson.[1]

In diesem Beispiel ist ganz klar ersichtlich, welche die unabhängige und die abhängige Variable ist. Es ist nicht vom Fernsehen abhängig, welches Geschlecht die Personen haben. Also ist Geschlecht die unabhängige Variable.
Aus dieser Angabe lässt sich die Hypothese ableiten.
Die Hypothese lautet: H0: Es besteht kein signifikanter Unterschied zwischen den Geschlechtern.

Da die Stichprobengröße zwischen 20 und 60 liegt, wird bei der Teststatistik Chi-Quadrat-Test die Yates-Korrektur (Kontinuitätskorrektur) verwendet.
Die Geschlechter unterscheiden sich signifikant (p=0,027) hinsichtlich ihrer Bereitschaft Die Fußball-EM im Fernsehen zu sehen. Will man mehr über die Zusammenhänge wissen, muss man noch weitere Assoziationsmaße berechnen. Die bekanntesten Tests dazu sind der Phi-Koeffizient und die Korrelation. In unserem Fall ist der Phi-Koeffizient ein gutes Maß um die Stärke des Zusammenhang zu testen. Auch hier kann bei SPSS eine Vielzahl von Tests gewählt werden und die Ausgabe ist umfangreich.

Phi Qhi-Quadrat
Tab 3: Assoziationsmaße

Für den Phi -Wert besteht folgende Faustregel; ein Wert größer 0,30 wird als bedeutend betrachtet [1]. In unserem Fall besteht also ein bedeutender Zusammenhang. Zur Veranschaulichung des Zusammenhangs sind aber die vorgestellten Maßzahlen nur für Experten brauchbar. Anschaulicher ist immer ein Diagramm und da ist leider SPSS etwas aufwendiger zu bedienen, weshalb oft auf Open Office oder Ms-Offfice zurückgegriffen werden muss.

Kreuztabellen mit R

Unter Umständern ist es etwas einfacher ist die Auswertung mit der freien Statistik Software R zu machen. R berechnet bei der Auswahl des Chi² -Test sofort den richtigen Wert. Phi kann über das Zusatzpaket “Psych” berechnet werden (oder man rechnet die Teststatistik selbst aus).

# Erstellung der Kreuztabelle
my.table <- matrix(c(6,14,21,11),2,2)
dimnames(my.table)<- list( Sex=c("Frauen","Männer" ) ,Fußball=c("Ja","Nein" ))

# Chi-Test
chisq.test(my.table)

R Chi -Quadrat- Test
Tab 4: Chi -Quadrat- Test mit R

Die eigentliche Stärke von R ist die Möglichkeit das statistische Grafiken mit vergleichsweise wenig Aufwand erstellt werden können.
Balkendiagramme
Abb 1: Balkendiagramm, Mosaicplot und Gestapelte Balkendiagramme
Im ersten Diagramm sieht man eine einfache Häufigkeitsverteilung. Der zweite Plot ist ein Mosaicplot der die Residuen (die Abweichungen zwischen den beobachteten Häufigkeiten und den zu erwarteten Häufigkeiten) darstellt. Die beiden unteren Plots sind jeweils gestapelte Balkendiagramme die die Zeilen bzw. Spaltenprozent der Kreuztabelle grafisch darstellen.

Eine noch anspruchsvollere Darstellung der Residuen kann über das R-modul vcd (Visualizing Categorical Data) aufgerufen werden (assoc).

Residuen
Abb 2: Darstellung der Residuen als Flächen

Download:
SPSS Syntax- File
R-File

Literatur:
[1] Backhaus Erichson Plinke Weiber 2006, Multivariate Analysemethoden, Eine anwendungsorientierte Einführung – 11. Auflage; Springer-Lehrbuch Seite 244 – 257 Multivariate Analysemethoden: Eine anwendungsorientierte Einführung

R-Module:
Mosaik

Stichprobengröße

Immer wieder werde ich nach dem optimalen Stichprobenumfang gefragt, überschlagsmässig verwende ich meist die Formel von Yamane der die Abhängigkeit der Stichprobengröße (n) über die Population (N) und die Intervallbreite (e) beschreibt. n = N/(1 + N*e2). Wichtiger aber als die Anzahl “je mehr umso besser“ ist das Verfahren der Stichprobenziehung.

Mehr Information zu dem Thema findet man auf dem Weblog von Christian Reinboth statistikberatung.blogspot.com. Christian Reinboth hat dort auch ein kleines Programm zum Berechnen der Stichprobengröse zum Download bereitgestellt.

Weitere Artikel zum Thema:
Determining Sample Size (Glenn D. Israel)
Auswirkungen der Stichprobengröße auf die Repräsentativität von Online-Befragungen(Christian Reinboth)
Stichprobengrößen berechnen (formularium.org)

Tagged with: