Befragung im Schwimmbad

Heute verbrachte ich den Vormittag im Hallenbad, schwimmen, lesen, entspannen, bis ein junge Frau mit einer Bitte auf mich zu kam.
Sie ist Studentin und ich solle ihr bitte einige Fragen des Fragebogens beantworten. Immer in Sachen Fragebogen interessiert, war ich gerne bereit den zweiseitigen Fragebogen zum Preis/Leistungsangebot der städtischen Hallenbädern zu beantworten.
Abgefragt wurde der Zweck und die Häufigkeit meiner Schimmbadbesuche, sowie die gewählte Zahlungsart, also Einzelticket oder Punktekarte.
So ging es weiter, würde ich eher eine Sommer- oder Wintersaisonkarte wünschen, oder vielleicht noch eine Kombination mit einer Regionalcard. Achja und gefragt wurde auch, ob ich die Regionalcard auch überhaupt kenne.

An und für sich durchaus interessante Fragen, wenn überlegt wird, andere Angebote einzuführen. Wozu aber eh statistisch vorhandene Fragen (ich nehme an, dass am Abend beim Automaten eine Aufstellung der verkauften Einzel, 10er Karten etc. ausgegeben wird) abgefragt werden.

Gefehlt haben mir vor allem die Fragen nach den Leistungsangebot. Habe ich Wünsche, Anregungen, Beschwerden.
Die Chance von den Besuchern ein Feedback zu bekommen. Vertan!

Wassertropfen

Wasser

Dieses tolle Bild ist von wetwater und auf flickr unter CC zu finden.

 

Kunden-Feedback

Ich biete Unterstützung bei Diplomarbeiten und Dissertationen an, dabei helfe ich den Studierenden bei der Auswertung ihrer Daten mit SPSS. Nun ist es so, dass diese Aufträge meist nach wenigen Stunden erarbeitet sind und ich eher in wenigen Fällen eine Rückmeldung bekomme. Aus diesem Grund habe ich eine Kundenbefragung durchgeführt. Dazu habe ich einen sehr kleinen Onlinefragebogen aufgesetzt und an die E-Mailadressen meiner Kunden versendet. Da die meisten Studierenden, wie es scheint, ihr Studium abgeschlossen hatten, waren leider nicht mehr alle Adressen aktuell, somit war der Rücklauf etwas geringer als erwartet.
Das Ergebnis der Umfrage ist sehr positiv: alle waren mit meiner Leistung zufrieden die meisten sogar sehr zufrieden. Es gab eine einzelne Stimmen die etwas kritisch waren. Alle waren war positiv überacht von der Schnelligkeit mit der wir die Daten analysiert haben. Bei der Preisgestaltung gaben die meisten an “Preis war ok.”, einige gaben sogar an “es sei sehr Kostengünstig”.
Bei der offenen Frage habe ich einige wertvolle Tipps erhalten die ich bereits aufgegriffen und in mein pädagogisches Konzept integriert habe.

Abschließend kann noch gesagt werden, dass ein durchgeführtes Kundenfeedback sehr spannend ist. Ich freue mich über die schnellen Feedbacks kurz nach dem Versand per E-Mail und ebenso freue ich mich über die positiven Feedbacks und danke allen für ihre Anregungen.

 

Statistische Tests (Chi²)

Die Untersuchungen von Zusammenhängen zwischen Gruppen (Beruf, Einkommen, oder Geschlecht von Personen) ist eine sehr häufige Fragestellung. Die einfachste Methode zur Veranschaulichung dieser Zusammenhängen ist eine Kreuztabelle (Kontingenztabelle). Für die Beschreibung der systematischen Zusammenhänge existieren verschiedene Zusammenhangsmaße, der bekannteste ist der Chi² -Test. Der Chi² -Test prüft ob ein Merkmal in zwei oder mehren Stichproben identisch verteilt ist. Die dazugehörige Nullhypothese lautet: H0: Der Anteil jeder Merkmalsausprägung ist in beiden Stichproben gleich.

Beispiel für eine zwei mal zwei Tabelle
1. Frage: Kreuzen Sie ihr Geschlecht an.
Antwortmöglichkeiten: männlich/weiblich

2 Frage: Sehen sie sich die Fußball-EM im TV an?
Antwortmöglichkeiten: ja/nein


Tab 1: Kreuztabelle
.
H0: Zwischen Männern und Frauen besteht hinsichtlich der Absicht sich die EM im TV anzusehen kein signifikanter Unterschied.

Wenn die Analyse mit SPSS durchgeführt wird, ergibt der Output eine Tabelle mit einer Vielzahl an Signifikanzen: Asymptotische Signifikanz, Exakte Signifikanz, Chi-Quadrat nach Pearson Kontinuitätskorrektur, Likelihood-Quotient, Exakter Test nach Fisher, Zusammenhang linear-mit-linear. Welcher Wert zu interpretieren ist, ist für einen Anfänger oft nicht sofort ersichtlich.

Chi-Quadrat-Test
Tab 2: Ergebnisse Chi-Quadrat-Test (SPSS-Output)

Um den richtigen Wert herauszufinden sind ein paar Grundüberlegungen zu tätigen. Die erste Frage ist immer, welches Skalenniveau liegt vor. Die zweite Frage lautet nach der Größe der Stichprobe. Und die letzte, welche ist die unabhängige und Welche ist die abhängige Variable.

Dabei gelten folgende Faustregeln:
Wenn die Stichprobe weniger als 20 Fälle hat, wird der exakte Fisher-test verwendet. Zwischen 20 und 60 Fällen, wird bei der Teststatistik die Yates-Korrektur (Kontinuitätskorrektur) verwendet. Bei mehr als 60 Fällen der Chi-Quadrat-Test nach Pearson.[1]

In diesem Beispiel ist ganz klar ersichtlich, welche die unabhängige und die abhängige Variable ist. Es ist nicht vom Fernsehen abhängig, welches Geschlecht die Personen haben. Also ist Geschlecht die unabhängige Variable.
Aus dieser Angabe lässt sich die Hypothese ableiten.
Die Hypothese lautet: H0: Es besteht kein signifikanter Unterschied zwischen den Geschlechtern.

Da die Stichprobengröße zwischen 20 und 60 liegt, wird bei der Teststatistik Chi-Quadrat-Test die Yates-Korrektur (Kontinuitätskorrektur) verwendet.
Die Geschlechter unterscheiden sich signifikant (p=0,027) hinsichtlich ihrer Bereitschaft Die Fußball-EM im Fernsehen zu sehen. Will man mehr über die Zusammenhänge wissen, muss man noch weitere Assoziationsmaße berechnen. Die bekanntesten Tests dazu sind der Phi-Koeffizient und die Korrelation. In unserem Fall ist der Phi-Koeffizient ein gutes Maß um die Stärke des Zusammenhang zu testen. Auch hier kann bei SPSS eine Vielzahl von Tests gewählt werden und die Ausgabe ist umfangreich.

Phi Qhi-Quadrat
Tab 3: Assoziationsmaße

Für den Phi -Wert besteht folgende Faustregel; ein Wert größer 0,30 wird als bedeutend betrachtet [1]. In unserem Fall besteht also ein bedeutender Zusammenhang. Zur Veranschaulichung des Zusammenhangs sind aber die vorgestellten Maßzahlen nur für Experten brauchbar. Anschaulicher ist immer ein Diagramm und da ist leider SPSS etwas aufwendiger zu bedienen, weshalb oft auf Open Office oder Ms-Offfice zurückgegriffen werden muss.

Kreuztabellen mit R

Unter Umständern ist es etwas einfacher ist die Auswertung mit der freien Statistik Software R zu machen. R berechnet bei der Auswahl des Chi² -Test sofort den richtigen Wert. Phi kann über das Zusatzpaket “Psych” berechnet werden (oder man rechnet die Teststatistik selbst aus).

# Erstellung der Kreuztabelle
my.table <- matrix(c(6,14,21,11),2,2)
dimnames(my.table)<- list( Sex=c("Frauen","Männer" ) ,Fußball=c("Ja","Nein" ))

# Chi-Test
chisq.test(my.table)

R Chi -Quadrat- Test
Tab 4: Chi -Quadrat- Test mit R

Die eigentliche Stärke von R ist die Möglichkeit das statistische Grafiken mit vergleichsweise wenig Aufwand erstellt werden können.
Balkendiagramme
Abb 1: Balkendiagramm, Mosaicplot und Gestapelte Balkendiagramme
Im ersten Diagramm sieht man eine einfache Häufigkeitsverteilung. Der zweite Plot ist ein Mosaicplot der die Residuen (die Abweichungen zwischen den beobachteten Häufigkeiten und den zu erwarteten Häufigkeiten) darstellt. Die beiden unteren Plots sind jeweils gestapelte Balkendiagramme die die Zeilen bzw. Spaltenprozent der Kreuztabelle grafisch darstellen.

Eine noch anspruchsvollere Darstellung der Residuen kann über das R-modul vcd (Visualizing Categorical Data) aufgerufen werden (assoc).

Residuen
Abb 2: Darstellung der Residuen als Flächen

Download:
SPSS Syntax- File
R-File

Literatur:
[1] Backhaus Erichson Plinke Weiber 2006, Multivariate Analysemethoden, Eine anwendungsorientierte Einführung – 11. Auflage; Springer-Lehrbuch Seite 244 – 257 Multivariate Analysemethoden: Eine anwendungsorientierte Einführung

R-Module:
Mosaik

Stichprobengröße

Immer wieder werde ich nach dem optimalen Stichprobenumfang gefragt, überschlagsmässig verwende ich meist die Formel von Yamane der die Abhängigkeit der Stichprobengröße (n) über die Population (N) und die Intervallbreite (e) beschreibt. n = N/(1 + N*e2). Wichtiger aber als die Anzahl “je mehr umso besser“ ist das Verfahren der Stichprobenziehung.

Mehr Information zu dem Thema findet man auf dem Weblog von Christian Reinboth statistikberatung.blogspot.com. Christian Reinboth hat dort auch ein kleines Programm zum Berechnen der Stichprobengröse zum Download bereitgestellt.

Weitere Artikel zum Thema:
Determining Sample Size (Glenn D. Israel)
Auswirkungen der Stichprobengröße auf die Repräsentativität von Online-Befragungen(Christian Reinboth)
Stichprobengrößen berechnen (formularium.org)

Tagged with:
 

Wie man unsinnige Korrelation herstellt

Auf ORF Science gibt es einen kleinen Artikel von Thomas Benesch zum Thema “Anleitung zum statistischen Lügen“. Das Thema ist zwar nicht ganz neu und der Artikel sehr kurz, doch die Grafik im Artikel beschreibt sehr anschaulich, wie einfach sich Korrelationen verzerren lassen.

Tagged with:
 

Interpretation von Mittelwerten

Mittelwerte sind eine beliebte Darstellungsart bei Mitarbeiterbefragungen und Evaluationen. In einem fiktiven Beispiel möchte ich etwas näher drauf eingehen.
Folgende Situation: In einem kleinem Betrieb, mit 16 Angestellten, der Medizinprodukte herstellt, wurde eine Mitarbeiterbefragung mittels Onlinfragebogen durchgeführt. Die Daten wurden statistisch ausgewertet. Im folgendem sind die Ergebnisse dargelegt.

Arbeitszufriedenheit

Im Diagramm sind die Mittelwerte der einzelnen Zufriedenheitsskalen im Vergleich der zwei Abteilungen “Produktion” und “Verwaltung” dargestellt. Die Werte sind so codiert, je höher der Skalenwert, desto größer die Zufriedenheit.
Die Mittelwerte der Skalen „Zufriedenheit” setzt sich aus den “Bedingungen des Arbeitsplatzes“ , der Bewertung des “Vorgesetzter”, die Zufriedenheit mit der “Arbeit” und der Bewertung der “zwischenmenschlichen Beziehung zu den Kollegen” zusammen.
Der Mittelwert der Skala „Zufriedenheit mit der Arbeitssituation“ Zeigt bei den Mitarbeitern in der Verwaltung einen höherem Mittelwert m=2,11 als die Mitarbeiter aus der Produktion m=2,03. Aus dem vorliegenden Ergebnis kann geschlossen werden, dass in Beiden Abteilungen die Zufriedenheit mit der Arbeitssituation mit “gut” bewertet wird. (Ein Wert von 2 entspricht einer Bewertung mit gut.) In der Produktion werden aber die Bedingungen am Arbeitsplatzes sehr negativ bewertet m=3,78 was einer Bewertung mit “eher schlecht” entspricht.
Fazit: Dem Betrieb geht es gut einzig in der Produktion sollte die Arbeitsplatzsizuation verbessert werden.
Einen Schönheitsfehler hat die Interpretation das Ergebnis ist komplett falsch!!!

Wenn man schon Mittelwerte betrachten will, dann wenigstens einen Boxplot. Der ist zwar in dem Beispiel auch falsch aber im Plot ist wenigstens deutlich ersichtlich, dass die Werte bei den Mitarbeitern aus der Verwaltung stark streuen.

Arbeit Boxplot

Eine andere genauere Möglichkeit der Darstellung, ist die Verteilung mittels Histogramm zu beschreiben. Durch eine geeignete Wahl der Klassengrenzen lassen sich gut die Unterschiede hervorheben. Die zwei Gruppen in meinem Beispiel sind gut zu vergleichen, man erkennt recht gut die “Lücke” bei den Mitarbeitern aus der Verwaltung.

Histogramm

Nachteil des Histogramms ist, dass bei Wahl der falschen Klassengrenzen die Interpretation erschwert wird und wenn man mehre Gruppen vergleichen will stößt man sehr schnell an die Grenzen des Histogramms.
Eine Andere sehr gute Möglichkeit ist es die ECDF (Summenhäufigkeit) als Liniendiagramm darzustellen. (Oft wird auch der Begriff CDF (cumulative distribution function) oder kumulative Verteilungsfunktion verwendet). Im Prinzip ist die Summenhäufigkeit eine einfache Angelegenheit. Man summiert einfach alle Werte auf zeichnet sie in ein Diagramm und kann sofort alle Werte ablesen.

ECDF

Das Diagramm ist von links nach rechts zu lesen alles was rechts liegt ist besser. Die Erste Linie startet bei den Mitarbeitern aus der Verwaltung uns steigt bis ca. 15% an. Das heißt 15% der Mitarbeiter aus der Verwaltung geben an sehr schlecht. Ein bisschen weiter rechte kommt der nächste Knick die Werte steigen bis 40%. Das heißt 40% geht es mindestens schlecht und so weiter. Die grüne Linie stellt sie Produktion dar, hier zeigt sich das es allen Mitarbeitern gut geht einigen sogar sehr gut.
Interpretation: in der Verwaltung gibt es große Probleme 40% der Mitarbeiter sind unzufrieden. Der Produktion geht es trotz schlechterem Arbeitsplatz gut, die Mitarbeiter sind zufriedener.
Ich will mit dem Beispiel nicht sagen, dass es prinzipiell falsch ist einen Mittelwert zu berechnen, ein Mittelwertdiagramm eignet sich hervorragend um einen schnellen Überblick zu gewinnen. Um Strukturen in einem Datensatz zu erkennen muss der Datensatz tiefer greifend analysiert werden und da reichen bunte Folien mit Balken nicht aus. (Die Daten zu dem Beispiel stammen aus einer realen Umfrage nur die Labels und Fragen habe ich geändert. Die Grafiken habe ich mit der freieren Statistik-Software R erstellt.)

Tagged with:
 

Marktforschungs- Wiki

Seit kurzem gibt es ein interessantes Marktforschungs-Wiki. Das Wiki beschäftigt sich mit Marktforschung und Datenanalyse. Das Projekt ist derzeit im Aufbau begriffen, es existieren bereits mehr als 80 Artikel die Themen reichen von “Alternativhypothese” bis “zweifaktorielle Varianzanalyse”. Gründer und Administrator des offenen Wiki ist Christian Reinboth ein freiberuflicher Berater für Markt- und Meinungsforschung. Mein erster Eindruck von der Seite ist sehr positiv, angenehm auch das auf die Umsetzung mit SPSS eingegangen wird.

Tagged with:
 

Kreuztabellen mit Excel

Kreuztabellen und Kontingenzanalyse sind eine sehr häufige Methoden um nominal skalierte Variablen zu untersuchen. Typische Beispiele sind Zusammenhänge zwischen Einkommen, Beruf, Geschlecht, usw. Mit MS- Excel lassen sich solche Zusammenhänge am einfachsten mit Pivot-Tabellen untersuchen und tabellarisch und grafisch darstellen.
Pivot-Tabellen scheinen, wenn man noch nie mit ihnen gearbeitet hat, auf den ersten Blick etwas kompliziert zu sein, sind aber nach kurzer “Eingewöhnungszeit” recht praktisch.

Als fiktives Beispiel untersuche ich hier den Zusammenhang: Haben Manager ein höheres Herzinfarktrisiko als Hilfsarbeiter.

Als erstes braucht man eine Urliste mit den Daten man kann dabei die Merkmale Ausschreiben oder als Zahlen Kodieren.

Urliste Pivot Assistent Pivot

Um die Pivot-Tabelle zu erstellen genügt es den Cursor (Mauszeiger) in die Datenzeile zu bringen und über Daten -> Pivot Tabellen die Funktion Aufzurufen und sofort auf Fertig stellen klicken.
Danach brauch man die entsprechenden Felder nur mehr mit der Maus in die Bereiche Datenfelder, Spaltenfelder,und Zielfelder zu ziehen. Das geht nach einigen probieren recht intuitiv selbst wenn es am Anfang nicht so ausschauen sollte. Eine ausführliche Beschreibung mit vielen Screenshots findet man unter Pivot-Tabellen in Excel (hrz.uni-dortmund.de).

Update leider funktioniert dieser Link nicht mehr hier ein alternativer Link.

Pivot Tabelle

Weiterführende Links
www.faes.de: tiefer gehende Einführung in Kreuz- oder Kontingenztabelle mit Beispielen in Open Office und MS Excel
www.hrz.uni-dortmund.de Pivot Tabellen

Tagged with:
 

Methodenbaukasten

Im Rahmen des Projekts MethodenBaukasten werden Video- und Audiovorträge zu verschiedenen sozial- und wirtschaftswissenschaftlicher Fachbereiche zur Verfügung gestellten. Die Inhalte dürfen zu Lehrzwecken frei genutzt werden.
Beispiele: Online-Befragungen (Univ.-Prof. Dr. Bernad Batinic), Bivariate Zusammenhänge (Dr. Markus Appel)

Johannes Kepler Universität Linz elearning.jku.at

 

Semantisches Differential

Bei dem semantischen Differential oder Profildiagramm handelt es sich um eine mehrdimensionale Methode, bei der emotionale Reaktionen auf Assoziationen erhoben werden.
Die Assoziationsstärke wird dabei mit einer Ratingsskala verknüpft. Ein semantisches Differential (Polaritätsprofils) ist im Grunde eine eine zweipolige Ratingskala (bipolare Ratingskala).

semantisches Differential
Die Methode ist weit verbreitetet in der Image- und Stereotypenforschung. Die Auswertung erfolgt meist nur mit graphischen Methoden, wobei üblicherweise die am positivsten ausgeprägten Merkmale links stehen. In den Graphen können mehrere Linien eingetragen werden wie zB. unterschiedliche Gruppen. Die Graphen in Excel zu erstellen ist gar nicht so trivial, meine Methode ist ein XY Chart zu Erstellen und die Achsenbeschriftung als unsichtbare Linien zu realisieren.
Eine Anleitung für die Achsenbeschriftungen kann man bei Vertical Category Axis finden. Hilfreich ist auch das Add-Ins XY Chart Labeler mit dem man komfortabel seine Labels erstellen kann.

Statistisch wird ein Semantisches Differential mit Hilfe von Korrelationsrechnungen bestimmt. Die jeweiligen Dimensionen lassen sich mit einer Faktorenanalyse untersuchen (Vergl. Borz, Döring S.185).

Literatur: Bortz J, Döring N; Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler; Springer; 2006
Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler

Eigenschaftsprofil