Am 28. September 2010 ist es zu spät. Um 10:30 Uhr bietet SPSS ein “Webinar” (ein Seminar, das über das World Wide Web gehalten wird) zu den Neuerungen in IBM SPSS Statistics 19 an. Die Anmeldung ist kostenlos Informationen dazu gibt es auf der deutschen Homepage von SPSS.
Viele Studienansätze liefern wiederholte Messungen eines bestimmten Merkmals an verschiedenen Zeitpunkten. Die Auswertung und Berechnung mit SPSS gelingt einem meist irgendwie, aber spätestens der Output wird für erstmalige SPSS- Anwender kaum zu deuten sein (vgl. Bühl, S 409). Hier gibt es “Multivariate Tests”, “Test der Innersubjekteffekte”, “Tests der Zwischensubjekteffekte” usw. und überall gibt es signifikante Werte.
Um all die Tabellen zu deuten bedarf es eines statistischen Hintergrundwissens daher beschreibe ich hier ein fiktives Beispiel für eine Datenreihe mit Messwiederholung.
Die Messwerte sind die Beobachtung von zwei Patienten-Gruppen Kontrollgruppe und Untersuchungsgruppe. Bei den Patienten handelt es sich um Intensivpatienten, beim Messwert um die Restmenge an Mageninhalt der über die Zeit beobachtet wird.
Bei der Betrachtung von Messwiederholungen sind zwei wesentliche Eigenschaften von Interesse der Gipfelwert und das Wachstum. In der Abbildung wird deutlich, dass die Patientengruppe mit der Therapie einen andern Verlauf in der Restmenge aufweist als die Kontrollgruppe. Start und Endwert sind nicht sehr unterschiedlich, das Maximum ist deutlich unterschiedlich und bei der Kontrollgruppe zeigt sich ein deutlich ausgeprägter Gipfelwert.
Auswerten mit Excel
Der Verlauf eines Gipfelwerts lässt sich bereits mit MS-Excel auswerten. Mit den Bordmitteln von Excel lassen sich Minimum, Maximum, Regressionskoefizienten und AUC (Fläche unter der Kurve) berechnen und mit einem T-Test auf Signifikanz prüfen. Den T-Test gibt es bei Excel über die Analysefunktionen. Das Excel Beispiel dazu habe ich hier. (Die zugrunde liegenden Formeln finden sich bei Sachs 2009 Seite 545).
Aus den vorliegenden Ergebnisse lässt sich ableiten: Der Startwert unterscheidet sich nicht signifikant. Der Maximalwert(p=0,007) und die Fläche (p0,032) unter der Kurve sind signifikant verschieden. Zum Zeitpunkt der letzten Messung kann aus den Daten kein Unterschied belegt werden.
Tab1: Wiederholte Messung in zwei Gruppen (Untersuchungsgruppe mit Therapie Kontrollgruppe ohne Therapie) zu 5 verschiedenen Zeitpunkten angegeben. In der Tabelle sind Mittelwerte, T-Wert und Signifikanz. Auswertung mit MS- Excel
| Therapie Ja | Therapie Nein | T-Wert | p-Wert | |
| Max | 569 | 843 | -2,88 | 0,007 |
| AUC | 1451 | 1897 | -2,22 | 0,032 |
| REGR | -62 | -30 | -1,22 | 0,230 |
| Startwert | 446 | 547 | -1,11 | 0,273 |
| Endwert | 199 | 293 | -1,56 | 0,125 |
Als erste Betrachtung ist diese Auswertung mit Excel durchaus hinreichend für weitergehende Analysen ist es notwendig sich genauer Gedanken über Verteilung der Daten und der zugrunde liegenden Hypothesen zu machen.
Auswerten mit SPSS
Der traditionelle Ansatz für die Analyse von Messwiederholungen ist die Varianzanalyse (ANOVA) die drei spezielle Fragestellungen prüft: die Wechselwirkung zwischen den Gruppen und der Zeit, der Effekt durch den Studienfaktor und der Effekt durch die Wiederholung (Zeit). Mit MS-Excel ist eine solche Auswertung schon recht aufwändig, daher ist es besser mit einer Statistik-Software weiterzuarbeiten.
Wichtige Voraussetzung ist, das die Messwerte angenähert der Normalverteilung entsprechen und das die so genannte Sphärizität gegeben ist (Sphärizität bedeutet das die Differenzen zwischen den Faktorstufen gleich sind). Weiter muss man sich Gedanken über das zugrunde liegende Modell machen (Modell I für feste Effekte, Modell II für zufällige Effekte oder Modell III für gemischte Effekte). Wenn die Daten mit SPSS ausgewertet werden, braucht man sich scheinbar um die zugrunde liegenden Modelle und Voraussetzungen keine Gedanken zu machen. Da SPSS standardmäßig alles berechnet was eventuell von Nutzen sein könnte und es dem kundigen Nutzer überlässt die relevanten Zahlen zu finden.
Zunächst wird eine Berechnung zum Faktor Zeit und zu den Wechselwirkungen ausgegeben (Multivariate Tests – Methode des allgemeinen linearen Modells) dabei gilt die “Pillai-Spur” als robustester Test. Es wird ein höchst signifikanter Einfluss der Zeit Festgestellt, die Wechselwirkung mit der Zeit ist hingegen nicht signifikant (Zeit p<0,0001 Zeit:Therapie p=0,385). Es folgt der Mauchly-Test auf Sphärizität, er prüft ob die Voraussetzung der Sphärizität gegeben sind. In unserem Beispiel ist der Wert Signifikant (p<0,0001) das bedeutet die Voraussetzung ist nicht gegeben. Daher werden die Ergebnisse in der Tabelle “Tests der Innersubjekteffekte” (Methode nach Fischer) die Zeile “Greenhouse-Geisser” entnommen. Es ergeben sich ähnliche Ergebnisse wie bei der “Pillai-Spur” (Zeit p<0,0001 Zeit:Therapie p=0,263). Es folgt die Berechnung der Nicht-Messwiederholungsfaktoren (Tests der Zwischensubjekteffekte). Es ergibt sich ein nicht signifikanter Einfluss der Therapie (p=0,073). (Vergl. Bühl 2005)
Tab2: Multivariate Tests
| Effekt | Wert | F | Hypothese df | Fehler df | Signifikanz | |
| Zeit | Pillai-Spur | 0,411 | 7,3 | 4 | 42 | 0,000 |
| Wilks-Lambda | 0,589 | 7,3 | 4 | 42 | 0,000 | |
| Hotelling-Spur | 0,699 | 7,3 | 4 | 42 | 0,000 | |
| Größte char Wurzel nach Roy | 0,699 | 7,3 | 4 | 42 | 0,000 | |
| Zeit* Therapie | Pillai-Spur | 0,092 | 1,1 | 4 | 42 | 0,385 |
| Wilks-Lambda | 0,908 | 1,1 | 4 | 42 | 0,385 | |
| Hotelling-Spur | 0,102 | 1,1 | 4 | 42 | 0,385 | |
| Größte char Wurzel nach Roy | 0,102 | 1,1 | 4 | 42 | 0,385 |
Tab3: Mauchly-Test auf Sphärizität prüft ob die Voraussetzung der Sphärizität gegeben ist.
| Innersubjekteffekt | Mauchly-W | Chi-Quadrat | df | Signifikanz |
| ZEIT | 0,298 | 53 | 9 | 0,000 |
Tab4: Tests der Innersubjekteffekte
| Quelle | Quadratsumme vom Typ II | df | Mittel der Quadrate | F | Signifikanz | |
| Zeit | Sphärizität angenommen | 2526380 | 4,0 | 631595 | 7,9 | 0,000 |
| Greenhouse-Geisser | 2526380 | 3,1 | 825275 | 7,9 | 0,000 | |
| Huynh-Feldt | 2526380 | 3,4 | 746785 | 7,9 | 0,000 | |
| Untergrenze | 2526380 | 1,0 | 2526380 | 7,9 | 0,007 | |
| Zeit* Therapie | Sphärizität angenommen | 426332 | 4,0 | 106583 | 1,3 | 0,256 |
| Greenhouse-Geisser | 426332 | 3,1 | 139267 | 1,3 | 0,263 | |
| Huynh-Feldt | 426332 | 3,4 | 126022 | 1,3 | 0,261 | |
| Untergrenze | 426332 | 1,0 | 426332 | 1,3 | 0,253 | |
| Fehler(Zeit) | Sphärizität angenommen | 14306507 | 180,0 | 79481 | ||
| Greenhouse-Geisser | 14306507 | 137,8 | 103854 | |||
| Huynh-Feldt | 14306507 | 152,2 | 93976 | |||
| Untergrenze | 14306507 | 45,0 | 317922 |
Tab5: Tests der Zwischensubjekteffekte
| Quelle | Quadratsumme vom Typ II | df | Mittel der Quadrate | F | Signifikanz |
| Intercept | 38701552 | 1 | 38701552 | 263,6 | 0,000 |
| Therapie | 493543 | 1 | 493543 | 3,4 | 0,073 |
| Fehler | 6607055 | 45 | 146823 |
Auswerten mit R
Wenn die Auswertung mit R berechnet wird, schaut das Ergebnis kompakter und übersichtlicher aus. Allerdings muss man sich “vorher” Gedanken machen, welche Zusammenhänge wichtig sind. Eine gute Anleitung dazu gibt es hier R and Analysis of Variance und hier Katholieke Universiteit Leuven, weiterführende Aspekte (Post-Hoc Tests) beschreibt Paul Gribble in seinem Blogbeitrag Repeated Measures ANOVA using R.
Ich habe den traditionellen Ansatz mit einem F-Test gewählt den R-Code dazu gibt es hier zum Ausprobieren dabei habe ich mich weitgehend an Sachs 2009 Seite 547 angelehnt. Die Berechnungen sind identisch mit denen von SPSS da die gleichen Rechenschritte zugrunde liegen, der Einfluss der Zeit ist signifikant (p<0,0001) die Wechselwirkung hingegen ist nicht signifikant (p=0,257) und er Einfluss der Therapie ist nicht Signifikant (p=0,073).
Tab 6: Auswertung mit R aov(formula = Messwert ~ Therapie * Zeit + Error(Proband))
| Error: Proband | |||||
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
| Therapie | 1 | 493543 | 493543 | 3,36 | 0,073 |
| Residuals | 45 | 6607055 | 146823 | ||
Tab7: Zwischensubjekteffekte
| Error: Within | |||||
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
| Zeit | 4 | 2526380 | 631595 | 7,95 | 0,000 |
| Therapie:Zeit | 4 | 426332 | 106583 | 1,34 | 0,257 |
| Residuals | 180 | 14306507 | 79481 |
Interpretation der Ergebnisse
Die Interpretation der Ergebnisse geht von der Hypothese aus: “Es besteht keine Wechselwirkung zwischen Therapie (Studienfaktor) und der Zeit. Laut den Ergebnissen der Varianzanalyse besteht keine Wechselwirkung mit der Therapie. Im Profildiagramm (Abb. 1) und in der Berechnung der Maximalwerte und der Fläche unter der Kurve (AUC, area under curve) zeichnet sich aber ein messbarer Effekt der Therapie ab. Die Daten im Beispiel zeigen deutlich das manchmal einfachere Methoden besser geeignet sind Daten zu beschreiben.
Wenn in Bezug auf die Auswertung von Messwiederholungen Fragen offen sind, können Sie sich gerne an mich wenden hier der Link zum Kontaktformular.
Literatur:
[1] Sachs, Lothar ;und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R
[2] Bühl, Achim und Peter Zöfel; SPSS 12. Einführung in die moderne Datenanalyse unter Windows. 9. Auflage. München u.a., Pearson Studium, 2005 SPSS 18 (ehemals PASW): Einführung in die moderne Datenanalyse
[3] Everitt, Brian and Hothorn Torsten; A Handbbook of Statistical Analyses Using R,Chapman & Hall; 2006 (Chapter 10 Analysing Longitudinal Data)
Einer der “wichtigsten” Blogs ist mir doch tatsächlich entgangen der Statistik-Blog. Das Blog behandelt Themen rund um das Produkt SPSS wie neu Versionen oder die Ankündigungen von Workshops.
In der letzten Zeit ist öfter die Frage, nach dem F-Wert und welcher signifikante Wert den der richtige Wert ist, an mich herangetragen worden. Also gleich vorweg, ein F-Wert hat mehr etwas mit Mikrobiologie zu tun als mit Statistik. Es gibt einen F-Test der grob gesagt die Varianzen testet und den Exakter Fisher-Test der wie ein Chi²-Test zu interpretieren ist und eine F-Verteilung … und…und…
Man soll sich bloß nicht verwirren lassen “Exakt” ist ein mathematischer Terminus und bedeutet das Gegenteil von Approximativ, also schon bei kleinen Stichprobengrössen “richtig” (vergl. www.reiter1.com/Glossar). Und Ronald Aylmer Fisher war ein Bedeutender Statistiker der vielen Tests seinen Namen gab.
Der Exakter Fisher-Test wird immer dann verwendet, wenn man eine 2×2 Kreuztabelle vorliegen hat bei der die Beobachtung (Zellenhäufigkeit) sehr gering ist, so als Faustregel wird ein Wert von unter 5 angegeben. (Oder exakter; wenn Erwartungswerte kleiner 5 auftreten.)
Der “Exakte Fisher-Test” liefert uns als Ergebnis eine “bedingte Wahrscheinlichkeit”.
Es können zwei p-Werten errechnet werden. Exakte Signifikanz (1-seitig): Die einseitige Wahrscheinlichkeit wird benutzt, wenn getestet werden soll, ob die Merkmale sich gegenseitig negativ beeinflussen. (Manche Programme berechnen hier zwei Werte einen “Links” und einen “Rechs” ist aber exakt das gleiche wie 1-seitig). Exakte Signifikanz (2-seitig): Der zweiseitige Test ist anzuwenden, wenn eine allgemeine Abhängigkeit nachgewiesen werden soll (vergl. Øyvind Langsrud). In den meisten Fragestellungen ist der 2-seitig anzuwenden, aber es kommt immer auf die Fragestellung an.
Berechnen kann man den Test mit fast allen Statistikprogrammen oder auch Online bei www.matforsk.no. Unter SPSS findet sich der Test unter -> Analysieren -> Deskriptive Statistiken -> Kreuztabellen wenn man die Option Chi² auswählt (Wird nur bei 2×2 Tabellen berechnet).
Mit Gnu R Lässt sich der Exakter Fisher-Test so berechnen:
x <- matrix(c(37,3,45,15),2,2) # Erstellung der Kreuztabelle
dimnames(x) <- list(c("Maenner", "Frauen"), c("Ja", "Nein"))
fisher.test(x) # Ausfuehren des Exakter Fisher-Test
chisq.test(x) # Ausfuehren des Exakter Chi-Quadrat-Test
Weiter Optionen
"two.sided", "greater" or "less".
fisher.test(x, alternative = "two.sided")
Mehr zur Syntax in Gnu R gibt es bei www.maths.lth.se

Durchaus brauchbar ist die Statistiksoftware SSP (Smith’s Statistical Package) Der Funktionsumfang ist zwar im Vergleich zu den Großen wie SPSS oder Gnu-R bescheiden, dafür zeigt das Freeware Programm dort ihre Stärken, wo es darum geht eine Seminararbeit zu schreiben. Auch für ein kleines Unternehmen mit seltenen Bedarf an aufwendigen statistischen Berichten eignet sich dieses Programm.
Die Stärken sind z.B. das einfache Erabeiten eines Chiquadrates aus Tabellen und aus vorgegebenen Parametern können Normalverteilungsdiagrammen erstellt werden, durchaus gut geeignet für Seminararbeiten. (mit großen Programmen ist dies nicht so einfach zu erstellen)

SSP a very user-friendly statistics program.
Der große Nachteil der Software: kein direkter Export in ein MS-Word oder Open Office Dokument ist möglich. Die Tabellen müssen wohl oder übel abgeschrieben und selbst formatiert oder mittels Screenshot könnte ein Bild hergestellt werden. Die Grafiken und Plots lassen sich als Windows-Bitmap exportieren.
