Spreadsheet und Gapminder

Googles Tabellenkalkulation entwickelt sich langsam zu einer interessanten Alternative zu OpenOffice und Excel. Es gibt eine neue API die es erlaubt ansprechende Grafiken zu erstellen. Augenscheinlich arbeitet Google dabei mit Gapminder zusammen. Es lassen sich die sehr guten Visualisierungen von Gapminder erstellen.

Google und Gapminder

Tagged with:
 

Suchmaschine für Daten

Vor ein paar Tagen habe ich eine sehr interessante Suchmaschine für Daten gefunden. GraphWise ist war die erste Suchmaschine im Netz die nur nach Tabellen sucht und aus diesen Tabellen einfache Grafiken erstellt. Derzeit ist die Seite im Beta-Stadium und seit 8. Oktober online offline.
graphwise

Die Suche gestaltet sich sehr einfach (nur deutsche Umlaute funktionieren nicht). Gibt man zum Beispiel den Begriff Tryptophan ein (ein Aminosäure) so bekommt man die entsprechenden Tabellen geliefert. Aus den Daten lassen sich Balkendiagramme, Tortendiagramme sowie Bubble-Diagramm erstellen.
Hoffe Die Seite geht irgendwann wieder online.

Gefunden via: Tasty Data Goodies

Tagged with:
 

Wie man unsinnige Korrelation herstellt

Auf ORF Science gibt es einen kleinen Artikel von Thomas Benesch zum Thema “Anleitung zum statistischen Lügen“. Das Thema ist zwar nicht ganz neu und der Artikel sehr kurz, doch die Grafik im Artikel beschreibt sehr anschaulich, wie einfach sich Korrelationen verzerren lassen.

Tagged with:
 

Ebay Grafik

Es gibt eine ganz aktuelle Ebay-Deutschlandkarte über das Kaufen und Verkaufen bei Ebay in Deutschland. Die Onlinezeitung “die Welt” verpasste dem Beitrag dazu den plakativen Titel ” Ebay spaltet Deutschland, Ossis bleiben draußen”. Aus der Karte leitet die Welt.de ab, dass Ebay Deutschland spaltet.

Meiner Meinung nach ist es nicht möglich eine Spaltung aus der Grafik herauszulesen. Wird die Grafik von Ebay mit der Grafik mit der Bevölkerungsdichte gegenübergestellt, dann liegt mein Verdacht nahe, dass sich die Daten der Ebaynutzer mit den Daten der Bevölkerungsdichte korrelieren. Typisch Medien, könnte man sagen, Hauptsache ein provokanter Titel und eine Statistik die alles belegt. Ansonsten finde ich den Artikel sehr interessant und lesenswert.
Der Artikel deutet auch an, dass die unterschiedliche Ebaynutzung etwas mit der Verbindungsgeschwindigkeit zu tun hat.

Aus österreichischer Sicht merke ich, dass es anscheinend nicht so einfach ist, einen schnellen Internetzugang in Deutschland zu bekommen. Auch Österreich ist internetmäßig noch nicht so gut entwickelt, wie das Schwellenland Südkorea.

Für viel freie Zeit wäre zu diesen Themen eine umfangreiche Analyse spannend.
Ebay Grafik
Quelle:www.welt.de

Altersverteilung in Deutschland
Quelle: de.wikipedia.org/

Gefunden via: Basic Thinking
Artikel in der Welt.de
Zur Internetnutzung Deutschlands gibt es Zahlen und Grafiken im (N)ONLINER Atlas.

Tagged with:
 

Interpretation von Mittelwerten

Mittelwerte sind eine beliebte Darstellungsart bei Mitarbeiterbefragungen und Evaluationen. In einem fiktiven Beispiel möchte ich etwas näher drauf eingehen.
Folgende Situation: In einem kleinem Betrieb, mit 16 Angestellten, der Medizinprodukte herstellt, wurde eine Mitarbeiterbefragung mittels Onlinfragebogen durchgeführt. Die Daten wurden statistisch ausgewertet. Im folgendem sind die Ergebnisse dargelegt.

Arbeitszufriedenheit

Im Diagramm sind die Mittelwerte der einzelnen Zufriedenheitsskalen im Vergleich der zwei Abteilungen “Produktion” und “Verwaltung” dargestellt. Die Werte sind so codiert, je höher der Skalenwert, desto größer die Zufriedenheit.
Die Mittelwerte der Skalen „Zufriedenheit” setzt sich aus den “Bedingungen des Arbeitsplatzes“ , der Bewertung des “Vorgesetzter”, die Zufriedenheit mit der “Arbeit” und der Bewertung der “zwischenmenschlichen Beziehung zu den Kollegen” zusammen.
Der Mittelwert der Skala „Zufriedenheit mit der Arbeitssituation“ Zeigt bei den Mitarbeitern in der Verwaltung einen höherem Mittelwert m=2,11 als die Mitarbeiter aus der Produktion m=2,03. Aus dem vorliegenden Ergebnis kann geschlossen werden, dass in Beiden Abteilungen die Zufriedenheit mit der Arbeitssituation mit “gut” bewertet wird. (Ein Wert von 2 entspricht einer Bewertung mit gut.) In der Produktion werden aber die Bedingungen am Arbeitsplatzes sehr negativ bewertet m=3,78 was einer Bewertung mit “eher schlecht” entspricht.
Fazit: Dem Betrieb geht es gut einzig in der Produktion sollte die Arbeitsplatzsizuation verbessert werden.
Einen Schönheitsfehler hat die Interpretation das Ergebnis ist komplett falsch!!!

Wenn man schon Mittelwerte betrachten will, dann wenigstens einen Boxplot. Der ist zwar in dem Beispiel auch falsch aber im Plot ist wenigstens deutlich ersichtlich, dass die Werte bei den Mitarbeitern aus der Verwaltung stark streuen.

Arbeit Boxplot

Eine andere genauere Möglichkeit der Darstellung, ist die Verteilung mittels Histogramm zu beschreiben. Durch eine geeignete Wahl der Klassengrenzen lassen sich gut die Unterschiede hervorheben. Die zwei Gruppen in meinem Beispiel sind gut zu vergleichen, man erkennt recht gut die “Lücke” bei den Mitarbeitern aus der Verwaltung.

Histogramm

Nachteil des Histogramms ist, dass bei Wahl der falschen Klassengrenzen die Interpretation erschwert wird und wenn man mehre Gruppen vergleichen will stößt man sehr schnell an die Grenzen des Histogramms.
Eine Andere sehr gute Möglichkeit ist es die ECDF (Summenhäufigkeit) als Liniendiagramm darzustellen. (Oft wird auch der Begriff CDF (cumulative distribution function) oder kumulative Verteilungsfunktion verwendet). Im Prinzip ist die Summenhäufigkeit eine einfache Angelegenheit. Man summiert einfach alle Werte auf zeichnet sie in ein Diagramm und kann sofort alle Werte ablesen.

ECDF

Das Diagramm ist von links nach rechts zu lesen alles was rechts liegt ist besser. Die Erste Linie startet bei den Mitarbeitern aus der Verwaltung uns steigt bis ca. 15% an. Das heißt 15% der Mitarbeiter aus der Verwaltung geben an sehr schlecht. Ein bisschen weiter rechte kommt der nächste Knick die Werte steigen bis 40%. Das heißt 40% geht es mindestens schlecht und so weiter. Die grüne Linie stellt sie Produktion dar, hier zeigt sich das es allen Mitarbeitern gut geht einigen sogar sehr gut.
Interpretation: in der Verwaltung gibt es große Probleme 40% der Mitarbeiter sind unzufrieden. Der Produktion geht es trotz schlechterem Arbeitsplatz gut, die Mitarbeiter sind zufriedener.
Ich will mit dem Beispiel nicht sagen, dass es prinzipiell falsch ist einen Mittelwert zu berechnen, ein Mittelwertdiagramm eignet sich hervorragend um einen schnellen Überblick zu gewinnen. Um Strukturen in einem Datensatz zu erkennen muss der Datensatz tiefer greifend analysiert werden und da reichen bunte Folien mit Balken nicht aus. (Die Daten zu dem Beispiel stammen aus einer realen Umfrage nur die Labels und Fragen habe ich geändert. Die Grafiken habe ich mit der freieren Statistik-Software R erstellt.)

Tagged with:
 

Sparklines

Ein Bild sagt mehr als tausend Worte so ein bekanntes Sprichwort; ein kleines Bild sagt oft mehr als eine großes Bild. Sparklines (Wortgrafiken) erklären Zahlen in Form von kleiner Grafiken im Textfluss.
Sparklines Line Chart
Mit Ms-Excel oder OpenOffice Calc lassen sich solche Grafiken mit der Funktion =WIEDERHOLEN() auf einfacher Art erstellen. Dabei werden zwei Parameter übergeben: das zu wiederholende Zeichen hier ein senkrechter Strich („|“) und die Anzahl der Wiederholungen hier der Zellenbezug.
Sparklines
Eine genauere Beschreibung gibt es in dem Artikel Excel in-cell graphing von Chris Gemignani, dort findet sich auch ein Excel- Dokument zum Downloaden und ausprobieren.
Nicht mehr so ganz trivial ist es Sparklines im Text eines Dokumentes zu platzieren. Es gibt einige kommerzielle Produkte eines davon ist von Bissantz & Company GmbH. Das Programm findet man hier und kann 30 Tage evaluiert werden. Das Programm ist sehr einfach zu bedienen und die erzeugten Grafiken erfüllen ihren Zweck, Information kompakt und hochauflösend darzustellen. Einziger Nachteil des Programms ist, dass man zum Installieren Administratorrechte braucht und die gebe ich nicht so gerne her. Ohne Installation läuft das Makro von Yawar Amin. Es ist einfacher gestrickt und es erlaubt die Ausgabe von Linien und Balken Sparklines. Das Makro kann man sich bei Yawar’s Page downloaden. Das Makro ist für Linien Charts hinreichend geeignet, wird auch andere Charts benötigt, muss zu einem der kommerziellen Produkten gegriffen werden.

Ein anderer Weg Sparklines zu erzeugen ist die Verwendung eines Online Sparkline Generator wie BitWorking. Das Online Tool lässt sich einfach bedienen. Die Daten werden in das entsprechende Feld kopiert, Farben und Größe der Grafik lässt sich einfach einstellen. Zur Auswahl stehen 3 Typen von Grafiken Linien, und Balken. Die erzeugte Grafik lässt sich anschließend als Bild ins Dokument einfügen und schaut so aus Sparklines . Im Hintergrund werkt eine Python Library die frei zugänglich ist.
Sparklines Generator
Quelle: http://bitworking.org

Tagged with:
 

Visualisierung von statistischen Daten

Was Gapminder ist, erklärt Hans Rosling im Video am besten selber. Das Video dauert knapp 20min und dort beschreibt er mit viel Einsatz seine Idee von der Visualisierung von Daten.
Hans Rosling
Link zum Video

Eine faszinierende Präsentation von statistischen Daten mit der Darstellung mehreren Dimensionen gleichzeitig. Es können drei Skalen auf einer Zeitachse miteinander kombiniert werden z.B. Kindersterblichkeit, Einkommen und Militärbudget und als vierte Dimension Länder und Regionen und das ganze über eine Zeitachse dargestellt.
Die Präsentation kann selbst nachgearbeitet werden, dabei können einzelne Länder und Themen ausgewählt werden und die Entwicklung über die Zeitachse nachvollzogen werden.

Gapminder World
Gapminder World, 2006

Bei den Daten handelt es sich um öffentliche statistische Daten der entsprechenden Ländern bzw. der UNO, welche die Bevölkerungs- und Wirtschaftsentwicklung der einzelnen Staaten beinhalten.

Link: [www.gapminder.org]

Tagged with:
 

Bessere Grafiken

Mike Dickison beschreibt in seinem Blog Pictures of Numbers wie man Grafiken verständlicher gestalten kann.
Seine Ratschläge sind:
Die Achsen sind in der Form zu beschriften, dass nach Möglichkeit alle Information beim Graphen stehen. Zur bessern Lesbarkeit soll die Beschriftung, im Falle vertikalen Achsen, so gedreht werden, dass der Leser sie ohne Verrenkungen lesen kann. Vermeiden soll man in jedem Fall logarithmische Einheiten, weil diese Einheiten für den Leser sehr schwer zu interpretieren sind.

Bei nicht dezimalen Einheiten wie zum Beispiel Winkel, soll nicht auf dezimale Einheiten umgerechnet werden. Auch bei Datum und Monatsangaben soll auf eine dezimale Darstellung verzichtet werden.

Bessere Grafiken
Quelle: Better Axes www.giantflightlessbirds.com/numberpix/2006/06/better_axes.html

Werbung

Tagged with: