Data manipulation with dplyr

Das Tutorial Data manipulation with dplyr mit Hadley Wickham
ist auf der UseR! 2015 in Aalborg für mich das erste Highlight.

Tutorial UseR! 2015 in Aalborg Dänemark

Tutorial UseR! 2015 in Aalborg Dänemark

Ich denke, da werden gerade mit den Keynotes noch einige weitere Highlights folgen. Neben sehr netten Leuten, mit denen ich mich schon unterhalten konnte, ist auch das Wetter sehr schön hier in Dänemark.

Tagged with:
 

R-Conference 2015

Ich freue mich schon auf die R-Konferenz in Aalborg Ende Juni.
Am 30. Juni startet die diesjährige R-Konferenz in Aalborg mit den Tutorials, wo ich auch teilnehmen werde.

Aalborg.

Bis 3 Juli findet die Konferenz statt, bei der ich dieses mal dabei sein kann.
Die Reise ist gebucht und ich freue mich darauf viele tolle neue Inputs zu bekommen und nette Menschen kennen zu lernen bzw. wieder zu treffen.

Tagged with:
 

30% der Ergebnisse in Studien sind falsch

Der Signifikanztest ist die wahrscheinlich am häufigsten benutzte statistische Prozedur in wissenschaftlichen Arbeiten. Aber es gibt immer wieder kritische Stimmen die mahnen, dass 30% der Ergebnisse in Studien auf Grund der falschen Interpretation von p-Werten falsch sind[1].

Die Zeitschrift Basic and Applied Social Psychology Academic journal bans p-value significance test you will be wrong at least 30% of the time

So sind 30% der Ergebnisse in Studien sind falsch, daher ist eine richtige Interpretation dieser p-Werte sehr wichtig.

Literatur:
[1] Colquhoun, David, An investigation of the false discovery rate and the misinterpretation of p-values 2014/11/19, Royal Society Open Science

 

Neues frisches Statistikprogramm

JASP, a low fat alternative to SPSS, a delicious alternative to R.

JASP ist eine neue Statistiksoftware, die als Alternative zu SPSS verwendet werden kann.
Diese Software ist frei und Open Source. Einige Tests sind schon verwendbar, durch die ständige Weiterentwicklung werden neue Tests implementiert.
Die Oberfläche und das ganze Programm sind schöner und aufgeräumter als SPSS.

Die Funktionsweise der JASP Version 0.4 A ist im Video anschaulich dargestellt.

 

Revolution Analytics von Microsoft aufgekauft

Revolution Analytics programmieren Enterprise Lösungen für R, die für Data Mining in großen Unternehmen oder im akademischen Bereich angewendet werden.

Es ist beachtlich, dass Microsoft in diese Firma einsteigt, die sehr viel mit Open Source macht. Es berichtet Joseph Sirosh in the Official Microsoft Blog darüber. Revolution Analytics hat jetzt einen großen Partner der nicht so bekannt ist für die Open Source Programme. Microsoft arbeitet eher im Hintergrund mit Open Source und es ein Indiz darauf, dass Microsoft sein Geschäftsmodell umstellt.

Revolution_Analytics
Quelle: http://www.revolutionanalytics.com/

Ich bin gespannt, welche Veränderungen durch so einen großen Partner auf Revolution Analytics und in weiterer Folge auf die Software R zukommen.

Link: Revolution Analytics

 

Was ist Signifikanz?

In der Zeit.de habe ich einen kleinen Artikel gefunden der recht anschlich erklärt was es mit dem Begriff statistisch Signifikant auf sich hat.
Link: http://www.zeit.de/2014/01/statisitk-wissenschaft-signifikanz

 

Bevölkerungsentwicklung von Österreich

Bei dieser interaktiven Karte der Statistik Austria wird sehr schön die Prognose der Bevölkerungsveränderung von Österreich bis 2050 visualisiert. Durch schöne Visualisierungen werden rasch die Veränderungen offensichtlich.

Mit diesem Link ist eine Vollansicht möglich.

Unter dem Reiter “Karten” sind weitere Themen zu finden.

Via Blog Christoph Chorherr der sich mit den damit verbundenen Herausforderungen und Möglichkeiten beschäftigt.

 

Online Datenquellen aufbereiten

In der Computer -Zeitschrift c’t vom 13-02-2012 habe ich einen Artikel zu einem interessanten Tool Google Refine entdeckt. Mit Google Refine soll es möglich sein große Datensätze aus dem Internet zu sortieren und aufzubereiten.

 

Lineare Regression

Die Bezeichnung Regression stammte historisch gesehen von Francis Galton, er untersuchte den Zusammenhang der Körpergröße von Eltern und Kindern (Regression to the Mean). Ziel der Regressionsanalyse ist eine funktionale Beziehung zwischen zwei Größen zu finden.[1] Mathematisch lässt sich das folgend formulieren Y = a + b*X + e, dabei ist X die unabhängige und Y die abhängige Variable und e der statistische Fehler. Gesucht wird, die “Formel” der Gerade, die in der graphischen Darstellung durch den Mittelwert verläuft. Die Regression ist quasi die Erweiterung der Korrelationsanalyse die ja die Stärke des Zusammenhangs ermittelt.
Die Berechnung kann mit allen gängigen Statistik-Programmen durchführt werden. Auf der Seite der University of Basel (Department of Chemistry) findet sich sogar ein sehr schöner Onlinerechner für Regressionen von Hanspeter Huber. Dort findet man, gut aufbereitet die wichtigsten Formel für die Berechnung.

Die Fortsetzung mit kleinen Beispielen folgt…

[1] Sachs, Lothar; und Jürgen Hedderich; A ngewandte Statistik : Methodensammlung mit R; Berlin : Springer Berlin, 2009 Angewandte Statistik: Methodensammlung mit R Seite 109
[2]Data Analysis Using Regression and Multilevel/Hierarchical Models; Cambridge;2009; Gelman, Hill

Tagged with:
 

Daten für den Journalisten…

und natürlich dadurch Information für die Leser so beschreibt es ein sehr interessanter Artikel in der Zeit: “Daten sind der Treibstoff des Journalismus”. Seit kurzer Zeit werden von Qualitätsmedien immer mehr Datenbanken angelegt, die zu aktuellen Ereignissen Hintergrunddaten liefern. Journalisten sollten nicht nur Geschichten schreiben sondern auch einen Datenjournalismus betreiben.

Nach Adrian Holovatys Meinung

sollten sich Zeitungen und andere Medien nicht nur auf Geschichten konzentrieren. Sie sollten viel mehr Informationen unter dem Aspekt betrachten, wie ihr Inhalt sich in strukturierter Form, also in Datenbanken, ablegen lässt. Dann, so Holovaty, könnte aus Geschichten auf Dauer ein Mehrwert abgeschöpft werden.

Ein Beispiel von Datenvisualisierung und Bereitstellung der The New York Times R&D Lab has built a tool that explores the life stories take in the social space.
Die aktuelle Technik ermöglicht sehr schöne Visualisierungen mit dynamischen dargestellten Zeitläufen.

Ein Screenshot aus der Visualisierung von Daten http://www.niemanlab.org/2011/04/the-new-york-times-rd-lab-has-built-a-tool-that-explores-the-life-stories-take-in-the-social-space/

Hier kommt auch es aber sowohl auf die Qualität der Aufbereitung an, denn mitunter ist viel Chartjunk in den Zeitungen zu finden. Wo in sehr hübschen 3-D Grafiken kaum Information zu finden ist. Den Begriff Chartjunk bedeutet “Grafikmüll” oder “Diagrammschmutz” und wurde von Edward R. Tufte geprägt. Er beschäftigt sich schon seit langen mit der Visualisierung von Daten.