Entries Tagged as ''

Netzwerkanalyse I

Auf der diesjährigen GOR besuchte ich den Workshop “Extraction of Relatoional Datd from Text” von Jana Diesner. Ich hatte im Zuge des Workshops Gelegenheit mich mit dem Thema auseinanderzusetzen. Hier meine Kurzzusammenfassung:
Netzwerkanalyse beschäftigt sich mit den Beziehungen komplexer Systeme zueinander. Dabei kann es sich um soziale Netzwerke und deren Zusammenhänge mit Unternehmensstrukturen oder auch um technische Zusammenhänge wie z.B. die Wirkung von Medikamenten handeln. Eine weiter Anwendung habe ich kürzlich in der Zeitschrift “der Standard” gefunden (Printausgabe, vom Freitag, 28. März 2008). Dabei wurden die Spiele der österreichischen Nationalmannschaft netzwerkanalytisch ausgewertet.

Der klassische Ansatz Texte zu analysieren ist die Content-Analyse. Die Inhalts-Analyse ist eine von einer Hypothese geleitete Methode. Bei der theoriegeleitet ein Kategoriensystem (Codebook) entwickelt wird und Häufigkeiten (händisches auszählen) im Text identifiziert werden, die im Anschluss entweder statistisch oder mittels Graphen dargestellt werden. Der Nachteil dieser sehr verbreiteten Methode ist, dass alles in Handarbeit von Experten des entsprechenden Themengebiets analysiert werden muss, was Zeitaufwendig ist. Es gibt zwar recht gute (teure) Software wie zB ATLAS.ti das auf der Grounded Theory aufbaut trotzdem lassen sich extrem große Textmengen nicht optimal analysieren.
Netzwerkanalyse
Grafik von http://statnetproject.org/
Ein anderer Weg ist softwaretechnisch das Auszählen und Bewerten der Texte zu realisieren. Die Methoden und Theorien hinter der “Software” sind NLP (Natural Language Processing), IE (Informations Extraktion) und Network Analysis of complex Systems.
Im ersten Schritt werden die Daten reduziert, indem Wörter ohne inhaltliche Bedeutung entfernt werden.
Das Zipf’s Law stellt einen indirekten Zusammenhang zwischen Wort-Häufigkeit und Bedeutung des Wortes auf. Also Worte die häufig vorkommen, haben keine Bedeutung, sie können demnach weggelassen werden. Es gibt allerdings keine Theorie die belegt, dass Wörter wie “die”, “aber” die häufig im Text vorkommen, keine Bedeutung besitzen – was die Kritik an der Methode darstellt.

Nächster Schritt zur Reduktion der Daten ist eine Normalisierung der Wörter und das Zurückführen auf den Wortstamm.

Mit einem so aufbereiteten Text können die Häufigkeiten von Wörtern berechnet oder die Term Frequenz (Wichtigkeit von Termen im Dokument) oder die Inverse Document Frequency berechnet werden. Auch lässt sich auf Basis eines reduzierten Datensatzes die Entropy eines Textdokumentes im Kontext zum Gesamtdatensates quantifizieren (Aussagekraft der Textes).

Softwareprodukte sind zum Beispiel die Module sna und network für die Sttistiksoftware R oder das von Jana programmierte Automap weitere findet man auf wikipedia.org Social network analysis software .

Fortsetzung folgt…

Wordpress verschoben

Lange hatte ich schon vor meinen Weblog von der Domain blograum.net nach statistik-peter.at zu verschieben. Es war zudem wieder einmal an der Zeit, um das “verweiste” Blog zu beleben. So habe ich mich heute entschlossen die Arbeit endlich anzupacken.
Die Übersiedelung klappte recht problemlos, einfach alle Files von Server A nach Server B verschieben. Die Daten habe ich von der MySql Datenbank A nach B exportiert.

Etwas Handarbeit musste ich bei den Einträgen in der Datenbank erledigen, weil die URL noch auf das falsche Ziel gerichtet waren.
Hier die nötigen SQL-Anweisungen:

UPDATE wp_options SET
option_value = replace(option_value, 'http://www.alte-domain.at', 'http://www.neue-domain.at')
WHERE option_name = 'home' OR option_name = 'siteurl';

UPDATE wp_posts SET
guid = replace(guid, 'http://www.alte-domain.at','http://www.neue-domain.at');

UPDATE wp_posts SET
post_content = replace(post_content, 'http://www.alte-domain.at', 'http://www.neue-domain.at');

Die Weiterleitung habe ich mit diesem Codeschnipsel realisiert:

// Permanent redirection
header("HTTP/1.1 301 Moved Permanently");
header("Location: http://arbeitszimmer.statistik-peter.at/");

exit();
?>