Netzwerkanalyse I

Auf der diesjährigen GOR besuchte ich den Workshop “Extraction of Relatoional Datd from Text” von Jana Diesner. Ich hatte im Zuge des Workshops Gelegenheit mich mit dem Thema auseinanderzusetzen. Hier meine Kurzzusammenfassung:
Netzwerkanalyse beschäftigt sich mit den Beziehungen komplexer Systeme zueinander. Dabei kann es sich um soziale Netzwerke und deren Zusammenhänge mit Unternehmensstrukturen oder auch um technische Zusammenhänge wie z.B. die Wirkung von Medikamenten handeln. Eine weiter Anwendung habe ich kürzlich in der Zeitschrift “der Standard” gefunden (Printausgabe, vom Freitag, 28. März 2008). Dabei wurden die Spiele der österreichischen Nationalmannschaft netzwerkanalytisch ausgewertet.

Der klassische Ansatz Texte zu analysieren ist die Content-Analyse. Die Inhalts-Analyse ist eine von einer Hypothese geleitete Methode. Bei der theoriegeleitet ein Kategoriensystem (Codebook) entwickelt wird und Häufigkeiten (händisches auszählen) im Text identifiziert werden, die im Anschluss entweder statistisch oder mittels Graphen dargestellt werden. Der Nachteil dieser sehr verbreiteten Methode ist, dass alles in Handarbeit von Experten des entsprechenden Themengebiets analysiert werden muss, was Zeitaufwendig ist. Es gibt zwar recht gute (teure) Software wie zB ATLAS.ti das auf der Grounded Theory aufbaut trotzdem lassen sich extrem große Textmengen nicht optimal analysieren.
Netzwerkanalyse
Grafik von http://statnetproject.org/
Ein anderer Weg ist softwaretechnisch das Auszählen und Bewerten der Texte zu realisieren. Die Methoden und Theorien hinter der “Software” sind NLP (Natural Language Processing), IE (Informations Extraktion) und Network Analysis of complex Systems.
Im ersten Schritt werden die Daten reduziert, indem Wörter ohne inhaltliche Bedeutung entfernt werden.
Das Zipf’s Law stellt einen indirekten Zusammenhang zwischen Wort-Häufigkeit und Bedeutung des Wortes auf. Also Worte die häufig vorkommen, haben keine Bedeutung, sie können demnach weggelassen werden. Es gibt allerdings keine Theorie die belegt, dass Wörter wie “die”, “aber” die häufig im Text vorkommen, keine Bedeutung besitzen – was die Kritik an der Methode darstellt.

Nächster Schritt zur Reduktion der Daten ist eine Normalisierung der Wörter und das Zurückführen auf den Wortstamm.

Mit einem so aufbereiteten Text können die Häufigkeiten von Wörtern berechnet oder die Term Frequenz (Wichtigkeit von Termen im Dokument) oder die Inverse Document Frequency berechnet werden. Auch lässt sich auf Basis eines reduzierten Datensatzes die Entropy eines Textdokumentes im Kontext zum Gesamtdatensates quantifizieren (Aussagekraft der Textes).

Softwareprodukte sind zum Beispiel die Module sna und network für die Sttistiksoftware R oder das von Jana programmierte Automap weitere findet man auf wikipedia.org Social network analysis software .

Fortsetzung folgt…

Tagged with:
 

Comments are closed.