Leave a comment
Meta conditional tweet evaluation
Deductive team
Jaan Ugrinsky, Nargizahon Abduvaliyeva, Nikita Jerschov and Lucas Vogel
FH Potsdam, Sommersemester 2016
Betreut von
Prof. Dr. Marian Dörk, Prof. Dr. Tobias Schröder und Prof. Marion Godau

Die Annahme
1.
Beiträge auf Twitter besitzen Twitter- und Kontext/Diskurs-spezifische Eigenheiten - in ihrer Struktur und in der Form ihres Inhaltes - die sie kategorisierbar machen.
2.
Diese Twitter-spezifischen Eigenheiten lassen es zu, mit Hilfe von Computern und später machine-learning, große Mengen von Beiträgen zu analysieren.
Herangehensweise
Intuition als Inspiration
Wir nutzten die eigene Intuition um in den kurzen Texten interessante Muster und Zusammenhänge zu identifizieren.
Diese versuchten wir in Filter zu übersetzen, die der Computer auf eine große Menge von Diskurs-Beiträgen anwenden kann.
Bearbeitung
Die Thesen
Diese waren ein Zwischenschritt bei dem die intuitiven Interpretationen möglichst präzise und unter bestimmten Kriterien beschrieben wurden
Die Filter
Es war die Idee im nächsten Schritt (auch im Sinne einer Arbeitsteilung) diese Thesen in Code zu übersetzen
Thesen

Technische Umsetzung
Wir nutzten Node.js, die Twitter API und MongoDB um die Tweets zu bekommen, zu speichern und zu verarbeiten.
Desweiteren haben wir eine theoretische Projekt-Struktur angedacht, die eine modulare Herangehensweise vorschlägt um den aufwändigen Prozess - die Thesen/Filter aktuell zu halten oder zu erweitern - zu crowdsourcen.
Projekt-Struktur/Flow

Die Ergebnisse
Wir haben ein Set von zufälligen 1000+ Tweets händisch in die zwei Kategorien "promotional" und "opinion" eingeteilt.
Wir haben dann zum Vergleich einen ersten Prototypen programmiert, der einige unserer extrahierten Thesen auf dieselben Tweets anwendet.
Anschließend haben wir die beiden Ergebnisse Verglichen.

Vergleich
Hier sieht man einmal links die menschliche Einschätzung, dann die Einschätzung unseres Algorythmus und ganz rechts die Ergebnisse eines trainierten Bayes-Verfahren.
Die Ergebnisse
48 %
Erfolgsquote
Promotion: 55 %
Opinion: 42 %
Vorsicht Manipulation!
Stand
Die Ergebnisse sind mehr als exemplarische Machbarkeitsstudie zu verstehen. Viele der theoretisch angedachten Konzepte und Definitionen konnten aus zeitlichen und technischen Gründen nicht umgesetzt werden.
Auch das Datenset ist ein Dummy-Datenset aus zufälligen Twitter-Tweets. In dem theoretischen Konzept sind die Thesen jedoch z.T. Diskurs/Hashtag-Abhängig um bessere Aussagen treffen zu können.
Wie kann es weitergehen?
Wie man bereits in der Vergleichstabelle sehen kann, wäre eine solche Gegenüberstellung mit ausdefinierten Thesen/Filtern und einem Diskurs-spezifischen Datenset sehr interessant.
Auch können wir uns eine Integration des Bayes-Verfahren vorstellen. Eine Verquickung der Ergebnisse unserer Twitter-spezifischen Eigenheiten mit der Trainierbarkeit des Bayes-Verfahrens wäre hoch spannend.
Vielen Dank!
https://github.com/FH-Potsdam/leaveacomment/tree/master/deductive
https://github.com/FH-Potsdam/leaveacomment-deductive-proof-of-concept
Mehr auf:
Leave a commentLeave a comment
By Lucas Vogel
Leave a commentLeave a comment
- 840