Jaan Ugrinsky, Nargizahon Abduvaliyeva, Nikita Jerschov and Lucas Vogel
Prof. Dr. Marian Dörk, Prof. Dr. Tobias Schröder und Prof. Marion Godau
Wir nutzten Node.js, die Twitter API und MongoDB um die Tweets zu bekommen, zu speichern und zu verarbeiten.
Desweiteren haben wir eine theoretische Projekt-Struktur angedacht, die eine modulare Herangehensweise vorschlägt um den aufwändigen Prozess - die Thesen/Filter aktuell zu halten oder zu erweitern - zu crowdsourcen.
Wir haben ein Set von zufälligen 1000+ Tweets händisch in die zwei Kategorien "promotional" und "opinion" eingeteilt.
Wir haben dann zum Vergleich einen ersten Prototypen programmiert, der einige unserer extrahierten Thesen auf dieselben Tweets anwendet.
Anschließend haben wir die beiden Ergebnisse Verglichen.
Hier sieht man einmal links die menschliche Einschätzung, dann die Einschätzung unseres Algorythmus und ganz rechts die Ergebnisse eines trainierten Bayes-Verfahren.
Vorsicht Manipulation!
Die Ergebnisse sind mehr als exemplarische Machbarkeitsstudie zu verstehen. Viele der theoretisch angedachten Konzepte und Definitionen konnten aus zeitlichen und technischen Gründen nicht umgesetzt werden.
Auch das Datenset ist ein Dummy-Datenset aus zufälligen Twitter-Tweets. In dem theoretischen Konzept sind die Thesen jedoch z.T. Diskurs/Hashtag-Abhängig um bessere Aussagen treffen zu können.
Wie man bereits in der Vergleichstabelle sehen kann, wäre eine solche Gegenüberstellung mit ausdefinierten Thesen/Filtern und einem Diskurs-spezifischen Datenset sehr interessant.
Auch können wir uns eine Integration des Bayes-Verfahren vorstellen. Eine Verquickung der Ergebnisse unserer Twitter-spezifischen Eigenheiten mit der Trainierbarkeit des Bayes-Verfahrens wäre hoch spannend.
https://github.com/FH-Potsdam/leaveacomment/tree/master/deductive
https://github.com/FH-Potsdam/leaveacomment-deductive-proof-of-concept
Mehr auf: