IR 第二組
唐維佋、邱泰鈞
張凱涵、楊子嫻
中文斷詞: Jieba (C++)
自製專有人名地名詞庫
(Wikipedia Parser + Gov OpenData)
去除中文stopwords
詞性判斷 (Supported by Jieba)
IDF: Node.js
目標文章:
日期範圍從前一天到後三天
找相似人名
去除與來源相同報社
建立vector space算cosine similarity
觀察得知:0.3
Chrome extension
fork 柯P滑出來對你說政見plugin
API:
Python Tornado Web Server
+
Varnish Cache Server
By Kelly Chang
2014 IRTM final project