NewsVoice

IR 第二組

唐維佋、邱泰鈞

張凱涵、楊子嫻

看見
不同的
聲音

我們

目標

來源

  • 蘋果、自由、中時
  • 十一萬筆資料 (自14' 12月中)
  • 資料定時從網路蒐集
  • Tools: Ruby, UNIX cron
  • Backend: MongoDB (TokuMX Fork.)

預處理

中文斷詞: Jieba (C++)

自製專有人名地名詞庫

(Wikipedia Parser + Gov OpenData)

去除中文stopwords

詞性判斷 (Supported by Jieba)

IDF: Node.js

 

 

 

中文斷詞

Query Model

目標文章:

日期範圍從前一天到後三天

找相似人名

去除與來源相同報社

建立vector space算cosine similarity

觀察得知:0.3

Client

Chrome extension

fork 柯P滑出來對你說政見plugin

 

API:

Python Tornado Web Server

+

Varnish Cache Server

 

DEMO

 

newsvoice

By Kelly Chang

newsvoice

2014 IRTM final project

  • 813