NTPU BigData Center project

評價分析網站

台北大學大數據與智慧城市研究中心

問題釐清

「某校長任期內」，「Ｘ」的評價？
- Ｘ＝大家對於台北大學的學術
- Ｘ＝企業對於台北大學學生
- 如果不做「評價」，而單純做一些「分析(ex. 該任校長在社群中的被討論度)」，比較不會有可信度問題
公認且可信任的資訊來源？
- PTT網頁版 (八卦版、台北大學版)
- Facebook公開粉絲專頁 (靠北版、官方粉專)
- 104人力銀行 (升學就業地圖)
- 台北大學官方網站
目前「語意分析」那塊並沒有一個很穩定的作法，所以比較好的方式是盡量找到「已標籤的評論」，比較能信任

CRAWLER

NLP

ANALYSE

VIEW

未標籤的評論

已標籤的評論

後端

前端

使用javascript render的網站要改用瀏覽器自動化工具爬取，速度極慢但穩定性高(避開許多麻煩的編碼問題)
社群網站(如Facebook)沒辦法爬取完整個人貼文，除非取得「完整連結並且是公開貼文」(也可以不使用Facebook Graph API爬取，但品質和速度就不能保證了，不過仍值得嘗試)
通常有效率的爬蟲沒有重複利用性，要針對網站設計 (如果資料不需要跟時間做連結、不追求效率的話，用我上次寫的那隻爬蟲就夠了)

關於爬蟲

坊間分析方法：
- 使用Word2Vec：詞語轉向量的套件，得到詞語向量後可以做向量內積來判斷詞語相似度，或者比較向量間的高斯距離來探討關聯性
- 使用NLTK：英語面向的分析套件，有內建大量entity、aspect、stop words等等的資料庫
- 找出TF-IDF：傳統詞頻分析
- 使用SpaCy：較強大的英語面向分析套件，可以建立語法樹、自動標記

關於自然語言處理

麻煩的問題：
- 中文斷詞穩定性不高，因為最強大的中研院套件不公開、對岸的jieba套件繁體化之後許多用詞仍與台灣不同，故斷詞準確率常常不到七成
- 中文分析詞庫缺乏，不像國外有較完整的情緒詞庫、名詞詞庫等等
- 中文編碼系統較特別，特殊字元很難藉由計算編碼的方式去除，資料清洗較複雜

關於自然語言處理

建議爬蟲與網站後端使用同一種程式語言，才有更高的連動性 (ex. python爬蟲 + django網站架構)
圖片呈現使用WebGL，才能產出SVG圖來配合RWD網頁 (ex. morris.js或plotly.js都是很好的前端視覺化套件)
RWD網頁可以使用Bootstrap很快的做到，不過要注意css不要與其他套件衝突

關於呈現

Made with Slides.com