評價分析網站

台北大學大數據與智慧城市研究中心

問題釐清

  • 「某校長任期內」,「X」的評價?
    • X=大家對於台北大學的學術
    • X=企業對於台北大學學生
    • 如果不做「評價」,而單純做一些「分析(ex. 該任校長在社群中的被討論度)」,比較不會有可信度問題
  • 公認且可信任的資訊來源?
    • PTT網頁版 (八卦版、台北大學版)
    • Facebook公開粉絲專頁 (靠北版、官方粉專)
    • 104人力銀行 (升學就業地圖)
    • 台北大學官方網站
  • 目前「語意分析」那塊並沒有一個很穩定的作法,所以比較好的方式是盡量找到「已標籤的評論」,比較能信任

CRAWLER

NLP

ANALYSE

VIEW

未標籤的評論

已標籤的評論

後端

前端

  • 使用javascript render的網站要改用瀏覽器自動化工具爬取,速度極慢但穩定性高(避開許多麻煩的編碼問題)
     
  • 社群網站(如Facebook)沒辦法爬取完整個人貼文,除非取得「完整連結並且是公開貼文」(也可以不使用Facebook Graph API爬取,但品質和速度就不能保證了,不過仍值得嘗試)
     
  • 通常有效率的爬蟲沒有重複利用性,要針對網站設計 (如果資料不需要跟時間做連結、不追求效率的話,用我上次寫的那隻爬蟲就夠了)

關於爬蟲

  • 坊間分析方法:
    • 使用Word2Vec:詞語轉向量的套件,得到詞語向量後可以做向量內積來判斷詞語相似度,或者比較向量間的高斯距離來探討關聯性
       
    • 使用NLTK:英語面向的分析套件,有內建大量entity、aspect、stop words等等的資料庫
       
    • 找出TF-IDF:傳統詞頻分析
       
    • 使用SpaCy:較強大的英語面向分析套件,可以建立語法樹、自動標記

關於自然語言處理

  • 麻煩的問題:
    • 中文斷詞穩定性不高,因為最強大的中研院套件不公開、對岸的jieba套件繁體化之後許多用詞仍與台灣不同,故斷詞準確率常常不到七成
       
    • 中文分析詞庫缺乏,不像國外有較完整的情緒詞庫、名詞詞庫等等
       
    • 中文編碼系統較特別,特殊字元很難藉由計算編碼的方式去除,資料清洗較複雜

關於自然語言處理

  • 建議爬蟲與網站後端使用同一種程式語言,才有更高的連動性 (ex. python爬蟲 + django網站架構)
     
  • 圖片呈現使用WebGL,才能產出SVG圖來配合RWD網頁 (ex. morris.js或plotly.js都是很好的前端視覺化套件)
     
  • RWD網頁可以使用Bootstrap很快的做到,不過要注意css不要與其他套件衝突

關於呈現

Made with Slides.com