A Framework for Email Clustering and Automatic Answering Method
S0354034 廖元豪
S0354021林昱安
Abstract
- 現今生活中,email交流數量遽增,無法快速在時間內找到重要的email
- 論文以email的主旨、寄件者、內容、時間和大小為基礎來做叢集法,將email進行分類,並且加上自動回覆的功能。
INTRODUCTION
Email as a Database
- 將email的資訊做前處理存進資料庫
- email的寄件者、收件者、時間等等資訊都是資料庫中一筆資料的其中一個屬性
Email Mining
- 從email中找出有用資訊的過程
- 應用到以下的技術:
- Data mining
- Machine learning
- Text mining
Clustering Email
- 以叢集法將email分類,並應用到Email Mining中
- 根據被分在同一群的email的共通點來為該群組命名
Algorithm
- 將資料進行前處理:
- 將HTML標籤和標點符號去除
- 將Stop words(I、am、and...)去除
- 找出相似的email
- 主要使用以下的演算法:
-
Brute-Force Algorithm
-
Cosine Similarity Matching Algorithm
-
K-means Algorithm for Clustering
-
Brute-Force Algorithm
- 用來去除stop words
- lookup table:存取單字原本的形式還有它的變化形式(Ex:過去式、完成式)
- 不可能存取所有的單字和其變化 -> Suffix-striping(詞綴提取),用來去除單字的前後綴
- 變化較不規則的單字 -> 直接存入table
Cosine Similaryity Matching Algorithm
- 用來比對兩筆資料的相似度
- 算出的值介在1到-1之間,1為相似度最高 -1最低
K-means Algorithm Clustering
- 用來分割出群集
- formula(WCSS):

K-means Algorithm Clustering
Text




EXISTING OR RELATED WORK
Application
- 舉出一些現有實例,如辨識垃圾郵件,郵件分類等其他人的研究或實作成果
- message type:
- unstructured
- categorical
- numeric data
PROPOSED WORK
Approach
-
可分開為4個步驟
- pre-processing
- Key-word matching
- clustering determination
- automatic answering

Pre-Processing
- 用Brute-force algorithm 去除stop word
- 利用HTML parser去除HTML tag
- 分析過的資料可用來定義email的屬性
Keyword Matching
- 利用Cosine similarity matching algorithm 來作關鍵字的相似度比對,如比對成功則進行下一步clustering
Clustering determination
- 用 K-means algorithm 將相似的email分在同一個folder
- 用啟發式搜尋法(heuristic rule searching)將郵件分類
- 依照使用者自己的法則來命名folder
- 範例:
- if(sender=”John Smith” OR sender=”Mary Smith”) then (moveInto FAMILY)
- if(body contains “call for papers”) then{(moveInto CFP) (forwardTo “COLLEAGUES”)}
Automatic Answering
- 利用分類後的結果進行適當的回覆
IMPLEMENTATION
- 程式語言:java
- IDE:My Eclipse
- library:JFreeChart
EXPERMENTAL ANALYSIS
資料來源:Enron Email dataset

分類結果:

表格
圖表

CONCLUSION AND FUTURE SCOPE
- 以上Email-Miniing 都基於文字分析
- 未來期望能加入其他方法來對郵件附件或圖片進行分析
Data mining報告
By IAN LINS
Data mining報告
- 408