知識發現

如何發現知識?

 

用google

用google

用google

用google

下課

步驟

  1. 資料篩選
  2. 預處理
  3. 資料轉換
  4. 資料挖掘
  5. 知識評估

資料篩選

選主題

資料預處理

丟垃圾

mising value

noice

incomplete data

資料轉換

轉檔

資料挖掘

知識評估

關聯規則與序列樣式

資料與資料間的連結

關聯規則

相關關鍵字
1 賴皮、力圖、工具、三角函數
2 沈澱、螞蝗、爬山、溶液
3 葫蘆、三角函數、菠蘿麵包
4 大金剛、十六進位編輯器、學習單、moodle
5 學習單、ascii code、moodle、python
6 Tracker、工具、投資、賴皮、python
7 蒸汽壓、溶液、溫度、沈澱

關聯規則

相關關鍵字
1 賴皮、力圖、工具、三角函數
2 沈澱、螞蝗、爬山、溶液
3 葫蘆、三角函數、菠蘿麵包
4 大金剛、十六進位編輯器、學習單、moodle
5 學習單、ascii code、moodle、python
6 Tracker、工具、投資、賴皮、python
7 蒸汽壓、溶液、溫度、沈澱

信賴度

信賴度=\frac{前後一起出現}{只有一項出現}
相關關鍵字
1 賴皮、力圖、工具、三角函數
2 沈澱、脫水、爬山、溶液
3 葫蘆、三角函數、菠蘿麵包
4 大金剛、十六進位編輯器、學習單、moodle
5 學習單、ascii code、moodle、python
6 Tracker、工具、投資、賴皮、python
7 蒸汽壓、溶液、溫度、沈澱

有python就會有投資?

信賴度=\frac{出現python\&投資}{python}=\frac{1}{2}

關係一定有連結

支持度

\frac{出現次數}{總筆數}
相關關鍵字
1 賴皮、力圖、工具、三角函數
2 沈澱、螞蝗、爬山、溶液
3 葫蘆、三角函數、菠蘿麵包
4 大金剛、十六進位編輯器、學習單、moodle
5 學習單、ascii code、moodle、python
6 Tracker、工具、投資、賴皮、python
7 蒸汽壓、溶液、溫度、沈澱

葫蘆&菠蘿麵包:

賴皮&工具:

\frac{1}{7} = 14.28\%
\frac{2}{7} = 28.57\%

賴皮&工具 較常出現

序列樣式探勘

增加時間維度

時序 班級 相關關鍵字
1 125 大金剛、十六進位編輯器、學習單、moodle
2 125 海狸、報告、填問卷、邏輯閘
3 126 十六進位編輯器、學習單、moodle、海狸
4 125 C++、報告
5 126 邏輯閘、Linux、工具、大金剛
6 126 C++、moodle、統一發票對獎

分類(28

就前面講過的那個

  • 已知樣本特徵
  • 監督式學習
  • 訓練電腦找到分類模型

決策樹

非連續數值適用

1.樹的建構

由上往下遞迴分開

2.樹的剪枝

刪除含有雜訊或異常值的路徑

支持向量機

也是個之前講過的

  • 數值型資料

線性可分的情況

啊非線性咧?

 

核技巧

  • 痾我其實也不懂
  • 總之就是化非線性為線性
  • 低維輸入 to 高維特徵空間

K-means

是個聚類演算法

非監督式學習

The STEAL algorithm

好用的技巧

階層式聚類

凝聚式

由下往上的概念

分裂式

由上往下分類

有點類似決策樹吧

獨立研究導讀——知識發現

By Aaron Wu

獨立研究導讀——知識發現

  • 200