知識發現
如何發現知識?
用google
用google
用google
用google
下課
步驟
- 資料篩選
- 預處理
- 資料轉換
- 資料挖掘
- 知識評估
資料篩選
選主題
資料預處理
丟垃圾
mising value
noice
incomplete data
資料轉換
轉檔
資料挖掘
知識評估
關聯規則與序列樣式
資料與資料間的連結
關聯規則
課 | 相關關鍵字 |
---|---|
1 | 賴皮、力圖、工具、三角函數 |
2 | 沈澱、螞蝗、爬山、溶液 |
3 | 葫蘆、三角函數、菠蘿麵包 |
4 | 大金剛、十六進位編輯器、學習單、moodle |
5 | 學習單、ascii code、moodle、python |
6 | Tracker、工具、投資、賴皮、python |
7 | 蒸汽壓、溶液、溫度、沈澱 |
關聯規則
課 | 相關關鍵字 |
---|---|
1 | 賴皮、力圖、工具、三角函數 |
2 | 沈澱、螞蝗、爬山、溶液 |
3 | 葫蘆、三角函數、菠蘿麵包 |
4 | 大金剛、十六進位編輯器、學習單、moodle |
5 | 學習單、ascii code、moodle、python |
6 | Tracker、工具、投資、賴皮、python |
7 | 蒸汽壓、溶液、溫度、沈澱 |
信賴度
信賴度=\frac{前後一起出現}{只有一項出現}
課 | 相關關鍵字 |
---|---|
1 | 賴皮、力圖、工具、三角函數 |
2 | 沈澱、脫水、爬山、溶液 |
3 | 葫蘆、三角函數、菠蘿麵包 |
4 | 大金剛、十六進位編輯器、學習單、moodle |
5 | 學習單、ascii code、moodle、python |
6 | Tracker、工具、投資、賴皮、python |
7 | 蒸汽壓、溶液、溫度、沈澱 |
有python就會有投資?
信賴度=\frac{出現python\&投資}{python}=\frac{1}{2}
有關係一定有連結?
支持度
\frac{出現次數}{總筆數}
課 | 相關關鍵字 |
---|---|
1 | 賴皮、力圖、工具、三角函數 |
2 | 沈澱、螞蝗、爬山、溶液 |
3 | 葫蘆、三角函數、菠蘿麵包 |
4 | 大金剛、十六進位編輯器、學習單、moodle |
5 | 學習單、ascii code、moodle、python |
6 | Tracker、工具、投資、賴皮、python |
7 | 蒸汽壓、溶液、溫度、沈澱 |
葫蘆&菠蘿麵包:
賴皮&工具:
\frac{1}{7} = 14.28\%
\frac{2}{7} = 28.57\%
賴皮&工具 較常出現
序列樣式探勘
增加時間維度
時序 | 班級 | 相關關鍵字 |
---|---|---|
1 | 125 | 大金剛、十六進位編輯器、學習單、moodle |
2 | 125 | 海狸、報告、填問卷、邏輯閘 |
3 | 126 | 十六進位編輯器、學習單、moodle、海狸 |
4 | 125 | C++、報告 |
5 | 126 | 邏輯閘、Linux、工具、大金剛 |
6 | 126 | C++、moodle、統一發票對獎 |
分類(28
就前面講過的那個
- 已知樣本特徵
- 監督式學習
- 訓練電腦找到分類模型
決策樹
非連續數值適用
1.樹的建構
由上往下遞迴分開
2.樹的剪枝
刪除含有雜訊或異常值的路徑
支持向量機
也是個之前講過的
- 數值型資料
線性可分的情況
啊非線性咧?
核技巧
- 痾我其實也不懂
- 總之就是化非線性為線性
- 低維輸入 to 高維特徵空間
K-means
是個聚類演算法
非監督式學習
The STEAL algorithm
好用的技巧
階層式聚類
凝聚式
由下往上的概念
分裂式
由上往下分類
有點類似決策樹吧
獨立研究導讀——知識發現
By Aaron Wu
獨立研究導讀——知識發現
- 200