LWR, MLE & Classification
講師 Suzy (蘇西)
技能點:
寶寶蘇西
Locally Weighted Regression
局部加權迴歸
parametric learning algorithm(參數式)
選擇係數 使損失函數最小
迴歸問題就是要找一條方程式可以適當的擬和training data
這我們上次學的線性迴歸,屬於參數學習演算法的一種
.....
問題:如何知道該用什麼方程式進行學習?
方案一:Parametric + Feature Selection algorithm (特徵篩選)
方案二:Non-parametric learning algorithms (非參數學習演算法)
讓演算法自己判斷方程式該長什麼樣子
這是 traning data
test data
training data
輸入 x,請預測 y
test data
training data
根據和新數據點相近的數據,
判斷輸入的 x 值合理的對應 y 值
data weighted to decide y (test data)
LWR
離 test data 越近則越重要
(權重越大)
較近 = 權重大
較遠 = 權重小
test data
找
讓損失函數最小
其中,權重如下:
每次遇到新的 x 值,就要計算一次,對該 x 值而言,其他每個 traning data 的權重大小。
距離越近,權重越大
超參數(人工設定的),值越大則考量的鄰近範圍越廣
Maximum Likelihood Estimation
最大概似估計
欸所以為什麼 linear regression 的損失函數是取平方
來了
首先,假設輸入值和輸出值的關聯如下:
其中,
是某種噪音/ 雜訊 /誤差。
在進行 MLE 時,通常假設
的分佈遵守以下兩個規則:
1. IID (Indendently and Identically Distributed)
每筆數據的雜訊獨立,不會互相影響
在進行 MLE 時,通常假設
的分佈遵守以下兩個規則:
2. Normal Distribution / Guassian Distribution
雜訊呈常態/高斯分佈
常態分佈的數學式
不展開講數學,但我們可以看圖說個故事,想了解的推薦自己去查
事件可能發生的程度
某個解釋的合理程度
已知參數
數據
出現的可能性
已知數據
一體兩面
作為真實解釋
的合理程度
為計算方便,我們取 log
最小化
最大化
所以這樣知道這是哪來的了!
除此之外,MLE 的技巧在後面還會用到很多次,所以這裡就先介紹給你們
Classification 分類問題
I. Binary 二元分類
II. Multi-class 多類別分類
邏輯斯回歸
我們可以用線性回歸做分類問題嗎
我們可以用線性回歸做分類問題嗎
可以但很怪。
Sigmoid Function / Logistic Function
Sigmoid Function / Logistic Function