Machine Learning 1

LWR, MLE & Classification

colab

實作

Maximum Likelihood Estimation

最大概似估計

欸所以為什麼 linear regression 的損失函數是取平方

來了

y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}

首先，假設輸入值和輸出值的關聯如下：

其中，

是某種噪音/ 雜訊 /誤差。

\epsilon

在進行 MLE 時，通常假設

的分佈遵守以下兩個規則：

\epsilon

1. IID (Indendently and Identically Distributed)

每筆數據的雜訊獨立，不會互相影響

在進行 MLE 時，通常假設

的分佈遵守以下兩個規則：

\epsilon

2. Normal Distribution / Guassian Distribution

雜訊呈常態/高斯分佈

影片推薦 | Central Limit Theorem by 3b1b

常態分佈的數學式

p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \right)

不展開講數學，但我們可以看圖說個故事，想了解的推薦自己去查

p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \right)

Likelihood 似然/似真度

Probability 機率

事件可能發生的程度

某個解釋的合理程度

P(y|x; w) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(y - wx)^2}{2\sigma^2} \right)

L(w) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(y - wx)^2}{2\sigma^2} \right)

已知參數

數據

出現的可能性

已知數據

一體兩面

參數 \:w

作為真實解釋

的合理程度

Likelihood 似然/似真度

L(w) = P(y_1|x_1; w) \times P(y_2|x_2; w) \times P(y_3|x_3; w)

\begin{aligned} L(\theta) &= \prod_{i=1}^{n} p(y^{(i)} | x^{(i)}; \theta) \\ &= \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2} \right) \end{aligned}

Likelihood 似然/似真度

\begin{aligned} \ell(\theta) &= \log L(\theta) \\ &= \log \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2} \right) \\ &= \sum_{i=1}^{n} \log \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2} \right) \\ &= n \log \frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^{n} (y^{(i)} - \theta^T x^{(i)})^2 \end{aligned}

為計算方便，我們取 log

最小化

最大化

Likelihood 似然/似真度

所以這樣知道這是哪來的了！

除此之外，MLE 的技巧在後面還會用到很多次，所以這裡就先介紹給你們

Classification 分類問題

I. Binary 二元分類

II. Multi-class 多類別分類

邏輯斯回歸

Logistic Regression

我們可以用線性回歸做分類問題嗎

可以但很怪。

Sigmoid Function / Logistic Function

\begin{cases} P(y=1 | x; \theta) = h_{\theta}(x) \\ P(y=0 | x; \theta) = 1 - h_{\theta}(x) \end{cases} y \in \{0, 1\} \to P(y | x; \theta) = h(x)^y (1 - h(x))^{1-y}

g(z) = \frac{1}{1 + e^{-z}}

h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}

Sigmoid Function / Logistic Function

Machine Learning 1

目錄

Parametric vs Non-parametric

Locally Weighted Regression 局部加權迴歸

Locally Weighted Regression 局部加權迴歸

Locally Weighted Regression 局部加權迴歸

Locally Weighted Regression

Linear Regression

實作

Likelihood 似然/似真度

Probability 機率

Likelihood 似然/似真度

Likelihood 似然/似真度

Likelihood 似然/似真度

Logistic Regression

實作

機器學習第 1 堂

機器學習第 1 堂

Suzy Huang

Machine Learning 1

目錄

Parametric vs Non-parametric

Locally Weighted Regression 局部加權迴歸

Locally Weighted Regression 局部加權迴歸

Locally Weighted Regression 局部加權迴歸

Locally Weighted Regression

Linear Regression

實作

Likelihood 似然/似真度

Probability 機率

Likelihood 似然/似真度

Likelihood 似然/似真度

Likelihood 似然/似真度

Logistic Regression

實作

機器學習第 1 堂

機器學習第 1 堂

Suzy Huang

More from Suzy Huang