局部最小值

AdaGrad

依照歷史梯度調整速率

RMSProp

依照平均歷史梯度調整速率

r_i = r_{i-1} + g_i \odot g_i

r_i = r_{i-1} + g_i \odot g_i

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {r_i}}\odot g

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {r_i}}\odot g

r_i = \rho r_{i-1} + (1 - \rho) g_i \odot g_i

r_i = \rho r_{i-1} + (1 - \rho) g_i \odot g_i

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {r_i}}\odot g

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {r_i}}\odot g

能有效克服病態曲面

但容易使學習速率下降

解決AdaGrad太早收斂問題

但多了一個超參數增加變因

而且仍然依賴全局學習速率

RMSProp

依照平均歷史梯度調整速率

Adam

依照平均歷史梯度&動量調整速率

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {r_i}}\odot g

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {r_i}}\odot g

r_i = \rho r_{i-1} + (1 - \rho) g_i \odot g_i

r_i = \rho r_{i-1} + (1 - \rho) g_i \odot g_i

解決AdaGrad太早收斂問題

但多了一個超參數增加變因

而且仍然依賴全局學習速率

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {v_i}} {m_i}

\theta_i = \theta_{i-1} - \frac {\xi}{\delta \oplus \sqrt {v_i}} {m_i}

加入動量之後能夠避免在病態曲率中無謂的震盪

Deep Learning

局部最小值

定義

局部最小值對模型的問題

MBGD

SGD

鞍點

問題

想法

梯度指往錯誤方向

一階導函數的問題

二階函數

& 海森矩陣

海森矩陣的病態問題

計算海森矩陣的困難點

耗時耗空間！

以動量為基礎的最佳化作法

學習率自動調整

AdaGrad

RMSProp

RMSProp

Adam

小結

Reference

Deep Learning

Deep Learning

范恆嘉（Benjamin Rice）

Deep Learning

Deep Learning

More from 范恆嘉（Benjamin Rice）