講者: 劉冠閎
Reinforcement Learning
Q-learning
來源:https://arxiv.org/pdf/1808.10442.pdf
每日開盤價、最高低價、收盤
價、K-pattern、鎚頭、十字線、交易量、外資
mnist dataset(手寫數字辨識)
將其改成遊戲的方式
state\action | 不動 | 往左走 |
---|---|---|
開始 | 0 | 0 |
往左走一格後 | 0 | 0 |
state\action | 不動 | 往左走 |
---|---|---|
開始 | α*(α*10) | α*10 |
往左走一格後 | 0 | 0 |
state\action | 不動 | 往左走 |
---|---|---|
開始 | α^2*10 + α^2*10(2- α) | 2*α*10 |
往左走一格後 | α*(α*10) | α*10 |
r-> reward,當下事情的即時回饋
Q(s,a)->現在的state做a這件事的短期回饋(根據alpha的大小決定長短)
將table去掉,改用神經網路預測
將經歷過的遊戲過程記錄
原因
遊戲環境、reward設計
解法