ViZDoom

一個強化學習的競賽

來源:https://arxiv.org/pdf/1808.10442.pdf

每日開盤價、最高低價、收盤
價、K-pattern、鎚頭、十字線、交易量、外資

mnist dataset(手寫數字辨識)
將其改成遊戲的方式

Q(s,a) = Q(s,a) + \alpha[ r + max_{a}'Q(s',a') - Q(s,a)]

state\action	不動	往左走
開始	0	0
往左走一格後	0	0

state\action	不動	往左走
開始	α(α10)	α*10
往左走一格後	0	0

state\action	不動	往左走
開始	α^210 + α^210(2- α)	2α10
往左走一格後	α(α10)	α*10

r-> reward,當下事情的即時回饋

Q(s,a)->現在的state做a這件事的短期回饋(根據alpha的大小決定長短)

將table去掉，改用神經網路預測

loss = MSE (Q(s,a) , (r + \alpha * max_{a'}Q'(s',a')) )

原因

遊戲環境、reward設計

解法