講者: 劉冠閎
Reinforcement Learning
Q-learning
來源:https://arxiv.org/pdf/1808.10442.pdf
每日開盤價、最高低價、收盤 價、K-pattern、鎚頭、十字線、交易量、外資
mnist dataset(手寫數字辨識) 將其改成遊戲的方式
r-> reward,當下事情的即時回饋
Q(s,a)->現在的state做a這件事的短期回饋(根據alpha的大小決定長短)
將table去掉,改用神經網路預測
將經歷過的遊戲過程記錄
原因
遊戲環境、reward設計
解法
By tim54100