RL分享

講者: 劉冠閎

Reinforcement Learning

強化學習怎麼學??

Q(s,a) = Q(s,a) + \alpha[ r + max_{a}'Q(s',a') - Q(s,a)]

Q(s,a) = Q(s,a) + \alpha[ r + max_{a}'Q(s',a') - Q(s,a)]

state\action	不動	往左走
開始	0	0
往左走一格後	0	0

state\action	不動	往左走
開始	α(α10)	α*10
往左走一格後	0	0

state\action	不動	往左走
開始	α^210 + α^210(2- α)	2α10
往左走一格後	α(α10)	α*10

r-> reward,當下事情的即時回饋

Q(s,a)->現在的state做a這件事的短期回饋(根據alpha的大小決定長短)

將table去掉，改用神經網路預測

loss = MSE (Q(s,a) , (r + \alpha * max_{a'}Q'(s',a')) )

loss = MSE (Q(s,a) , (r + \alpha * max_{a'}Q'(s',a')) )

RL分享講者: 劉冠閎 Reinforcement Learning

By tim54100