第3回(第4章) 動的計画法
@hakatashi
いっけなーい! 学習学習!
私、DQN。0.5歳! どこにでもいる至って普通の人工知能!
でもあるときマルコフ性を満たす有限空間上の強化学習タスクが与えられちゃってもう大変! しかも現実的な時間じゃ計算が終了しないって!?
いったいわたし、これからどうなっちゃうの〜!?!?!?
状態sで方策π(s,a)に従ったとき、
選択可能な行動a∈A(s)および遷移可能な状態s'∈Sについて
遷移確率をP、報酬の期待値をRとして、
状態sの価値V(s)は、次の方程式に従う。
評価は大事[出典: 博多市の成績表]
状態空間Sを状態価値空間Rに写像する関数列V0, V1, ...を考え、
とすると、
k→∞でVk→Vπとなることを一般に示すことができる。
このアルゴリズムを反復方策評価という。
言い換えれば、反復方策評価は、
という作業を繰り返し行っている。
このように、ある状態の状態価値を更新することをバックアップと呼び、全ての状態に対してスイープ操作を行ってバックアップすることを完全バックアップ(full backup)と呼ぶ。
圧倒的成長
現在の方策πを無視して、状態sのときに行動aを取ったとする。
以降は反省して方策πに従って行動したとき、この行動の価値は
となる。
これがVπ(s)よりも大きかった場合、状態sで行動aを取ることは常に良いことであると保証される。
これを拡張して全てのs∈Sについて
となる方策π'があるとき、
これによって行動aを評価することができるので、あとはQ(s,a)を最大化するようなaを使ってπを更新すればいいだけである。
つまり、
となるgreedyな方策π'を考える。
先の方策改善定理より、これは方策πとくらべて同等かそれ以上の方策である。このように方策を改善することを方策改善と呼ぶ。
108回で収束した例
作業用BGM: ♪Extra terrestrial Biological Entities
えっ簡単じゃね?
とりあえず価値反復で
強化学習は常勝!
パラガス
前述の式
を見ると、ある状態sについての評価関数V(s)をバックアップするのに必要なのは、状態sから遷移可能な状態s'の評価関数のみである。
よって、状態の完全バックアップを行わず、勝手な状態sを1つ選んでバックアップすることを繰り返すアルゴリズムが考えられる。これが非同期DPアルゴリズムである。
――あらゆる一般化は間違っている。これも含めて――マーク・トウェイン
結局、動的計画法は実用的なの?