第6回(第6章後半) TD学習 応用編
@hakatashi
前回の復習
アクター・クリティック手法
R学習
事後状態
前回の復習
アクター・クリティック手法
R学習
事後状態
まず、アクターが取った行動をもとに、クリティックは現在の状態価値関数との誤差を計算する。
これをTD誤差という。
あるモデルでは、アクターは方策πを決定するのに、行動優先度pというパラメータを保持する。
このpはクリティックから与えられるTD誤差によって更新される。更新式はいくつか考えられるが、例えば
となる。
前回の復習
アクター・クリティック手法
R学習
事後状態
R学習では以下のように「ステップあたりの平均期待報酬」として方策の価値を定義する。
次にこのρとの差を用いて状態と行動の価値を定義する。
これらの価値関数は平均期待報酬に対して相対的に定義されるので、相対報酬と呼ばれる。
R学習ではこの相対報酬に収束するように状態価値を更新することによって学習する。
前回の復習
アクター・クリティック手法
R学習
事後状態