lecturer: Pavel Temirchev
\( r(s, a) = 1\) if running \(0\) otherwise - hard to evaluate
(and hard to optimize)
\( r(s, a) = w_0 v(s) - w_1 ||a||^2 + w_2 [ |\theta_{torso}(s)| < \epsilon ] + w_3 [ h_{torso}(s) > h ] \)
Hard to construct and choose coefficients
Sometimes it is easier to show rather than evaluate
Стандартное предположение:
\(x_i\) - изображение
\(y_i\) - метка класса
СОБАКА
КОШКА
Учитель
Decision Process (a self-driving car)
Decision Process
Наблюдения:
Действия:
Цель:
\(s_i\) - изображение
\(a_i\) - действие
ДЕЙСТВИЕ 1
ДЕЙСТВИЕ 2
? кто разметит выборку ?
!! действия влияют на наблюдения !!
??
??
Что, если попросить эксперта сказать, какие действия хорошие?
А затем применить обучение с учителем.
На примере self-driving cars (беспилотный автомобиль):
Неизбежно, наш агент заедет туда, где эксперт никогда не был.
Агент не знает, как себя там вести.
Проблема Distributional Shift:
Наши наблюдения меняются с изменением стратегии!
A Machine Learning Approach to Visual Perception of Forest Trails for Mobile Robots (Giusti, 2015):
Можно просить эксперта возвращать агента на путь истинный.
На примере self-driving cars (беспилотный автомобиль):
Плюсы:
Минусы:
Действия: напряжение, подаваемое на моторчики в суставах
Standard RL setting:
given:
find:
Imitation Learning setting:
given:
find:
Standard RL setting:
given:
find:
Inverse RL setting:
given:
find:
Assume, expert acts proportionally to the exponent of reward:
Maximum likelihood approach, again:
Not good at all! Let's find gradients
Let's find gradients
log
exp
reward
softmax
Model-based algorithm - not practical
\( \text{KL}\left( \pi_\phi(\tau) || \pi^*_\psi(\tau) \right) = \mathbb{E}_{\tau \sim \pi_\phi} \log \frac{\pi_\phi(\tau)}{\pi^*_\psi(\tau)} \)
\( = \mathbb{E}_{\tau \sim \pi_\phi} \log \pi_\phi(\tau) - \mathbb{E}_{\tau \sim \pi_\phi} R_\psi(\tau) + \mathbb{E}_{\tau \sim \pi_\phi} \log \sum_{\tau'} \exp (R_\psi(\tau')) \)
does not depend on \( \phi \)
\( \propto \mathbb{E}_{\tau \sim \pi_\phi} \log \pi_\phi(\tau) - \mathbb{E}_{\tau \sim \pi_\phi} R_\psi(\tau) \)
entropy maximization
reward maximization
Step of gradient ascent for reward:
Train policy to maximize reward and entropy:
GENERATOR
DISCRIMINATOR
Train discriminator \(D_\psi\) instead of rewards:
Train policy to fake discriminator and maximize entropy: