Reinforcement Learning as Probabilistic Inference
report is made by
Pavel Temirchev
Deep RL
reading group
based on the research of Sergey Levine's team
Мотивация
1) Sample Complexity!
2) Сходимость к локально-оптимальным политикам
Проблемы стандартного RL:
Идея: поощрять алгоритм исследовать все "оптимальные" стратегии!
REMINDER: стандартный RL
Марковский процесс:
Задача максимизации:
Q-функция:
Соотношение Бэллмана (оптимальная Q-функция):
Maximum Entropy RL
Стандартный RL:
Политика, пропорциональная Q:
Как найти такую политику?
RL как вероятностный вывод
Оптимальность:
Оптимальная траектория:
RL:
Какая траектория приведет нас к оптимальному будущему?
Probabilistic Inference:
Какой могла быть траектория, если будущее оптимально?
Вариационный вывод
Распределение над оптимальными траекториями
(в соответствии с вероятностной моделью):
Форма - это наш выбор (вариационное приближение):
Задача вариационного вывода:
определяет траектории, по которым двигается агент
фиксируем динамику среды!
Вариационный вывод
Тогда:
Знакомый функционал - Maximum Entropy RL
Возвращаясь к Q и V функциям
Данную задачу оптимизации можно переписать как:
проверьте дома!
То есть оптимальная политика:
где
- мягкий максимум
- соотношение Бэллмана
Вариационный вывод с использованием аппроксиматоров функций
- Maximum Entropy Policy Gradients
- Soft Q-learning
https://arxiv.org/abs/1702.08165 - Soft Actor-Critic
https://arxiv.org/abs/1801.01290
Maximum Entropy Policy Gradients
Напрямую максимизируем "энтропийную" награду
по параметрам политики :
При использовании log-derivative trick, градиент по весам можно записать как:
Soft Q-learning
Обучаем Q функцию с параметрами :
используем replay буфер
где
для непрерывных действий используем
importance sampling
Политика неявная:
для сэмплов можно
использовать SVGD
Soft Q-learning
Exploration
Робастность
Многомодальная политика
Soft Actor-Critic
Обучаем сразу Q и V функции, и политику
лосс для Q функции:
лосс для V функции:
лосс для политики:
лосс для Q функции:
лосс для V функции:
лосс для политики:
Soft Actor-Critic
Soft Actor-Critic
Спасибо за внимание!
и приходите на семинары RL Reading Group
telegram: https://t.me/theoreticalrl
REFERENCES:
Soft Q-learning:
https://arxiv.org/pdf/1702.08165.pdf
Soft Actor Critic:
https://arxiv.org/pdf/1801.01290.pdf
Big Review on Probabilistic Inference for RL:
https://arxiv.org/pdf/1805.00909.pdf
Имплементация на TensorFlow:
https://github.com/rail-berkeley/softlearning
Быстрая и безболезненная имплементация на Catalyst.RL:
https://github.com/catalyst-team/catalyst/tree/master/examples/rl_gym
Иерархические политики (further reading):
(datafest) Reinforcement Learning as Probabilistic Inference
By cydoroga
(datafest) Reinforcement Learning as Probabilistic Inference
- 536