report is made by
Pavel Temirchev
Deep RL
reading group
based on the research of Sergey Levine's team
1) Sample Complexity!
2) Сходимость к локально-оптимальным политикам
Проблемы стандартного RL:
Идея: поощрять алгоритм исследовать все "оптимальные" стратегии!
Марковский процесс:
Задача максимизации:
Q-функция:
Соотношение Бэллмана (оптимальная Q-функция):
Стандартный RL:
Политика, пропорциональная Q:
Как найти такую политику?
Оптимальность:
Оптимальная траектория:
RL:
Какая траектория приведет нас к оптимальному будущему?
Probabilistic Inference:
Какой могла быть траектория, если будущее оптимально?
Распределение над оптимальными траекториями
(в соответствии с вероятностной моделью):
Форма - это наш выбор (вариационное приближение):
Задача вариационного вывода:
определяет траектории, по которым двигается агент
фиксируем динамику среды!
Тогда:
Знакомый функционал - Maximum Entropy RL
Данную задачу оптимизации можно переписать как:
проверьте дома!
То есть оптимальная политика:
где
- мягкий максимум
- соотношение Бэллмана
Напрямую максимизируем "энтропийную" награду
по параметрам политики :
При использовании log-derivative trick, градиент по весам можно записать как:
Обучаем Q функцию с параметрами :
используем replay буфер
где
для непрерывных действий используем
importance sampling
Политика неявная:
для сэмплов можно
использовать SVGD
Exploration
Робастность
Многомодальная политика
Обучаем сразу Q и V функции, и политику
лосс для Q функции:
лосс для V функции:
лосс для политики:
лосс для Q функции:
лосс для V функции:
лосс для политики:
Спасибо за внимание!
и приходите на семинары RL Reading Group
telegram: https://t.me/theoreticalrl
REFERENCES:
Soft Q-learning:
https://arxiv.org/pdf/1702.08165.pdf
Soft Actor Critic:
https://arxiv.org/pdf/1801.01290.pdf
Big Review on Probabilistic Inference for RL:
https://arxiv.org/pdf/1805.00909.pdf
Имплементация на TensorFlow:
https://github.com/rail-berkeley/softlearning
Быстрая и безболезненная имплементация на Catalyst.RL:
https://github.com/catalyst-team/catalyst/tree/master/examples/rl_gym
Иерархические политики (further reading):