Reinforcement Learning course
Artem Sorokin
Pavel Temirchev
Sergey Ivanov
Instructors:

Our team
- Artem Sorokin
- Lead Researcher at AIRI
- PhD student at MIPT
- Category Prize at Animal AI Olympics'19
- 2nd place at DeepHack.RL'17
- Pavel Temirchev
- Software Developer at Yandex
- PhD student at Skoltech
- Sergey Ivanov
- PhD student at Lomonosov MSU
As a team, we have conducted several RL courses:
- Lomonosov MSU course at CMC department
- YSDA course: "Advanced topics in RL"
- HSE course: "Reinforcement Learing"

Reinforcement Learning Problem
Supervised Learning case:
- Train a model to imitate expert decisions:

Reinforcement Learining case:
- we don't know the right decisions:

Reinforcement Learning Problem

Reinforcement Learining case
- but we know when result is good:
Reinforcement Learning Problem


RL Setting
action
observation
and reward
Learn optimal actions
to maximize the reward




agent
environment
RL is a harder problem
Rewards provide less information than ground truth:

fox
bread
truck
dog
0.
0.
0.
1.
We have ground truth labels!

fox
bread
truck
dog
-3
We have rewards
?
?
?
Other problems include:
- Distributional Shift
- Credit Assignment Problem
- Reward Specification
Why should you participate?
RL is developing rapidly
Over-performs humans in many tasks
A lot of competitions are available
Can help solve your own problem
It is just interesting






Состав Курса:
Основы RL:
- Введение
- Динамическое программирование
- Табличное обучение с подкреплением
Глубокое обучение с покреплением:
- Глубокое обучение с подкреплением и DQN
- Градиент по стратегии 1
- Градиент по стратегии 2
- Задача непрерывного управления
- Аппроксимация распределения будущих наград
Продвинутые темы в RL:
- Планирование
- Проблема исследования и использования
- Перенос знаний и Мета-обучение
- Память в обучении с подкреплением



Simple Homeworks
Big Important Homeworks
Almost No Homeworks :(
Итоговые Оценки
Оценка выставляется по десятибальной шкале.
Планируется 6 заданий. Задания приносят 2 или 1 балла в зависимости от сложности.
Если задание сдается в течение двух недель после дедлайна, то ценность задания составляет 80% изначальной, если позже то только 60%.
В конце курса будет необязательный тест общей стоимостью в 2 балла.
Детали:
- Все домашки во время: отлично / 10 баллов
- Все домашки в последний момент + идеальный тест: отлично / 8 баллов
- Только тест: неуд / 2 балла
Thank you for your attention!

deck
By cydoroga
deck
- 470