Artem Sorokin
Pavel Temirchev
Sergey Ivanov
Instructors:
As a team, we have conducted several RL courses:
Supervised Learning case:
Reinforcement Learining case:
Reinforcement Learining case
action
observation
and reward
Learn optimal actions
to maximize the reward
agent
environment
Rewards provide less information than ground truth:
fox
bread
truck
dog
0.
0.
0.
1.
We have ground truth labels!
fox
bread
truck
dog
-3
We have rewards
?
?
?
Other problems include:
NO!
environment is unknown
Not just EXPLOITATION
Everywhere and nowhere!
RL is developing rapidly
Over-performs humans in many tasks
A lot of competitions are available
Can help solve your own problem
It is just interesting
Основы RL:
Глубокое обучение с покреплением:
Продвинутые темы в RL:
Simple Homeworks
Big Important Homeworks
Almost No Homeworks :(
Оценка выставляется по десятибальной шкале.
Планируется 6 заданий. Задания приносят 2 или 1 балла в зависимости от сложности.
Если задание сдается в течение двух недель после дедлайна, то ценность задания составляет 80% изначальной, если позже то только 60%.
В конце курса будет необязательный тест общей стоимостью в 2 балла.
Детали: