Exploration vs. Exploitation
Алгоритм
выбираем действие
применяем его в среде
обновляем Q-функцию
Давайте научим робота идти вперед
Оценка \(Q\)-функции:
Решение: с вероятностью \(\epsilon\) делаем случайное действие
Иначе, жадное( \epsilon \)
1. Add something to reward
2. Sample MPD, act greedy in it
Gradient for the k'th head: