Артём Сорокин | 23 Ноября
Доход или Return, или "reward to go" :
V-функция:
Q-функция:
Уравнение Белмана для стратегии \(\pi\):
Уравнения оптимальности Беллмана:
Цель:
Выучить функции ценности \(Q_{\pi}\) и \(V_{\pi}\), когда \(p(s'|s,a)\) и \(R(s,a)\) неизвестны!
Вспоминаем определение:
Функция ценности это мат. ожидание будущей дисконтированной награды.
По закону больших чисел: \(q(s,a) \rightarrow Q_{\pi}(s,a)\), если \(N(s,a) \rightarrow \infty\)
Идея: Оценим мат. ожидание \(Q_{\pi}(s,a)\), при помощи выборочного среднего \(q(s,a)\):
Мы можем обновлять выборочное среднее инкрементально:
Инкрементальное правило обновления МК:
Ошибка предсказания
Старая оценка
Скорость обучения
Для нестационарных задач лучше взять фиксированную скорость обучения:
Кто помнит Policy Iteration?
Как будет выглядеть PI если для оценки использовать МК?
Вопросы:
Агент не сможет посетить все пары \((s,a)\) используя жадную стратегию!
Агент не сможет получить хорошую оценку \(q(s,a)\), если не будет посещать \((s,a)\) достаточно часто!
(вспоминаем закон больших чисел)
Policy Improvement step:
Улучшаем любую \(\epsilon\)-мягкую до \(\epsilon\)-жадной стратегии в соответствии с оценкой Q-функции
Для исследования можно использовать любую \(\epsilon\)-мягкую стратегию:
\(m\) - число доступных действий
Policy Iteration методами Монте-Карло:
Для каждого эпизода:
GLIE Метод Монте-Карло:
Проблема с Методами Монте-Карло:
Решение:
Цель: выучить \(Q_{\pi}\) на основе опыта взаимодействия со средой
Инкрементальный Метод Монте-Карло:
ТD-Обучение:
\(r_{t+1} + \gamma q(s_{t+1}, a_{t+1})\) - это называется TD-целью
\(\delta_t = r_{t+1} + \gamma q(s_{t+1}, a_{t+1}) - q(s_t, a_t)\) - это называется TD-ошибкой
Обучение на основе временных различий:
Правило обновления SARSA: State, Action, Reward, next State, next Action
Policy Iteration на основе TD-обучения:
На каждом шаге:
SARSA использует уравнение Беллмана (Bellman Expectation Equation) для обновления оценки:
А как насчет TD-Обучения на основе уравнения оптимальности Беллмана (Bellman Optimality Equation):
Все очень просто:
Уравнения Беллмана для стратегии \(\pi\) (SARSA) :
Уравнение оптимальности Беллмана (Q-Learning):
\(a'\) берется из стратеги \(\pi\) которая генерирует эпизоды
Нет связи со стратегией \(\pi\)
Правило обновления Q-Learning:
Правило обновления SARSA:
SARSA и МК являются on-policy алгоритмами:
Q-Learning это off-policy алгоритм:
Monte Carlo
Temporal Difference
Рассмотрим n-шаговые цели для обновления оценки:
n-шаговое TD-обучение:
.
.
.
.
.
.
(MC)
(TD)
Можно комбинировать несклько n-шаговых доходов. Например, взять среднее между 2-шаговым и 4-шаговым:
Облегчает подбор правильной цели для обновления функции ценности.
Можно ли эффективно скомбинировать информацию от всех n-шаговых доходов?
Почему так?
Что случится если \(\lambda = 0\)?
получим TD-цель
Что будет если \(\lambda = 1\)?
Потому что мы можем переписать \(G^{\lambda}_t\) как:
получим Доход/ цель для МК
But why?
Что случится если \(\lambda = 0\)?
получим TD-цель
Что будет если \(\lambda = 1\)?
We can rewrite \(G^{\lambda}_t\) as:
получим Доход/ цель для МК
What happens when \(\lambda = 0\)?
i.e. just TD-learning
What happens when \(\lambda = 1\)?
i.e. Monte-Carlo learning
We can rewrite \(G^{\lambda}_t\) as:
HOW?
Text