\(w_j\) - вес j-го признака;
\(x^j\) - значение j-го признака;
\(w_0 = const\)
\(w_j\) - вес j-го признака;
\(x^j\) - значение j-го признака;
\(w_0 = w_0 x^0\)
Добавим константный признак \(x_0 = 1\)
\(w\) - вещественный вектор весов модели;
\(x_i\) - вектор значений признаков объекта;
\(y_i\) - истинный ответ для i-го объекта;
\(l\) - количество объектов выборки
Инициализируем веса нулями:
Итерируемся, пока изменение весов на \(\eta_t\) в сторону антиградиента значимо:
Рассмотрим случай с одним признаком:
\( a(x) = w_0 + w_1 x \)
В обычном градиентном спуске:
\(x_i\) - случайный объект из выборки
Как оценить неизвестный параметр по выборке?
Пусть \(X \sim F(x, \theta) \),
\(\theta\) - неизвестные параметры распределения
Сумму легче оптимизировать, чем произведение
Пусть \(a\) - константа
Пусть мы знаем распределение \(y \sim y(t) \)
Какое \(a\) оптимально?
Теперь более общий случай. Пусть \(a\) - функция от \(x\)
Пусть мы знаем распределение \(y \sim y(t) \)
Перейдем к конечной выборке
Ошибка
Будем минимизировать сумму квадратов весов: \(||w||^2 = \sum\limits_{j=1}^{d}w_j^2 \)
То же самое:
Будем минимизировать сумму модулей весов: \(||w||_1 = \sum\limits_{j=1}^{d}|w_j| \)
\(L_2\)-регуляризатор:
\(L_1\)-регуляризатор:
\(\langle w, x \rangle = 0 \)
уравнение гиперплоскости
Будем решать задачу бинарной классификации на множество классов \(Y = \{-1, +1\}\)
\(M_i > 0\) - правильный ответ
\(M_i < 0\) - неправильный ответ
Чем больше отступ, тем больше уверенность
Доля неправильных ответов:
Снова та же проблема - сложно оптимизировать
Возьмем гладкую оценку пороговой функции:
Оценим ее через функционал ошибки:
Минимизируем верхнюю оценку и надеемся, что пороговая функция потерь тоже уменьшится
Хотим оценить \(P(y=1|x)\)
Введем \(\pi(x) = P(y=1|x)\)
\(\pi(x) = 1P(y=1|x)+0P(y=0|x)=\mathbb{E}(y|x) \)
Введем обобщенную линейную модель:
\(g(\mathbb{E}(y|x)) \approx \langle w, x\rangle \)
\( \mathbb{E}(y|x) \approx g^{-1}( \langle w, x\rangle) \)
логит
Возьмем это выражение с минусом и переобозначим \(y = 0 \) за \(y = -1 \) - получим логистическую функцию потерь. А верхнее выражение - легко минимизировать