По мотивам работ Yarin Gal & Zoubin Ghahramani
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
David MacKay
Radford Neal
Доклад Зубина Гарамани на NIPS 2016: https://www.youtube.com/watch?v=FD8l2vPU5FY
Доклад Ярина Гала в Microsoft Research: https://www.youtube.com/watch?v=YAb5C5_g-kk
Блог-диссертация Ярина Гала: http://mlg.eng.cam.ac.uk/yarin/blog_3d801aa532c1ce.html
Современное положение дел в области: https://wjmaddox.github.io/assets/BNN_tutorial_CILVR.pdf
Предостережение: опасно рассматривать число от 0 до 1, возвращаемое predict_proba(), как степень уверенности модели. Нельзя просто применить сигмоиду/софтмакс/z-score и считать это вероятностью.
Z. Ghahramani, NIPS 2016: https://www.youtube.com/watch?v=FD8l2vPU5FY
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
Из Rasmussen, Williams: Gaussian Processes (2006)
Сумму наименьших квадратов можно рассматривать как многомерное нормальное распределение.
Из Rasmussen, Williams: Gaussian Processes (2006)
Байесовская линейная регрессия с гауссовским prior'ом эквивалентна ridge-регрессии (линейной регрессии с тихоновской l2-регуляризацией)
Из Rasmussen, Williams: Gaussian Processes (2006)
Байесовскую линейную регрессию можно рассматривать как ансамбль моделей, по предсказаниям которого мы берем взвешенное среднее.
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
Осторожно: не путайте kernel ridge regression c kernel regression (например, вычисляемый с помощью Nadaraya-Watson estimator, это другой метод):
Что делать, если нам нужно смоделировать нелинейную зависимость целевой переменной от независимых переменных?
Можно сделать ту же самую линейную регрессию с регуляризацией, только в качестве факторов использовать полиномы от независимой переменной:
Из Rasmussen, Williams: Gaussian Processes (2006)
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
Переход от многомерного нормального распределения как в байесовской линейной регрессии к бесконечномерному вектору - функции.
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
likelihood
prior
posterior
evidence
Задача: вычислить posterior.
Препятствие: проблема обычно состоит в том, что evidence is intractable.
- не вычисляемо
ELBO - Evidence lower bound
Expected log-likelihood
Regulariser term
KL-divergence
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
Аналогия с половым размножением - каждая модель
в ансамбле передает половину своих весов потомству с вероятностью p (исходно - 0.5).
Srivastava, Hinton et al. позже показали, что Гауссовский Дропаут с непрерывным шумом работает не хуже и быстрее.
История байесовских нейросетей
Байесовская регрессия
Kernel ridge regression
Гауссовы процессы
Вариационный вывод и ELBO, стохастический вариационный вывод
Библиотека вероятностного программирования Uber Pyro
Регуляризация нейросетей, бинарный и гауссовский дропаут
Вариационный дропаут
Байесовская нейронная сеть с бесконечным числом нейронов в скрытом слое ведет себя как гауссовский процесс.
Automatic Relevance Determination или Relevance Vector Machines применительно к висцеральной теории сна.