Чем занимается
Deep Learning

Дмитрий Никулин

18 июня 2021

Обо мне

Окончил матмех СПбГУ
В 2017-2019 году учился в ШАДе
В 2018-2020 работал в Samsung AI Center
В 2019-2021 поддерживал курс по обучению с подкреплением от ВШЭ и ШАДа на Coursera
С декабря 2020 занимаюсь предсказанием траекторий чужих машин для беспилотника Яндекса
С марта 2021 читаю курс по DL на ДПО ВШЭ

План

Немного истории
Обработка изображений
Обработка текстов
Обучение с подкреплением
Немного про беспилотные автомобили

Немного истории

Перцептрон

Frank Rosenblatt, 1958
Cornell Aeronautical Laboratory
Модель 1 нейрона

Алгоритм, позволяющий эффективно обучать конструкции из нескольких нейронов
Известен с 1970х

Алгоритм обратного распространения ошибки

Распознавание почтовых индексов

Статья 1989 года "Backpropagation Applied to Handwritten Zip Code Recognition"
Автор — Yann LeCun, тогда работал в Bell Labs

LSTM

Статья 1997 года "Long Short-Term Memory"
Авторы — Sepp Hochreiter (университет Мюнхена) и Jürgen Schmidhuber (IDSIA)
До сих пор используемая архитектура для предсказания временных рядов

2000е

В мире накопилось много данных
Из-за компьютерных игр совершенствуются видеокарты

AlexNet

Статья 2012 года "ImageNet Classification with Deep Convolutional Neural Networks"
Авторы — Alex Krizhevsky, Ilya Sutskever и Geoffrey Hinton (университет Торонто)
Почти в 2 раза побили рекорд точности классификации изображений
Хайп начался

Обработка изображений

Классификация
Детекция
Сегментация
Оценка глубины
Поиск ключевых точек
Трекинг объектов
Улучшение качества изображений
Генерация новых изображений
...

Классификация

По картинке надо определить её класс
У каждой картинки класс ровно один
Самая развитая область, работает очень хорошо

Детекция

Надо на картинке выделить рамкой разные интересные объекты и их классифицировать

Подсчёт количества людей

Проверка выкладки товаров в магазине

https://inspector-cloud.com/index

https://habr.com/ru/company/mailru/blog/460307/

Детекция

Распознавание сцены в беспилотниках

https://github.com/I2RDL2/ASTAR-3D

Детекция

Сегментация

Нужно не просто обвести объекты рамкой, а как-то разметить каждый пиксель картинки
Бывают разные виды:
- Semantic
- Instance
- Panoptic

https://neurohive.io/en/news/attentive-graph-neural-networks-new-method-for-video-object-segmentation/

Типы сегментации

https://arxiv.org/abs/1801.00868

Зачем нужна сегментация

спутниковые снимки

http://liu.diva-portal.org/smash/get/diva2:1182913/FULLTEXT01.pdf

медицинские снимки

https://www.semanticscholar.org/paper/A-Review-of-Medical-Image-Segmentation%3A-Methods-and-Withey-Koles/1b699b098ec7a5e539afd8370d71a82d41e3370d

Зачем нужна сегментация

вырезание фона

https://blog.prismalabs.ai/real-time-portrait-segmentation-on-smartphones-39c84f1b9e66

ретушь фотографий

https://heartbeat.fritz.ai/embrace-your-new-look-with-hair-segmentation-by-fritz-now-available-for-android-developers-f20f5b4e9ae1

...и ещё карта осадков

это не совсем сегментация, но близко

Оценка глубины

В классическом компьютерном зрении оценка глубины делается по двум кадрам
С помощью нейросетей можно предсказывать глубину по одному кадру

Оценка глубины

эффекты для видео

https://syncedreview.com/2020/05/04/consistent-video-depth-estimation-generating-hq-depth-maps-from-single-video-input/

дополненная реальность

https://www.thegamer.com/improved-depth-estimation-in-augmented-reality-is-here/

Ключевые точки

Размечаем на картинке какие-то важные точки (скелет человека, лицо, кисти рук)
Используем это для дальнейших задач (определение эмоций, предсказание движения)

https://www.robots.ox.ac.uk/~vgg/software/keypoint_detection/

Трекинг

Как детекция, но отслеживаем перемещение объектов между кадрами

Улучшение качества

Увеличение разрешения
Чёрно-белое → цветное
Вычислительная фотография

Увеличение размеров

https://neurohive.io/en/news/pulse-new-deep-network-learns-how-to-upscale-low-resolution-images/

Чёрно-белое → цветное

https://www.reviewgeek.com/78029/new-photo-colorization-ai-fixes-early-photographys-old-man-wrinkle-effect/

Вычислительная фотография

https://www.theverge.com/2017/7/14/15973712/google-ai-research-street-view-panorama-photo-editing

Вычислительная фотография

https://github.com/saic-mdal/HiDT

https://vas3k.ru/blog/computational_photography/

Генерация

Перенос стиля
GAN
Deepfake
Text to image

https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/

Перенос стиля

https://towardsdatascience.com/light-on-math-machine-learning-intuitive-guide-to-neural-style-transfer-ef88e46697ee?gi=d91d765e01b0

Generative Adversarial Networks

https://twitter.com/goodfellow_ian/status/1084973596236144640

Deepfake

Другие задачи

Распознавание текста

https://www.sifsof.com/clinical-apps/simultaneous-localization-and-mapping-slam/

https://www.researchgate.net/publication/320132488_A_Novel_Framework_for_Text_Recognition_in_Street_View_Images

Simultaneous localization and mapping (SLAM)

Обработка текстов

Natural Language Processing

Языковые модели
Классификация
Машинный перевод
Суммаризация
Чат-боты
Генерация подписей к картинкам
...

Языковые модели

Продолжают текст по заданному префиксу
Самый известный пример — модель GPT-3 от OpenAI

GPT-3

https://machinelearningknowledge.ai/openai-gpt-3-demos-to-convince-you-that-ai-threat-is-real-or-is-it/

Классификация

Оценка тональности

Предсказание тем

Машинный перевод

Суммаризация

Чат-боты

Генерация подписей

https://techcrunch.com/2021/01/19/facebook-and-instagrams-ai-generated-image-captions-now-offer-far-more-details/

А что же BERT?

BERT — это вспомогательная модель, сам по себе он никакую полезную задачу не решает
Но на его основе можно решать другие задачи, примерно как с GPT-3

Обучение с подкреплением

https://www.kdnuggets.com/2019/10/mathworks-reinforcement-learning.html

Обучение с подкреплением

Reinforcement Learning (RL)
Сама область старше, чем DL
Пытаемся обучить агента, который живёт в среде и постоянно совершает в ней какие-то действия
Название означает, что правильных действий нет, а есть награда или штраф за каждое действие
Задача — максимизировать суммарную награду

AlphaZero

OpenAI Five

AlphaStar

Другие применения RL

Беспилотники (парковка, обгон, перестроение)
Робототехника
Торговля на бирже
Назначение планов лечения
Улучшение моделей в NLP
Рекомендательные системы

https://neptune.ai/blog/reinforcement-learning-applications

https://medium.com/@yuxili/rl-applications-73ef685c07eb

Предсказание траекторий

https://waymo.com/open/data/motion/

Предсказание траекторий

https://medium.com/yandex-self-driving-car/prank-motion-prediction-based-on-ranking-a6c42d4b860

Предсказание траекторий

https://sites.google.com/view/waymo-learn-to-drive/#h.p_D4Cq0wrah_A3

Резюме

Обработка изображений — самая развитая область
Обработка текстов практически догнала картинки, и оттуда в картинки перетекает много идей
В Deep RL самые сильные результаты в играх, развивается робототехника и другие направления
DL применим и для других задач (звук, видео)
В беспилотниках нужно всё подряд

https://medium.com/yandex-self-driving-car/yandex-rover-delivery-robot-kicks-off-operations-at-russias-tech-hub-skolkovo-9b161f14bef

Ссылки

Центр непрерывного образования ФКН ВШЭ
Курсы повышения квалификации:
- «Глубинное обучение». Старт 23 июня 2021;
- «Машинное обучение». Старт 4 сентября 2021;
- «Python для автоматизации и анализа данных».
  Старт в сентябре 2021.
Программы профессиональной переподготовки:
- «Специалист по Data Science». Старт 7 сентября 2021;
- «Аналитик данных». Старт в сентябре 2021.
Соцсети:
- https://www.facebook.com/hsecs/
- https://vk.com/cshse

Чем занимается Deep Learning

Дмитрий Никулин

18 июня 2021

Обо мне

План

Немного истории

Перцептрон

Алгоритм обратного распространения ошибки

Распознавание почтовых индексов

LSTM

2000е

AlexNet

Обработка изображений

Обработка изображений

Классификация

Детекция

Детекция

Детекция

Сегментация

Типы сегментации

Зачем нужна сегментация

Зачем нужна сегментация

...и ещё карта осадков

Оценка глубины

Оценка глубины

Ключевые точки

Трекинг

Улучшение качества

Увеличение размеров

Чёрно-белое → цветное

Вычислительная фотография

Вычислительная фотография

Генерация

Перенос стиля

Generative Adversarial Networks

Deepfake

Другие задачи

Обработка текстов

Natural Language Processing

Языковые модели

GPT-3

Классификация

Машинный перевод

Суммаризация

Чат-боты

Генерация подписей

А что же BERT?

Обучение с подкреплением

Обучение с подкреплением

AlphaZero

OpenAI Five

AlphaStar

Другие применения RL

Предсказание траекторий

Предсказание траекторий

Предсказание траекторий

Резюме

Ссылки

Чем занимается
Deep Learning