Чем занимается
Deep Learning

Дмитрий Никулин

18 июня 2021

Обо мне

  • Окончил матмех СПбГУ
  • В 2017-2019 году учился в ШАДе
  • В 2018-2020 работал в Samsung AI Center
  • В 2019-2021 поддерживал курс по обучению с подкреплением от ВШЭ и ШАДа на Coursera
  • С декабря 2020 занимаюсь предсказанием траекторий чужих машин для беспилотника Яндекса
  • С марта 2021 читаю курс по DL на ДПО ВШЭ

План

  • Немного истории
  • Обработка изображений
  • Обработка текстов
  • Обучение с подкреплением
  • Немного про беспилотные автомобили

Немного истории

Перцептрон

  • Frank Rosenblatt, 1958
  • Cornell Aeronautical Laboratory
  • Модель 1 нейрона
  • Алгоритм, позволяющий эффективно обучать конструкции из нескольких нейронов
  • Известен с 1970х

Алгоритм обратного распространения ошибки

Распознавание почтовых индексов

  • Статья 1989 года "Backpropagation Applied to Handwritten Zip Code Recognition"
  • Автор — Yann LeCun, тогда работал в Bell Labs

LSTM

  • Статья 1997 года "Long Short-Term Memory"
  • Авторы — Sepp Hochreiter  (университет Мюнхена) и Jürgen Schmidhuber (IDSIA)
  • До сих пор используемая архитектура для предсказания временных рядов

2000е

  • В мире накопилось много данных
  • Из-за компьютерных игр совершенствуются видеокарты

AlexNet

  • Статья 2012 года "ImageNet Classification with Deep Convolutional Neural Networks"
  • Авторы — Alex Krizhevsky, Ilya Sutskever и Geoffrey Hinton (университет Торонто)
  • Почти в 2 раза побили рекорд точности классификации изображений
  • Хайп начался

Обработка изображений

Обработка изображений

  • Классификация
  • Детекция
  • Сегментация
  • Оценка глубины
  • Поиск ключевых точек
  • Трекинг объектов
  • Улучшение качества изображений
  • Генерация новых изображений
  • ...

Классификация

  • По картинке надо определить её класс
  • У каждой картинки класс ровно один
  • Самая развитая область, работает очень хорошо

Детекция

  • Надо на картинке выделить рамкой разные интересные объекты и их классифицировать

Подсчёт количества людей

Проверка выкладки товаров в магазине

https://inspector-cloud.com/index

https://habr.com/ru/company/mailru/blog/460307/

Детекция

Распознавание сцены в беспилотниках

https://github.com/I2RDL2/ASTAR-3D

Детекция

Сегментация

  • Нужно не просто обвести объекты рамкой, а как-то разметить каждый пиксель картинки
  • Бывают разные виды:
    • Semantic
    • Instance
    • Panoptic

https://neurohive.io/en/news/attentive-graph-neural-networks-new-method-for-video-object-segmentation/

Типы сегментации

https://arxiv.org/abs/1801.00868

Зачем нужна сегментация

спутниковые снимки

http://liu.diva-portal.org/smash/get/diva2:1182913/FULLTEXT01.pdf

медицинские снимки

https://www.semanticscholar.org/paper/A-Review-of-Medical-Image-Segmentation%3A-Methods-and-Withey-Koles/1b699b098ec7a5e539afd8370d71a82d41e3370d

Зачем нужна сегментация

вырезание фона

https://blog.prismalabs.ai/real-time-portrait-segmentation-on-smartphones-39c84f1b9e66

ретушь фотографий

https://heartbeat.fritz.ai/embrace-your-new-look-with-hair-segmentation-by-fritz-now-available-for-android-developers-f20f5b4e9ae1

...и ещё карта осадков

это не совсем сегментация, но близко

Оценка глубины

  • В классическом компьютерном зрении оценка глубины делается по двум кадрам
  • С помощью нейросетей можно предсказывать глубину по одному кадру

Оценка глубины

эффекты для видео

https://syncedreview.com/2020/05/04/consistent-video-depth-estimation-generating-hq-depth-maps-from-single-video-input/

дополненная реальность

https://www.thegamer.com/improved-depth-estimation-in-augmented-reality-is-here/

Ключевые точки

  • Размечаем на картинке какие-то важные точки (скелет человека, лицо, кисти рук)
  • Используем это для дальнейших задач (определение эмоций, предсказание движения)

https://www.robots.ox.ac.uk/~vgg/software/keypoint_detection/

Трекинг

  • Как детекция, но отслеживаем перемещение объектов между кадрами

Улучшение качества

  • Увеличение разрешения
  • Чёрно-белое → цветное
  • Вычислительная фотография

Увеличение размеров

https://neurohive.io/en/news/pulse-new-deep-network-learns-how-to-upscale-low-resolution-images/

Чёрно-белое → цветное

https://www.reviewgeek.com/78029/new-photo-colorization-ai-fixes-early-photographys-old-man-wrinkle-effect/

Вычислительная фотография

https://www.theverge.com/2017/7/14/15973712/google-ai-research-street-view-panorama-photo-editing

Вычислительная фотография

https://github.com/saic-mdal/HiDT

https://vas3k.ru/blog/computational_photography/

Генерация

  • Перенос стиля
  • GAN
  • Deepfake
  • Text to image

https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/

Перенос стиля

https://towardsdatascience.com/light-on-math-machine-learning-intuitive-guide-to-neural-style-transfer-ef88e46697ee?gi=d91d765e01b0

Generative Adversarial Networks

https://twitter.com/goodfellow_ian/status/1084973596236144640

Deepfake

Другие задачи

Распознавание текста

https://www.sifsof.com/clinical-apps/simultaneous-localization-and-mapping-slam/

https://www.researchgate.net/publication/320132488_A_Novel_Framework_for_Text_Recognition_in_Street_View_Images

Simultaneous localization and mapping (SLAM)

Обработка текстов

Natural Language Processing

  • Языковые модели
  • Классификация
  • Машинный перевод
  • Суммаризация
  • Чат-боты
  • Генерация подписей к картинкам
  • ...

Языковые модели

  • Продолжают текст по заданному префиксу
  • Самый известный пример — модель GPT-3 от OpenAI

GPT-3

Классификация

Оценка тональности

Предсказание тем

Машинный перевод

Суммаризация

Чат-боты

Генерация подписей

https://techcrunch.com/2021/01/19/facebook-and-instagrams-ai-generated-image-captions-now-offer-far-more-details/

А что же BERT?

  • BERT — это вспомогательная модель, сам по себе он никакую полезную задачу не решает
  • Но на его основе можно решать другие задачи, примерно как с GPT-3

Обучение с подкреплением

https://www.kdnuggets.com/2019/10/mathworks-reinforcement-learning.html

Обучение с подкреплением

  • Reinforcement Learning (RL)
  • Сама область старше, чем DL
  • Пытаемся обучить агента, который живёт в среде и постоянно совершает в ней какие-то действия
  • Название означает, что правильных действий нет, а есть награда или штраф за каждое действие
  • Задача — максимизировать суммарную награду

AlphaZero

OpenAI Five

AlphaStar

Другие применения RL

  • Беспилотники (парковка, обгон, перестроение)
  • Робототехника
  • Торговля на бирже
  • Назначение планов лечения
  • Улучшение моделей в NLP
  • Рекомендательные системы

https://neptune.ai/blog/reinforcement-learning-applications

https://medium.com/@yuxili/rl-applications-73ef685c07eb

Предсказание траекторий

https://waymo.com/open/data/motion/

Предсказание траекторий

https://medium.com/yandex-self-driving-car/prank-motion-prediction-based-on-ranking-a6c42d4b860

Предсказание траекторий

Резюме

  • Обработка изображений — самая развитая область
  • Обработка текстов практически догнала картинки, и оттуда в картинки перетекает много идей
  • В Deep RL самые сильные результаты в играх, развивается робототехника и другие направления
  • DL применим и для других задач (звук, видео)
  • В беспилотниках нужно всё подряд

https://medium.com/yandex-self-driving-car/yandex-rover-delivery-robot-kicks-off-operations-at-russias-tech-hub-skolkovo-9b161f14bef

Ссылки

Made with Slides.com