Чем занимается
Deep Learning
Дмитрий Никулин
18 июня 2021
Обо мне
- Окончил матмех СПбГУ
- В 2017-2019 году учился в ШАДе
- В 2018-2020 работал в Samsung AI Center
- В 2019-2021 поддерживал курс по обучению с подкреплением от ВШЭ и ШАДа на Coursera
- С декабря 2020 занимаюсь предсказанием траекторий чужих машин для беспилотника Яндекса
- С марта 2021 читаю курс по DL на ДПО ВШЭ
План
- Немного истории
- Обработка изображений
- Обработка текстов
- Обучение с подкреплением
- Немного про беспилотные автомобили
Немного истории
Перцептрон
- Frank Rosenblatt, 1958
- Cornell Aeronautical Laboratory
- Модель 1 нейрона
- Алгоритм, позволяющий эффективно обучать конструкции из нескольких нейронов
- Известен с 1970х
Алгоритм обратного распространения ошибки
Распознавание почтовых индексов
- Статья 1989 года "Backpropagation Applied to Handwritten Zip Code Recognition"
- Автор — Yann LeCun, тогда работал в Bell Labs
LSTM
- Статья 1997 года "Long Short-Term Memory"
- Авторы — Sepp Hochreiter (университет Мюнхена) и Jürgen Schmidhuber (IDSIA)
- До сих пор используемая архитектура для предсказания временных рядов
2000е
- В мире накопилось много данных
- Из-за компьютерных игр совершенствуются видеокарты
AlexNet
- Статья 2012 года "ImageNet Classification with Deep Convolutional Neural Networks"
- Авторы — Alex Krizhevsky, Ilya Sutskever и Geoffrey Hinton (университет Торонто)
- Почти в 2 раза побили рекорд точности классификации изображений
- Хайп начался
Обработка изображений
Обработка изображений
- Классификация
- Детекция
- Сегментация
- Оценка глубины
- Поиск ключевых точек
- Трекинг объектов
- Улучшение качества изображений
- Генерация новых изображений
- ...
Классификация
- По картинке надо определить её класс
- У каждой картинки класс ровно один
- Самая развитая область, работает очень хорошо
Детекция
- Надо на картинке выделить рамкой разные интересные объекты и их классифицировать
Подсчёт количества людей
Проверка выкладки товаров в магазине
https://inspector-cloud.com/index
https://habr.com/ru/company/mailru/blog/460307/
Детекция
Распознавание сцены в беспилотниках
https://github.com/I2RDL2/ASTAR-3D
Детекция
Сегментация
- Нужно не просто обвести объекты рамкой, а как-то разметить каждый пиксель картинки
- Бывают разные виды:
- Semantic
- Instance
- Panoptic
https://neurohive.io/en/news/attentive-graph-neural-networks-new-method-for-video-object-segmentation/
Типы сегментации
https://arxiv.org/abs/1801.00868
Зачем нужна сегментация
спутниковые снимки
http://liu.diva-portal.org/smash/get/diva2:1182913/FULLTEXT01.pdf
медицинские снимки
https://www.semanticscholar.org/paper/A-Review-of-Medical-Image-Segmentation%3A-Methods-and-Withey-Koles/1b699b098ec7a5e539afd8370d71a82d41e3370d
Зачем нужна сегментация
вырезание фона
https://blog.prismalabs.ai/real-time-portrait-segmentation-on-smartphones-39c84f1b9e66
ретушь фотографий
https://heartbeat.fritz.ai/embrace-your-new-look-with-hair-segmentation-by-fritz-now-available-for-android-developers-f20f5b4e9ae1
...и ещё карта осадков
это не совсем сегментация, но близко
Оценка глубины
- В классическом компьютерном зрении оценка глубины делается по двум кадрам
- С помощью нейросетей можно предсказывать глубину по одному кадру
Оценка глубины
эффекты для видео
https://syncedreview.com/2020/05/04/consistent-video-depth-estimation-generating-hq-depth-maps-from-single-video-input/
дополненная реальность
https://www.thegamer.com/improved-depth-estimation-in-augmented-reality-is-here/
Ключевые точки
- Размечаем на картинке какие-то важные точки (скелет человека, лицо, кисти рук)
- Используем это для дальнейших задач (определение эмоций, предсказание движения)
https://www.robots.ox.ac.uk/~vgg/software/keypoint_detection/
Трекинг
- Как детекция, но отслеживаем перемещение объектов между кадрами
Улучшение качества
- Увеличение разрешения
- Чёрно-белое → цветное
- Вычислительная фотография
Увеличение размеров
https://neurohive.io/en/news/pulse-new-deep-network-learns-how-to-upscale-low-resolution-images/
Чёрно-белое → цветное
https://www.reviewgeek.com/78029/new-photo-colorization-ai-fixes-early-photographys-old-man-wrinkle-effect/
Вычислительная фотография
https://www.theverge.com/2017/7/14/15973712/google-ai-research-street-view-panorama-photo-editing
Вычислительная фотография
https://github.com/saic-mdal/HiDT
https://vas3k.ru/blog/computational_photography/
Генерация
- Перенос стиля
- GAN
- Deepfake
- Text to image
https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/
Перенос стиля
https://towardsdatascience.com/light-on-math-machine-learning-intuitive-guide-to-neural-style-transfer-ef88e46697ee?gi=d91d765e01b0
Generative Adversarial Networks
https://twitter.com/goodfellow_ian/status/1084973596236144640
Deepfake
Другие задачи
Распознавание текста
https://www.sifsof.com/clinical-apps/simultaneous-localization-and-mapping-slam/
https://www.researchgate.net/publication/320132488_A_Novel_Framework_for_Text_Recognition_in_Street_View_Images
Simultaneous localization and mapping (SLAM)
Обработка текстов
Natural Language Processing
- Языковые модели
- Классификация
- Машинный перевод
- Суммаризация
- Чат-боты
- Генерация подписей к картинкам
- ...
Языковые модели
- Продолжают текст по заданному префиксу
- Самый известный пример — модель GPT-3 от OpenAI
GPT-3
Классификация
Оценка тональности
Предсказание тем
Машинный перевод
Суммаризация
Чат-боты
Генерация подписей
https://techcrunch.com/2021/01/19/facebook-and-instagrams-ai-generated-image-captions-now-offer-far-more-details/
А что же BERT?
- BERT — это вспомогательная модель, сам по себе он никакую полезную задачу не решает
- Но на его основе можно решать другие задачи, примерно как с GPT-3
Обучение с подкреплением
https://www.kdnuggets.com/2019/10/mathworks-reinforcement-learning.html
Обучение с подкреплением
- Reinforcement Learning (RL)
- Сама область старше, чем DL
- Пытаемся обучить агента, который живёт в среде и постоянно совершает в ней какие-то действия
- Название означает, что правильных действий нет, а есть награда или штраф за каждое действие
- Задача — максимизировать суммарную награду
AlphaZero
OpenAI Five
AlphaStar
Другие применения RL
- Беспилотники (парковка, обгон, перестроение)
- Робототехника
- Торговля на бирже
- Назначение планов лечения
- Улучшение моделей в NLP
- Рекомендательные системы
https://neptune.ai/blog/reinforcement-learning-applications
https://medium.com/@yuxili/rl-applications-73ef685c07eb
Предсказание траекторий
https://waymo.com/open/data/motion/
Предсказание траекторий
https://medium.com/yandex-self-driving-car/prank-motion-prediction-based-on-ranking-a6c42d4b860
Предсказание траекторий
Резюме
- Обработка изображений — самая развитая область
- Обработка текстов практически догнала картинки, и оттуда в картинки перетекает много идей
- В Deep RL самые сильные результаты в играх, развивается робототехника и другие направления
- DL применим и для других задач (звук, видео)
- В беспилотниках нужно всё подряд
https://medium.com/yandex-self-driving-car/yandex-rover-delivery-robot-kicks-off-operations-at-russias-tech-hub-skolkovo-9b161f14bef
Ссылки
- Центр непрерывного образования ФКН ВШЭ
- Курсы повышения квалификации:
- «Глубинное обучение». Старт 23 июня 2021;
- «Машинное обучение». Старт 4 сентября 2021;
-
«Python для автоматизации и анализа данных».
Старт в сентябре 2021.
- Программы профессиональной переподготовки:
- «Специалист по Data Science». Старт 7 сентября 2021;
- «Аналитик данных». Старт в сентябре 2021.
- Соцсети:
Чем занимается Deep Learning
By dniku
Чем занимается Deep Learning
- 307