Владимир Игловиков
Cat (0.99)
Dog(0.01)
Чаще всего используют Dice - особенно в медицинских снимках
и Jaccard (IoU)
Jonathan Long, Evan Shelhamer, Trevor Darrell; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 3431-3440
Jonathan Long, Evan Shelhamer, Trevor Darrell; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 3431-3440
Заменить Upsampling на иерархический Upsampling
V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” arXiv:1511.00561, 2015
O. Ronneberger P. Fischer T. Brox "U-net: Convolutional networks for biomedical image segmentation" Proc. Med. Image Comput. Comput.-Assisted Intervention pp. 234-241 2015.
Text
Iglovikov, V., Shvets, A.: Ternausnet: U-net with vgg11 encoder pre-trained on imagenet for image segmentation. arXiv preprint arXiv:1801.05746 (2018)
Энкодер инициализируем весами с ImageNet
Medical Imaging
Satellite Imaging
Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 2117-2125
Каждый пиксель классификатор => Categorical / Binary Cross Entropy(CCE, BCE)
Но! Метрика Dice / Jaccard
Dice / Jaccard недифференцируемы =>
Soft Dice / Soft Jaccard
и добавляем в loss
Lovasz-Softmax loss
Использовать для FineTune
Berman, M., Rannen Triki, A., Blaschko, M.B.: The lovász-softmax loss: a tractable surrogate for the optimization of the intersection-over-union measure in neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4413–4421 (2018)
Предсказываем:
Метрика крайне замороченная.
Нужно свести в одно число:
Для каждого класса:
Detection = Предсказываем много боксов, а потом фильтруем
One-shot (быстрые)
YOLO, SSD, RetinaNet,
SqueezeNet, DetectNet
Two-shot (точные)
R-FCN, Fast RCNN, Faster-RCNN
Для каждой ячейки в последнем conv слое предказываем координаты бокса и класс объекта с центром в ячейке.
Для каждой ячейки в последнем conv слое предказываем координаты бокса и класс объекта с центром в ячейке.
mAP | FPS | |
---|---|---|
YOLO v2 | 21.6 | 91 |
SSD | 28.0 | 59 |
R-CNN = Selective Search
+ Classification
Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 580-587
R-CNN => Fast R-CNN
Меняем порядок Crop и ConvNet
50 секунд => 2 секунды (25 раз быстрее)
Fast R-CNN => Faster R-CNN
Вычисляем proposals самой сетью.
2 секунды => 0.2 секунды (10 раз быстрее)
Backbone | FPN | mAP |
---|---|---|
ResNet 50 | No | 34.8 |
ResNet 50 | Yes | 36.8 |
ResNet 101 | Yes | 39.1 |
ResNext 101 | Yes | 41.2 |