Zastosowania technik separacji
i syntezy stylu
autor: Michał Bieroński
album: 218324

Wprowadzenie do transferu stylu

obraz 1:
zawartość

obraz 2:
styl
obraz wyjściowy:
zawartość obrazu 1 i styl obrazu 2
Definicja problemu
https://medium.com/tensorflow/neural-style-transfer-creating-art-with-deep-learning-using-tf-keras-and-eager-execution-7d541ac31398
A Neural Algorithm of Artistic Style (2015)

zawartość
styl
Zawartość obrazu

Ekstraktor cech: VGG19
https://www.quora.com/What-is-the-VGG-neural-network
liczba map cech
rozmiar mapy
Reprezentowana przez macierz:
aktywacja dla mapy i na pozycji j w wartwie l

obraz zawartości c
Styl obrazu

Ekstraktor cech: VGG19
https://www.quora.com/What-is-the-VGG-neural-network
Jak formalnie zdefiniować styl?
Macierz Grama
Iloczyn skalarny
Definicja algebraiczna:
Definicja geometryczna:
Podobieństwo cosinusowe:

Macierz Grama
Macierz Grama dla zbioru wektorów to taka macierz G, gdzie:
tworzą wiersze macierzy B
G to macierz nieznormalizowanych podobieństw cosinusowych, informuje o współwystępowaniu cech
Styl obrazu
liczba map cech
rozmiar mapy
udział straty w warstwie l

obraz stylu s
(mapy cech są spłaszczone do wektorów)
Funkcja straty

zawartość
styl
Przykładowa implementacja

zawartość
styl

Style Separation and Synthesis via Generative Adversarial Networks (2018)

Podejścia oparte o modele GAN: S3-GAN
S3-GAN funkcje straty
1. Adversarial loss:
maksymalizacja poprawnej identyfikacji "sztucznych" przykładów przez dyksryminator D oraz oszukania dyskryminatora przez koder E i generator G.
2. Content perceptual loss:
odwzorowanie treści z obrazu A. Realizacja analogiczna do poprzedniego przykładu - odległości map cech w dalszych warstwach,
kodujących wysokopoziomowe cechy jak kształt czy przestrzenne struktury.
Rolę "Perceptual network" pełni VGG19.

S3-GAN funkcje straty
3. Style perceptual loss:
odwzorowanie stylu obrazu B. Realizacja analogiczna do poprzedniego przykładu - odległości macierzy Grama w niższych warstwach (kodujących takie informacje jak kolory czy tekstury).
4. Reconstruction loss:
jak najwierniejsza rekonstrukcja przez generator G obrazów A oraz B z postaci zakodowanej przez koder E:
dystans L1 pomiędzi obrazami
oryginalnymi i po rekonstrukcji.

S3-GAN funkcje straty
5. Total variation loss:
wygładzanie, redukcja artefaktów dla produktu syntezy oraz obu rekonstrukcji. Faworyzuje zbliżone wartości sąsiadujących pikseli.
Full objective function:
ważona funkcja straty z złożona z 5
przedstawionych funkcji strat.

S3-GAN efekty

Efekty ekstrakcji i syntezy stylu CelebA

Efekty ekstrakcji i syntezy stylu Zappos50K
S3-GAN efekty
Synteza stylu dla różnych wzorców stylu


Synteza stylu dla różnych treści
S3-GAN efekty
Interpolacja treści i stylu dla wyuczonego manifoldu

S3-GAN efekty

Reprezentacja treści i stylu

Efekt wykorzystania różnych funkcji strat (prawdopodobnie omyłkowo zamienione kolumny content i style)

Crossing-Domain Generative Adversarial Networks for Unsupervised Multi-Domain Image-to-Image Translation (2018)
Podejścia oparte o modele GAN: CD-GAN
CD-GAN

model CD-GAN

przykładowe domeny
CD-GAN funkcje straty
1. GAN loss:
maksymalizacja poprawnej identyfikacji "sztucznych" przykładów w domenie Y przez dyksryminator D oraz oszukania dyskryminatora przez koder E i generator G.
2. Reconstruction loss:
jak najwierniejsza rekonstrukcja przez generator G obrazów x oraz y z postaci zakodowanej przez koder E: dystans L2 pomiędzi obrazami oryginalnymi i po rekonstrukcji.

CD-GAN funkcje straty
3. Latent consistency loss:
maksymalizacja podobieństwa wysokopoziomowej reprezentacji tego samego obrazu w domenie X oraz Y. Dystans L1.
4. Classification loss:
sztucznie wprowadzony klasyfikator domeny obrazu umieszczony za dysktryminatorem, pomaga w lepszym wyuczeniu koderów E, generatorów G i dyskryminatorów D

CD-GAN funkcje straty
5. Cycle consistency loss:
dodatkowe ograniczenie: mapowanie X - Y - X powinno dać oryginalny obraz w domenie X. Analogicznie Y - X - Y. Dystans L1.
Final Objective of CD-GAN:
ważona funkcja straty złożona z 5
przedstawionych funkcji strat.

CD-GAN efekty

translacja stylu artysty

CD-GAN efekty
translacja pór roku

CD-GAN efekty
porównanie z innymi metodami (style malarzy)

CD-GAN efekty
porównanie z innymi metodami (pory roku)
Podsumowanie
- Zadanie ekstrakcji i syntezy stylu jest zadaniem bardzo złożonym
- Metody oparte o mapy cech i macierze Grama pozwalają na efektowny bezpośredni transfer stylu
- Prostsze techniki mogą być świetną bazą dla bardziej złożonych modeli
-
Techniki oparte o modele GAN mogą:
- znacznie poprawić realizm wynikowych obrazów
- umożliwić ekstrakcję stylu
- zwiększyć możliwości w zadaniu translacji stylu
- Modeli neuronowych nie można traktować jako czarnej skrzynki, kluczem jest dobra definicja problemu w postaci funkcji straty
Przykładowa implementacja

zawartość
styl

Ciekawostki
Epoka lodowcowa - w stylu van Gogh'a
DeepArt.io
DeepArt.io
DeepArt.io
StyleGAN
Źródła
- A Neural Algorithm of Artistic Style, https://arxiv.org/pdf/1508.06576.pdf
- Neural Style Transfer: Creating Art with Deep Learning using tf.keras and eager execution, https://medium.com/tensorflow/neural-style-transfer-creating-art-with-deep-learning-using-tf-keras-and-eager-execution-7d541ac31398
- Making AI Art with Style Transfer using Keras, https://medium.com/mlreview/making-ai-art-with-style-transfer-using-keras-8bb5fa44b216
- Style Separation and Synthesis via Generative Adversarial Networks, https://arxiv.org/pdf/1811.02740.pdf
- Crossing-Domain Generative Adversarial Networks for Unsupervised Multi-Domain Image-to-Image Translation, http://www.ece.sunysb.edu/~xwang/public/paper/Multi_Domain_Image_to_Image_Translation_ACMMM_2018.pdf
Zastosowania technik separacji
i syntezy stylu

Zastosowania technik separacjii syntezy stylu
By bierus
Zastosowania technik separacjii syntezy stylu
- 381