autor: Michał Bieroński
album: 218324
obraz 1:
zawartość
obraz 2:
styl
obraz wyjściowy:
zawartość obrazu 1 i styl obrazu 2
https://medium.com/tensorflow/neural-style-transfer-creating-art-with-deep-learning-using-tf-keras-and-eager-execution-7d541ac31398
zawartość
styl
Zawartość obrazu
Ekstraktor cech: VGG19
https://www.quora.com/What-is-the-VGG-neural-network
liczba map cech
rozmiar mapy
Reprezentowana przez macierz:
aktywacja dla mapy i na pozycji j w wartwie l
obraz zawartości c
Styl obrazu
Ekstraktor cech: VGG19
https://www.quora.com/What-is-the-VGG-neural-network
Jak formalnie zdefiniować styl?
Iloczyn skalarny
Definicja algebraiczna:
Definicja geometryczna:
Podobieństwo cosinusowe:
Macierz Grama dla zbioru wektorów to taka macierz G, gdzie:
tworzą wiersze macierzy B
G to macierz nieznormalizowanych podobieństw cosinusowych, informuje o współwystępowaniu cech
Styl obrazu
liczba map cech
rozmiar mapy
udział straty w warstwie l
obraz stylu s
(mapy cech są spłaszczone do wektorów)
Funkcja straty
zawartość
styl
Przykładowa implementacja
zawartość
styl
Podejścia oparte o modele GAN: S3-GAN
1. Adversarial loss:
maksymalizacja poprawnej identyfikacji "sztucznych" przykładów przez dyksryminator D oraz oszukania dyskryminatora przez koder E i generator G.
2. Content perceptual loss:
odwzorowanie treści z obrazu A. Realizacja analogiczna do poprzedniego przykładu - odległości map cech w dalszych warstwach,
kodujących wysokopoziomowe cechy jak kształt czy przestrzenne struktury.
Rolę "Perceptual network" pełni VGG19.
3. Style perceptual loss:
odwzorowanie stylu obrazu B. Realizacja analogiczna do poprzedniego przykładu - odległości macierzy Grama w niższych warstwach (kodujących takie informacje jak kolory czy tekstury).
4. Reconstruction loss:
jak najwierniejsza rekonstrukcja przez generator G obrazów A oraz B z postaci zakodowanej przez koder E:
dystans L1 pomiędzi obrazami
oryginalnymi i po rekonstrukcji.
5. Total variation loss:
wygładzanie, redukcja artefaktów dla produktu syntezy oraz obu rekonstrukcji. Faworyzuje zbliżone wartości sąsiadujących pikseli.
Full objective function:
ważona funkcja straty z złożona z 5
przedstawionych funkcji strat.
Efekty ekstrakcji i syntezy stylu CelebA
Efekty ekstrakcji i syntezy stylu Zappos50K
Synteza stylu dla różnych wzorców stylu
Synteza stylu dla różnych treści
Interpolacja treści i stylu dla wyuczonego manifoldu
Reprezentacja treści i stylu
Efekt wykorzystania różnych funkcji strat (prawdopodobnie omyłkowo zamienione kolumny content i style)
Podejścia oparte o modele GAN: CD-GAN
model CD-GAN
przykładowe domeny
1. GAN loss:
maksymalizacja poprawnej identyfikacji "sztucznych" przykładów w domenie Y przez dyksryminator D oraz oszukania dyskryminatora przez koder E i generator G.
2. Reconstruction loss:
jak najwierniejsza rekonstrukcja przez generator G obrazów x oraz y z postaci zakodowanej przez koder E: dystans L2 pomiędzi obrazami oryginalnymi i po rekonstrukcji.
3. Latent consistency loss:
maksymalizacja podobieństwa wysokopoziomowej reprezentacji tego samego obrazu w domenie X oraz Y. Dystans L1.
4. Classification loss:
sztucznie wprowadzony klasyfikator domeny obrazu umieszczony za dysktryminatorem, pomaga w lepszym wyuczeniu koderów E, generatorów G i dyskryminatorów D
5. Cycle consistency loss:
dodatkowe ograniczenie: mapowanie X - Y - X powinno dać oryginalny obraz w domenie X. Analogicznie Y - X - Y. Dystans L1.
Final Objective of CD-GAN:
ważona funkcja straty złożona z 5
przedstawionych funkcji strat.
translacja stylu artysty
translacja pór roku
porównanie z innymi metodami (style malarzy)
porównanie z innymi metodami (pory roku)
Przykładowa implementacja
zawartość
styl
Epoka lodowcowa - w stylu van Gogh'a