破解AI影像黑科技

2024 Dec 14

湯沂達

https://slides.com/sin_dar_soup/deck-c4b227#/ai-media-geneation-hands-on

湯沂達

Data Scientist, Group 42, Abu Dhabi
2022 July - Present

AI Engineer, Taiwan AI Academy, Taipei

2019 July - 2022 Feb

Master's Degree in Applied Mathematics, NCTU, Hsinchu

2016 Sep - 2018 Jun

Bachelor's Degree in Mathematics, NCU, Taoyuan
Minor's Program in CSIE, NCU, Taoyuan

2012 Sep - 2016 June

changethewhat@gmail.com

幾則新聞

幾個應用

我猜你們已經知道...

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

她戴著西瓜造型的安全帽

我猜你們已經知道...

她戴著西瓜造型的安全帽

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

如何控制

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

如何控制

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

如何控制

關鍵點、人臉、表情、衣服、光影 ...

ControlNet

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

PuLID

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

IC Light

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

今日內容

內容

商業服務及應用例子

論文淺介

開源項目入門

額外資源

Hugging Face Space

ComfyUI

Face Fusion

內容

開源項目入門

額外資源

Hugging Face Space

ComfyUI

Face Fusion

商業服務及應用例子

論文淺介

內容

商業服務及應用例子

論文淺介

開源項目入門

Hugging Face Space

ComfyUI

Face Fusion

額外資源

骨幹模型

Stable Diffusion

加速輸出

SDXL Turbo

控制輸出

LoRA, ControlNet, IPAdapter, ICLight

內容

論文淺介

開源項目入門

額外資源

Hugging Face Space

ComfyUI

Face Fusion

商業服務及應用例子

內容

開源項目入門

額外資源

網路教程

其他開源項目

等等

Hugging Face Space

ComfyUI

Face Fusion

商業服務及應用例子

論文淺介

商業服務及應用例子

PIKA

close up of hands squishing the washing machine

levitate it

Crumble it

bullet time shot, 360 camera circling around the floating furniture

Runway

Input Video + Various Prompts

Driving Performance Video + Character Image

Video Expand

Multi-Motion Brush

Synthesia & HeyGen

source: https://www.youtube.com/watch?v=jjeEio0ZlVA

生成聲音克隆、人物克隆的平台

source: https://www.youtube.com/watch?v=jjeEio0ZlVA

Synthesia & HeyGen

生成聲音克隆、人物克隆的平台

Pixellab

Tripo

Notebook LM + 語者分離 + 對嘴

https://www.youtube.com/watch?v=sk3MtYj0tMI

材料

論文淺介

骨幹模型

Stable Diffusion

加速輸出

SDXL Turbo

控制輸出

LoRA, ControlNet, IPAdapter, ICLight

骨幹模型

Diffusion

Stable Diffusion

+Noise

...

x_0

x_1

x_2

x_T

...

Diffusion Process

Stable Diffusion

+Noise

...

x_0

x_1

x_2

x_T

\text{Find a diffusion model } \epsilon_\theta

\epsilon_\theta(x_{t}) \rightarrow x_{t-1}

Denoise Process

Diffusion Process

...

Stable Diffusion

+Noise

...

z_0

z_1

z_2

z_T

...

x_0

\downarrow

encoding

\uparrow

decoding

\text{Find a diffusion model } \epsilon_\theta

Diffusion Process

Denoise Process

Stable Diffusion

+Noise

...

z_0

z_1

z_2

z_T

\text{Find a \red{latent} diffusion model } \epsilon_\theta

\red{\epsilon_\theta(z_{t},\tau_{\theta}(y)) \rightarrow z_{t-1}}

...

x_0

\downarrow

encoding

\uparrow

decoding

Diffusion Process

Denoise Process

加速輸出

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

啊結果是不錯，可是太慢了

要1000步

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

GAN Loss

訓練一個分類器來判別是否由模型輸出

啊結果是不錯，可是太慢了

要1000步

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

GAN Loss

Distillation Loss

訓練一個分類器來判別是否由模型輸出

把已經訓練好的老師模型的還原結果拿來當訓練目標

啊結果是不錯，可是太慢了

要1000步

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

GAN Loss

Distillation Loss

訓練一個分類器來判別是否由模型輸出

把已經訓練好的老師模型的還原結果拿來當訓練目標

啊結果是不錯，可是太慢了

要1000步

論文結果步數為1 或 4

控制輸出

LoRA: Low Rank Adaptation

Trainable parameter

d \times d

2 \times d \times r

d=1000, r = 4

2 x1000 x 4 / 1000 x 1000 = 0.008

ControlNet

Original

複製一部份權重做為初始值

Zero Convolution是初始值為0的卷積層
能確保新模型的初始輸出會跟原本一樣

ControlNet

IP-Adapter

Original

IP-Adapter

Imposing Consistent Light Transport (IC-Light)

開源項目入門

Hugging Face Space

ComfyUI

Face Fusion

https://huggingface.co/spaces

https://colab.research.google.com/gist/mistake0316/60662a4f98a80f6dfb51ef34e4ac37f9/.ipynb

Hugging Face Space

開源項目入門

Hugging Face Space

ComfyUI

Face Fusion

ComfyUI

Workflow
Model
Module

ComfyUI

Workflow
Model
Module

ComfyUI

Workflow
Model
Module

{
  "3": {
    "inputs": {
      "seed": 384365032009655,
      "steps": 20,
      "cfg": 8,
      "sampler_name": "euler",
      "scheduler": "normal",
      "denoise": 1,
      "model": [
        "4",
        0
      ],
      "positive": [
        "6",
        0
      ],
      "negative": [
        "7",
        0
      ],
      "latent_image": [
        "5",
        0
      ]
    },
    "class_type": "KSampler"
  },
  "4": {
    "inputs": {
      "ckpt_name": "v1-5-pruned-emaonly-fp16.safetensors"
    },
    "class_type": "CheckpointLoaderSimple"
  },
  "5": {
    "inputs": {
      "width": 512,
      "height": 512,
      "batch_size": 1
    },
    "class_type": "EmptyLatentImage"
  },
  "6": {
    "inputs": {
      "text": "beautiful scenery nature glass bottle landscape, , purple galaxy bottle,",
      "clip": [
        "4",
        1
      ]
    },
    "class_type": "CLIPTextEncode"
  },
  "7": {
    "inputs": {
      "text": "text, watermark",
      "clip": [
        "4",
        1
      ]
    },
    "class_type": "CLIPTextEncode"
  },
  "8": {
    "inputs": {
      "samples": [
        "3",
        0
      ],
      "vae": [
        "4",
        2
      ]
    },
    "class_type": "VAEDecode"
  },
  "9": {
    "inputs": {
      "filename_prefix": "ComfyUI",
      "images": [
        "8",
        0
      ]
    },
    "class_type": "SaveImage"
  }
}

SimpleWorkflow.json

ComfyUI