破解AI影像黑科技

2024 Dec 14

湯沂達

https://slides.com/sin_dar_soup/deck-c4b227#/ai-media-geneation-hands-on

湯沂達

Data Scientist, Group 42, Abu Dhabi
2022 July - Present

AI Engineer, Taiwan AI Academy, Taipei

2019 July - 2022 Feb

Master's Degree in Applied Mathematics, NCTU, Hsinchu

2016 Sep - 2018 Jun

Bachelor's Degree in Mathematics, NCU, Taoyuan
Minor's Program in CSIE, NCU, Taoyuan

2012 Sep - 2016 June

changethewhat@gmail.com

幾則新聞

幾個應用

我猜你們已經知道...

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

她戴著西瓜造型的安全帽

我猜你們已經知道...

她戴著西瓜造型的安全帽

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

如何控制

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

如何控制

關鍵點人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

如何控制

關鍵點人臉、表情、衣服、光影 ...

ControlNet

文生圖已經很容易達成不錯的結果

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

PuLID

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

我猜你們已經知道...

她戴著西瓜造型的安全帽

關鍵點、人臉、表情、衣服、光影 ...

文生圖已經很容易達成不錯的結果

如何控制

IC Light

幫我生成一張的圖片

台灣女生在夜市拿著珍珠奶茶

今日內容

內容

商業服務及應用例子

論文淺介

開源項目入門

額外資源

Hugging Face Space

ComfyUI

Face Fusion

內容

開源項目入門

額外資源

Hugging Face Space

ComfyUI

Face Fusion

商業服務及應用例子

論文淺介

內容

商業服務及應用例子

論文淺介

開源項目入門

Hugging Face Space

ComfyUI

Face Fusion

額外資源

骨幹模型

    Stable Diffusion

加速輸出

    SDXL Turbo

控制輸出

        LoRA, ControlNet, IPAdapter, ICLight

內容

論文淺介

開源項目入門

額外資源

Hugging Face Space

ComfyUI

Face Fusion

商業服務及應用例子

內容

開源項目入門

額外資源

網路教程

其他開源項目

等等

Hugging Face Space

ComfyUI

Face Fusion

商業服務及應用例子

論文淺介

商業服務及應用例子

PIKA

close up of hands squishing the washing machine

levitate it

Crumble it

bullet time shot, 360 camera circling around the floating furniture

Runway

Input Video + Various Prompts

Driving Performance Video + Character Image

Video Expand

Multi-Motion Brush

Synthesia & HeyGen

生成聲音克隆、人物克隆的平台

Synthesia & HeyGen

生成聲音克隆、人物克隆的平台

Pixellab

Tripo

Notebook LM + 語者分離 + 對嘴

材料

論文淺介

骨幹模型

    Stable Diffusion

加速輸出

    SDXL Turbo

控制輸出

    LoRA, ControlNet, IPAdapter, ICLight

骨幹模型

Diffusion

Stable Diffusion

+Noise

+Noise

+Noise

+Noise

...

x_0
x_1
x_2
x_T

...

Diffusion Process

Stable Diffusion

+Noise

+Noise

+Noise

+Noise

...

x_0
x_1
x_2
x_T
\text{Find a diffusion model } \epsilon_\theta
\epsilon_\theta(x_{t}) \rightarrow x_{t-1}

Denoise Process

Diffusion Process

...

Stable Diffusion

+Noise

+Noise

+Noise

+Noise

...

z_0
z_1
z_2
z_T

...

x_0
\downarrow

encoding

\uparrow

decoding

\text{Find a diffusion model } \epsilon_\theta

Diffusion Process

Denoise Process

Stable Diffusion

+Noise

+Noise

+Noise

+Noise

...

z_0
z_1
z_2
z_T
\text{Find a \red{latent} diffusion model } \epsilon_\theta
\red{\epsilon_\theta(z_{t},\tau_{\theta}(y)) \rightarrow z_{t-1}}

...

x_0
\downarrow

encoding

\uparrow

decoding

Diffusion Process

Denoise Process

加速輸出

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

啊結果是不錯,可是太慢了

要1000步

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

GAN Loss

訓練一個分類器來判別是否由模型輸出

啊結果是不錯,可是太慢了

要1000步

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

GAN Loss

Distillation Loss

訓練一個分類器來判別是否由模型輸出

把已經訓練好的老師模型的還原結果拿來當訓練目標

啊結果是不錯,可是太慢了

要1000步

SDXL Turbo

Total Loss

adversarial diffusion distillation(ADD)

GAN Loss

Distillation Loss

訓練一個分類器來判別是否由模型輸出

把已經訓練好的老師模型的還原結果拿來當訓練目標

啊結果是不錯,可是太慢了

要1000步

論文結果步數為1 或 4

控制輸出

控制輸出

LoRA: Low Rank Adaptation

Trainable parameter

d \times d
2 \times d \times r

d=1000, r = 4

2 x1000 x 4 / 1000 x 1000 = 0.008

ControlNet

Original

複製一部份權重做為初始值


Zero Convolution是初始值為0的卷積層
能確保新模型的初始輸出會跟原本一樣

ControlNet

IP-Adapter

Original

IP-Adapter

Imposing Consistent Light Transport (IC-Light)

Imposing Consistent Light Transport (IC-Light)

Imposing Consistent Light Transport (IC-Light)

開源項目入門

Hugging Face Space

ComfyUI

Face Fusion

Hugging Face Space

開源項目入門

Hugging Face Space

ComfyUI

Face Fusion

ComfyUI

  • Workflow
  • Model
  • Module

ComfyUI

  • Workflow
  • Model
  • Module

ComfyUI

  • Workflow
  • Model
  • Module
{
  "3": {
    "inputs": {
      "seed": 384365032009655,
      "steps": 20,
      "cfg": 8,
      "sampler_name": "euler",
      "scheduler": "normal",
      "denoise": 1,
      "model": [
        "4",
        0
      ],
      "positive": [
        "6",
        0
      ],
      "negative": [
        "7",
        0
      ],
      "latent_image": [
        "5",
        0
      ]
    },
    "class_type": "KSampler"
  },
  "4": {
    "inputs": {
      "ckpt_name": "v1-5-pruned-emaonly-fp16.safetensors"
    },
    "class_type": "CheckpointLoaderSimple"
  },
  "5": {
    "inputs": {
      "width": 512,
      "height": 512,
      "batch_size": 1
    },
    "class_type": "EmptyLatentImage"
  },
  "6": {
    "inputs": {
      "text": "beautiful scenery nature glass bottle landscape, , purple galaxy bottle,",
      "clip": [
        "4",
        1
      ]
    },
    "class_type": "CLIPTextEncode"
  },
  "7": {
    "inputs": {
      "text": "text, watermark",
      "clip": [
        "4",
        1
      ]
    },
    "class_type": "CLIPTextEncode"
  },
  "8": {
    "inputs": {
      "samples": [
        "3",
        0
      ],
      "vae": [
        "4",
        2
      ]
    },
    "class_type": "VAEDecode"
  },
  "9": {
    "inputs": {
      "filename_prefix": "ComfyUI",
      "images": [
        "8",
        0
      ]
    },
    "class_type": "SaveImage"
  }
}

SimpleWorkflow.json

ComfyUI

  • Workflow
  • Model
  • Module

ComfyUI

位置:/ComfyUI/models/...

  • Workflow
  • Model
  • Module

ComfyUI

位置:/ComfyUI/models/...

哪裡找到模型?

huggingface

github

civitai.com

google 搜尋模型名稱

某人的google drive

....

  • Workflow
  • Model
  • Module

ComfyUI

  • Workflow
  • Model
  • Module

Examples

ControlNet Auxiliary Preprocessors

https://github.com/Fannovel16/comfyui_controlnet_aux

ComfyUI

  • Workflow
  • Model
  • Module

ComfyUI-Manager

ComfyUI

  • Workflow
  • Model
  • Module

ComfyUI-Manager

可以自動安裝缺失的工具

ComfyUI

開源項目入門

Hugging Face Space

ComfyUI

Face Fusion

功能

https://imgur.com/hibkOpa

練習項目

素材

弄一張含臉的圖片

弄一段有人講話的音檔

用MimicPC啟動FaceFusion

額外資源

Blender

氪學家

ComfyUI Reddit

Adobe

Q&A

破解AI影像黑科技

By sin_dar_soup

破解AI影像黑科技

  • 37