破解AI影像黑科技
2024 Dec 14
湯沂達
https://slides.com/sin_dar_soup/deck-c4b227#/ai-media-geneation-hands-on
湯沂達
Data Scientist, Group 42, Abu Dhabi
2022 July - Present
AI Engineer, Taiwan AI Academy, Taipei
2019 July - 2022 Feb
Master's Degree in Applied Mathematics, NCTU, Hsinchu
2016 Sep - 2018 Jun
Bachelor's Degree in Mathematics, NCU, Taoyuan
Minor's Program in CSIE, NCU, Taoyuan
2012 Sep - 2016 June
changethewhat@gmail.com
幾則新聞
幾個應用
我猜你們已經知道...
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
她戴著西瓜造型的安全帽
我猜你們已經知道...
她戴著西瓜造型的安全帽
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
如何控制
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
如何控制
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
如何控制
關鍵點、人臉、表情、衣服、光影 ...
ControlNet
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
PuLID
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
IC Light
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
今日內容
內容
商業服務及應用例子
論文淺介
開源項目入門
額外資源
Hugging Face Space
ComfyUI
Face Fusion
內容
開源項目入門
額外資源
Hugging Face Space
ComfyUI
Face Fusion
商業服務及應用例子
論文淺介
內容
商業服務及應用例子
論文淺介
開源項目入門
Hugging Face Space
ComfyUI
Face Fusion
額外資源
骨幹模型
Stable Diffusion
加速輸出
SDXL Turbo
控制輸出
LoRA, ControlNet, IPAdapter, ICLight
內容
論文淺介
開源項目入門
額外資源
Hugging Face Space
ComfyUI
Face Fusion
商業服務及應用例子
內容
開源項目入門
額外資源
網路教程
其他開源項目
等等
Hugging Face Space
ComfyUI
Face Fusion
商業服務及應用例子
論文淺介
商業服務及應用例子
PIKA
close up of hands squishing the washing machine
levitate it
Crumble it
bullet time shot, 360 camera circling around the floating furniture
Runway
Input Video + Various Prompts
Driving Performance Video + Character Image
Video Expand
Multi-Motion Brush
Synthesia & HeyGen
生成聲音克隆、人物克隆的平台
Synthesia & HeyGen
生成聲音克隆、人物克隆的平台
Pixellab
Tripo
Notebook LM + 語者分離 + 對嘴
材料
論文淺介
骨幹模型
Stable Diffusion
加速輸出
SDXL Turbo
控制輸出
LoRA, ControlNet, IPAdapter, ICLight
骨幹模型
Diffusion
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
...
Diffusion Process
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
Denoise Process
Diffusion Process
...
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
...
encoding
decoding
Diffusion Process
Denoise Process
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
...
encoding
decoding
Diffusion Process
Denoise Process
加速輸出
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
啊結果是不錯,可是太慢了
要1000步
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
GAN Loss
訓練一個分類器來判別是否由模型輸出
啊結果是不錯,可是太慢了
要1000步
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
GAN Loss
Distillation Loss
訓練一個分類器來判別是否由模型輸出
把已經訓練好的老師模型的還原結果拿來當訓練目標
啊結果是不錯,可是太慢了
要1000步
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
GAN Loss
Distillation Loss
訓練一個分類器來判別是否由模型輸出
把已經訓練好的老師模型的還原結果拿來當訓練目標
啊結果是不錯,可是太慢了
要1000步
論文結果步數為1 或 4
控制輸出
控制輸出
LoRA: Low Rank Adaptation
Trainable parameter
d=1000, r = 4
2 x1000 x 4 / 1000 x 1000 = 0.008
ControlNet
Original
複製一部份權重做為初始值
Zero Convolution是初始值為0的卷積層
能確保新模型的初始輸出會跟原本一樣
ControlNet
IP-Adapter
Original
IP-Adapter
Imposing Consistent Light Transport (IC-Light)
Imposing Consistent Light Transport (IC-Light)
Imposing Consistent Light Transport (IC-Light)
開源項目入門
Hugging Face Space
ComfyUI
Face Fusion
Hugging Face Space
開源項目入門
Hugging Face Space
ComfyUI
Face Fusion
ComfyUI
- Workflow
- Model
- Module
ComfyUI
- Workflow
- Model
- Module
ComfyUI
- Workflow
- Model
- Module
{
"3": {
"inputs": {
"seed": 384365032009655,
"steps": 20,
"cfg": 8,
"sampler_name": "euler",
"scheduler": "normal",
"denoise": 1,
"model": [
"4",
0
],
"positive": [
"6",
0
],
"negative": [
"7",
0
],
"latent_image": [
"5",
0
]
},
"class_type": "KSampler"
},
"4": {
"inputs": {
"ckpt_name": "v1-5-pruned-emaonly-fp16.safetensors"
},
"class_type": "CheckpointLoaderSimple"
},
"5": {
"inputs": {
"width": 512,
"height": 512,
"batch_size": 1
},
"class_type": "EmptyLatentImage"
},
"6": {
"inputs": {
"text": "beautiful scenery nature glass bottle landscape, , purple galaxy bottle,",
"clip": [
"4",
1
]
},
"class_type": "CLIPTextEncode"
},
"7": {
"inputs": {
"text": "text, watermark",
"clip": [
"4",
1
]
},
"class_type": "CLIPTextEncode"
},
"8": {
"inputs": {
"samples": [
"3",
0
],
"vae": [
"4",
2
]
},
"class_type": "VAEDecode"
},
"9": {
"inputs": {
"filename_prefix": "ComfyUI",
"images": [
"8",
0
]
},
"class_type": "SaveImage"
}
}
SimpleWorkflow.json
ComfyUI
- Workflow
- Model
- Module
ComfyUI
位置:/ComfyUI/models/...
- Workflow
- Model
- Module
ComfyUI
位置:/ComfyUI/models/...
哪裡找到模型?
- Workflow
- Model
- Module
ComfyUI
- Workflow
- Model
- Module
Segment Anything 2
Examples
Text to speech
ControlNet Auxiliary Preprocessors
Resource Monitor
Face Experssion
ComfyUI
- Workflow
- Model
- Module
ComfyUI-Manager
ComfyUI
- Workflow
- Model
- Module
ComfyUI-Manager
可以自動安裝缺失的工具
ComfyUI
開源項目入門
Hugging Face Space
ComfyUI
Face Fusion
功能
https://imgur.com/hibkOpa
練習項目
素材
弄一張含臉的圖片
弄一段有人講話的音檔
用MimicPC啟動FaceFusion
額外資源
Blender
氪學家
ComfyUI Reddit
Adobe
Q&A
破解AI影像黑科技
By sin_dar_soup
破解AI影像黑科技
- 37