2024 Dec 14
湯沂達
https://slides.com/sin_dar_soup/deck-c4b227#/ai-media-geneation-hands-on
Data Scientist, Group 42, Abu Dhabi
2022 July - Present
AI Engineer, Taiwan AI Academy, Taipei
2019 July - 2022 Feb
Master's Degree in Applied Mathematics, NCTU, Hsinchu
2016 Sep - 2018 Jun
Bachelor's Degree in Mathematics, NCU, Taoyuan
Minor's Program in CSIE, NCU, Taoyuan
2012 Sep - 2016 June
changethewhat@gmail.com
我猜你們已經知道...
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
她戴著西瓜造型的安全帽
我猜你們已經知道...
她戴著西瓜造型的安全帽
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
如何控制
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
如何控制
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
如何控制
關鍵點、人臉、表情、衣服、光影 ...
ControlNet
文生圖已經很容易達成不錯的結果
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
PuLID
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
我猜你們已經知道...
她戴著西瓜造型的安全帽
關鍵點、人臉、表情、衣服、光影 ...
文生圖已經很容易達成不錯的結果
如何控制
IC Light
幫我生成一張的圖片
台灣女生在夜市拿著珍珠奶茶
商業服務及應用例子
論文淺介
開源項目入門
額外資源
Hugging Face Space
ComfyUI
Face Fusion
開源項目入門
額外資源
Hugging Face Space
ComfyUI
Face Fusion
商業服務及應用例子
論文淺介
商業服務及應用例子
論文淺介
開源項目入門
Hugging Face Space
ComfyUI
Face Fusion
額外資源
骨幹模型
Stable Diffusion
加速輸出
SDXL Turbo
控制輸出
LoRA, ControlNet, IPAdapter, ICLight
論文淺介
開源項目入門
額外資源
Hugging Face Space
ComfyUI
Face Fusion
商業服務及應用例子
開源項目入門
額外資源
網路教程
其他開源項目
等等
Hugging Face Space
ComfyUI
Face Fusion
商業服務及應用例子
論文淺介
PIKA
close up of hands squishing the washing machine
levitate it
Crumble it
bullet time shot, 360 camera circling around the floating furniture
Runway
Input Video + Various Prompts
Driving Performance Video + Character Image
Video Expand
Multi-Motion Brush
Synthesia & HeyGen
生成聲音克隆、人物克隆的平台
Synthesia & HeyGen
生成聲音克隆、人物克隆的平台
Pixellab
Tripo
Notebook LM + 語者分離 + 對嘴
材料
骨幹模型
Stable Diffusion
加速輸出
SDXL Turbo
控制輸出
LoRA, ControlNet, IPAdapter, ICLight
Diffusion
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
...
Diffusion Process
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
Denoise Process
Diffusion Process
...
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
...
encoding
decoding
Diffusion Process
Denoise Process
Stable Diffusion
+Noise
+Noise
+Noise
+Noise
...
...
encoding
decoding
Diffusion Process
Denoise Process
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
啊結果是不錯,可是太慢了
要1000步
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
GAN Loss
訓練一個分類器來判別是否由模型輸出
啊結果是不錯,可是太慢了
要1000步
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
GAN Loss
Distillation Loss
訓練一個分類器來判別是否由模型輸出
把已經訓練好的老師模型的還原結果拿來當訓練目標
啊結果是不錯,可是太慢了
要1000步
SDXL Turbo
Total Loss
adversarial diffusion distillation(ADD)
GAN Loss
Distillation Loss
訓練一個分類器來判別是否由模型輸出
把已經訓練好的老師模型的還原結果拿來當訓練目標
啊結果是不錯,可是太慢了
要1000步
論文結果步數為1 或 4
LoRA: Low Rank Adaptation
Trainable parameter
d=1000, r = 4
2 x1000 x 4 / 1000 x 1000 = 0.008
ControlNet
Original
複製一部份權重做為初始值
Zero Convolution是初始值為0的卷積層
能確保新模型的初始輸出會跟原本一樣
ControlNet
IP-Adapter
Original
IP-Adapter
Imposing Consistent Light Transport (IC-Light)
Imposing Consistent Light Transport (IC-Light)
Imposing Consistent Light Transport (IC-Light)
Hugging Face Space
ComfyUI
Face Fusion
Hugging Face Space
Hugging Face Space
ComfyUI
Face Fusion
ComfyUI
ComfyUI
ComfyUI
{
"3": {
"inputs": {
"seed": 384365032009655,
"steps": 20,
"cfg": 8,
"sampler_name": "euler",
"scheduler": "normal",
"denoise": 1,
"model": [
"4",
0
],
"positive": [
"6",
0
],
"negative": [
"7",
0
],
"latent_image": [
"5",
0
]
},
"class_type": "KSampler"
},
"4": {
"inputs": {
"ckpt_name": "v1-5-pruned-emaonly-fp16.safetensors"
},
"class_type": "CheckpointLoaderSimple"
},
"5": {
"inputs": {
"width": 512,
"height": 512,
"batch_size": 1
},
"class_type": "EmptyLatentImage"
},
"6": {
"inputs": {
"text": "beautiful scenery nature glass bottle landscape, , purple galaxy bottle,",
"clip": [
"4",
1
]
},
"class_type": "CLIPTextEncode"
},
"7": {
"inputs": {
"text": "text, watermark",
"clip": [
"4",
1
]
},
"class_type": "CLIPTextEncode"
},
"8": {
"inputs": {
"samples": [
"3",
0
],
"vae": [
"4",
2
]
},
"class_type": "VAEDecode"
},
"9": {
"inputs": {
"filename_prefix": "ComfyUI",
"images": [
"8",
0
]
},
"class_type": "SaveImage"
}
}
SimpleWorkflow.json
ComfyUI
ComfyUI
位置:/ComfyUI/models/...
ComfyUI
位置:/ComfyUI/models/...
哪裡找到模型?
ComfyUI
Segment Anything 2
Examples
Text to speech
ControlNet Auxiliary Preprocessors
Resource Monitor
Face Experssion
ComfyUI
ComfyUI-Manager
ComfyUI
ComfyUI-Manager
可以自動安裝缺失的工具
ComfyUI
Hugging Face Space
ComfyUI
Face Fusion
功能
https://imgur.com/hibkOpa
練習項目
素材
弄一張含臉的圖片
弄一段有人講話的音檔
用MimicPC啟動FaceFusion
Blender
氪學家
ComfyUI Reddit
Adobe