Week 5 ํ์ต ์ ๋ฆฌ
**1. Multimodal 1, 2
2. Generative Models
3. 3D Understanding
4. 3D Human
1. Multimodal 1, 2
Multi-modal์๋ ํฌ๊ฒ 3๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค.
1.1 Multimodal Challenge
- Modality ๊ฐ์ ์๋ก ํํ ๋ฐฉ๋ฒ์ด ๋ค๋ฅด๋ค!
- Modality ๊ฐ์ ํํํ๋ ์ ๋ณด๋์ด ๋ค๋ฅด๋ค!
- ๋ Modality ์ค์ ๋ณดํต ํ๋์ Modality์ ํธํฅ๋๋ค!
1.2 Multi-modal alignment
โ ์๋ก ๋ค๋ฅธ Modality ๊ฐ์ ์ ๋ณด๋ฅผ ์กฐํ๋กญ๊ฒ ์ฐ๊ฒฐํ๊ณ ํด์ํ ์ ์๋๋ก ํ๋ ๊ณผ์
1.2.1 Matching
โ ์๋ก ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ(๋ฐ์ดํฐ ์ ํ) ๊ฐ์ ๊ด๋ จ์ฑ์ ์ฐพ์๋ด๋ ์์
- Joint embedding: ์๋ก ๋ค๋ฅธ Modality๋ฅผ ๊ฐ์ feature vector space๋ก ์ฎ๊ฒจ ๋งค์นญ์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค.
1.2.2 Translating
โ ํ Modality์ ํํ์ ๋ค๋ฅธ ์ธ์ด ๋๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ๋ณํํ๋ ๊ณผ์
1.2.3 Referencing
โ ์ฌ๋ฌ Modality๊ฐ ์๋ ํ๊ฒฝ์์๋ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ ์ ํ์ด ์ด๋ป๊ฒ ์ํธ ์ฐ๊ฒฐ๋๋์ง ๋ช ํํ ํ๊ณ , ๊ทธ ๊ด๋ จ์ฑ์ ๋ฐํ๋ ๊ฒ์ด ์ค์
1.2 ์์ ๋ชจ๋ธ
1.2.1 Matching : CLIP
โ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์ฒ๋ฆฌํ์ฌ ์ํธ ๊ฐ์ ์ฐ๊ด์ฑ์ ํ์ตํ๋ Multi modal ๋ชจ๋ธ
- ์์ด๋์ด: ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋ชจ๋ ๋ฒกํฐํํ์ฌ ๋์ผํ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋ณํํ ํ, ์ด๋ฏธ์ง์ ๊ทธ์ ํด๋นํ๋ ํ ์คํธ ์ค๋ช ์ด ์ผ๋ง๋ ๊ฐ๊น์ด์ง๋ฅผ ํ๊ฐ โ ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๊ณ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์๋ก ๊ฐ๊น๊ฒ ๋ฐฐ์นํ๋ ค๊ณ ํ๋ค.
- Contrastive Learning(๋์กฐํ์ต): ์๋์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํ
- ์ ๋ต ์(True Pair): ์ด๋ฏธ์ง์ ๊ทธ์ ๋์ํ๋ ์ฌ๋ฐ๋ฅธ ํ ์คํธ ์ค๋ช ์ ๊ฐ๊น๊ฒ ๋ฐฐ์น.
- ์๋ชป๋ ์(False Pair): ์ด๋ฏธ์ง์ ๋ง์ง ์๋ ํ ์คํธ ์ค๋ช ์ ๋ฉ๋ฆฌ ๋ฐฐ์น.
- ๊ตฌ์กฐ: ๋ ๊ฐ์ ์ธ์ฝ๋๋ก ๊ตฌ์ฑ
- ์ด๋ฏธ์ง ์ธ์ฝ๋: ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ์ฌ ๋ฒกํฐ ํํ์ผ๋ก ๋ณํํฉ๋๋ค. ์ฃผ๋ก ResNet์ด๋ **Vision Transformer(ViT)**์ ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ํ ์คํธ ์ธ์ฝ๋: ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ ํํ์ผ๋ก ๋ณํํฉ๋๋ค. ์ฃผ๋ก Transformer ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- CLIP์ ์ฅ์
- Zero-shot ํ์ต: CLIP์ ํน์ ํ์คํฌ์ ๋ํด ๋ณ๋์ ํ์ต ์์ด๋ ๋ฐ๋ก ์ ์ฉ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, CLIP์ ์ด๋ฏธ์ง ๋ถ๋ฅ ํ์คํฌ์์ ์ฌ์ ์ ํ์ต๋ ํด๋์ค ์์ด๋ ํ ์คํธ ์ค๋ช ๋ง์ผ๋ก ์๋ก์ด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ถ๋ฅํ ์ ์์ต๋๋ค.
- ๋ค์ํ ํ์คํฌ์์์ ์ ์ฐ์ฑ: CLIP์ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ์ธ์, ์ด๋ฏธ์ง ๊ฒ์, ์ด๋ฏธ์ง ์บก์ ๋ ๋ฑ ๋ค์ํ ํ์คํฌ์ ์ ์ฉ๋ ์ ์์ต๋๋ค.
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋๋ถ์ CLIP์ ํ๋ จ๋ ๋ฐ์ดํฐ์ ์ด์ธ์ ์๋ก์ด ๋ฐ์ดํฐ์ ์๋ ๋น๊ต์ ์ ์ผ๋ฐํ๋๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
1.2.2 Translating:
- Text-to-Image generation: DALL-E2
- Sound-to-Image synthesis
- Speech-to-Face synthesis: Speech2Face
- Image-to-Speech synthesis
1.2.3-1 Referencing: Show, Attend and Tell
โ ์ด๋ฏธ์ง์์ ์ค์ํ ๋ถ๋ถ์ ์ง์ค(attention)ํ์ฌ ์์ฐ์ด ์ค๋ช (์บก์ )์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ๋ชจ๋ธ
-
์ด๋ฏธ์ง ์ฒ๋ฆฌ (์ธ์ฝ๋ฉ): ๋จผ์ , ๋ชจ๋ธ์ CNN(์: ResNet ๋๋ VGG)์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ํน์ง ๋งต(feature map)์ ์ถ์ถํฉ๋๋ค. ์ด๋ฏธ์ง์ ๊ฐ ๋ถ๋ถ์ ๋ํ ์ ๋ณด๋ฅผ ๋ฒกํฐ ํํ๋ก ๋ํ๋ธ ํ, ๋์ฝ๋์ ์ ๋ฌํ์ฌ ํ ์คํธ๋ฅผ ์์ฑํ ์ค๋น๋ฅผ ํฉ๋๋ค.
-
Attention ๋ฉ์ปค๋์ฆ: ๋์ฝ๋๋ ์บก์ ์ ์์ฑํ๋ ๊ฐ ๋จ๊ณ์์ ์ด๋ฏธ์ง์ ํน์ ๋ถ๋ถ์ ์ง์คํ๊ฒ ๋ฉ๋๋ค. ๋ชจ๋ธ์ ๊ฐ ์์ (time step)๋ง๋ค ์ฃผ๋ชฉํ ์ด๋ฏธ์ง์ ์์ญ์ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํ๊ณ , ๊ทธ ๋ถ๋ถ์ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์์ ์์ฑํ ๋จ์ด์ ํ์ํ ์ ๋ณด๋ฅผ ์ถ์ถํฉ๋๋ค. ์ด ๊ณผ์ ์ Soft Attention ๋ฐฉ์์ผ๋ก ๊ตฌํ๋๋ฉฐ, ์ด๋ฅผ ํตํด ์บก์ ์์ฑ ๊ณผ์ ์์ ์ด๋ฏธ์ง์ ๋ชจ๋ ๋ถ๋ถ์ ๋์์ ์ฒ๋ฆฌํ์ง ์๊ณ , ๊ฐ์ฅ ๊ด๋ จ๋ ์์ญ์๋ง ์ง์คํ ์ ์์ต๋๋ค.
soft attention์ด๋? โ Soft Attention์ ์ ๋ ฅ์ ๋ชจ๋ ๋ถ๋ถ์ ๋ํด ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ ํ, ๊ฐ์คํฉ(weighted sum)์ ๊ตฌํด ์ถ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๊ฐ ์ ๋ ฅ์ ๋ถ์ฌ๋๋ ๊ฐ์ค์น๋ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ด๋ฉฐ, ๋ชจ๋ ๊ฐ์ค์น์ ํฉ์ 1์ด ๋ฉ๋๋ค. ์ฆ, ์ ๋ ฅ์ ์ผ๋ถ ์์๋ ๋ ๊ฐ์กฐ(ํฐ ๊ฐ์ค์น)๋๊ณ , ๋ ์ค์ํ ์์๋ ๋ ๊ฐ์กฐ(์์ ๊ฐ์ค์น)๋์ง๋ง, ๋ชจ๋ ์ ๋ ฅ ์์๊ฐ ์ด๋ ์ ๋์ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
-
ํ ์คํธ ์์ฑ (๋์ฝ๋ฉ): Attention ๋ฉ์ปค๋์ฆ์ ํตํด ์ ํ๋ ์ด๋ฏธ์ง์ ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก, LSTM ๋คํธ์ํฌ๋ ์์ฐจ์ ์ผ๋ก ๋จ์ด๋ฅผ ์์ฑํฉ๋๋ค. ์ฒ์์๋ ์์ ํ ํฐ(์:
<start>
)์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ฒซ ๋ฒ์งธ ๋จ์ด๋ฅผ ์์ฑํ๊ณ , ๊ทธ ํ ์ด์ ์ ์์ฑ๋ ๋จ์ด์ Attention์ ํตํด ์ป์ ์๊ฐ์ ํน์ง์ ์ฌ์ฉํด ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ ๋๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ๋ฌธ์ฅ์ ์์ฑํ๋ค๊ฐ ์ข ๋ฃ ํ ํฐ(์:<end>
)์ด ๋์ค๋ฉด ์บก์ ์์ฑ์ด ์๋ฃ๋ฉ๋๋ค.
1.2.3-2 Referencing: Flamingo
โ **๋น์ (์๊ฐ์ ๋ฐ์ดํฐ)**๊ณผ **์ธ์ด(ํ ์คํธ)**๋ฅผ ๋์์ ์ฒ๋ฆฌํ์ฌ ์ด๋ฏธ์ง๋ ๋น๋์ค์ ๋ํ ์์ฐ์ด ์ค๋ช ์ ์์ฑํ๊ฑฐ๋, ์ฃผ์ด์ง ํ ์คํธ์ ๊ด๋ จ๋ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๋ ๋ฑ์ ์์ ์ ์ํํ ์ ์๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ
-
AGI: ๋ฒ์ฉ ์ธ๊ณต์ง๋ฅ์ ์๋ฏธํ๋ฉฐ, ์ธ๊ฐ๊ณผ ๊ฐ์ ์์ค์ ์ ๋ฐ์ ์ธ ์ง๋ฅ์ ๊ฐ์ง ์ธ๊ณต์ง๋ฅ
์ฌ๋
AGI
1.3 LLaVA (Large Language and Vision Assistant)
โ ์๊ฐ์ ์ถ๋ก ๋ชจ๋ธ๋ก, ๋น์ ๊ณผ ์ธ์ด๋ฅผ ๊ฒฐํฉํ์ฌ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์ดํดํ๋ ๋ชจ๋ธ์ ๋๋ค. ์ด๋ ๋ณต์กํ ์๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ํด์ํ๊ณ ์ด๋ฅผ ์ธ์ด์ ์ผ๋ก ์ค๋ช ํ ์ ์๋ ๊ธฐ๋ฅ์ ์ ๊ณต
1.3.1 Feature alignment (Projection)
โ Feature alignment)์ ์ํด ์ ํ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ, ์๊ฐ์ ์ ๋ ฅ์ ์ธ์ด ๋ชจ๋ธ๊ณผ ๊ฒฐํฉํฉ๋๋ค. ์ฆ, ์๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ์ธ์ด ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ฐ๊ฒฐ์ ์ ๊ณตํฉ๋๋ค.
1.3.2 Visual instruction tuning
- MSCOCO์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ด์ฉํด GPT ๋ชจ๋ธ์์ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ์๋ต์ ์์ฑํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๋ํํ ์๋ต, ์์ธ ์ค๋ช , ๋ณต์กํ ์ถ๋ก ์ด ํฌํจ๋ฉ๋๋ค.
- Feature alignment๋ฅผ ์ํ ์ฌ์ ํ์ต ๋จ๊ณ์ ์๊ฐ ์ธ์ฝ๋ ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ๊ณ ์ (freeze)ํ๊ณ ํ๋ก์ ์
๋ ์ด์ด๋ฅผ ํ์ตํ๋ ๋จ๊ณ๋ก ๋๋์ด์ ธ ์์ต๋๋ค.
-
Step-1 : Pre-training for feature alignment โ vision encoder์ LLM์ ๊ณ ์ ํ๊ณ projection layer๋ง ํ๋ จํฉ๋๋ค.
-
Step-2 : Fine-tuning end-to-end โ vision encode ๊ณ ์ , projection layer ๋ฐ LLM ํ์ต
-
1.3. InstructBLIP
1.3.1 InstructBLIP ๊ฐ์
- InstructBLIP์ ๋ค์ํ ๋น์ฃผ์ผ ์ง๋ฌธ ์๋ต(VQA) ๋ฐ ์ด๋ฏธ์ง ์บก์ ๋ ์์ ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ง์(instructions)์ ๋ง์ถฐ ๋ค์ํ ๋น์ -์ธ์ด ํ์คํฌ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
1.3.2 Feature alignment (Q-Former)
- Q-Former๋ InstructBLIP์์ ์ฌ์ฉ๋๋ ๋ชจ๋๋ก, ์๊ฐ์ ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ๋ชจ๋์ Instruction-aware ๋ฐฉ์์ผ๋ก, ์ฆ, ์ง์์ ๋ฐ๋ผ ์๊ฐ์ ํน์ง์ ๋ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถํ๋ ๊ณผ์ ์ ํฌํจํฉ๋๋ค.
- ํ์ต ๊ฐ๋ฅํ ์ฟผ๋ฆฌ(learnable queries)๋ฅผ ํตํด ์๊ฐ์ ํน์ง๊ณผ ํ ์คํธ ์ง์๋ฅผ ๊ฒฐํฉํ์ฌ ์ฒ๋ฆฌํฉ๋๋ค.
1.3.3 InstructBLIP์ ๋ณํ
- InstructBLIP๋ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์กฐ์ ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์ ํ ์คํธ๋ฟ ์๋๋ผ ๋ ๋ง์ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ฅ๋ ๋ฒ์ ์ผ๋ก ๋ฐ์ ํ ์ ์์ต๋๋ค.
- X-InstructBLIP๋ ๊ต์ฐจ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ํธ ์์ฉ์ ๋์ฑ ๊ฐํํ ๋ณํ ๋ชจ๋ธ์ ๋๋ค. ์ด๋ LLM๊ณผ ํจ๊ป ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ถ๋ก ์ ํ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
2. Generative Models
โ ์ค์ ๋ฐ์ดํฐ์ ๋น์ทํ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๊ฒ โ Training ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์๋ก์ด ์ํ์ ๋ง๋ค๊ณ ์ด๋ฅผ ์ค์ ๋ฐ์ดํฐ์์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํด ๊ฐ๊น๊ฒ ๋ง๋ ๋ค.
2.1 Autoregressive Model
-
Chain Rule: ์ด๋ฏธ์ง์ ๊ฐ๋ฅ๋๋ฅผ 1์ฐจ์ ๋ถํฌ๋ก ๋๋์ด ์ค๋ช ํ๋ ๊ท์น. ์ด ๊ท์น์ ์ฌ์ฉํ์ฌ ๋ณต์กํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ ํฝ์ ์ ๋ถํฌ๋ก ๋ถํดํ ์ ์์.
-
PixelRNN: ์ด๋ฏธ์ง์ ํฝ์ ์ ํ ๋ฐฉํฅ(์ข์๋จ์์ ์์)์ผ๋ก ์์ฑํ๋ฉฐ, ์ด์ ํฝ์ ๊ฐ์ ๋ฐ๋ผ ๋ค์ ํฝ์ ๊ฐ์ ์์ธกํ๋ ๋ฐฉ์.
- RNN(LSTM)์ ์ฌ์ฉํด ์ด์ ํฝ์ ๊ฐ์ ์์กด์ฑ์ ๋ชจ๋ธ๋งํจ.
- ํ๋ จ ์์๋ ์ด๋ฏธ์ง์ Likelihood๋ฅผ ์ต๋ํํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํจ. โ ์ธ๊ณต ๋ฐ์ดํฐ๊ฐ ์ค์ ๋ฐ์ดํฐ ์ฒ๋ผ
2.3 VAE, Variational Autoencoder
- ์คํ ์ธ์ฝ๋ ๊ตฌ์กฐ: ๋ฐ์ดํฐ ์์ถ ๋ฐ ๋ณต์์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ ์ฌ ๊ณต๊ฐ(Latent Space)์ผ๋ก ํํ.
- VAE์ ์คํ ์ธ์ฝ๋์ ์ฐจ์ด:
- ์คํ ์ธ์ฝ๋๋ ์ ๋ ฅ์ ๊ณ ์ ๋ ๋ฒกํฐ๋ก ๋งคํํ๋ ๋ฐ๋ฉด, VAE๋ ์ ๋ ฅ์ ํ๋ฅ ๋ถํฌ๋ก ๋งคํํ์ฌ ๋ ์ ์ฐํ ํํ์ ๊ฐ๋ฅํ๊ฒ ํจ.
- ์ ์ฌ ๊ณต๊ฐ: ํ์ต๋ ๋ชจ๋ธ์ ์ ์ฌ ๋ณ์ z๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๊ณผ์ ์ ํ์ต.
- ๋ฌธ์ ์ : ์คํ ์ธ์ฝ๋๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์ถํ ํ ์ฌ์์ฑํ๋ ๊ณผ์ ์์ ๋จ์ ๋ณต์ฌ์ฒ๋ผ ์๋ํ ์ ์์ผ๋ฉฐ, ์ผ๋ฐํ๋ ์๋ก์ด ์ํ์ ์์ฑํ๊ธฐ ์ด๋ ค์.
2.4 DDPM, Denoising Diffusion Probabilistic Models
- ์ก์ ์ถ๊ฐ ๋ฐ ์ ๊ฑฐ: ์ด๋ฏธ์ง์ ์ ์ง์ ์ผ๋ก ์ก์์ ์ถ๊ฐํ๊ณ , ์ด๋ฅผ ๋ฐ๋๋ก ์ ๊ฑฐํ๋ ๊ณผ์ ์ ํ์ตํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑ.
- ๋ง๋ฅด์ฝํ ๊ณผ์ : ์ฐ์์ ์ธ ๊ณผ์ ์์ ๊ฐ ๋จ๊ณ์ ์ํ๋ ์ด์ ์ํ์๋ง ์์กดํ๋ ํน์ฑ์ ๊ฐ์ง๊ณ ์์.
- ๋ณ๋ถ ํํ: VAE์ ์ ์ฌํ๊ฒ ํ์ตํ ์ ์๋ ์์ค ํจ์๋ฅผ ๋์ถํ๊ธฐ ์ํด ๋ณ๋ถ ํํ์ ์ฌ์ฉํจ.
2.5 Latent Diffusion Models, Stable Diffusion
- ๊ธฐ์กด ๋ชจ๋ธ(DDPM)์ ํ๊ณ:
- ํฝ์ ๊ณต๊ฐ์์ ์์ ํ๋ฏ๋ก ๋ง์ ๊ณ์ฐ ์์์ด ํ์ํ๊ณ , ์ต์ ํ์ ๋ง์ ์๊ฐ์ด ์์๋จ.
- ์ ์ฌ ๊ณต๊ฐ์์์ ํ์ฐ ๋ชจ๋ธ ํ์ต: ์ฌ์ ํ๋ จ๋ ์คํ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ์ ์ฌ ํํ์ ์์ฑํ๊ณ , ์ด ์ ์ฌ ๊ณต๊ฐ์์ ํ์ฐ ๋ชจ๋ธ์ ํ์ตํ์ฌ ํจ์จ์ ์ผ๋ก ๊ณ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์์ฑ.
- ํฌ๋ก์ค ์ดํ ์ ๋ ์ด์ด: ํ ์คํธ ๋๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๊ฐ์ ์กฐ๊ฑด ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ฌ์ฉ๋จ.
2.6 Condition in the Diffusion Models
- ControlNet: ํ์ฐ ๋ชจ๋ธ์ ํ
์คํธ๋ ๋ค๋ฅธ ์
๋ ฅ ์กฐ๊ฑด์ ๋ฐ๋ผ ์ ์ดํ ์ ์๋๋ก ์ค๊ณ๋ ๊ตฌ์กฐ. ControlNet์ ๊ธฐ์กด์ ์กฐ๊ฑด ์
๋ ฅ(์: Canny Edge, ์ฌ๋์ ์์ธ ๋ฑ)์ ์ฌ์ฉํ์ฌ Stable Diffusion์ ๋์ฑ ์ธ๋ฐํ๊ฒ ์ ์ดํ ์ ์๋๋ก ํจ.
- ControlNet ์ํคํ ์ฒ: ํ์ต๋ ์ ๊ฒฝ๋ง ๋ธ๋ก์ ์ถ๊ฐ์ ์ธ ์กฐ๊ฑด์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ ์ด ๊ธฐ๋ฅ์ ํ์ฅํจ.
- ๋ชจ๋ธ์ ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ ์ ํ๊ณ , ์ด๋ฅผ ํด๋ก ํ์ฌ ์ธ๋ถ ์กฐ๊ฑด ์ ๋ ฅ์ ๋ฐ์๋ค์ด๋ ๋ฐฉ์์ผ๋ก ์๋ก์ด ์กฐ๊ฑด์ ์ฒ๋ฆฌํจ.
-
LoRA (Low-Rank Adaptation):
- LoRA ๊ฐ๋ : ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ง์ ์ ๋ฐ์ดํธํ์ง ์๊ณ , ํ๋ผ๋ฏธํฐ์ ์ ์ฐจ์ ๊ทผ์ฌ์น(๋ญํฌ ๋ถํด ํ๋ ฌ A์ B)๋ฅผ ํ์ตํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ ํจ์จ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํจ.
2.7 Image Editing
- Prompt-to-Prompt ์ด๋ฏธ์ง ํธ์ง:
-
ํ ์คํธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ํธ์ง ๊ธฐ์ ๋ก, ์๋ณธ ์ด๋ฏธ์ง์ ๊ตฌ์ฑ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ฉด์ ํ ์คํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์ ์ดํจ.
-
์ฃผ์ ๋ฐฉ๋ฒ:
-
ํฌ๋ก์ค ์ดํ ์ ๋งต์ ์ด์ฉํ์ฌ ๊ฐ ํ ์คํธ ํ ํฐ์ spatial attention maps๋ฅผ ์์ฑ.
-
์์ฑ๋ ์ด๋ฏธ์ง์ spatial ๋ ์ด์์๊ณผ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ์ ์ดํ๊ธฐ ์ํด ์๋ณธ ์ด๋ฏธ์ง์ ์ดํ ์ ๋งต์ ์ฌ์ฉ.
-
์๋ณธ ์ด๋ฏธ์ง์ ๋์ผํ ๋ถ๋ถ์ ์ดํ ์ ๋งต์ ์ ์งํ๊ณ , ๋ณ๊ฒฝ๋ ๋ถ๋ถ์ ๋งต๋ง ์์ ํจ์ผ๋ก์จ ์ธ๋ฐํ ์ด๋ฏธ์ง ํธ์ง์ ๊ฐ๋ฅํ๊ฒ ํจ.
-
-
ํ์ฉ ์ฌ๋ก:
- ํน์ ํ ์คํธ์ ์ด๋ฏธ์ง์ ๊ด๊ณ๋ฅผ ์ฌ๊ตฌ์ฑํ์ฌ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑ.
- Bear๋ผ๋ ๋จ์ด๊ฐ ํน์ ์ด๋ฏธ์ง์ ๊ณฐ ๋ถ๋ถ๊ณผ ์ฐ๊ฒฐ๋์ด ์์ด ์ด๋ฅผ ์กฐ์ํ ์ ์๋ ์์ ์ ์.
-
- InstructPix2Pix:
- ์ด๋ฏธ์ง ํธ์ง์ ์ง์๋ฌธ ๊ธฐ๋ฐ์ผ๋ก ์ํํ๋ ๋ชจ๋ธ๋ก, ํ ์คํธ๋ก ์ฃผ์ด์ง ์ง์๋ฅผ ๋ฐ๋ผ ์ด๋ฏธ์ง๋ฅผ ์์ ํจ.
- ์ฃผ์ ํน์ง:
- ๊ธฐ์กด ์ด๋ฏธ์ง์ ๊ฐ๋จํ ํ ์คํธ ๋ช ๋ น์ด๋ฅผ ์ ๋ ฅํ๋ฉด, ์ด์ ๋ง๋ ์ ์ ํ ํธ์ง์ ์ํํจ.
- ์ฌ์ฉ์๋ ์ด๋ฏธ์ง์ ์ ํ ์ค๋ช ์ ์๋ฒฝํ๊ฒ ์ ๊ณตํ ํ์ ์์ด ๊ฐ๋จํ ์ง์๋ก ํธ์ง ๊ฐ๋ฅ.
- ๋ฐฉ๋ฒ:
- GPT-3๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ฌ๋์ ์ค๋ช ์ ๋ง๋ ํ ์คํธ ๋ช ๋ น์ด๋ฅผ ์์ฑํ๊ณ , ๊ทธ์ ๋ฐ๋ผ ์ด๋ฏธ์ง ํธ์ง์ ํ์ตํจ.
- ์์ฑ๋ ํ ์คํธ ๋ช ๋ น์ด์ ํธ์ง ์ ํ ์ด๋ฏธ์ง๋ฅผ ์์ผ๋ก ๋ฌถ์ด ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ณ , ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง ํธ์ง ๋ชจ๋ธ์ ํ๋ จ.
2.2 ๊น์ด ์์ฑ (Depth Generation)
-
Marigold:
- ๊น์ด ์ ๋ณด๋ฅผ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๋ชจ๋ธ๋ก, 3D ์ ๋ณด๋ ์ฅ๋ฉด์ ๊น์ด๋ฅผ ์ดํดํ๊ณ ์์ธกํ๋๋ฐ ํ์ฉ๋จ.
- ์์ฑ ๋ชจ๋ธ์ด ๋จ์ ์ด๋ฏธ์ง ์์ฑ๋ฟ๋ง ์๋๋ผ ๊น์ด ์ ๋ณด ์์ฑ์๋ ํ์ฉ๋ ์ ์๋ค๋ ์ ์ ๋ณด์ฌ์ค.
3. 3D Understanding
3.1 3D๊ฐ ์ค์ํ ์ด์ (Why is 3D important?)
- ์ฐ๋ฆฌ๋ 3D ๊ณต๊ฐ์์ ์ด์๊ฐ๋ฉฐ, ์ธ๊ณต์ง๋ฅ(AI) ์์ด์ ํธ๋ ์ด 3D ๊ณต๊ฐ์์ ์๋ํจ.
- AI๊ฐ ํ์ค ์ธ๊ณ์์ ์์ ํ๋ ค๋ฉด 3D ๊ณต๊ฐ์ ์ดํดํ๋ ๊ฒ์ด ํ์์ ์.
- 3D์ ์ฃผ์ ํ์ฉ ๋ถ์ผ:
- ์ฆ๊ฐ ํ์ค(AR) ๋ฐ ๊ฐ์ ํ์ค(VR): 3D ๊ณต๊ฐ์์์ ๋ชฐ์ ๊ฒฝํ์ ์ ๊ณต.
- ๋ก๋ด ๋ฐ 3D ํ๋ฆฐํ : 3D ๊ณต๊ฐ์์ ๋ก๋ด์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ํธ์์ฉํ๊ฑฐ๋ 3D ๊ฐ์ฒด๋ฅผ ์ค์ ๋ก ํ๋ฆฐํ ํ๋ ๋ฐ ํ์ฉ.
- ์๋ฃ ๋ถ์ผ: 3D๋ฅผ ํ์ฉํ ๋จ๋ฐฑ์ง ์์ด ๋ถ์ ๋ฐ ํฉ์ฑ, ์ ๊ฒฝ ์์(neuroimaging) ๋ฑ์์ ์ค์ํ ์ญํ ์ ํจ.
3.2 3D๋ฅผ ๊ด์ฐฐํ๋ ๋ฐฉ์ (The Way We Observe 3D)
-
์ด๋ฏธ์ง์ 3D ์ธ๊ณ์ ๊ด๊ณ: ์ด๋ฏธ์ง๋ 3D ์ธ๊ณ๊ฐ 2D ๊ณต๊ฐ์ ํฌ์๋ ๊ฒฐ๊ณผ์.
-
์นด๋ฉ๋ผ์ ์ญํ : ์นด๋ฉ๋ผ๋ 3D ์ฅ๋ฉด์ 2D ์ด๋ฏธ์ง ํ๋ฉด์ ํฌ์ํ๋ ์ฅ์น๋ก์ ์๋ํจ.
-
๋ ๊ฐ์ ๋ทฐ๋ฅผ ์ฌ์ฉํ ๊ธฐํํ์ ๊ตฌ์กฐ: 3D ๊ตฌ์กฐ๋ ๋ ๊ฐ ์ด์์ ์์ ์ ์ฌ์ฉํ์ฌ ๋ณต์ํ ์ ์์.
- Structure from Motion (SfM): ์ฌ๋ฌ ์ด๋ฏธ์ง์์ ๋์๋๋ ์ ๋ค์ ์ฐพ์ ์นด๋ฉ๋ผ์ ์์ง์๊ณผ 3D ๊ตฌ์กฐ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ. COLMAP๊ณผ ๊ฐ์ ํด์ด ๋ํ์ ์.
3.3 3D ๋ฐ์ดํฐ ํํ ๋ฐฉ์ (3D Data Representation)
-
2D ์ด๋ฏธ์ง ํํ: ๊ฐ ํฝ์ ์ RGB ๊ฐ์ ์ฌ์ฉํ์ฌ 2D ๋ฐฐ์ด ๊ตฌ์กฐ๋ก ์ด๋ฏธ์ง๋ฅผ ํํ.
-
3D ๋ฐ์ดํฐ ํํ ๋ฐฉ์:
- ๋ฉํฐ๋ทฐ ์ด๋ฏธ์ง(Multi-view images): ๋ค์ํ ๊ฐ๋์์ ์ดฌ์ํ 2D ์ด๋ฏธ์ง๋ก 3D๋ฅผ ์ ์ถ.
- ์๋ฌต์ ํํ(Implicit shape): ์ํ์ ํํ์ผ๋ก ํํ๋ฅผ ๋ํ๋.
- ๋ถํผ ๊ธฐ๋ฐ ํํ(Volumetric, voxel): 3D ๊ณต๊ฐ์ ์์ ์ (๋ณดํต ํ๋ธ)๋ก ๋๋์ด ํํ.
- ์ ๊ตฌ๋ฆ(Point cloud): LiDAR ์ค์บ๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก 3D ๊ณต๊ฐ ๋ด์ ์ ๋ค์ ์งํฉ์ผ๋ก ํํ.
- ๋ฉ์ฌ(Mesh): ์ , ์ , ๋ฉด์ ์ฌ์ฉํด 3D ๊ฐ์ฒด์ ํ๋ฉด์ ํํ. ๊ทธ๋ํ CNN๊ณผ ๊ฐ์ ๋คํธ์ํฌ์์ ํ์ฉ๋จ.
3.4 3D ์์ (3D Tasks)
3.4.1 3D ์ธ์ (3D Recognition)
- 3D ๊ฐ์ฒด ์ธ์: 2D ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ์ธ์ํ๋ ๊ฒ์ฒ๋ผ, 3D ๊ณต๊ฐ์์๋ ๊ฐ์ฒด๋ฅผ ์ธ์ํจ.
- 3D ๊ฐ์ฒด ํ์ง: ์์จ ์ฃผํ ์ฐจ๋ ๋ฑ์ ์์ฉ ํ๋ก๊ทธ๋จ์์ 3D ๊ฐ์ฒด์ ์์น๋ฅผ ์ด๋ฏธ์ง๋ 3D ๊ณต๊ฐ์์ ๊ฐ์ง.
- 3D Semantic segmentation: ์ ๊ฒฝ ์์(Neuroimaging)๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์์ 3D ๊ณต๊ฐ์ ์๋ฏธ๋ก ์ ์ผ๋ก ๋ถํ .
3.4.2 3D ์ฌ๊ตฌ์ฑ (3D Reconstruction)
-
NeRF (Neural Radiance Fields):
- ๋ณต์กํ ์ฅ๋ฉด์ ์๋ก์ด ๋ทฐ ํฉ์ฑ: NeRF๋ ์์์ ์ ๋ ฅ ๋ทฐ๋ก๋ถํฐ ๋ณต์กํ ์ฅ๋ฉด์ ์๋ก์ด ์์ ์ ํฉ์ฑํจ.
- 3D ๊ฐ์ฒด๋ ์ฅ๋ฉด์ ์ ๊ฒฝ๋ง์ ๋ฉ๋ชจ๋ฆฌํ: NeRF๋ ์ ๊ฒฝ๋ง์ ํตํด ์ฅ๋ฉด์ ์ ์ฅํ๊ณ , ํ์ตํ ์ฅ๋ฉด์ผ๋ก๋ถํฐ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์.
-
๋ณผ๋ฅจ ๋ ๋๋ง(Volume Rendering):
-
3D ๋ถํผ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ 2D ์ด๋ฏธ์ง๋ฅผ ๊ณ์ฐํ๋ ๊ณผ์ .
-
NeRF๋ 3D ๋ฐ์ดํฐ๋ฅผ ๋ ๋๋งํ์ฌ ์๋ก์ด 2D ์ด๋ฏธ์ง๋ฅผ ์์ฑํจ.
-
-
3D ๊ฐ์ฐ์์ ์คํ๋ํ (3D Gaussian Splatting):
- ์ค์๊ฐ ๋ฐฉ์ฌ์ ํ๋ ๋ ๋๋ง: 3D ์ฅ๋ฉด์ ์ค์๊ฐ์ผ๋ก ๋ ๋๋งํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ.
- ์ฅ์ : ์ฅ๋ฉด ์ต์ ํ ๋ฐ ์๋ก์ด ์์ ํฉ์ฑ์ ๊ฐ์ํํจ.
3.4.3 3D ์์ฑ (3D Generation)
-
Mesh R-CNN:
- Mask R-CNN์ 3D ๋ฉ์ฌ ์์ฑ์ ์ํ "3D ๋ธ๋์น"๊ฐ ์ถ๊ฐ๋ ๋ชจ๋ธ.
- 2D ๊ฐ์ฒด ํ์ง ๋ฐ ๋ถํ ์์ ๋ฟ๋ง ์๋๋ผ ๊ฐ์ฒด์ 3D ๋ฉ์ฌ๋ฅผ ์ถ๋ ฅํ ์ ์์.
-
DreamFusion:
- ํ ์คํธ์์ 3D ์์ฑ: ์ฌ์ ํ๋ จ๋ 2D ํ ์คํธ-์ด๋ฏธ์ง ํ์ฐ ๋ชจ๋ธ์ ์ฌ์ฉํด ํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 3D ๋ชจ๋ธ์ ์์ฑ.
- SDS(Score Distillation Sampling) ์์ค: ํ์ฐ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ ์์ธก์ ์ฌ์ฉํ์ฌ 3D ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์. U-Net์ ์ผ์ฝ๋น์ ๊ณ์ฐ์ด ๋น์ธ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์๋ตํ์ฌ ํจ์จ์ ์ธ ๊ทธ๋๋์ธํธ๋ฅผ ์ป์.
-
Paint-it:
- ํ ์คํธ๋ฅผ ์ฌ์ฉํ ํ ์ค์ฒ ํฉ์ฑ: ํ ์คํธ ์ง์๋ฅผ ํตํด 3D ๋ชจ๋ธ์ ํ ์ค์ฒ๋ฅผ ํฉ์ฑํ๋ ๋ฐฉ๋ฒ.
- SDS ์์ค์ ํ์ฉํ์ฌ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ ๋๋ง(PBR) ํ ์ค์ฒ ๋งต์ ์ต์ ํํจ.
4. 3D Human
4.1 ์ธ๊ฐ ๋ชจ๋ธ์ ์ค์์ฑ (Why are Human Models Important?)
- ์ธ๊ฐ์ 3D ์ธ๊ณ์์ ์ค์ฌ์ ์ธ ์ญํ ์ ํ๋ฉฐ, ๊ฐ์ ์ธ๊ฐ ๋ชจ๋ธ์ ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ, ์ธ๊ฐ-์ธ๊ฐ ์ํธ์์ฉ, ์์จ ์ฃผํ, ๋ก๋ด, AR/VR ๋ฑ์ ๋ค์ํ ์์ฉ ํ๋ก๊ทธ๋จ์์ ํ์์ ์.
- ์ธ๊ฐ ์๋ฐํ ์์ฑ:
- ํ์ค์ ์ธ 3D ์ธ๊ฐ์ ์์ฑํ๊ณ ์ ์ด ๋ฐ ์ ๋๋ฉ์ด์ ์ด ๊ฐ๋ฅํ๊ฒ ๋ง๋ค๊ธฐ ์ํด์๋ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ์๊ฐ ์๋ชจ์ ์ด๋ฉฐ, ๊ฐ๋ณ ์ฃผ์ ์ ํนํ๋ ์ฅ๋น๊ฐ ํ์ํจ.
- ๋ชฉํ๋ ๋ณด๋ค ํจ์จ์ ์ด๊ณ ๋์ค์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ธ๊ฐ ์๋ฐํ๋ฅผ ์์ฑํ๋ ๊ฒ.
4.2 ๊ฐ์ ์ธ๊ฐ์ ๋ชฉ์ (Purpose of Virtual Humans)
- ๊ฐ์ ์ธ๊ฐ ์์ฑ:
- ํ์ค์ ์ธ 3D ์ธ๊ฐ์ ์์ฑํ์ฌ ์ค์ ์ฌ๋์ฒ๋ผ ์์ง์ด๊ณ ๋ณด์ด๋๋ก ํ๋ฉฐ, ์ ์ด๊ฐ ์ฝ๊ณ ๋ฐ์ดํฐ์ ๋ง์ถ๊ธฐ ์ฌ์ด ํน์ฑ์ ๊ฐ์ ธ์ผ ํจ.
- ์ด๋ฅผ ํตํด ๊ฐ์ ์ธ๊ณ์์ ํ์ค์ ์ธ ์ธ๊ฐ์ ์ฐฝ์กฐํ ์ ์์.
- ๊ฐ์ ์ธ๊ฐ์ ์์ง์:
- ๊ฐ์ ์ธ๊ฐ์ ๋ฌผ์ฒด ๋ฐ ์ฅ๋ฉด๊ณผ ์ํธ์์ฉํ ์ ์์ผ๋ฉฐ, ์ค์ ์ฌ๋์ฒ๋ผ ์์ ๋กญ๊ฒ ์์ง์ผ ์ ์์ด์ผ ํจ.
4.3 ์ธ๊ฐ ๋ชจ๋ธ ์์ฑ์ ์ด๋ ค์ (Challenges in Human Model Creation)
- ์ฃผ์ ๋ฌธ์ :
- ์ ์กฐํ ๋๋น์ ์๊ธฐ ํ์: ์ด๋ฏธ์ง์์ ์ผ๋ถ ์ ์ฒด ๋ถ์๊ฐ ๋ค๋ฅธ ๋ถ์์ ์ํด ๊ฐ๋ ค์ง๋ ๋ฌธ์ .
- 2D ํฌ์์์์ 3D ์ ๋ณด ์์ค: 3D ๊ฐ์ฒด๊ฐ 2D ํ๋ฉด์ผ๋ก ํฌ์๋ ๋ ์ค์ํ 3D ์ ๋ณด๊ฐ ์์ค๋จ.
- ๋น์ ์์ ์ธ ์์ธ: ๊ณ ์ฐจ์์ ์ธ ๋ณต์กํ ์์ธ๋ ๋ชจ๋ธ๋ง์ด ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์์.
- ๋ฐฐ๊ฒฝ, ์กฐ๋ช , ์๋ณต, ํ์๊ณผ ๊ฐ์ ์์๋ค์ด ์ธ๊ฐ ๋ชจ๋ธ ์์ฑ์ ๋ณต์ก์ฑ์ ์ฆ๊ฐ์ํด.
4.4 ์ ์ฒด ๋ชจ๋ธ์ด๋? (What is a Body Model?)
- ์ ์ฒด ๋ชจ๋ธ์ ์ค์ ์ฌ๋์ฒ๋ผ ๋ณด์ด๊ณ ์์ง์ผ ์ ์๋ ์ํ์ ๋ชจ๋ธ์ ์ ์ํ๋ ๊ฒ์.
- ํน์ง: ์ ์ฐจ์, ๋ฏธ๋ถ ๊ฐ๋ฅ, ๊ด์ ์ ํฌํจ, ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฝ๊ฒ ๋ง์ถ ์ ์์.
- ๋ชฉํ: ์ธ๊ฐ์ ํํ๋ฅผ 3D ๋ฉ์ฌ๋ก ํํํ์ฌ ์ค์ ์ ์ ์ฌํ๊ฒ ์์ง์ด๋๋ก ์ค๊ณํจ.
- ์ด๋ฌํ ๋ชจ๋ธ์ ๊ทธ๋ํฝ ๋๊ตฌ์ ํธํ์ด ๊ฐ๋ฅํ๊ณ , ์ ๋๋ฉ์ด์ ์์ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์์.
4.4 ์ ํ ๋ธ๋ ๋ ์คํค๋ (Linear Blend Skinning, LBS)
- **์ ํ ๋ธ๋ ๋ ์คํค๋(LBS)**๋ ๊ฐ์ฅ ์ผ๋ฐ์ ์ด๊ณ ๊ฐ๋จํ ์ ์ฒด ๋ชจ๋ธ๋ง ๋ฐฉ์์.
- ๊ฐ ์ ์ (verteces)์ ๋ณํ๋ ํ
ํ๋ฆฟ ์ ์ ๋ค์ ์ ํ ๊ฒฐํฉ์ ํตํด ๊ณ์ฐ๋จ.
-
๋ฌธ์ ์ :
- LBS๋ ์ผ๋ถ ๊ด์ ์์ง์์์ "์บ๋ ๋ํผ ๋ฌธ์ "์ ๊ฐ์ด ๋นํ์ค์ ์ธ ๋ณํ์ ์ ๋ฐํ ์ ์์.
- ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ํฌ์ฆ ๋ธ๋ ๋ ์์ดํ(pose blend shapes)๋ฅผ ๋์ ํ์ฌ LBS์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ ์์ฐ์ค๋ฌ์ด ๋ณํ์ ๊ฐ๋ฅํ๊ฒ ํจ.
-
4.5 SMPL (Skinned Multi-Person Linear Model)
- SMPL ๋ชจ๋ธ์ ์ ํ ๋ธ๋ ๋ ์คํค๋(LBS)์ ํฌ์ฆ ์ข
์ ๋ณํ์ ๊ฒฐํฉํ ๋ชจ๋ธ๋ก, 3D ์ ์ฒด ๋ฉ์ฌ๋ฅผ ์์ฑํจ.
- ํน์ง: ์ฝ 7,000๊ฐ์ 3D ์ ์ ์ผ๋ก ์ ์ฒด๋ฅผ ํํํ๋ฉฐ, ์ ์ฒด ์ ์ฒด๋ฅผ 21,000๊ฐ์ ์ซ์๋ก ์ค๋ช ํ ์ ์์.
- ๋ฐ์ดํฐ ๊ธฐ๋ฐ: SMPL์ ๋ค์ํ ์ ์ฒด ํํ์ ํฌ์ฆ๋ฅผ ํ์ตํ๊ธฐ ์ํด ์์ฒ ๊ฐ์ 3D ์ค์บ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํจ.
- ์ ์ฒด์ ๋ค์ํ ํํ ํํ: SMPL์ ์ ์ฒด ํํ๋ฅผ ์ ์ฐจ์ ๊ณต๊ฐ์์ ํํํ๋ฉฐ, ์ฃผ์ฑ๋ถ ๋ถ์(PCA)์ ์ฌ์ฉํ์ฌ ์ ์ฒด ํํ๋ฅผ ์ค๋ช ํจ.
- ํฌ์ฆ ๋ธ๋ ๋ ์์ดํ๋ ์ ์ฒด๊ฐ ๋ค์ํ ํฌ์ฆ์ ๋ฐ๋ผ ์์ฐ์ค๋ฝ๊ฒ ๋ณํ๋๋๋ก ํ์ฌ ์คํค๋ ๋ฌธ์ ๋ฅผ ๋ณด์ํจ.
- SMPL์ ์ค์์ฑ:
- SMPL์ ํ๊ณ์ ์ฐ์ ๊ณ์์ 3D ์ ์ฒด ํฌ์ฆ ๋ฐ ํํ ๋ชจ๋ธ๋ง์ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ, ์ฌ๋์ ์์ด๋ ์ผ๊ตด ๊ฐ์ ์ธ๋ถ ๋ถ์์ ํํ์์๋ ํ์ฅ๋์ด ์ฌ์ฉ๋จ.
4.6 SMPLify
- SMPLify๋ ๋จ์ผ ์ด๋ฏธ์ง์์ ์๋์ผ๋ก 3D ์ ์ฒด์ ํฌ์ฆ์ ํํ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํจ.
-
2D ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ๊ณ , ์ด ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก 3D ์ ์ฒด ๋ฉ์ฌ๋ฅผ ์์ธกํ๋ฉฐ, 2D ์กฐ์ธํธ์ 3D ์กฐ์ธํธ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ์ต์ ํํจ.
-
๋ฌธ์ ์ : ๊น์ด ๋ชจํธ์ฑ(Depth ambiguity) ๋ฌธ์ ๋ก ์ธํด ๋์ผํ 2D ํฌ์์ด ์ฌ๋ฌ 3D ํฌ์ฆ์ ์ํด ์์ฑ๋ ์ ์์. ์๋ฅผ ๋ค์ด, ์๋ชจ์ต์์ ํฌ์ฆ๊ฐ ์๋ชป๋ ์ ์์.
-
ํด๊ฒฐ์ฑ : ํฌ์ฆ์ ํํ์ ๋ํ ์ ํ์ ์ง์(Pose and Shape Prior)์ ์ฌ์ฉํ์ฌ ํฌ์ฆ ๋ฐ ํํ ์ถ์ ์ ๋ถํ์ค์ฑ์ ์ค์.
-
4.7 SPIN (SMPL oPtimization IN the loop)
- SPIN์ SMPLify์ ์๋จ์ ์ต์ ํ๋ฅผ ์ถ๊ฐํ์ฌ 2D ์กฐ์ธํธ ์ ๋ณด๋ฅผ ํ์ต์ ์ฌ์ฉํจ.
- ๋ฐฉ๋ฒ: ํ๋จ์์ 2D ์กฐ์ธํธ๋ฅผ ์์ธกํ ํ, ์๋จ์์ ์ด ์กฐ์ธํธ๋ฅผ ๋ฐํ์ผ๋ก 3D ์ ์ฒด ํฌ์ฆ์ ํํ๋ฅผ ์ถ์ ํจ.
- ํน์ง: ๋จ์ํ ํ๊ท ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋นํด ๋ ์ ๊ตํ 3D ์ ์ฒด ๋ฉ์ฌ๋ฅผ ์์ฑํ ์ ์์.
4.8 MultiPly
- MultiPly๋ ๋จ์ผ ๋น๋์ค์์ ๋ค์์ ์ฌ๋์ 3D ํฌ์ฆ์ ํํ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์.
- ์ค์๊ฐ์ผ๋ก ๋ณต์กํ ์ฅ๋ฉด์์๋ ์ฌ๋ฌ ์ฌ๋์ ์ ํํ 3D ํฌ์ฆ๋ฅผ ๋ณต์ํ ์ ์์.
- ๋จ์ผ ์นด๋ฉ๋ผ ์ค์ ์์ ๋ค์ค ์ฌ๋ ์ถ์ ๊ณผ ํฌ์ฆ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํจ.