Week 4 ํ์ต ์ ๋ฆฌ
๊ฐ์ ๋ณต์ต ๋ชฉ์ฐจ
- CNN & ViT
- Self-supervisedtraining
- CNN Visualizing & Data Augmentation
- Segmentation & Detection
- Computational Imaging
1. CNN & ViT
CNN
- CNN์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ ์ ํ์ ๋๋ค. CNN์ image classification, detection, segmentation ๋ฑ ๋ค์ํ ์์ ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์์ ์ค์ํ ํน์ง(feature)์ ์๋์ผ๋ก ์ถ์ถํ๋ ๋ฐ ๊ฐ์ ์ ๊ฐ์ง๊ณ ์๋ค. VGGNet๊ณผ ResNet์ด ์ผ๋ฐ์ ์ผ๋ก ๋ฐฑ๋ณธ ๋ชจ๋ธ๋ก ๋ง์ด ์ฌ์ฉ๋๋ค
- ๊ธฐ์กด Fully Connected Layer ๊ตฌ์กฐ์์๋ ๊ฐ ํด๋์ค๋ง๋ค ํ๋์ ํ๋กํ ํ์ ์ ๊ฐ์ง๊ฒ๋๋ค. ๋ํ ๊ฐ Pixel์ด input์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ Parameter ์๋ ๋์ด๋๊ณ loacl ์ ๋ณด๋ ์ ์ ์์๋ค. โ ์ด๋ฅผ CNN์ผ๋ก ํด๊ฒฐํ์๋ค.
Briefhistory
- LeNet-5๋ 1998๋ ์ Yann LeCun์ ์ํด ์๊ฐ๋ ๊ฐ๋จํ CNN ๊ตฌ์กฐ์ ๋๋ค.
- AlexNet์ ImageNet ๋ฐ์ดํฐ์ ์ ์ด์ฉํด ํ๋ จ๋ ๋ ํฐ ๋คํธ์ํฌ๋ก, ReLU ํ์ฑํ ํจ์์ ๋๋กญ์์ ๊ท์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค. ๋ํ GPU๋ฅผ ๋ณ๋ ฌ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ์ต๋๋ค.
- VGGNet์ ๋จ์ํ์ง๋ง ๊น์ ๊ตฌ์กฐ๋ก, ์์ 3x3 ํฉ์ฑ๊ณฑ ํํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๊น์ ๋คํธ์ํฌ๋ฅผ ๋ง๋ญ๋๋ค.
- ResNet์ '์์ฐจ ์ฐ๊ฒฐ(residual connections)'์ ๋์ ํ์ฌ ๋ ๊น์ ๋คํธ์ํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ๋ จํ ์ ์๊ฒ ํฉ๋๋ค.
ViT
- ViT๋ No recurrence! No convolution! But attention! โ ์ค์ง Attention๋ง์ ์ฌ์ฉํ์ฌ ๋ง๋ ๋ชจ๋ธ์ด๋ค. ๊ธฐ์กด CNN์์์ Long-term dependency๋ฅผ ํด๊ฒฐํ๋ฉฐ Transformer๋ฅผ Computer Viston์์ ์ฌ์ฉํ๋ค.
- ViT๊ตฌ์กฐ
- ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ์ฌ์ด์ฆ์ patch๋ก ์๋ฅธ๋ค. โ 2D ์ด๋ฏธ์ง๋ฅผ 1D Sequence๋ก ๋ณํํ๋ค.
- positional embedding ๊ณผ CLS Token์ ์ถ๊ฐํ๋ค. โ patch๋ก ์๋ฆฐ ์ด๋ฏธ์ง์๋ ์๋ณธ์ ์ด๋์๋ถํฐ ์ถ์ถ๋์๋์ง ์์น์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ Positional Embedding์ ํตํด ์๋ ค์ค๋ค. [class] token์ embedding patch ๋งจ ์์ ์ถ๊ฐํ๋ค.
- Transformer Encoredr โ ์ฌ์ง์ ์ค๋ฅธ์ชฝ ๋ถ๋ถ์ธ Encorder๋ฅผ ์งํํ๋ค.
- MLP Head โ ํ์ต ๊ฐ๋ฅํ cls token์ ์ด์ฉํด classification์ ํ ์ ์๊ฒ ๋๋ค.
- ์ด๊ธฐ ViT์์ ๋ฐ์ ๋ Swin Transformer๊ฐ ์๋ค.
-
๋จผ์ ์ด๋ฏธ์ง๋ฅผ ์์ ํจ์น๋ก ๋๋๊ณ , ๊ฐ ํจ์น ๋ด์์ ๋ก์ปฌ ์๋์ฐ ๊ธฐ๋ฐ์ self-attention ๋ฉ์ปค๋์ฆ์ ์ ์ฉํฉ๋๋ค.
-
์๋์ฐ๋ฅผ ๊ณ์ธต ๊ฐ์ ์ด๋์์ผ(window shifting) ๋ ๋์ ์์ฉ ์์ญ๊ณผ ๋ ๋์ ์ ๋ณด ํตํฉ์ ์ ๊ณตํฉ๋๋ค.
-
์ด๋ฅผ ํตํด ๋์ ํด์๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์ ํจ์จ์ ์ด๋ฉฐ ๊ณ์ฐ ๋น์ฉ๋ ์ ๊ฒ๋ฉ๋๋ค.
-
2. Self-supervisedtraining
: ViT์ ๊ฐ์ด ์ฌ์ฉํ๊ธฐ ์ข๋ค.
Masked Auto encoders (MAE)
๊ธฐ์กด์ ๊ฐ์ง๊ณ ์๋ Ground truth ์ด๋ฏธ์ง์์ ๋๋ถ๋ถ(์ฝ 75%) ๋ถ๋ถ์ Mask์ฒ๋ฆฌํ์ฌ input์ ๋ง๋ ๋ค.
์ด๋ฅผ Encorder์ Decorder๋ฅผ ํตํด Ground truth๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ด๋ค.
DINO
Student - Teacher ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ํตํด Teacher ๋คํธ์ํฌ์ ์ถ๋ ฅ์ Student ๋คํธ์ํฌ๊ฐ ํ์ตํ ์ ์๋๋ก ํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์ ํน์ฑ์ ์ ์ฐพ์ ์ ์๊ฒ ๋๋ค.
3. CNN Visualizing & Data Augmentation
CNN visualization
CNN์ ๋ด๋ถ๋ ํต์นญ black box๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์ด๋ค ๋ฐฉ์์ผ๋ก output์ด ๋์ค๋์ง ์๊ธฐ ์ด๋ ต๋ค. ํ์ง๋ง ์ด๋ฌํ black box ๋ถ๋ถ์ ์ ์ ์๋ค๋ฉด ์ด๋ป๊ฒ ์ฑ๋ฅ์ ์ฌ๋ฆด์ง, ์ ์ด๋ ๊ฒ ์๋ํ๋์ง, ์ด๋์์ ๋ฌธ์ ๊ฐ ์๊ฒผ๋์ง ๋ฑ์ ์ ์ ์๊ฒ๋ฉ๋๋ค.
์ด๋ฌํ ์ด์ ๋ค๋ก CNN ๋ด๋ถ๋ฅผ ์๊ฐํ ํ๋ ค๋ ๋ฐฉ๋ฒ๋ค์ด ๋ง์ด ๋์ค๊ฒ ๋ฉ๋๋ค.
- Nearest Neighbors in feature space: ์ด๋ฏธ์ง์ ํน์ง ๊ณต๊ฐ์์ ๊ฐ๊น์ด ์ด์์ ์ฐพ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ ์ฌํ ํน์ง์ ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ๊ฒ์ํ๊ฑฐ๋ ๊ตฐ์งํํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ํน์ง ๋ฒกํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ์ฌ ๊ฐ์ฅ ์ ์ฌํ ์ด๋ฏธ์ง๋ฅผ ์ฐพ์ต๋๋ค.
-
Maximally activating patches: ์ ๊ฒฝ๋ง์ ํน์ ๋ด๋ฐ์ ์ต๋ํ ํ์ฑํํ๋ ์ ๋ ฅ ํจ์น(์ด๋ฏธ์ง์ ๋ถ๋ถ)๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ชจ๋ธ์ด ์ด๋ค ํจํด์ ํ์ตํ๋์ง ์ดํดํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ํน์ ํํฐ๊ฐ ํ์ฑํ๋๋ ์์ธ์ ์๊ฐ์ ์ผ๋ก ํ์ํฉ๋๋ค.
์ด๋ค ๋ถ๋ถ์ ํ์ต์ ์ ์ด์ฉ๋์๋์ง ๋ณด์ฌ์ค
-
Class visualization: ํน์ ํด๋์ค์ ๋ํ ์ ๊ฒฝ๋ง์ ๋ด๋ถ ํํ์ ์๊ฐํํ๋ ๊ธฐ๋ฒ์ผ๋ก, ๋ชจ๋ธ์ด ๊ฐ ํด๋์ค๋ฅผ ์ด๋ป๊ฒ "๋ณด๋์ง" ์ดํดํ ์ ์์ต๋๋ค. ์ด๋ ํน์ ํด๋์ค๋ฅผ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ์ ๋ ฅ์ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก ์ํ๋ฉ๋๋ค.
ํ์กฐ๋ฅผ ๋ชจ๋ธ์ ์ค๋ฅธ์ชฝ๊ณผ ๊ฐ์ด ๋ณธ๋ค
-
Class activation mapping (CAM) : ์ด๋ฏธ์ง์ ์ด๋ค ๋ถ๋ถ์ด ๋ชจ๋ธ์ ํน์ ํด๋์ค ์์ธก์ ๊ธฐ์ฌํ๋์ง ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ ๋ง์ง๋ง ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ์ถ๋ ฅ๊ณผ ์์ ์ฐ๊ฒฐ ๊ณ์ธต ๋์ ์ GAP(Global Average Pooling)์ ์ ์ฉํ์ฌ ๊ตฌํํฉ๋๋ค.
-
ViT Visualization: Vision Transformer(ViT)์ ์๊ฐํ ๋ฐฉ๋ฒ์ผ๋ก, ์๊ธฐ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ํจ์น ๊ฐ ์ํธ์์ฉ์ ์๊ฐํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ์ด๋ค ๋ถ๋ถ์ ์ฃผ๋ชฉํ๋์ง ํ์ธํ ์ ์์ต๋๋ค.
Data Augmentation
์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ํ์ค ์ธ๊ณ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ ๋๋ก ํํํ ์ ์๋ค.
๋ฐ๋ผ์ ์ฌ๋ฌ ๊ธฐํํ์ ์ฐ์ฐ์ ํตํด ๊ฐ์ ์ด๋ฏธ์ง์์๋ ๋ค์ํ ์ด๋ฏธ์ง๋ก ์์ ๋๋ฆด ์ ์๊ฒ ๋ฉ๋๋ค.
์๋ฅผ ๋ค์ด, ์ํ๋ฐ์ , ์ข์ฐ๋ฐ์ , ํ์ , ๋ฐ๊ธฐ ์กฐ์ , Crop, CutMix๋ฑ์ ๋ฐฉ๋ฒ์ด ์๋ค.
- ํนํ CutMix๋ฅผ ์งํํ ์ ์ฑ๋ฅ์ด ๋ ์ ์ข์์ง๋ ๊ฒ์ ์ ์ ์์๋ค.
Synthetic data
ํ์ค ์ธ๊ณ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ฐฉํ๊ฑฐ๋ ํ์ฅํ๊ธฐ ์ํด ์ธ์์ ์ผ๋ก ์์ฑ๋ ๋ฐ์ดํฐ์ ๋๋ค.
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จ์ ์ํด ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๋์ด๊ณ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ์ ํนํ ์ ์ฉํฉ๋๋ค.
ํฉ์ฑ ๋ฐ์ดํฐ๋ ๊ฐ์ธ์ ๋ณด ๋ณดํธ๋ฅผ ๊ฐํํ๊ณ ๋ฐ์ดํฐ ํธํฅ์ ์ค์ด๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์ฆ๊ฐ, ํ ์คํธ ๋ฐ์ดํฐ ์์ฑ, ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ํตํ ๋ค์ํ ์๋๋ฆฌ์ค ํ ์คํธ ๋ฑ์ด ํฌํจ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
4. Segmentation & Detection
Semantic segmentation
์ด๋ฏธ์ง์ ๊ฐ ํฝ์ ์ ํน์ ํด๋์ค์ ํ ๋นํ๋ ์์ ์ผ๋ก, ๋๋ก, ๊ฑด๋ฌผ, ํ๋๊ณผ ๊ฐ์ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ๊ตฌ๋ถํฉ๋๋ค.
์ด๋ฅผ ํตํด ์ปดํจํฐ๊ฐ ์ด๋ฏธ์ง์ ๋ชจ๋ ๋ถ๋ถ์ ์ดํดํ๊ณ , ์ด๋ฏธ์ง์ ์ธ๋ถ์ ์ธ ์ ๋ณด๊น์ง ๋ถ์ํ ์ ์๊ฒ ํฉ๋๋ค. ์์จ ์ฃผํ, ์๋ฃ ์์ ์ฒ๋ฆฌ, ๋ก๋ด ๋น์ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ฉ๋๋ค.
FCN
์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ ์ ์งํ๋ฉด์ ๊ฐ ํฝ์ ์ ๋ถ๋ฅํ๋ ์์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ๋๋ค.
์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํด ์ ํต์ ์ธ ์ ๊ฒฝ๋ง์ ์์ ์ฐ๊ฒฐ ๊ณ์ธต์ ์ ๊ฑฐํ๊ณ , ๋ชจ๋ ๊ณ์ธต์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ผ๋ก ๋์ฒดํ์ฌ ํจ์จ์ ์ธ ํฝ์ ๋จ์ ๋ถ๋ฅ๋ฅผ ์ํํฉ๋๋ค.
๋ค์ํ ํด์๋์ ํน์ง ๋งต์ ๊ฒฐํฉํ์ฌ ์ ํํ ์ธ๊ทธ๋ฉํ ์ด์ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
UNet
U์ํ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ผ๋ก, ์ธ์ฝ๋๋ ์ด๋ฏธ์ง์ ํน์ง์ ์ถ์ถํ๊ณ ๋์ฝ๋๋ ์๋ณธ ํด์๋๋ก ๋ณต์ํ๋ฉฐ ์ธ๋ถ์ ์ธ ์ ๋ณด๋ฅผ ๋ณด์กดํฉ๋๋ค. ๋์ฝ๋ ์งํ ์ ์ธ์ฝ๋์ skip-connection์ ๋ฐ์ ๋ ์ ํํ ๋ณต์์ด ๊ฐ๋ฅํด์ง๋ค.
๊ฐ ์ธ์ฝ๋ฉ ๋จ๊ณ์์์ ํน์ง์ ๋์๋๋ ๋์ฝ๋ฉ ๋จ๊ณ๋ก ์ ๋ฌํ์ฌ ์ธ๋ฐํ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์ํํฉ๋๋ค. ์ฃผ๋ก ์๋ฃ ์์์์ ์ฅ๊ธฐ, ์ข ์ ๋ฑ์ ๋ถํ ์์ ์ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค.
Object Detection
์ด๋ฏธ์ง ๋ด์์ ์ฌ๋ฌ ๊ฐ์ฒด์ ์์น์ ํด๋์ค๋ฅผ ๋์์ ์์ธกํ๋ ์์ ์ผ๋ก, ๊ฐ ๊ฐ์ฒด๋ฅผ ๋๋ฌ์ธ๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ฑํฉ๋๋ค. Faster R-CNN, YOLO, SSD์ ๊ฐ์ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ด ์์ผ๋ฉฐ,
๊ฐ๊ฐ ์๋์ ์ ํ๋ ๋ฉด์์ ํน์ง์ด ๋ค๋ฆ ๋๋ค. ์ด ๊ธฐ์ ์ ์์จ ์ฃผํ ์ฐจ๋, ๋ณด์ ์์คํ , ๋ก๋ด ๋น์ ๋ฑ์์ ์ค์๊ฐ ๊ฐ์ฒด ์ถ์ ๊ณผ ํ์ง๋ฅผ ์ํด ์ฌ์ฉ๋ฉ๋๋ค.
R-CNN
-
R-CNN์ ๊ฐ์ฒด ํ์ง ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ด๋ฏธ์ง์์ ์ฌ๋ฌ ๊ฐ์ ์ ์๋ ์์ญ(Region Proposals)์ ์์ฑํ๊ณ , ๊ฐ ์์ญ์ CNN์ ํตํด ํน์ง ๋งต์ผ๋ก ๋ณํํ์ฌ ๊ฐ๋ณ์ ์ผ๋ก ๋ถ๋ฅํฉ๋๋ค.
โ 2 stage โ ๊ณ์ฐ ์๋๊ฐ ๋๋ฆฌ๊ณ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ด ๋ง๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
-
์ ์๋ ์์ญ์์ CNN์ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด๊ฐ ์กด์ฌํ ๊ฐ๋ฅ์ฑ์ ํ๊ฐํ๊ณ , ๊ฐ์ฒด์ ๊ฒฝ๊ณ ์์(๋ฐ์ด๋ฉ ๋ฐ์ค)๋ฅผ ์กฐ์ ํ์ฌ ์ต์ข ์์น๋ฅผ ์์ธกํฉ๋๋ค.
-
R-CNN์์ Fast R-CNN, Faster R-CNN, Mask R-CNN์ผ๋ก ์ ์ ๋ฐ์ ํด ๋๊ฐ๋ค.
Yolo
-
YOLO๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ํ๋์ ํจ์ค๋ก ์ฒ๋ฆฌํ์ฌ ๋ชจ๋ ๊ฐ์ฒด์ ์์น์ ํด๋์ค๋ฅผ ๋์์ ์์ธกํฉ๋๋ค.
โ 1 stage โ ๋ฎ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ์ ์งํ์ง๋ง, ์์ ๊ฐ์ฒด์ ๋ํ ํ์ง ์ ํ๋๋ ์๋์ ์ผ๋ก ๋ฎ์ ์ ์์ต๋๋ค.
-
์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๊ทธ๋ฆฌ๋๋ก ๋๋๊ณ , ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋์ค ํ๋ฅ ์ ์์ธกํ๋ ๋ฐฉ์์ ๋๋ค.
- 1 stage detecter์ 2 stage detecter์ ์ฐจ์ด๋ ROI pooling์ด ๋ช ์์ ์ผ๋ก ์๋์ง ์๋์ง ์ฐจ์ด์ด๋ค.
Instance segmentation
์ด๋ฏธ์ง ๋ด์ ๊ฐ ๊ฐ์ฒด๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ๊ตฌ๋ถํ๊ณ , ๊ฐ ๊ฐ์ฒด์ ๊ฒฝ๊ณ๋ฅผ ์ ํํ๊ฒ ์ถ์ถํ๋ ๊ธฐ์ ์ ๋๋ค.
๊ฐ์ฒด ํ์ง์ ์ธ๊ทธ๋ฉํ ์ด์ ์ ๊ฒฐํฉํ์ฌ ์ด๋ฏธ์ง ๋ด์์ ๊ฐ์ฒด์ ์์น์ ๋ชจ์์ ๋์์ ํ์ ํฉ๋๋ค.
์ด๋ ์์จ ์ฃผํ, ์๋ฃ ์์ ๋ถ์, ๋ก๋ด ๋น์ ๋ฑ์์ ๊ฐ์ฒด์ ์ธ๋ฐํ ๋ถ์์ด ํ์ํ ๊ฒฝ์ฐ์ ์ฌ์ฉ๋ฉ๋๋ค.
Mask R-CNN
Faster R-CNN์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ธ์คํด์ค ๋ถํ ๋ชจ๋ธ๋ก, ๊ฐ์ฒด ํ์ง์ ํฝ์ ์์ค์ ๋ถํ ์ ๊ฒฐํฉํ์ฌ ๊ฐ ๊ฐ์ฒด์ ์ ํํ ๊ฒฝ๊ณ๋ฅผ ์์ธกํฉ๋๋ค.
ROI Align์ด๋ผ๋ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ๋ถํ ๋ง์คํฌ๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ์์ฑํ๋ฉฐ, ๊ฐ ๊ฐ์ฒด์ ๋ํด ๊ฐ๋ณ์ ์ธ ๋ง์คํฌ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
๋ํ Mask R-CNN์ ํ์ฅ์ ํตํด DensePose R-CNN, Mesh R-CNN๋ฑ์ ๋ง๋ค ์ ์๋ค.
Transformer-based methods (Detection)
ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด ํ์ง์ ๋ถํ ์์ ์ ์ํํ๋ ๋ฐฉ๋ฒ๋ค๋ก, ๊ธฐ์กด CNN ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ์ ์ฐํ๊ณ ์ฑ๋ฅ์ด ์ฐ์ํ ํน์ง์ด ์์ต๋๋ค.
์ด๋ค ๋ชจ๋ธ์ ์ ์ญ์ self attention ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์ฌ ์ด๋ฏธ์ง์ ๋ชจ๋ ๋ถ๋ถ ๊ฐ์ ์ข ์์ฑ์ ํ์ตํฉ๋๋ค.
์ฃผ๋ก ์ฅ๊ฑฐ๋ฆฌ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฐ ๊ฐ์ ์ ๊ฐ์ง๋ฉฐ, ๊ฐ์ฒด ํ์ง์ ๋ถํ ์ ํจ์จ์ฑ์ ๋์ ๋๋ค.
DETR
DETR์ Transformer์ Encoder-Decoder๋ฐฉ์์ ์ฐจ์ฉํด์๊ณ CNN์ backbone๊ตฌ์กฐ๋ก ์ฌ์ฉํ ๋ชจ๋ธ์ด๋ค. ํน๋ณํ๊ฒ Decoder ๊ตฌ์กฐ ๋ค์์ Prediction heads๋ผ๋ ๊ตฌ์กฐ๊ฐ ์๋ค. Prediction heads๋ FFN๊ตฌ์กฐ๋ก Decoder์ embedding๋ output์ ๋ฐ์ N๊ฐ์ prediction์ ๋ํ prob์ ์ถ๋ ฅํ๊ฒ ๋๋ค.
MaskFormer
ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ด๋ฏธ์ง ๋ถํ ๋ชจ๋ธ๋ก, ๊ฐ์ฒด ํ์ง์ ์ธ๊ทธ๋ฉํ ์ด์ ์์ ์ ํตํฉํ์ฌ ๋ณด๋ค ํจ์จ์ ์ธ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
Unified Model
๋ค์ํ ์ปดํจํฐ ๋น์ ์์ ์ ํ๋์ ๋ชจ๋ธ์์ ํตํฉ์ ์ผ๋ก ์ํํ ์ ์๋ ์ ๊ทผ ๋ฐฉ์์ผ๋ก, ์ฌ๋ฌ ์์ ์ ๋์์ ํด๊ฒฐํ ์ ์๋ ํจ์จ์ฑ์ ์ ๊ณตํฉ๋๋ค.
์ด๋ฌํ ๋ชจ๋ธ์ ๋ค์ํ ๋ฐ์ดํฐ์ ๊ณผ ์์ ๊ฐ์ ๊ณตํต๋ ํน์ง์ ํ์ตํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ทน๋ํํฉ๋๋ค.
์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ด๊ณ , ๋ค์ํ ์์ฉ์์ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
Uni-DVPS
๋์ ์๊ฐ ์ธ์์ ์ํ ํตํฉ ๋ชจ๋ธ๋ก, ๋ค์ํ ์๊ฐ ์์ ์ ํ๋์ ํตํฉ๋ ํ๋ ์์ํฌ ๋ด์์ ์ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
๊ฐ์ฒด ํ์ง, ์ธ๊ทธ๋ฉํ ์ด์ , ์ถ์ , ๊น์ด ํ์ง ๋ฑ ์ฌ๋ฌ ๋น์ ์์ ์ ๋์์ ์ฒ๋ฆฌํ๋ฉฐ, ์ค์๊ฐ ์์ฉ์์์ ํจ์จ์ฑ์ ๊ทน๋ํํฉ๋๋ค.
Segmentation foundation model
์ธ๊ทธ๋ฉํ ์ด์ ์์ ์ ์ํ ๋ฒ์ฉ ๊ธฐ์ด ๋ชจ๋ธ๋ก, ๋ค์ํ ๋น์ ์์ฉ ํ๋ก๊ทธ๋จ์์ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
๋ฒ์ฉ ๋ชจ๋ธ๋ก์, ํ ๋ฒ์ ํ์ต์ผ๋ก ์ฌ๋ฌ ์ธ๊ทธ๋ฉํ ์ด์ ์์ ์ ์ ์ํ ์ ์์ผ๋ฉฐ, ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๊ทน๋ํํฉ๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ณผ ๊ฒฐํฉํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
SAM
๋ชจ๋ ์ ํ์ ๊ฐ์ฒด์ ๋ํด ๋ฒ์ฉ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์ํํ ์ ์๋ ๋ชจ๋ธ๋ก, ๋ค์ํ ์ธ๊ทธ๋ฉํ ์ด์ ์์ ์ ํ๋์ ํตํฉ๋ ํ๋ ์์ํฌ ๋ด์์ ์ฒ๋ฆฌํฉ๋๋ค.
์ฌ์ฉ์๊ฐ ์ ์ํ ๋ชจ๋ ๊ฐ์ฒด์ ๋ํด ๋์ ์ผ๋ก ๋ง์คํฌ๋ฅผ ์์ฑํ ์ ์์ด, ๋์ ์ ์ฐ์ฑ๊ณผ ๋ฒ์ฉ์ฑ์ ์๋ํฉ๋๋ค. ์ด๋ ํนํ ๋ค์ํ ํ๊ฒฝ์์์ ์ธ๋ฐํ ๊ฐ์ฒด ๋ถํ ์ด ํ์ํ ์์ฉ์์ ์ ์ฉํฉ๋๋ค.
Grounded-SAM
SAM์ ๊ฐ์ ๋ ๋ฒ์ ์ผ๋ก, ๊ฐ์ฒด์ ๊ณต๊ฐ์ ๋งฅ๋ฝ์ ๊ณ ๋ คํ์ฌ ๋ ์ ๋ฐํ ์ธ๊ทธ๋ฉํ ์ด์ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋จ์ํ ๊ฐ์ฒด๋ฅผ ๋ถํ ํ๋ ๊ฒ๋ฟ ์๋๋ผ,
๊ฐ์ฒด ๊ฐ์ ๊ด๊ณ์ ๋ฐฐ๊ฒฝ์ ์ดํดํ์ฌ ๋ณด๋ค ์ ๊ตํ ์ด๋ฏธ์ง ํด์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
5. Computational Imaging
Computational Imaging
Computational Photography์ Computational Imaging
- Computational Photography: ์ด๋ฏธ์ง ์ดฌ์ ํ์ดํ๋ผ์ธ์ ๊ณ์ฐ ๊ณผ์ ์ ์ถ๊ฐํ์ฌ ์ด๋ฏธ์ง ํ์ง์ ํฅ์์ํต๋๋ค.
- ์์ฉ ๋ถ์ผ: ๊ณ ๋์ ๋ฒ์(HDR) ์ด๋ฏธ์ง ์ดฌ์, ์ ์กฐ๋ ์ด๋ฏธ์ง ๊ฐ์ , ๋ ธ์ด์ฆ ์ ๊ฑฐ, ์ดํด์๋(super-resolution), ๋ธ๋ฌ ์ ๊ฑฐ ๋ฑ.
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ Computational Imaging
- ๋ชจ๋ธ ๊ตฌ์ฑ ์์: ์ด๋ฏธ์ง ๋ณต์ ๋ฐ ํฅ์์ ์ํด ๋ชจ๋ธ, ๋ฐ์ดํฐ, ์์ค ํจ์๋ฅผ ํ์๋ก ํฉ๋๋ค.
- ๋ชจ๋ธ ์ํคํ ์ฒ: U-Net, ์คํต ์ฐ๊ฒฐ(skip-connection), ๋ค์ค ์ค์ผ์ผ ๊ตฌ์กฐ๊ฐ ๋ง์ด ์ฌ์ฉ๋ฉ๋๋ค.
- ์์ค ํจ์: ์ผ๋ฐ์ ์ผ๋ก L2(MSE), L1 ์์ค ํจ์๋ฅผ ์ฌ์ฉํ๋, ์ง๊ฐ์ ์์ค(adversarial loss) ๋ฐ ํผ์ ์ ์์ค(perceptual loss)์ด ๋ ํจ๊ณผ์ ์ผ ์ ์์ต๋๋ค.
- Supervised data๋ฅผ ์ป๊ธฐ๊ฐ ํ๋ญ๋๋ค.
Training Data in Computational Imaging
Case study 1 - Image ๋ ธ์ด์ฆ ์ ๊ฑฐ
- ๋ชฉ์ : ์ด๋ฏธ์ง์์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ์๋์ ๊นจ๋ํ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๊ฒ.
- ๋ ธ์ด์ฆ ๋ชจ๋ธ: ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ Training Data๋ฅผ ๋ง๋ค์ด ๋ ธ์ด์ฆ ์ด๋ฏธ์ง ์๋ฎฌ๋ ์ด์ ์ ์ํํฉ๋๋ค.
Case study 2 - Image super resolution
- ๋ชฉ์ : ์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ๊ณ ํด์๋๋ก ๋ณต์ํ๋ ๊ฒ.
- ๋ฐ์ดํฐ ์์ฑ: ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์งํ๊ณ , ๋ค์ด์ํ๋งํ์ฌ ์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํฉ๋๋ค.
- ํ์ค์ ์ธ ๋ฐ์ดํฐ์ : RealSR๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ค์ ์นด๋ฉ๋ผ ์์คํ ์ ๋ชจ๋ฐฉํ์ฌ ๋ ํ์ค์ ์ธ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
Case study 3 - Image deblurring
- ๋ชฉ์ : ์นด๋ฉ๋ผ ํ๋ค๋ฆผ์ด๋ ๊ฐ์ฒด ์์ง์์ผ๋ก ์ธํด ๋ฐ์ํ๋ ๋ธ๋ฌ๋ฅผ ์ ๊ฑฐํ์ฌ ์ ๋ช ํ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๊ฒ.
- ๋ฐ์ดํฐ ์์ง: ๊ณ ํ๋ ์์จ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ค์ ์ธ ๋ธ๋ฌ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , RealBlur ๋ฐ์ดํฐ์ ๊ณผ ๊ฐ์ ํ์ค์ ์ธ ๋ธ๋ฌ ํ์ต ์์ ์์ฑํฉ๋๋ค.
Case study 4 - Video motion magnification(ํ๋)
- ๋ชฉ์ : ๋น๋์ค์์ ์์ ์์ง์์ ์ฆํญ์์ผ ์ก์์ผ๋ก ๊ด์ฐฐํ๊ธฐ ์ด๋ ต๋ ๋ฏธ์ธํ ์์ง์์ ๊ฐ์กฐํ๋ ๊ฒ.
- ์ ์ฝ์ฌํญ: ์ค์ ํ๋๋ ๋น๋์ค ๋ฐ์ดํฐ๊ฐ ์์ด ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ์ด ํ์ํฉ๋๋ค.
Advanced Loss Functions
์ ๋์ Loss (Adversarial Loss)
- ๊ฐ๋ : GAN(Generative Adversarial Network)์ ํ์ฉํ์ฌ Real Data์ ๋น์ทํ Fake Data๋ฅผ ์์ฑํ๋ฉฐ, ์์ฑ๊ธฐ์ ํ๋ณ๊ธฐ๊ฐ ์๋ก ๊ฒฝ์ํ๋ฉฐ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ์ ์ฉ: ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ(Super-Resolution GAN)๊ณผ ๊ฐ์ ์์ ์ ์ฌ์ฉ๋ฉ๋๋ค.
- ์ฅ์ : L1, L2 loss์ ๋ฌ๋ฆฌ ๋ํ ์ผ์ด sharpํด์ง๊ณ ๋ช ํํด์ง๋ฉฐ ๋ํ ์ผ์ด ๋ค ํํ์ด ๋๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
์ง๊ฐ์ Loss (Perceptual Loss)
- ๊ฐ๋ : ์ฌ์ ํ๋ จ๋ ๋คํธ์ํฌ(์: VGG)๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ๋ ์ด๋ฏธ์ง์ ํ๊ฒ ์ด๋ฏธ์ง ๊ฐ์ ์คํ์ผ๊ณผ ํน์ง ์์ค์ ๊ณ์ฐํฉ๋๋ค.
- ์ฅ์ : ๋ ํ์ค์ ์ด๊ณ ๋์ ํ์ง์ ์ถ๋ ฅ์ ์์ฑํ๋ฉฐ, ํน์ ์๊ฐ์ ์ธ์์ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
๋ Loss ๋น๊ต
- Adversarial Loss (์ ๋์ ์์ค)
- ์ฅ์ : ์ฌ์ ํ๋ จ๋ ๋คํธ์ํฌ๊ฐ ํ์ํ์ง ์์ ๋ค์ํ ์์ฉ ๋ถ์ผ์ ์ฝ๊ฒ ์ ์ฉํ ์ ์์ต๋๋ค.
- ๋จ์ : ์์ฑ๊ธฐ์ ํ๋ณ๊ธฐ๊ฐ ์๋ก ๊ฒฝ์ํ๋ฉด์ ํ์ตํด์ผ ํ๊ธฐ ๋๋ฌธ์ ํ๋ จ๊ณผ ์ฝ๋ ๊ตฌํ์ด ์๋์ ์ผ๋ก ์ด๋ ต์ต๋๋ค.
- Perceptual Loss (์ง๊ฐ์ ์์ค)
- ์ฅ์ : ์๋ฐฉํฅ๊ณผ ์ญ๋ฐฉํฅ ๊ณ์ฐ๋ง์ผ๋ก ํ๋ จํ ์ ์์ด ๊ตฌํ์ด ๊ฐ๋จํ๋ฉฐ, ๋ ์ ์ ์์ ํ๋ จ ๋ฐ์ดํฐ๋ก๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
- ๋จ์ : ํ์ต๋ ์์ค์ ์ธก์ ํ๊ธฐ ์ํด ์ฌ์ ํ๋ จ๋ ๋คํธ์ํฌ๊ฐ ํ์ํฉ๋๋ค.
4. Extension to Video
4.1 ๊น๋ฐ์ ๋ฌธ์ (Flickering Problem)
- ๋ฌธ์ ์ : ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋น๋์ค์ ์ง์ ์ ์ฉํ ๊ฒฝ์ฐ ํ๋ ์ ๊ฐ์ ์๊ฐ์ ๋ถ์ผ์น๊ฐ ๋ฐ์ํด ๊น๋ฐ์ ๋ฌธ์ ๊ฐ ์๊น๋๋ค.
- ํด๊ฒฐ์ฑ : ์๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ํด ์งง์ ์๊ฐ๊ณผ ๊ธด ์๊ฐ์ ์๊ฐ์ ์์ค์ ๊ณ ๋ คํ ํ์ต ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
4.2 ๋น๋์ค ์ฒ๋ฆฌ (Video Processing)
- ์ ์ฒด ํ์ดํ๋ผ์ธ: ์ฃผ์ด์ง ๋น๋์ค ํ๋ ์๊ณผ ์ฒ๋ฆฌ๋ ํ๋ ์์ ๋ฐํ์ผ๋ก ๋ค์ ํ๋ ์์ ์์ธกํ๋ ์ํ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํฉ๋๋ค.
- ์์ค ํจ์: ๋จ๊ธฐ ๋ฐ ์ฅ๊ธฐ ์๊ฐ์ ์์ค๊ณผ ์ง๊ฐ์ ์์ค์ ํฌํจํ์ฌ ๋ชจ๋ธ์ ํ๋ จ์ํต๋๋ค.