Week 4 ํ•™์Šต ์ •๋ฆฌ

Week 5 ํ•™์Šต ์ •๋ฆฌ

๊ฐ•์˜ ๋ณต์Šต ๋ชฉ์ฐจ

Note

  1. CNN & ViT
  2. Self-supervisedtraining
  3. CNN Visualizing & Data Augmentation
  4. Segmentation & Detection
  5. Computational Imaging

1. CNN & ViT

CNN

Briefhistory

image.png

ViT

image.png

2. Self-supervisedtraining

: ViT์™€ ๊ฐ™์ด ์‚ฌ์šฉํ•˜๊ธฐ ์ข‹๋‹ค.

Masked Auto encoders (MAE)

๊ธฐ์กด์— ๊ฐ€์ง€๊ณ  ์žˆ๋Š” Ground truth ์ด๋ฏธ์ง€์—์„œ ๋Œ€๋ถ€๋ถ„(์•ฝ 75%) ๋ถ€๋ถ„์„ Mask์ฒ˜๋ฆฌํ•˜์—ฌ input์„ ๋งŒ๋“ ๋‹ค.

์ด๋ฅผ Encorder์™€ Decorder๋ฅผ ํ†ตํ•ด Ground truth๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

image.png

DINO

Student - Teacher ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด Teacher ๋„คํŠธ์›Œํฌ์˜ ์ถœ๋ ฅ์„ Student ๋„คํŠธ์›Œํฌ๊ฐ€ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์˜ ํŠน์„ฑ์„ ์ž˜ ์ฐพ์„ ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

image.png

3. CNN Visualizing & Data Augmentation

CNN visualization

CNN์˜ ๋‚ด๋ถ€๋Š” ํ†ต์นญ black box๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ output์ด ๋‚˜์˜ค๋Š”์ง€ ์•Œ๊ธฐ ์–ด๋ ต๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ black box ๋ถ€๋ถ„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆด์ง€, ์™œ ์ด๋ ‡๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€, ์–ด๋””์—์„œ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ฒผ๋Š”์ง€ ๋“ฑ์„ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ๋ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ด์œ ๋“ค๋กœ CNN ๋‚ด๋ถ€๋ฅผ ์‹œ๊ฐํ™” ํ•˜๋ ค๋Š” ๋ฐฉ๋ฒ•๋“ค์ด ๋งŽ์ด ๋‚˜์˜ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  1. Nearest Neighbors in feature space: ์ด๋ฏธ์ง€์˜ ํŠน์ง• ๊ณต๊ฐ„์—์„œ ๊ฐ€๊นŒ์šด ์ด์›ƒ์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์œ ์‚ฌํ•œ ํŠน์ง•์„ ๊ฐ€์ง„ ์ด๋ฏธ์ง€๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ฑฐ๋‚˜ ๊ตฐ์ง‘ํ™”ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ํŠน์ง• ๋ฒกํ„ฐ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์ด๋ฏธ์ง€๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค.

image.png

  1. Maximally activating patches: ์‹ ๊ฒฝ๋ง์˜ ํŠน์ • ๋‰ด๋Ÿฐ์„ ์ตœ๋Œ€ํ•œ ํ™œ์„ฑํ™”ํ•˜๋Š” ์ž…๋ ฅ ํŒจ์น˜(์ด๋ฏธ์ง€์˜ ๋ถ€๋ถ„)๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋ชจ๋ธ์ด ์–ด๋–ค ํŒจํ„ด์„ ํ•™์Šตํ–ˆ๋Š”์ง€ ์ดํ•ดํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํŠน์ • ํ•„ํ„ฐ๊ฐ€ ํ™œ์„ฑํ™”๋˜๋Š” ์›์ธ์„ ์‹œ๊ฐ์ ์œผ๋กœ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค.

    ์–ด๋–ค ๋ถ€๋ถ„์„ ํ•™์Šต์— ์ž˜ ์ด์šฉ๋˜์—ˆ๋Š”์ง€ ๋ณด์—ฌ์คŒ

    ์–ด๋–ค ๋ถ€๋ถ„์„ ํ•™์Šต์— ์ž˜ ์ด์šฉ๋˜์—ˆ๋Š”์ง€ ๋ณด์—ฌ์คŒ

  2. Class visualization: ํŠน์ • ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์‹ ๊ฒฝ๋ง์˜ ๋‚ด๋ถ€ ํ‘œํ˜„์„ ์‹œ๊ฐํ™”ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ๋ชจ๋ธ์ด ๊ฐ ํด๋ž˜์Šค๋ฅผ ์–ด๋–ป๊ฒŒ "๋ณด๋Š”์ง€" ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠน์ • ํด๋ž˜์Šค๋ฅผ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ์ž…๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.

ํƒ€์กฐ๋ฅผ ๋ชจ๋ธ์€ ์˜ค๋ฅธ์ชฝ๊ณผ ๊ฐ™์ด ๋ณธ๋‹ค

ํƒ€์กฐ๋ฅผ ๋ชจ๋ธ์€ ์˜ค๋ฅธ์ชฝ๊ณผ ๊ฐ™์ด ๋ณธ๋‹ค

  1. Class activation mapping (CAM) : ์ด๋ฏธ์ง€์˜ ์–ด๋–ค ๋ถ€๋ถ„์ด ๋ชจ๋ธ์˜ ํŠน์ • ํด๋ž˜์Šค ์˜ˆ์ธก์— ๊ธฐ์—ฌํ–ˆ๋Š”์ง€ ์‹œ๊ฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์ง€๋ง‰ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์˜ ์ถœ๋ ฅ๊ณผ ์™„์ „ ์—ฐ๊ฒฐ ๊ณ„์ธต ๋Œ€์‹ ์— GAP(Global Average Pooling)์„ ์ ์šฉํ•˜์—ฌ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.

    image.png

  2. ViT Visualization: Vision Transformer(ViT)์˜ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•์œผ๋กœ, ์ž๊ธฐ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ํŒจ์น˜ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์˜ ์–ด๋–ค ๋ถ€๋ถ„์— ์ฃผ๋ชฉํ•˜๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    image.png

Data Augmentation

์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์€ ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ์ œ๋Œ€๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์—†๋‹ค.

๋”ฐ๋ผ์„œ ์—ฌ๋Ÿฌ ๊ธฐํ•˜ํ•™์  ์—ฐ์‚ฐ์„ ํ†ตํ•ด ๊ฐ™์€ ์ด๋ฏธ์ง€์—์„œ๋„ ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€๋กœ ์–‘์„ ๋Š˜๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์ƒํ•˜๋ฐ˜์ „, ์ขŒ์šฐ๋ฐ˜์ „, ํšŒ์ „, ๋ฐ๊ธฐ ์กฐ์ ˆ, Crop, CutMix๋“ฑ์˜ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

image.png

image.png

Synthetic data

ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ฐฉํ•˜๊ฑฐ๋‚˜ ํ™•์žฅํ•˜๊ธฐ ์œ„ํ•ด ์ธ์œ„์ ์œผ๋กœ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค.

๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ํ›ˆ๋ จ์„ ์œ„ํ•ด ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๋†’์ด๊ณ  ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ์— ํŠนํžˆ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๋ฅผ ๊ฐ•ํ™”ํ•˜๊ณ  ๋ฐ์ดํ„ฐ ํŽธํ–ฅ์„ ์ค„์ด๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•, ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•œ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค ํ…Œ์ŠคํŠธ ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4. Segmentation & Detection

Semantic segmentation

์ด๋ฏธ์ง€์˜ ๊ฐ ํ”ฝ์…€์„ ํŠน์ • ํด๋ž˜์Šค์— ํ• ๋‹นํ•˜๋Š” ์ž‘์—…์œผ๋กœ, ๋„๋กœ, ๊ฑด๋ฌผ, ํ•˜๋Š˜๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๊ฐ์ฒด๋ฅผ ๊ตฌ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ์ปดํ“จํ„ฐ๊ฐ€ ์ด๋ฏธ์ง€์˜ ๋ชจ๋“  ๋ถ€๋ถ„์„ ์ดํ•ดํ•˜๊ณ , ์ด๋ฏธ์ง€์˜ ์„ธ๋ถ€์ ์ธ ์ •๋ณด๊นŒ์ง€ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ž์œจ ์ฃผํ–‰, ์˜๋ฃŒ ์˜์ƒ ์ฒ˜๋ฆฌ, ๋กœ๋ด‡ ๋น„์ „ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

image.png

FCN

์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ฐ ํ”ฝ์…€์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ์™„์ „ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด ์ „ํ†ต์ ์ธ ์‹ ๊ฒฝ๋ง์˜ ์™„์ „ ์—ฐ๊ฒฐ ๊ณ„์ธต์„ ์ œ๊ฑฐํ•˜๊ณ , ๋ชจ๋“  ๊ณ„์ธต์„ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ํšจ์œจ์ ์ธ ํ”ฝ์…€ ๋‹จ์œ„ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์–‘ํ•œ ํ•ด์ƒ๋„์˜ ํŠน์ง• ๋งต์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ •ํ™•ํ•œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

image.png

UNet

U์žํ˜• ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ๊ฐ–์ถ˜ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง์œผ๋กœ, ์ธ์ฝ”๋”๋Š” ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ  ๋””์ฝ”๋”๋Š” ์›๋ณธ ํ•ด์ƒ๋„๋กœ ๋ณต์›ํ•˜๋ฉฐ ์„ธ๋ถ€์ ์ธ ์ •๋ณด๋ฅผ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋” ์ง„ํ–‰ ์‹œ ์ธ์ฝ”๋”์˜ skip-connection์„ ๋ฐ›์•„ ๋” ์ •ํ™•ํ•œ ๋ณต์›์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

๊ฐ ์ธ์ฝ”๋”ฉ ๋‹จ๊ณ„์—์„œ์˜ ํŠน์ง•์„ ๋Œ€์‘๋˜๋Š” ๋””์ฝ”๋”ฉ ๋‹จ๊ณ„๋กœ ์ „๋‹ฌํ•˜์—ฌ ์„ธ๋ฐ€ํ•œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ๋กœ ์˜๋ฃŒ ์˜์ƒ์—์„œ ์žฅ๊ธฐ, ์ข…์–‘ ๋“ฑ์˜ ๋ถ„ํ•  ์ž‘์—…์— ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

image.png

Object Detection

์ด๋ฏธ์ง€ ๋‚ด์—์„œ ์—ฌ๋Ÿฌ ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํด๋ž˜์Šค๋ฅผ ๋™์‹œ์— ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—…์œผ๋กœ, ๊ฐ ๊ฐ์ฒด๋ฅผ ๋‘˜๋Ÿฌ์‹ธ๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Faster R-CNN, YOLO, SSD์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์žˆ์œผ๋ฉฐ,

๊ฐ๊ฐ ์†๋„์™€ ์ •ํ™•๋„ ๋ฉด์—์„œ ํŠน์ง•์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์ด ๊ธฐ์ˆ ์€ ์ž์œจ ์ฃผํ–‰ ์ฐจ๋Ÿ‰, ๋ณด์•ˆ ์‹œ์Šคํ…œ, ๋กœ๋ด‡ ๋น„์ „ ๋“ฑ์—์„œ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ์ถ”์ ๊ณผ ํƒ์ง€๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

R-CNN

image.png

image.png

Yolo

image.png

Instance segmentation

์ด๋ฏธ์ง€ ๋‚ด์˜ ๊ฐ ๊ฐ์ฒด๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ๊ตฌ๋ถ„ํ•˜๊ณ , ๊ฐ ๊ฐ์ฒด์˜ ๊ฒฝ๊ณ„๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ถ”์ถœํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

๊ฐ์ฒด ํƒ์ง€์™€ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ๋‚ด์—์„œ ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ๋ชจ์–‘์„ ๋™์‹œ์— ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Š” ์ž์œจ ์ฃผํ–‰, ์˜๋ฃŒ ์˜์ƒ ๋ถ„์„, ๋กœ๋ด‡ ๋น„์ „ ๋“ฑ์—์„œ ๊ฐ์ฒด์˜ ์„ธ๋ฐ€ํ•œ ๋ถ„์„์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

image.png

Mask R-CNN

Faster R-CNN์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  ๋ชจ๋ธ๋กœ, ๊ฐ์ฒด ํƒ์ง€์™€ ํ”ฝ์…€ ์ˆ˜์ค€์˜ ๋ถ„ํ• ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ ๊ฐ์ฒด์˜ ์ •ํ™•ํ•œ ๊ฒฝ๊ณ„๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

ROI Align์ด๋ผ๋Š” ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„ํ•  ๋งˆ์Šคํฌ๋ฅผ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ฒŒ ์ƒ์„ฑํ•˜๋ฉฐ, ๊ฐ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๊ฐœ๋ณ„์ ์ธ ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ Mask R-CNN์˜ ํ™•์žฅ์„ ํ†ตํ•ด DensePose R-CNN, Mesh R-CNN๋“ฑ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

image.png

Transformer-based methods (Detection)

ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด ํƒ์ง€์™€ ๋ถ„ํ•  ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค๋กœ, ๊ธฐ์กด CNN ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ณด๋‹ค ์œ ์—ฐํ•˜๊ณ  ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋“ค ๋ชจ๋ธ์€ ์ „์—ญ์  self attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ๋ชจ๋“  ๋ถ€๋ถ„ ๊ฐ„์˜ ์ข…์†์„ฑ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

์ฃผ๋กœ ์žฅ๊ฑฐ๋ฆฌ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ๊ฐ•์ ์„ ๊ฐ€์ง€๋ฉฐ, ๊ฐ์ฒด ํƒ์ง€์™€ ๋ถ„ํ• ์˜ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

DETR

DETR์€ Transformer์˜ Encoder-Decoder๋ฐฉ์‹์„ ์ฐจ์šฉํ•ด์™”๊ณ  CNN์„ backbone๊ตฌ์กฐ๋กœ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ์ด๋‹ค. ํŠน๋ณ„ํ•˜๊ฒŒ Decoder ๊ตฌ์กฐ ๋‹ค์Œ์— Prediction heads๋ผ๋Š” ๊ตฌ์กฐ๊ฐ€ ์žˆ๋‹ค. Prediction heads๋Š” FFN๊ตฌ์กฐ๋กœ Decoder์˜ embedding๋œ output์„ ๋ฐ›์•„ N๊ฐœ์˜ prediction์— ๋Œ€ํ•œ prob์„ ์ถœ๋ ฅํ•˜๊ฒŒ ๋œ๋‹ค.

image.png

MaskFormer

ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ด๋ฏธ์ง€ ๋ถ„ํ•  ๋ชจ๋ธ๋กœ, ๊ฐ์ฒด ํƒ์ง€์™€ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์ž‘์—…์„ ํ†ตํ•ฉํ•˜์—ฌ ๋ณด๋‹ค ํšจ์œจ์ ์ธ ๋ถ„ํ•  ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

image.png

Unified Model

๋‹ค์–‘ํ•œ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์—์„œ ํ†ตํ•ฉ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์œผ๋กœ, ์—ฌ๋Ÿฌ ์ž‘์—…์„ ๋™์‹œ์— ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ž‘์—… ๊ฐ„์˜ ๊ณตํ†ต๋œ ํŠน์ง•์„ ํ•™์Šตํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๊ณ , ๋‹ค์–‘ํ•œ ์‘์šฉ์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Uni-DVPS

๋™์  ์‹œ๊ฐ ์ธ์‹์„ ์œ„ํ•œ ํ†ตํ•ฉ ๋ชจ๋ธ๋กœ, ๋‹ค์–‘ํ•œ ์‹œ๊ฐ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ์ˆ˜ํ–‰ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฐ์ฒด ํƒ์ง€, ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ์ถ”์ , ๊นŠ์ด ํƒ์ง€ ๋“ฑ ์—ฌ๋Ÿฌ ๋น„์ „ ์ž‘์—…์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ์‹ค์‹œ๊ฐ„ ์‘์šฉ์—์„œ์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

image.png

Segmentation foundation model

์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์ž‘์—…์„ ์œ„ํ•œ ๋ฒ”์šฉ ๊ธฐ์ดˆ ๋ชจ๋ธ๋กœ, ๋‹ค์–‘ํ•œ ๋น„์ „ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฒ”์šฉ ๋ชจ๋ธ๋กœ์„œ, ํ•œ ๋ฒˆ์˜ ํ•™์Šต์œผ๋กœ ์—ฌ๋Ÿฌ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์ž‘์—…์— ์ ์‘ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.

SAM

๋ชจ๋“  ์œ ํ˜•์˜ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋ฒ”์šฉ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ๋กœ, ๋‹ค์–‘ํ•œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์šฉ์ž๊ฐ€ ์ •์˜ํ•œ ๋ชจ๋“  ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋™์ ์œผ๋กœ ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์–ด, ๋†’์€ ์œ ์—ฐ์„ฑ๊ณผ ๋ฒ”์šฉ์„ฑ์„ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ์˜ ์„ธ๋ฐ€ํ•œ ๊ฐ์ฒด ๋ถ„ํ• ์ด ํ•„์š”ํ•œ ์‘์šฉ์—์„œ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

image.png

Grounded-SAM

SAM์˜ ๊ฐœ์„ ๋œ ๋ฒ„์ „์œผ๋กœ, ๊ฐ์ฒด์˜ ๊ณต๊ฐ„์  ๋งฅ๋ฝ์„ ๊ณ ๋ คํ•˜์—ฌ ๋” ์ •๋ฐ€ํ•œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ๊ฐ์ฒด๋ฅผ ๋ถ„ํ• ํ•˜๋Š” ๊ฒƒ๋ฟ ์•„๋‹ˆ๋ผ,

๊ฐ์ฒด ๊ฐ„์˜ ๊ด€๊ณ„์™€ ๋ฐฐ๊ฒฝ์„ ์ดํ•ดํ•˜์—ฌ ๋ณด๋‹ค ์ •๊ตํ•œ ์ด๋ฏธ์ง€ ํ•ด์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

image.png

5. Computational Imaging

Computational Imaging

Computational Photography์™€ Computational Imaging

๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜์˜ Computational Imaging

image.png

Training Data in Computational Imaging

Case study 1 - Image ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ

image.png

Case study 2 - Image super resolution

image.png

Case study 3 - Image deblurring

image.png

Case study 4 - Video motion magnification(ํ™•๋Œ€)

image.png

Advanced Loss Functions

์ ๋Œ€์  Loss (Adversarial Loss)

image.png

์ง€๊ฐ์  Loss (Perceptual Loss)

๋‘ Loss ๋น„๊ต

4. Extension to Video

4.1 ๊นœ๋ฐ•์ž„ ๋ฌธ์ œ (Flickering Problem)

4.2 ๋น„๋””์˜ค ์ฒ˜๋ฆฌ (Video Processing)