ViT ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
1. Abstract
- ๋ฌธ์ ์ ๊ธฐ: ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ Transformer์ ์์ฉ์ด ์ ํ์ ์ด๋ฉฐ, ์ฃผ๋ก CNN๊ณผ ํจ๊ป ์ฌ์ฉ๋๊ฑฐ๋ CNN์ ์ผ๋ถ ๊ตฌ์ฑ ์์๋ฅผ ๋์ฒดํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์ฐ๊ตฌ ๋ชฉํ: CNN์ ์์กดํ์ง ์๋ ์์ํ Transformer๊ฐ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์์ ์ผ๋ง๋ ์ฑ๋ฅ์ ๋ผ ์ ์๋์ง ๊ฒ์ฆํฉ๋๋ค.
- ๋ฐฉ๋ฒ: ์ด๋ฏธ์ง ํจ์น๋ฅผ ์ํ์ค๋ก ์ฒ๋ฆฌํ๋ ์์ Transformer ๋ชจ๋ธ(Vision Transformer, ViT)์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์ํํฉ๋๋ค.
- ๊ฒฐ๊ณผ: ViT๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ ์ฌ์ ํ์ตํ ํ ๋ค์ํ ํฌ๊ธฐ์ ์ด๋ฏธ์ง ์ธ์ ๋ฒค์น๋งํฌ์์ ์ ์ดํ์ตํ ๋, ์ต์ CNN ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ ์ ๊ณ์ฐ ์์์ผ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
- ์์: ViT๋ ์ปดํจํฐ ๋น์ ์์ CNN์ ๋ํ ์์กด์ฑ์ ์ค์ด๊ณ , Transformer ๊ธฐ๋ฐ์ ์ ๊ทผ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์ ์ฆํ์ต๋๋ค.
2. Introduction
- ๋ฌธ์ ๋ฐฐ๊ฒฝ: Transformer ์ํคํ ์ฒ๋ NLP์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ, ํนํ ๋๊ท๋ชจ ์ฌ์ ํ์ต๊ณผ ์๊ท๋ชจ ๋ฏธ์ธ ์กฐ์ ์ ํตํด ํ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๋ฐ๋ฉด ์ปดํจํฐ ๋น์ ์์๋ CNN ์ํคํ ์ฒ๊ฐ ์ฌ์ ํ ์ฐ์ธํฉ๋๋ค.
- ์ฐ๊ตฌ ๋๊ธฐ: Transformer์ NLP ์ฑ๊ณต์ ์ปดํจํฐ ๋น์ ์ ์ ์ฉํด ๋ณด๊ณ ์ ํ๋ ๋๊ธฐ์์ ์ถ๋ฐํ์ต๋๋ค. ํนํ, CNN ์์ด Transformer๋ฅผ ์ด๋ฏธ์ง ์ธ์์ ์ ์ฉํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํฉ๋๋ค.
- ์ฐ๊ตฌ ๋ฐฉ๋ฒ: ํ์ค Transformer ๋ชจ๋ธ์ ์ต์ํ์ ์์ ์ผ๋ก ์ด๋ฏธ์ง์ ์ง์ ์ ์ฉํฉ๋๋ค. ์ด๋ฏธ์ง๋ฅผ ์์ ํจ์น๋ก ๋ถํ ํ๊ณ , ์ด๋ฅผ Transformer ์ ๋ ฅ์ผ๋ก ์ ๊ณตํ์ฌ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์ ์ํํฉ๋๋ค.
- ์ด๊ธฐ ๊ฒฐ๊ณผ: ์ค๊ฐ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์ Transformer๋ CNN๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด๋ Transformer๊ฐ CNN์ ์ ์ด ๋๋ฑ์ฑ(translation equivariance)๊ณผ ์ง์ญ์ฑ(locality)๊ณผ ๊ฐ์ ๊ท๋ฉ์ ํธํฅ์ด ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ๋๊ท๋ชจ ํ์ต ๊ฒฐ๊ณผ: ๋ ํฐ ๋ฐ์ดํฐ์ ์์ Transformer๋ฅผ ํ๋ จํ ๊ฒฝ์ฐ, ๊ท๋ฉ์ ํธํฅ์ ๋ถ์กฑ์ ๊ทน๋ณตํ๊ณ , ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ViT๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ ์ฌ์ ํ์ต ํ, ์ ์ ์์ ๋ฐ์ดํฐ๋ก ์ ์ดํ์ตํ ๋ ๋งค์ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
- ๊ฒฐ๋ก : ์ถฉ๋ถํ ๋ฐ์ดํฐ๊ฐ ์ ๊ณต๋๋ฉด, ์์ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ด CNN ์์ด๋ ์ปดํจํฐ ๋น์ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ViT๋ ์ต์ CNN ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ์ฌ๋ฌ ์ด๋ฏธ์ง ์ธ์ ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
3. METHOD
- ๊ฐ๋ฅํ ํ ์๋์ Transformer๋ฅผ ์ต๋ํ ๋ฐ๋ผํจ์ผ๋ก์จ NLP ์ํคํ
์ฒ์ ๊ทธ ํจ์จ์ ์ธ ๊ตฌํ์ ๊ฑฐ์ ์์ ์์ด ์ฌ์ฉํ ์ ์๊ฒ ๋ฉ๋๋ค.
3.1 Vision Transformer(ViT)
-
Vision Transformer(ViT) ๊ตฌ์กฐ:
- ์ด๋ฏธ์ง๋ฅผ ์์ ํจ์น๋ก ๋๋์ด, ์ด ํจ์น๋ฅผ Transformer ์ ๋ ฅ ์ํ์ค๋ก ์ฒ๋ฆฌ.
- ํจ์น ์๋ฒ ๋ฉ์ ์์ฑํ์ฌ Transformer์ ์ ๋ ฅ์ผ๋ก ์ ๊ณตํ๋ฉฐ, BERT์ ์ ์ฌํ๊ฒ ํ์ต ๊ฐ๋ฅํ [class] ํ ํฐ์ ์์ ์ถ๊ฐํ์ฌ ์ด๋ฏธ์ง ์ ์ฒด์ ํํ์ผ๋ก ์ฌ์ฉ.
-
๊ตฌ์ฑ ์์:
-
ํจ์น ์๋ฒ ๋ฉ: ์ด๋ฏธ์ง๋ฅผ ์์ ํจ์น๋ก ๋๋๊ณ ์ด๋ฅผ ํํํํ์ฌ ์ ํ ํฌ์์ ํตํด Transformer์ ์ ๋ ฅ์ผ๋ก ๋ณํํฉ๋๋ค. Transformer๋ ๊ธฐ๋ณธ์ ์ผ๋ก 1D ์ ๋ ฅ์ ๋ฐ๊ธฐ ๋๋ฌธ์ ํจ์น ์๋ฒ ๋ฉ์ด ํ์ํฉ๋๋ค.
์ด๋ฏธ์ง
โ ํจ์น โ ํํํ๋ 2D ํจ์น -
์์น ์๋ฒ ๋ฉ: ํจ์น ์๋ฒ ๋ฉ์ ์์น ์ ๋ณด๋ฅผ ์ถ๊ฐํ๊ธฐ ์ํด ํ์ค 1D ์์น ์๋ฒ ๋ฉ ์ฌ์ฉํฉ๋๋ค.
2D ์์น ์๋ฒ ๋ฉ์ ์ฌ์ฉํ์ง ์๋ ์ด์ ๋ ์ข์ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง ์์๊ธฐ ๋๋ฌธ์ ๋๋ค. -
Transformer ์ธ์ฝ๋: Multiheaded Self-Attention(MSA)๊ณผ MLP ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ, ๊ฐ ๋ธ๋ก ์ ์ ๋ ์ด์ด ์ ๊ทํ(LN)์ ์์ฐจ ์ฐ๊ฒฐ ์ ์ฉ๋๊ณ GELU ๋น์ ํ์ ๊ฐ์ง ๋๊ฐ์ ์ธต์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.

-
-
๊ท๋ฉ์ ํธํฅ์ ์ฐจ์ด:
- ViT๋ CNN์ ๋นํด ์ด๋ฏธ์ง ํนํ๋ ๊ท๋ฉ์ ํธํฅ์ด ์ ์ผ๋ฉฐ, ๋๋ถ๋ถ์ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ์ฒ์๋ถํฐ ํ์ตํด์ผ ํฉ๋๋ค.
-
ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ:
- ViT๋ CNN์ ํน์ง ๋งต์์ ์์ฑ๋ ํจ์น๋ฅผ ์ ๋ ฅ ์ํ์ค๋ก ์ฌ์ฉํ์ฌ CNN๊ณผ Transformer๋ฅผ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ๋ก๋ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
3.2 ๋ฏธ์ธ ์กฐ์ ๊ณผ ๋์ ํด์๋(Fine-Tuning and Higher Resolution)
- ๋ฏธ์ธ ์กฐ์ (fine-tuning) ๋ฐฉ๋ฒ:
- ViT๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ์ตํ ํ, ๋ ์์ ํฌ๊ธฐ์ ํ๋ฅ ์์ (downstream tasks)์ผ๋ก fine-tunning๋ฉ๋๋ค.
- ์ฌ์ ํ์ต๋ ์์ธก ํค๋๋ฅผ ์ ๊ฑฐํ๊ณ , 0์ผ๋ก ์ด๊ธฐํ๋ ์๋ก์ด ํผ๋ํฌ์๋(feedforward) ๊ณ์ธต์ ์ถ๊ฐํ์ฌ ํ๋ฅ ํด๋์ค์ ๋ง์ถคํํฉ๋๋ค.
- ํด์๋ ์กฐ์ ์ ์ค์์ฑ:
- fine-tunning ์, ๋ ๋์ ํด์๋๋ก ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅํ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋ ์ ์์ต๋๋ค.
- ํจ์น ํฌ๊ธฐ๋ฅผ ์ ์งํ๋ฉด์ ๋ ๋์ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ฉด, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ๊ธด ์ํ์ค ๊ธธ์ด๊ฐ ์๊น๋๋ค.
- ์์น ์๋ฒ ๋ฉ์ ์กฐ์ :
- ViT๋ ์์์ ์ํ์ค ๊ธธ์ด๋ฅผ ์ฒ๋ฆฌํ ์ ์์ง๋ง, ์ฌ์ ํ์ต๋ ์์น ์๋ฒ ๋ฉ์ ํด์๋๊ฐ ๋ณ๊ฒฝ๋๋ฉด ๋ฌด์๋ฏธํด์ง ์ ์์ต๋๋ค.
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์๋ณธ ์ด๋ฏธ์ง์ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ์ฌ์ ํ์ต๋ ์์น ์๋ฒ ๋ฉ์ ๋ํด 2D ๋ณด๊ฐ์ ์ํํฉ๋๋ค.
- ๊ท๋ฉ์ ํธํฅ์ ์ ํ์ ์ฌ์ฉ:
- Vision Transformer์์ 2D ๊ตฌ์กฐ์ ๋ํ ๊ท๋ฉ์ ํธํฅ์ ํด์๋ ์กฐ์ ๊ณผ ํจ์น ์ถ์ถ ๊ณผ์ ์์๋ง ์๋์ผ๋ก ์ ์ฉ๋ฉ๋๋ค.
- ViT๋ CNN๊ณผ ๋ฌ๋ฆฌ ์ด๋ฏธ์ง์ 2D ๊ตฌ์กฐ์ ๋ํ ์ฌ์ ์ง์์ด ๊ฑฐ์ ์์ด ํ์ต๋๋ฉฐ, ๋๋ถ๋ถ์ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํด์ผ ํฉ๋๋ค.
4. Conclusion
- ์ฐ๊ตฌ ๊ฐ์:
- Transformer๋ฅผ ์ด๋ฏธ์ง ์ธ์์ ์ง์ ์ ์ฉํ์ฌ, ์ด๊ธฐ ํจ์น ์ถ์ถ ๋จ๊ณ๋ฅผ ์ ์ธํ๊ณ ๋ ์ด๋ฏธ์ง ํนํ๋ ๊ท๋ฉ์ ํธํฅ์ ๋์ ํ์ง ์์์ต๋๋ค.
- ์ด๋ฏธ์ง๋ฅผ ํจ์น์ ์ํ์ค๋ก ํด์ํ๊ณ , ํ์ค Transformer ์ธ์ฝ๋๋ก ์ฒ๋ฆฌํ๋ ๊ฐ๋จํ๋ฉด์๋ ํ์ฅ ๊ฐ๋ฅํ ์ ๋ต์ ์ฌ์ฉํ์ต๋๋ค.
- ๊ฒฐ๊ณผ ์์ฝ:
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ์ต์ ํตํด ViT๋ ๋ง์ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฐ์ดํฐ์ ์์ SOTA ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ฑฐ๋ ์ด๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- ์ฌ์ ํ์ต ๋น์ฉ์ด ์๋์ ์ผ๋ก ์ ๋ ดํฉ๋๋ค.
- ํฅํ ๊ณผ์ ์ ๋์ ๊ณผ์ :
- ViT๋ฅผ ๊ฒ์ถ ๋ฐ ๋ถํ ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์ปดํจํฐ ๋น์ ์์ ์ ์ ์ฉํ๋ ๊ฒ.
- ์๊ธฐ ์ง๋ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ ์ถ๊ฐ ํ๊ตฌ. ์ด๊ธฐ ์คํ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ง๋ ํ์ต๊ณผ์ ๊ฒฉ์ฐจ๊ฐ ํผ.
- ViT์ ์ถ๊ฐ์ ์ธ ํ์ฅ๊ณผ ์ค์ผ์ผ๋ง์ด ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง ๊ฐ๋ฅ์ฑ.
- ์์:
- ViT๋ ๊ธฐ์กด CNN์ ๋นํด ๋ ์ ์ ๊ท๋ฉ์ ํธํฅ์ผ๋ก๋ ์ด๋ฏธ์ง ์ธ์์์ ํจ๊ณผ์ ์ผ๋ก ์๋ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค