R-CNN ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
๋ ผ๋ฌธ ์๋ณธ ๋งํฌ: https://arxiv.org/abs/1311.2524
1. Introduction
1.1 ๋ฌธ์ :
- PASCAL VOC ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ด ์ง๋ ๋ช ๋ ๊ฐ ์ ์ฒด๋์์ผ๋ฉฐ, ๊ธฐ์กด์ ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ๋ค์ ๋ณต์กํ ์์๋ธ ์์คํ ์ ์ฌ์ฉํด ์์ ๊ฐ์ ๋ง์ ์ด๋ฃจ๊ณ ์์ต๋๋ค.
1.2 ๊ธฐ์กด์ ์ ๊ทผ๋ฒ๊ณผ ํ๊ณ:
- SIFT์ HOG์ ๊ฐ์ ํน์ง์ ๋จ์ํ ๋ธ๋ก ๊ธฐ๋ฐ ํ์คํ ๊ทธ๋จ์ผ๋ก, ์๊ฐ ์ธ์์ ์ํ ๋ค๋จ๊ณ, ๊ณ์ธต์ ํน์ง ๊ณ์ฐ ๊ณผ์ ์ด ๋ถ์กฑํฉ๋๋ค.
- CNN์ 1990๋ ๋์ ์ธ๊ธฐ๋ฅผ ๋์์ผ๋, SVM์ ๋ฑ์ฅ์ผ๋ก ์ธํด ๊ด์ฌ์ ์์์ต๋๋ค. ๊ทธ๋ฌ๋ 2012๋ Krizhevsky et al.์ ์ฐ๊ตฌ๋ก ILSVRC์์ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ ๋ค์ ์ฃผ๋ชฉ๋ฐ๊ฒ ๋์์ต๋๋ค.
1.3 ์ ์๋ ๋ฐฉ๋ฒ:
- R-CNN(Regions with CNN features): ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์ฝ 2000๊ฐ์ ์์ญ ์ ์์ ์์ฑํ๊ณ , ๊ฐ ์ ์์์ ๊ณ ์ ๊ธธ์ด์ ํน์ง ๋ฒกํฐ๋ฅผ CNN์ ํตํด ์ถ์ถํ์ฌ, ์นดํ ๊ณ ๋ฆฌ๋ณ ์ ํ SVM์ผ๋ก ๋ถ๋ฅํฉ๋๋ค.
- ๊ฐ๋จํ ์ํ ๋ณํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ, ๋ค์ํ ํํ์ ์์ญ์ ๊ณ ์ ํฌ๊ธฐ์ CNN ์ ๋ ฅ์ผ๋ก ๋ณํํฉ๋๋ค.
1.4 ๊ฒฐ๊ณผ:
- R-CNN์ ILSVRC2013 ํ์ง ๋ฐ์ดํฐ์ ์์ OverFeat๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ(mAP 31.4% vs. 24.3%)์ ๋ฌ์ฑํ์์ต๋๋ค.
- fine-tuning์ ํตํด, PASCAL VOC 2010 ๋ฐ์ดํฐ์ ์์ ๊ธฐ์กด์ HOG ๊ธฐ๋ฐ DPM๋ณด๋ค ํจ์ฌ ๋์ mAP(54% vs. 33%)๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค.
2. Object detection with R-CNN

2.1 Module design
- R-CNN์ ๊ตฌ์ฑ ๋ชจ๋:
-
๋ชจ๋ 1: ์์ญ ์ ์ ์์ฑ(Region proposals):
๋ฒ์ฃผ์ ๋ ๋ฆฝ์ ์ธ ์์ญ ์ ์์ ์์ฑํ์ฌ, ํ์ง๊ธฐ๊ฐ ์ฌ์ฉํ ์ ์๋ ํ๋ณด ํ์ง ์ธํธ๋ฅผ ์ ์ํฉ๋๋ค. **์ ํ์ ๊ฒ์(selective search)**์ ์ฌ์ฉํ์ฌ ์ด์ ํ์ง ์์ ๊ณผ ๋น๊ตํ ์ ์๊ฒ ํฉ๋๋ค.
Selective Search?
โ Object๊ฐ ์์ ๋ฒํ ๋ถ๋ถ๋ง Searchํ๋ ๊ฒ- input image์์ segmentation์ ์ค์ํ์ฌ ๊ฐ์ฅ ์๋ ์ด๋ฏธ์ง์ฒ๋ผ ๊ต์ฅํ ๋ง์ ์์ญ์ ์์ฑํ๋ค.
- ์ดํ ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ ์ฌ๋๊ฐ ๋์ ์์ญ๋ผ๋ฆฌ ํฉ์ณ๊ฐ๋ฉฐ segmentation์ ๊ฐฏ์๋ฅผ ์ค์ฌ๋๊ฐ๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก box์ ๊ฐฏ์๋ ์ค์ด๋ค๊ฒ ๋ง๋ค์ด์ง๋ค.

-
๋ชจ๋ 2: ํน์ง ์ถ์ถ(Feature extraction):
Krizhevsky et al. [25]์ CNN ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ฐ ์์ญ ์ ์์์ 4096์ฐจ์์ ํน์ง ๋ฒกํฐ๋ฅผ ์ถ์ถํฉ๋๋ค. ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ ๊ณ ์ ๋ 227 ร 227 ํฝ์ ํฌ๊ธฐ๋ก CNN์ ์ ๋ ฅ๋๊ธฐ ์ ์ warp๋ฉ๋๋ค.

-
๋ชจ๋ 3: ํด๋์ค๋ณ ์ ํ SVM(Class-specific linear SVMs):
๊ฐ ํด๋์ค๋ณ๋ก ์ ํ SVM์ ํ์ต์์ผ, ์์ญ ์ ์์์ ์ถ์ถํ ํน์ง ๋ฒกํฐ๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํฉ๋๋ค.

Bounding Box Regression?
โ ์์ region proposal์ ํตํด ์ป์ bbox๊ฐ P, Ground Truth๋ GT์ผ ๋ P๋ฅผ GT์ ๊ฐ๊น์์ง๋๋ก ๋ง๋๋ ๊ฒ์ด Bounding Box Regression์ด๋ค.
-
R-CNN๊ณผ์
- Selective Search๋ฅผ ์ด์ฉํด ์ฌ๋ฌ ์์ญ์ผ๋ก ๋๋ ํ warp์ ํตํด 227 x 227๋ก ๋ง๋ ๋ค.
- wrap๋ ์ด๋ฏธ์ง๋ฅผ CNN์ ํตํด Feature๋ฅผ ๋ฝ์๋ธ๋ค.
- ์์ ๋ง๋ Feature๋ฅผ ์ด์ฉํด SVM์ ํตํด ๋ถ๋ฅ, Bounding Box Regression์ ์์น ์ ๋ณด๋ฅผ ์์ธกํ๋ค.
3. Conclusion
3.1 ํ๊ณ
- ๊ณ์ฐ ๋น์ฉ: R-CNN์ ๊ฐ ์์ญ ์ ์(region proposals)์ ๋ํด CNN์ ๊ฐ๋ณ์ ์ผ๋ก ์คํํด์ผ ํ๋ฏ๋ก, ๊ณ์ฐ ๋น์ฉ์ด ๋๊ณ , ํนํ ๋ํ ๋ฐ์ดํฐ์
์ ๋ํด ์ค์๊ฐ ์ฒ๋ฆฌ๊ฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
GPU๋ฅผ ์ฌ์ฉํ๋๋ผ๋ ์ฒ๋ฆฌ ์๊ฐ์ด ์๋นํ๋ฉฐ, ์ด๋ ์ค์๊ฐ ์์ฉ ํ๋ก๊ทธ๋จ์๋ ์ ํฉํ์ง ์์ ์ ์์ต๋๋ค. - ๋ณต์กํ ํ์ดํ๋ผ์ธ: R-CNN์ ํ์ง ํ์ดํ๋ผ์ธ์ ์ฌ๋ฌ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ ๋จ๊ณ์์ ๋ณ๋์ ํ์ต ๋ฐ ์ต์ ํ๊ฐ ํ์ํฉ๋๋ค.
์ด๋ ๊ตฌํ๊ณผ ์ ์ง๋ณด์๋ฅผ ๋ณต์กํ๊ฒ ๋ง๋ค๊ณ , ํ์ต์ ์๋นํ ์๊ฐ๊ณผ ์์์ ์๊ตฌํ ์ ์์ต๋๋ค.
3.2 ์์
- ๊ฐ์ฒด ํ์ง ๋ถ์ผ์ ํ์ : R-CNN์ ๊ฐ์ฒด ํ์ง ๋ถ์ผ์์ CNN์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ํ์ฅํ์์ผ๋ฉฐ, ํนํ ๋ณต์กํ ์ฅ๋ฉด์์์ ๋์ ์ ํ๋์ ํ์ง๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
์ด๋ ์ดํ์ ์ฐ๊ตฌ๋ค(์: Fast R-CNN, Faster R-CNN, Mask R-CNN ๋ฑ)์ ์ง์ ์ ์ธ ์๊ฐ์ ์ฃผ์์ต๋๋ค. - ํ์ ์ฐ๊ตฌ์ ํ ๋ ๋ง๋ จ: R-CNN์ ์์ด๋์ด์ ๊ฒฐ๊ณผ๋ ์ดํ์ ๋ง์ ๊ฐ์ฒด ํ์ง ์ฐ๊ตฌ์ ๊ธฐ์ ๊ฐ๋ฐ์ ํ ๋๊ฐ ๋์์ต๋๋ค. R-CNN์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํ ๋ค์ํ ๊ฐ์ ์ฐ๊ตฌ๋ค์ด ์ด์ด์ง๋ฉด์, ๊ฐ์ฒด ํ์ง ๊ธฐ์ ์ ๊ธ์ํ ๋ฐ์ ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.