R-CNN ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

๋…ผ๋ฌธ ์›๋ณธ ๋งํฌ: https://arxiv.org/abs/1311.2524

1. Introduction

1.1 ๋ฌธ์ œ:

1.2 ๊ธฐ์กด์˜ ์ ‘๊ทผ๋ฒ•๊ณผ ํ•œ๊ณ„:

1.3 ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•:

1.4 ๊ฒฐ๊ณผ:

2. Object detection with R-CNN

![image.png](/img/user/images/ViT images/image.png)

2.1 Module design

R-CNN๊ณผ์ •

  1. Selective Search๋ฅผ ์ด์šฉํ•ด ์—ฌ๋Ÿฌ ์˜์—ญ์œผ๋กœ ๋‚˜๋ˆˆ ํ›„ warp์„ ํ†ตํ•ด 227 x 227๋กœ ๋งŒ๋“ ๋‹ค.
  2. wrap๋œ ์ด๋ฏธ์ง€๋ฅผ CNN์„ ํ†ตํ•ด Feature๋ฅผ ๋ฝ‘์•„๋‚ธ๋‹ค.
  3. ์•ž์„œ ๋งŒ๋“  Feature๋ฅผ ์ด์šฉํ•ด SVM์„ ํ†ตํ•ด ๋ถ„๋ฅ˜, Bounding Box Regression์€ ์œ„์น˜ ์ •๋ณด๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค.

3. Conclusion

3.1 ํ•œ๊ณ„

  1. ๊ณ„์‚ฐ ๋น„์šฉ: R-CNN์€ ๊ฐ ์˜์—ญ ์ œ์•ˆ(region proposals)์— ๋Œ€ํ•ด CNN์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ์‹คํ–‰ํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’๊ณ , ํŠนํžˆ ๋Œ€ํ˜• ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๊ฐ€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    GPU๋ฅผ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ์ฒ˜๋ฆฌ ์‹œ๊ฐ„์ด ์ƒ๋‹นํ•˜๋ฉฐ, ์ด๋Š” ์‹ค์‹œ๊ฐ„ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋ณต์žกํ•œ ํŒŒ์ดํ”„๋ผ์ธ: R-CNN์˜ ํƒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์€ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๊ฐ ๋‹จ๊ณ„์—์„œ ๋ณ„๋„์˜ ํ•™์Šต ๋ฐ ์ตœ์ ํ™”๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
    ์ด๋Š” ๊ตฌํ˜„๊ณผ ์œ ์ง€๋ณด์ˆ˜๋ฅผ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ , ํ•™์Šต์— ์ƒ๋‹นํ•œ ์‹œ๊ฐ„๊ณผ ์ž์›์„ ์š”๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3.2 ์˜์˜

  1. ๊ฐ์ฒด ํƒ์ง€ ๋ถ„์•ผ์˜ ํ˜์‹ : R-CNN์€ ๊ฐ์ฒด ํƒ์ง€ ๋ถ„์•ผ์—์„œ CNN์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ™•์žฅํ•˜์˜€์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ์˜ ๋†’์€ ์ •ํ™•๋„์˜ ํƒ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.
    ์ด๋Š” ์ดํ›„์˜ ์—ฐ๊ตฌ๋“ค(์˜ˆ: Fast R-CNN, Faster R-CNN, Mask R-CNN ๋“ฑ)์— ์ง์ ‘์ ์ธ ์˜๊ฐ์„ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  2. ํ›„์† ์—ฐ๊ตฌ์˜ ํ† ๋Œ€ ๋งˆ๋ จ: R-CNN์˜ ์•„์ด๋””์–ด์™€ ๊ฒฐ๊ณผ๋Š” ์ดํ›„์˜ ๋งŽ์€ ๊ฐ์ฒด ํƒ์ง€ ์—ฐ๊ตฌ์™€ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ์˜ ํ† ๋Œ€๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. R-CNN์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๊ฐœ์„  ์—ฐ๊ตฌ๋“ค์ด ์ด์–ด์ง€๋ฉด์„œ, ๊ฐ์ฒด ํƒ์ง€ ๊ธฐ์ˆ ์˜ ๊ธ‰์†ํ•œ ๋ฐœ์ „์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.