Week 8, 9 ํ์ต ์ ๋ฆฌ
**1. OD Oveview
2 Stage Detectors
3. OD Library
4. Neck
5. 1 Stage Detectors
6. EfficientDet
7. Advanced OD1
8. Advanced OD2
9. Ready for Competition
10. OD in Kaggle
1. OD Oveview
Evaluation
-
mAP
โ ๊ฐ ํด๋์ค๋น AP์ ํ๊ท
๊ณ์ฐ ๊ณผ์ : ๊ตฟ๋ ธํธ([Object Det] (1แแ กแผ) OD Overview (1) p.18)์์ ํ์ธ
-
IOU
โ Bbox์ GT๊ฐ ๊ฒน์น๋ ์ ๋
-
FPS
โ ์ด๋น ๋ช ํ๋ ์์ ์ฒ๋ฆฌ ๊ฐ๋ฅํ์ง ํ๊ฐํ๋ ์๋ํ๊ฐ
-
FLOPs
โ ๋ชจ๋ธ์ด ์ผ๋ง๋ ๋นจ๋ฆฌ ๋์ํ๋์ง ์ธก์ ํ๋ Metric, ์ฐ์ฐ๋์ ๊ณ์ฐ
Library
-
MMdetection
โ Pytorch ๊ธฐ๋ฐ์ธ OD ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ
-
Detectron2
โ OD์ segmentation ์๊ณ ๋ฆฌ์ฆ์ ์ ๊ณต(๋ณดํต OD๋ง ์ฌ์ฉํ๊ธดํจ)
ETC
- OD ํน์ฑ
- ํตํฉ๋ library์ ๋ถ์ฌ
- ์์ง๋์ด๋ง ์ ์ธ ์ธก๋ฉด์ด ๊ฐํจ
- ๋ณต์กํ ํ์ดํ๋ผ์ธ
- ๋์ ์ฑ๋ฅ์ ์ํด์๋ ๋ฌด๊ฑฐ์ด ๋ชจ๋ธ์ ํ์ฉ
- Resolution์ด ์ฑ๋ฅ์ ๋ง์ ์ํฅ์ ๋ผ์นจ
2. 2 Stage Detectors
โ 1๋จ๊ณ: ์์น ํ์ (localization), 2๋จ๊ณ: ํด๋น ์์น์ ์๋ ๊ฐ์ฒด๊ฐ ๋ฌด์์ธ์ง ํ์ (classification)
R-CNN
-
Extract Region proposals (์ฝ 2000๊ฐ ํ๋ณด(ROI(Region of interest)) ์์ฑ)
โ ์ด๋ฏธ์ง ๋ด์ ๊ฐ์ฒด๊ฐ ์์ ๊ฒ ๊ฐ์ ํ๋ณด๊ตฐ์ ๋ฝ์๋ด๋ ๊ณผ์
-
Sliding window โ ๋๋ฌด ๋ง์ ํ๋ณด๊ฐ ์๊ธฐ๊ณ ๋๋ถ๋ถ์ด ๋ฐฐ๊ฒฝ(Negative sample)์
-
Selective search โ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ๋ฉด ํ๋ณด๊ตฐ์ ์ค์ฌ๋๊ฐ (ํจ์จ์ )
-
-
Compute CNN Features
โ ROI์ ๋ํ ํน์ง์ ๋ฝ์๋
- warped: CNN์ ๋ง์ง๋ง ๋ถ๋ถ์ธ FC layer์ input size๊ฐ ๊ณ ์ ๋์ด ์๊ธฐ ๋๋ฌธ์ ROI์ ํฌ๊ธฐ๋ฅผ ๊ณ ์ ํด์ผํจ
-
Classify regions
โ CNN์ ํตํด ๋์จ feature๋ฅผ SVM์ ํตํด ๋ถ๋ฅ, Bbox regression์ ์ด์ฉํด bbox๋ฅผ ์์ธก
๋จ์
- 2000๊ฐ์ ROI๊ฐ ๊ฐ๊ฐ CNN์ ํต๊ณผ
- ๊ฐ์ Wrap์ ์ฑ๋ฅ ํ๋ฝ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง
- CNN, SVM, Bbox regressr ๋ชจ๋ ๋ฐ๋ก ํ์ต
- End-to-End X
SPPNet
โ R-CNN์ ๋จ์ ์ธ Wrap๊ณผ์ ๊ณผ, 2000๊ฐ์ ROI๊ฐ CNN์ ํต๊ณผํ๋ค๋ ๋จ์ ์ Spatial pyramid pooling์ ํตํด ๋ณด์
Fast R-CNN
โ CNN, SVM, Bbox regressr ๋ชจ๋ ๋ฐ๋ก ํ์ตํ๋ค๋ ๋จ์ ์ ํด๊ฒฐ
-
์ด๋ฏธ์ง๋ฅผ CNN์ ๋ฃ์ด feature๋ฅผ ์ถ์ถ (CNN์ ํ ๋ฒ๋ง ์ฌ์ฉ)
-
RoI Projection์ ํตํด feature map์์ RoI๋ฅผ ๊ณ์ฐ
-
RoI Pooling์ ํตํด ์ผ์ ํ ํฌ๊ธฐ์ feature๊ฐ ์ถ์ถ
-
Fully connected layer ์ดํ, Softmax Classifier๊ณผ bounding Box Regressor
Faster R-CNN
โ Fast R-CNN + RPN (Region Proposal Network), End-to-End ํํ๋ก ๋ง๋ค์ด์ง
-
๊ธฐ์กด์ ์ฌ์ฉํ๋ Selective Search๋ฐฉ๋ฒ ๋์ ์ RPN์ ํตํด RoI ๊ณ์ฐ (Anchor Box ๊ฐ๋ ๋ฑ์ฅ)
- Anchor Box: ์ฌ๋ฌ ๋น์จ์ Bbox๋ฅผ ๋ฏธ๋ฆฌ ์ค์
-
NMS
โ ์ ์ฌํ RPN Proposal์ ์ ๊ฑฐํ๊ธฐ ์ํด ์ฌ์ฉ, Class score๋ฅผ ๊ธฐ์ค์ผ๋ก proposal ๋ถ๋ฅ
-
Summary
3. OD Library
MMDetection
Detectron2
- ์์ธํ ์ฌ์ฉ๋ฒ์ [Object Det] (3๊ฐ) Object Detection Library ํ์ธํ ๊ฒ
4. Neck
โ Backbone์ ๋ง์ง๋ง feature map๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์ค๊ฐ์ feature map์ ๋ํด์๋ RoI๋ฅผ ์ถ์ถํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ
-
Neck์ ํ์์ฑ
โ ์์ ๊ฐ์ฒด๋ low level์์ ์ ํ์งํ ์ ์๊ณ ํฐ ๊ฐ์ฒด๋ high level์ feature map์์ ์ ํข์ ์ ์๋ค โ ๋ค์ํ feature map์ ์ฌ์ฉํ๋ค๋ฉด ํฌ๊ณ ์์ ๊ฐ์ฒด๋ฅผ ์ ์ฐพ์ ์ ์๋ค.
Feature Pyramid Network (FPN)
- high level์์ low level๋ก semantic ์ ๋ณด ์ ๋ฌ ํ์
- top-down path way ์ถ๊ฐ
-
Problem
โ ์ ๊ทธ๋ฆผ์์์ฒ๋ผ ๋คํธ์ํฌ๊ฐ ์งง์ ๋ณด์ด์ง๋ง ์ค์ Backbone ๋ชจ๋ธ์ ๊น์ด๋ ์๋นํ ๊น๋ค โ low level์ feature map์ด high level feature map์ ์ ์ ๋ฌ๋์ง ์์
Path Aggregation Network (PANet)
โ FPN์ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด Bottom Up way๋ฅผ ํ๋ ๋ ์ถ๊ฐ, ์ดํ Adaptive Feature Pooling์ ํตํด ๊ฐ๊ฐ์ feature map์ RPN์ด ์ ์ฉ๋์ฌ RoI๋ฅผ ์์ฑํด์ ๋ง์ง๋ง์ผ๋ก ํ๋์ Vector๋ก ๋ง๋ฆ
DetectoRS
- ๊ตฌ์ฑ
- Recursive Feature Pyramid (RFP)
- Switchable Atrous Convolution (SAC)
- Recursive Feature Pyramid (RFP)
โ Neck์ ์ด์ฉํด์ ๋ค์ Backbone์ ํ์ตํ๋ ๋ฐฉ์ โ FLOPs ๊ฐ ๋ง์ด ์ฆ๊ฐํ๊ฒ ๋จ
-
ASPP
โ Receptive field๋ฅผ ํฌ๊ฒ ์ฌ์ฉํ๊ณ ์ถ์ด ์ฌ์ฉ
-
Bi-directional Feature Pyramid (BiFPN)
-
Weighted Feature Fusion
โ FPN๊ณผ ๊ฐ์ด ๋จ์ summation์ ํ๋ ๊ฒ์ด ์๋๋ผ ๊ฐ feature๋ณ๋ก ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ ๋ค summation, eature๋ณ ๊ฐ์ค์น๋ฅผ ํตํด ์ค์ํ feature๋ฅผ ๊ฐ์กฐํ์ฌ ์ฑ๋ฅ ์์น (๋ชจ๋ธ ์ฌ์ด์ฆ์ ์ฆ๊ฐ๋ ๊ฑฐ์ ์์)
-
-
NASFPN
โ FPN ์ํคํ ์ฒ๋ฅผ NAS๋ฅผ ์ด์ฉํด์ ์ฐพ๋๋ค๋ ์์ด๋์ด
- ๋จ์
- Parameter๊ฐ ๋ง์ด ์์, ๋ฒ์ฉ์ ์ธ ์ํคํ ์ฒ๊ฐ ์๋
- ์ํคํ ์ฒ๋ฅผ ์ฐพ๊ธฐ ์ํด์๋ ๊ต์ฅํ ๋ง์ cost๊ฐ ์๋น๋จ
- ๋จ์
-
AugFPN
โ Feature map์ ๋จ์ํ Maxpooling ํ๋ ๊ฒ๊ณผ ๋จ์ Summation์ ๋น ํจ์จ์ , ๊ฐ์คํฉ์ ์ฌ์ฉํด์ ํด๊ฒฐ,
- ์ฃผ์ ๊ตฌ์ฑ
- Consistent Supervision
- Residual Feature Augmentation
- Soft RoI Selection
- ์ฃผ์ ๊ตฌ์ฑ
5. 1 Stage Detectors
โ 2 Stage Detectors๋ ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ ค Real world์์ ์ฌ์ฉํ๊ธฐ ์ด๋ ค์ ๋ค. ์ด์ ๋ฐ๋ผ Localization๊ณผ classification์ ๋์์ ์งํํ๋ 1 Staget Detectors๊ฐ ๋ฑ์ฅํ๊ฒ ๋๋ค.
- ์๋๊ฐ ์๋นํ ๋น ๋ฆ, ์ด๋ฏธ์ง์ ๋ถ๋ถ์ ๋ณด๋ ๊ฒ์ด ์๋๋ผ ์ด๋ฏธ์ง๋ฅผ ์ ์ฒด์ ์ผ๋ก ๋ณด๊ธฐ ๋๋ฌธ์ ๊ฐ์ฒด์ ๋ํ ๋งฅ๋ฝ์ ์ดํด๋๊ฐ ๋๋ค
Yolo
-
YOLO v1 : ํ๋์ ์ด๋ฏธ์ง์ Bbox์ classification ๋์์ ์์ธกํ๋ 1 stage detector ๋ฑ์ฅ
-
YOLO v2 : ๋น ๋ฅด๊ณ ๊ฐ๋ ฅํ๊ณ ๋ ์ข๊ฒ
- 3๊ฐ์ง ์ธก๋ฉด์์ model ํฅ์
-
YOLO v3 : multi-scale feature maps ์ฌ์ฉ
-
YOLO v4 : ์ต์ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ฌ์ฉ
- BOF : Bag of Freebies, BOS: Bag of Specials
-
YOLO v5: ํฌ๊ธฐ๋ณ๋ก ๋ชจ๋ธ ๊ตฌ์ฑ
- Small, Medium, Large, Xlarge
-
Yolo ํน์ง
- Region proposal ๋ถ๋ถ์ด X, Bbox์์ธก๊ณผ classification์ ๋์์ ์์ธก โ ์ด๋ฏธ์ง์ ๋งฅ๋ฝ์ ์ดํด๋ ๋์
-
Pipeline
- ์ ๋ ฅ์ด๋ฏธ์ง๋ฅผ SxS Grid๋ก ๋๋๊ธฐ
- ๊ฐ Grid๋ง๋ค B๊ฐ์ Bbox์ Confidence score๋ฅผ ๊ณ์ฐ
- ๊ฐ Grid์์ญ๋ง๋ค C๊ฐ์ class์ ํด๋นํ๋ ํ๋ฅ ๊ณ์ฐ
-
๋จ์
- Grid ์์ญ์ผ๋ก ๋๋๊ธฐ ๋๋ฌธ์ Grid ๋ณด๋ค ๋ ์์ ๊ฐ์ฒด๋ ํ์ง ํ ์ ์์
- ์ ๊ฒฝ๋ง์ ๋ง์ง๋ง ์ถ๋ ฅ Feature๋ง ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ ํ๋๊ฐ ๋ฎ์
SSD
โ Yolo์ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋์จ ๋ชจ๋ธ
- Extra convolution layers์ ๋์จ feature map๋ค ๋ชจ๋ detection ์ํ
- 6๊ฐ์ ์๋ก ๋ค๋ฅธ scale์ feature map ์ฌ์ฉ
- ํฐ feature map (early stage feature map)์์๋ ์์ ๋ฌผ์ฒด ํ์ง
- ์์ feature map (late stage feature map)์์๋ ํฐ ๋ฌผ์ฒด ํ์ง
- Fully connected layer ๋์ convolution layer ์ฌ์ฉํ์ฌ ์๋ ํฅ์
- Default box ์ฌ์ฉ (anchor box)
- ์๋ก ๋ค๋ฅธ scale๊ณผ ๋น์จ์ ๊ฐ์ง ๋ฏธ๋ฆฌ ๊ณ์ฐ๋ box ์ฌ์ฉ
Yolo v2
-
Better (์ ํ๋ ํฅ์)
-
Batch Normalization
-
High Resolution classifier
-
anchor box ๋์
-
Fine-grained features
โ low level ์ ๋ณด๋ฅผ ์์ถํ Early feature map์ ํฉ์ณ์ฃผ๋ passthrough layer ๋์
-
๋ค์ํ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํด ํ์ต
-
-
Faster (์๋ ํฅ์)
- Backbone model์ Darknet์ผ๋ก ๋ณ๊ฒฝ
-
Stronger (๋ ๋ง์ class ์์ธก)
- Imagenet ๋ฐ์ดํฐ ์ ๊ณผ Coco ๋ฐ์ดํฐ ์ ์ Work Tree๋ฅผ ๊ตฌ์ฑํด ์ฝ 9000๊ฐ์ class๋ฅผ ๊ฐ์ง๋ ๋ฐ์ดํฐ ์ ์ ๊ตฌ์ฑ
RetinaNet
โ ๊ฐ์ฒด๊ฐ ์๋ ๋ถ๋ถ(positive sample) ๋ณด๋ค ๋ฐฐ๊ฒฝ ๋ถ๋ถ(negative sample)์ด ๋ ๋ง์ class embalance๋ฌธ์ ๋ฅผ ๊ฐ์ง๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌํ ๋ชจ๋ธ
-
Focal Loss
โ ์ฌ์ด ์์ ์ ์์ ๊ฐ์ค์น, ์ด๋ ค์ด ์์ ์ ํฐ ๊ฐ์ค์น โ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๋ ค์ด ์์ ์ ์ง์ค
6. EfficientDet
โ OD์์ ์๋๊ฐ ์ค์ํ๋ค. ๋ฐ๋ผ์ Efficiency๊ฐ ์ค์ํ๊ฒ ๋จ
โ Backbone, FPN, and box/class prediction networks์ ๋์์ Scale Upํ์ฌ ์ ์ ํ ๊ตฌ์กฐ๋ฅผ ์ฐพ๋๋ค. (EfficientNet๊ณผ ๋น์ทํ๊ฒ)
-
Efficient multi-scale feature fusion
-
EffcientDet ์ด์ ์ ๋ชจ๋ธ๋ค์ multi-scale feature fusion์ ์ํด ์ฌ๋ฌ Neck๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํจ โ ์ด ๊ตฌ์กฐ๋ resolution ๊ตฌ๋ถ ์์ด feature map์ ๋จ์ ํฉ์ ํ๋ ๋ฌธ์ ์กด์ฌ
โ ๊ฐ๊ฐ input feature map์ weight๋ฅผ ์ฃผ๋ BiFPN์ ์ ์
- ํ๋์ ๊ฐ์ ์ ๊ฐ์ง ๋ ธ๋๋ ์ ๊ฑฐ
- residual ๊ฐ์ ์ถ๊ฐ
- BiFPN์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ์ฌ ์ฌ์ฉ
-
-
Model Scaling
โ EfficientNet์์ ์ฌ์ฉํ Compound Scaling ๋ฐฉ๋ฒ ์ฌ์ฉ
- Backbone์ผ๋ก EfficientNet B0 ~ B6์ ์ฌ์ฉ
7. Advanced OD1
Cascade RCNN
โ high quality detection์ ์ํํ๊ธฐ ์ํด์ IoU threshold๋ฅผ ๋์ฌ ํ์ตํ ํ์๊ฐ ์์ โ ์ฑ๋ฅ ํ๋ฝ์ ๋ฌธ์ ์กด์ฌ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฐ๊ตฌ๋ ๋ชจ๋ธ
Deformable Convolutional Networks (DCN)
โ CNN์ ๋ฌธ์ ์ ์ธ ์ผ์ ํ ํจํด์ ์ง๋ convolution neural networks๋ geometric transformations์ ํ๊ณ๊ฐ ์๋ค๋ ๊ฒ์ ํด๊ฒฐ
-
Deformable convolution (๋ค์ํ ๋ชจ์์ ์ปค๋ ์ฌ์ฉ)
โ grid R์ ์ด์ฉํด ์ด๋์ pixel๊ณผ conv์ฐ์ฐ์ ํ ์ง ์ ํจ
Transformer (DETR)
๊ธฐ์กด์ Object Detection์ hand-crafted post process ๋จ๊ณ๋ฅผ transformer๋ฅผ ์ด์ฉํด ์์ฐ
-
Transformer์ ๋ฌธ์ ์
-
๊ต์ฅํ ๋ง์๋์ Data๋ฅผ ํ์ตํ์ฌ์ผ ์ฑ๋ฅ์ด ๋์ด
-
Transformer ํน์ฑ์ computational cost ํผ
-
์ผ๋ฐ์ ์ธ backbone์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ด๋ ค์
โ Swin Transformer
-
-
Swin Transformer
- ์ ์ Data์๋ ํ์ต์ด ์ ์ด๋ฃจ์ด์ง
- Window ๋จ์๋ฅผ ์ด์ฉํ์ฌ computation cost๋ฅผ ๋ํญ ์ค์
- CNN๊ณผ ๋น์ทํ ๊ตฌ์กฐ๋ก Object Detection, Segmentation ๋ฑ์ backbone์ผ๋ก generalํ๊ฒ ํ์ฉ
8. Advanced OD2
Yolo v4
- BOF (Bag of Freebies) : inference ๋น์ฉ์ ๋๋ฆฌ์ง ์๊ณ ์ ํ๋ ํฅ์์ํค๋ ๋ฐฉ๋ฒ
- Data Augmentation: CutMix, Mosaic: 4์ฅ์ ์ด๋ฏธ์ง๋ฅผ ํฉ์ณ์ ์งํ
- Semantic Distribution Bias: ๋ฐ์ดํฐ์
์ ํน์ ๋ผ๋ฒจ(๋ฐฐ๊ฒฝ)์ด ๋ง์ ๊ฒฝ์ฐ ๋ถ๊ท ํ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
- Label Smoothing
- Bounding Box Regression: Bounding box ์ขํ๊ฐ๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ(MSE)์ ๊ฑฐ๋ฆฌ๊ฐ ์ผ์ ํ๋๋ผ๋ IoU๊ฐ ๋ค๋ฅผ ์ ์์ โ IoU ๊ธฐ๋ฐ loss ์ ์
- GIoU: IoU ๊ธฐ๋ฐ์ loss ํจ์
- BOS (Bag of Specials) : inference ๋น์ฉ์ ์กฐ๊ธ ๋์ด์ง๋ง ์ ํ๋๊ฐ ํฌ๊ฒ ํฅ์ํ๋ ๋ฐฉ๋ฒ
- Enhancement of Receptive field: Feature map์ receptive field๋ฅผ ํค์์ ๊ฒ์ถ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ
- Attention Module: SE, CBAM
- Feature Integration: Feature map์ ํตํฉํ๊ธฐ ์ํ ๋ฐฉ๋ฒ ( = Neck)
- Activation Function: ReLU, Mish, Swish
- Post-processing method: ๋ถํ์ํ Bbox๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ
- Selection of Architecture
-
Cross Stage Partial Network (CSPNet)
-
M2Det
โ Multi-level, multi-scale feature pyramid ์ ์, SSD์ ํฉ์ณ์ M2Det๋ผ๋ one stage detector ์ ์
-
Feature pyramid ํ๊ณ์ : ๊ฐ์ฒด์ shape, ๋ณต์ก๋์ ๋ํด์ ์ ๋๋ก ๋์ํ์ง ๋ชปํจ
-
Architecture
- FFM : Feature Fusion Module
- FFMv1: ์๋ก ๋ค๋ฅธ 2๊ฐ์ scale์ feature map์ ํฉ์ณ sementic ์ ๋ณด๊ฐ ํ๋ถํ base feature ์์ฑ
- FFMv2 : base feature์ ์ด์ TUM ์ถ๋ ฅ ์ค์์ ๊ฐ์ฅ ํฐ feature concat, ๋ค์ TUM์ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ
- TUM : Thinned U-shape Module
- Encoder-Decoder ๊ตฌ์กฐ: Decoder์์ ์ฌ๋ฌ scale์ feature map์ ๋ง๋ค์ด๋ ์ดํ ๊ฐ์ฅ ํฐ Resolution์ ๊ฐ์ง๋ Feature map์ ๋ค์ํ๋ฒ FFM
- SFAM : Scale-wise Feature Aggregation Module
- TUMs์์ ์์ฑ๋ multi-level multi-scale์ ํฉ์น๋ ๊ณผ์
- ๋์ผํ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง feature๋ค๋ผ๋ฆฌ ์ฐ๊ฒฐ (scale-wise concatenation)
- ๊ฐ๊ฐ์ scale์ feature๋ค์ multi-level ์ ๋ณด๋ฅผ ํฌํจ
- Channel-wise attention ๋์ (SE block)
- FFM : Feature Fusion Module
CornerNet
โ Anchor Box๊ฐ ์๋ 1 stage detector, ์ข์๋จ ์ฐํ๋จ ์ ์ ์ฐพ์ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถ
- Corner๋ฅผ ์ด์ฉํ๋ ์ด์ : ์ค์ฌ์ ์ ์ก๊ฒ ๋๋ฉด 4๊ฐ์ ๋ฉด์ ๋ชจ๋ ๊ณ ๋ คํด์ผํ๋ ๋ฐ๋ฉด, corner์ ์ฌ์ฉํ๋ฉด 2๊ฐ๋ง ๊ณ ๋ ค
- Corner pooling
- ๋๋ถ๋ถ์ corner๋ ํน์ง์ด ์๋ ๋ฐฐ๊ฒฝ, corner๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํ Corner Pooling ๊ณผ์ ์ฌ์ฉ
9. Ready for Competition
-
mAP์ ๋ํ ์คํด
- ๋ ๋ง์ bbox์ ๋ํด AP๋ฅผ ์ธก์ ํ๋ค๊ณ ํด์ ํจ๋ํฐ๊ฐ ์ฃผ์ด์ง์ง ์์ โ Bbox๊ฐ ๋ง์์๋ก ์ ์์ ์ผ๋ก ์ด๋๋ง ์์๋ฟ ์ํด๊ฐ ์๋ค
- ์ด๋ฌํ ๋ฌธ์ ๋ ์ถํ ๋ชจ๋ธ์ ์์๋ธ ํ๋ ๊ฒฝ์ฐ์๋ ์์ ๊ฐ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ โ ๋ฐ๋ผ์ ์์ธก ํ ์๊ฐํ ํ์ฌ ํ์ธํด๊ฐ๋ฉฐ ์งํํด์ผํ ๋ฏ
Validation set ์ฐพ๊ธฐ
- Random split: ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋๋คํ๊ฒ Train / Valid ๋ก ๋ถ๋ฆฌ
- K Fold validation: ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ผ์ ๋น์จ๋ก Train / Valid๋ก ๋ถ๋ฆฌ โ Split ์๋งํผ์ ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ธ์ ํ์ตํ๊ณ ๊ฒ์ฆ
- Stratified K fold: ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ์ง ์๋ K fold ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, fold ๋ง๋ค ์ ์ฌํ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๊ฐ๋๋ก ํ๋ ๋ฐฉ๋ฒ, ๋ฐ์ดํฐ ๋ถํฌ๊ฐ imbalanceํ ์ํฉ์์ ์ข์
- Group K fold
Data Augmentation
- Cut and mix images and boxes: ์ด๋ฏธ์ง์ ์๋ Bbox๊ฐ ์ผ๋ถ๋ถ ์๋ฆฌ๋ Small box ๋ฌธ์ ๊ฐ ๋ฐ์ํจ
- Mosaic: ์ด๋ฏธ์ง ์ ์ฒด๋ถ๋ถ์ 4๊ฐ ํฉ์ณ์ ์ฌ์ฉ, small box ๋ฌธ์ ์์
- Mosaic2: 4๊ฐ์ ์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ์ ํฉ์น๋ ๋ฐฉ๋ฒ, small box ๋ฌธ์ ์กด์ฌ
- Mosaic3: 4๊ฐ์ ์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ์ ํฉ์น๋ ๋ฐฉ๋ฒ, small box ๋ฌธ์ ์์
Ensemble & TTA
-
Soft NMS
-
WBF(Weighted Box Fusion)
-
Seed Ensemble
โ Randomํ ์์๋ฅผ ๊ฒฐ์ ์ง๋ seed๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ ์ฌ๋ฌ ๋ชจ๋ธ์ ํ์ต์ํจ ํ ์์๋ธํ๋ ๋ฐฉ๋ฒ
-
Framework Ensemble
โ (Mmdetection + detectron) ๋๋ (pytorch + tensorflow + torchvision) ๋ฑ ์ฌ๋ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ฒฐ๊ณผ๋ฅผ ์์๋ธ ํ๋ ๋ฐฉ๋ฒ
-
Snapshot Ensemble
โ ๋์ผํ ์ํคํ ์ฒ์ด์ง๋ง ์๋ก ๋ค๋ฅธ local minima์ ๋น ์ง ์ ๊ฒฝ๋ง์ ์์๋ธ ํ๋ ๋ฐฉ๋ฒ
-
Stochastic Weight Averaging (SWA)
โ ์ผ์ ํ step๋ง๋ค weight๋ฅผ ์ ๋ฐ์ดํธ์ํค๋ SGD์ ๋ฌ๋ฆฌ, ์ผ์ ์ฃผ๊ธฐ๋ง๋ค weight๋ฅผ ํ๊ท ๋ด๋ ๋ฐฉ๋ฒ
10. OD in Kaggle
- ๋ชจ๋ธ ๋ค์์ฑ์ ์ ๋ง๋ก ์ค์ํ๋ค!
- Resolution, Model(Yolo, Effdet, CornerNet, FasterRCNN), Libraryโฆ
- ํนํ FastRCNN, Yolov5๊ฐ ์์ฃผ ๋์ด
- Heavy augmentations์ ๊ฑฐ์ ํ์์ ์ด๋ค!
- ํ ์๋ฃจ์ ๋ค์ ๊ณตํต๋ augmentations์๋ ๋ฌด์์ด ์์๊น?
- CV Strategy๋ฅผ ์ ์ธ์ฐ๋ ๊ฒ์ shake up ๋ฐฉ์ง์ ์์ด์ ์ ๋ง ์ค์ํ๋ค!
- ์ฒด๊ณ์ ์ธ ์คํ ์ญ์ ์ ๋ง ์ค์ํ๋ค!
- Team up์ ์ฑ๋ฅํฅ์์ ์์ฒญ๋ ํค๊ฐ ๋ ์ ์๋ค!
- ๋จ, ์๋ก ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ์ ๊ฐ๋ ๊ฒฝ์ฐ!