Yolo v10 ๋ฆฌ๋ทฐ

Yolo v10 ๋ฒˆ์—ญ

![๊ทธ๋ฆผ 1: ์ง€์—ฐ ์‹œ๊ฐ„-์ •ํ™•๋„(์™ผ์ชฝ) ๋ฐ ํฌ๊ธฐ-์ •ํ™•๋„(์˜ค๋ฅธ์ชฝ) ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์ธก๋ฉด์—์„œ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค๊ณผ์˜ ๋น„๊ต. ์šฐ๋ฆฌ๋Š” ๊ณต์‹์ ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์—”๋“œ ํˆฌ ์—”๋“œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.](/img/user/images/Yolov10 review images/Untitled.png)

๊ทธ๋ฆผ 1: ์ง€์—ฐ ์‹œ๊ฐ„-์ •ํ™•๋„(์™ผ์ชฝ) ๋ฐ ํฌ๊ธฐ-์ •ํ™•๋„(์˜ค๋ฅธ์ชฝ) ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์ธก๋ฉด์—์„œ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค๊ณผ์˜ ๋น„๊ต. ์šฐ๋ฆฌ๋Š” ๊ณต์‹์ ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์—”๋“œ ํˆฌ ์—”๋“œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Yolo ๋ฒ„์ „ ์š”์•ฝ

    YOLOv1 (2016)

    • ๋ฐœํ‘œ: Joseph Redmon et al.
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • ์†๋„: ๊ธฐ์กด์˜ ์˜์—ญ ์ œ์•ˆ(region proposal) ๊ธฐ๋ฐ˜ ํƒ์ง€ ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋‹ฌ๋ฆฌ, ์ „์ฒด ์ด๋ฏธ์ง€๋ฅผ ๋‹จ์ผ ํŒจ์Šค๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰, ๋งค์šฐ ๋น ๋ฅธ ์†๋„๋ฅผ ์ž๋ž‘.
      • ๋‹จ์ผ ๋„คํŠธ์›Œํฌ: ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ๊ทธ๋ฆฌ๋“œ๋กœ ๋ถ„ํ• ํ•˜๊ณ , ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์˜ˆ์ธก.
      • ๋‹จ์ : ์ž‘์€ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ •ํ™•๋„ ๋‚ฎ์Œ, ์œ„์น˜ ์˜ˆ์ธก์˜ ์ •๋ฐ€๋„ ๋ถ€์กฑ.

    YOLOv2 (2016, YOLO9000)

    • ๋ฐœํ‘œ: Joseph Redmon and Ali Farhadi.
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • Anchor Boxes ๋„์ž…: Faster R-CNN์˜ ์•ต์ปค ๋ฐ•์Šค ๊ฐœ๋…์„ ๋„์ž…ํ•˜์—ฌ ๋” ๋‚˜์€ ์œ„์น˜ ์˜ˆ์ธก.
      • ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๋” ๋†’์€ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, Batch Normalization๊ณผ ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์„ฑ๋Šฅ ํ–ฅ์ƒ.
      • YOLO9000: ๋™์‹œ์— COCO ๋ฐ Open Images์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•™์Šตํ•˜์—ฌ, 9000๊ฐœ ์ด์ƒ์˜ ํด๋ž˜์Šค์— ๋Œ€ํ•ด ์‹ค์‹œ๊ฐ„ ํƒ์ง€ ๊ฐ€๋Šฅ.

    YOLOv3 (2018)

    • ๋ฐœํ‘œ: Joseph Redmon and Ali Farhadi.
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • ๋‹ค์ค‘ ์Šค์ผ€์ผ ์˜ˆ์ธก: 3๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ์Šค์ผ€์ผ์—์„œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜์—ฌ, ์ž‘์€ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ ๊ฐœ์„ .
      • Darknet-53 ๋ฐฑ๋ณธ: ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•œ 53๊ฐœ์˜ ๊ณ„์ธต์„ ๊ฐ€์ง„ ์ƒˆ๋กœ์šด ๋ฐฑ๋ณธ ์•„ํ‚คํ…์ฒ˜ ์‚ฌ์šฉ.
      • ์ •ํ™•๋„ ํ–ฅ์ƒ: ๊ฐ์ฒด ํƒ์ง€์˜ ์ •ํ™•๋„๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์ผ๋ถ€ ์ž‘์€ ๊ฐ์ฒด์— ๋Œ€ํ•œ ๋ฌธ์ œ๋Š” ๋‚จ์•„ ์žˆ์Œ.

    YOLOv4 (2020)

    • ๋ฐœํ‘œ: Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao.
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • ์„ฑ๋Šฅ ์ตœ์ ํ™”: ๋‹ค์–‘ํ•œ ํŠธ๋ฆญ(์˜ˆ: Mosaic Data Augmentation, CmBN, DropBlock ๋“ฑ)์„ ์ ์šฉํ•˜์—ฌ, ์†๋„์™€ ์ •ํ™•๋„ ๋ชจ๋‘ ํฌ๊ฒŒ ํ–ฅ์ƒ.
      • CSPNet: ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด Cross Stage Partial Network(CSPNet) ๋„์ž….
      • ์ „๋ฌธ๊ฐ€ ์ง€์‹ ๊ฒฐํ•ฉ: ๊ธฐ์กด์˜ ์—ฌ๋Ÿฌ ๊ธฐ๋ฒ•๋“ค์„ ๊ฒฐํ•ฉํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”.

    YOLOv5 (2020)

    • ๋ฐœํ‘œ: Glenn Jocher (Ultralytics).
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • PyTorch ๊ตฌํ˜„: ์˜คํ”ˆ์†Œ์Šค PyTorch ๊ตฌํ˜„์œผ๋กœ, ์‚ฌ์šฉ์ž ์นœํ™”์ ์ด๊ณ  ์‰ฝ๊ฒŒ ํ™•์žฅ ๊ฐ€๋Šฅ.
      • ์ง€์†์ ์ธ ์—…๋ฐ์ดํŠธ: ๋‹ค์–‘ํ•œ ๋ฒ„์ „(S, M, L, X)๊ณผ ์—ฌ๋Ÿฌ ํ–ฅ์ƒ๋œ ๊ธฐ๋Šฅ์„ ํ†ตํ•ด ์„ฑ๋Šฅ ๊ฐœ์„ .
      • ํšจ์œจ์„ฑ: ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™” ๋ฐ ์„ฑ๋Šฅ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ์‘์šฉ์— ์ ํ•ฉํ•œ ํŠน์„ฑ ์œ ์ง€.

    YOLOv6 (2022)

    • ๋ฐœํ‘œ: Meituan.
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • ์‚ฐ์—…์  ์‘์šฉ: ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ๊ฒจ๋ƒฅํ•œ ๊ณ ํšจ์œจ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ ์„ค๊ณ„.
      • ์„ฑ๋Šฅ: YOLOv5์— ๋น„ํ•ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ ์ œ๊ณต.
      • ์•ต์ปค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ: ๊ธฐ์กด YOLO์™€ ๋‹ฌ๋ฆฌ ์•ต์ปค ๊ธฐ๋ฐ˜ ์„ค๊ณ„๋ฅผ ์œ ์ง€.

    YOLOv7 (2022)

    • ๋ฐœํ‘œ: Wong Kin-Yiu et al.
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • ๋ชจ๋ธ ํšจ์œจ์„ฑ: YOLOv7์€ ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ์ถ”๋ก ์„ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๋„์ž….
      • ๋‹ค์ค‘ ๋ชจ๋ธ ํฌ๊ธฐ: ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ(N, S, M, L, X)์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์‘์šฉ์— ๋งž๋Š” ์„ฑ๋Šฅ ์ œ๊ณต.
      • E-ELAN: Evolved ELAN ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ ์„ฑ๋Šฅ ํ–ฅ์ƒ.

    YOLOv8 (2023)

    • ๋ฐœํ‘œ: Ultralytics.
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • ๋ชจ๋ธ ์„ฑ๋Šฅ: YOLOv5์˜ ํ›„์†์ž‘์œผ๋กœ, ์„ฑ๋Šฅ๊ณผ ์ •ํ™•๋„๊ฐ€ ํฌ๊ฒŒ ๊ฐœ์„ ๋จ.
      • ๊ฐ€๋ฒผ์šด ๊ตฌ์กฐ: ๋”์šฑ ๊ฐ€๋ฒผ์šด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๋น ๋ฅธ ์ถ”๋ก ๊ณผ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€.
      • ํ†ตํ•ฉ๋œ ํ•™์Šต ๋ฐ ์ถ”๋ก : PyTorch ๊ธฐ๋ฐ˜์œผ๋กœ ํ†ตํ•ฉ๋œ ํ•™์Šต ๋ฐ ์ถ”๋ก  ๊ธฐ๋Šฅ ์ œ๊ณต.

    YOLOv9 (2023)

    • ๋ฐœํ‘œ: ๋ฐœํ‘œ๋˜์ง€ ์•Š์Œ (๋ฏธ๋ž˜์˜ ๊ฐ€์ •).
    • ํ•ต์‹ฌ ๋‚ด์šฉ: ์ถ”์ธก์— ๊ธฐ๋ฐ˜ํ•œ ๋‚ด์šฉ์œผ๋กœ, ๋”์šฑ ์ตœ์ ํ™”๋œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€ ์„ฑ๋Šฅ ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ.

    YOLOv10 (2024)

    • ๋ฐœํ‘œ: ์ตœ์‹  ์—ฐ๊ตฌ (์ถ”์ธก)
    • ํ•ต์‹ฌ ๋‚ด์šฉ:
      • NMS-free: NMS ์—†์ด ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์–ด, ์†๋„์™€ ํšจ์œจ์„ฑ ๋ชจ๋‘ ํฌ๊ฒŒ ๊ฐœ์„ .
      • ํšจ์œจ์„ฑ-์ •ํ™•์„ฑ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„: ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์„ฑ๋Šฅ ์‚ฌ์ด์—์„œ ์ตœ์ ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ์ „๋žต ๋„์ž….
      • ๋‹ค์–‘ํ•œ ํฌ๊ธฐ ๋ชจ๋ธ: N/S/M/B/L/X์˜ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ๋กœ, ๋‹ค์–‘ํ•œ ์‹ค์‹œ๊ฐ„ ์‘์šฉ์— ์ ํ•ฉ.

1. ์ดˆ๋ก (Abstract)

์ง€๋‚œ ๋ช‡ ๋…„๊ฐ„ YOLO๋Š” ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ํƒ์ง€ ์„ฑ๋Šฅ ๊ฐ„์˜ ๊ท ํ˜•์„ ํšจ๊ณผ์ ์œผ๋กœ ๋งž์ถ”๋ฉฐ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€ ๋ถ„์•ผ์—์„œ ์ง€๋ฐฐ์ ์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค์€ YOLO์˜ ์•„ํ‚คํ…์ฒ˜ ๋””์ž์ธ, ์ตœ์ ํ™” ๋ชฉํ‘œ, ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์ „๋žต ๋“ฑ์„ ํƒ๊ตฌํ•˜์—ฌ ์ƒ๋‹นํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋น„์ตœ๋Œ€ ์–ต์ œ(NMS)์— ์˜์กดํ•˜๋Š” ํ›„์ฒ˜๋ฆฌ ๊ณผ์ •์€ YOLO์˜ ์—”๋“œ ํˆฌ ์—”๋“œ ๋ฐฐํฌ๋ฅผ ์ €ํ•ดํ•˜๊ณ  ์ถ”๋ก  ์ง€์—ฐ์— ๋ถ€์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, YOLO์˜ ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ ์š”์†Œ ์„ค๊ณ„๋Š” ์ข…ํ•ฉ์ ์ด๊ณ  ์ฒ ์ €ํ•œ ๊ฒ€ํ† ๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ๊ณ„์‚ฐ์ƒ์˜ ์ค‘๋ณต์ด ๋‘๋“œ๋Ÿฌ์ง€๋ฉฐ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋น„ํšจ์œจ์„ฑ์„ ์ดˆ๋ž˜ํ•˜๊ณ , ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ์ž ์žฌ๋ ฅ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” YOLO์˜ ์„ฑ๋Šฅ-ํšจ์œจ์„ฑ ๊ฒฝ๊ณ„๋ฅผ ํ›„์ฒ˜๋ฆฌ์™€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์–‘์ธก์—์„œ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋จผ์ € YOLO์˜ NMS ์—†๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•ด ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น ์ „๋žต์„ ์ œ์‹œํ•˜์—ฌ, ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ๊ณผ ๋‚ฎ์€ ์ถ”๋ก  ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋™์‹œ์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, YOLO์˜ ์ „๋ฐ˜์ ์ธ ํšจ์œจ์„ฑ-์ •ํ™•์„ฑ ์ค‘์‹ฌ์˜ ๋ชจ๋ธ ์„ค๊ณ„ ์ „๋žต์„ ์†Œ๊ฐœํ•˜์—ฌ, ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•์„ฑ ๊ด€์ ์—์„œ YOLO์˜ ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ์ตœ์ ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ์จ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ํฌ๊ฒŒ ์ค„์ด๊ณ  ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋…ธ๋ ฅ์„ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด YOLO ์‹œ๋ฆฌ์ฆˆ์ธ YOLOv10์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด YOLOv10์€ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์Šค์ผ€์ผ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋‹ฌ์„ฑํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOv10-S๋Š” ์œ ์‚ฌํ•œ COCO AP ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ RT-DETR-R18๋ณด๋‹ค 1.8๋ฐฐ ๋” ๋น ๋ฅด๊ณ , ํŒŒ๋ผ๋ฏธํ„ฐ์™€ FLOPs ์ˆ˜๊ฐ€ 2.8๋ฐฐ ์ ์Šต๋‹ˆ๋‹ค. YOLOv9-C์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ, YOLOv10-B๋Š” ์„ฑ๋Šฅ์ด ๋™์ผํ•œ ์ƒํƒœ์—์„œ ์ง€์—ฐ ์‹œ๊ฐ„์ด 46% ๊ฐ์†Œํ•˜๊ณ , ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” 25% ๊ฐ์†Œํ–ˆ์Šต๋‹ˆ๋‹ค.

Code: https://github.com/THU-MIG/yolov10.

2. ์†Œ๊ฐœ (Introduction)

์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€๋Š” ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ ์ฃผ์ œ์˜€์œผ๋ฉฐ, ์ด๋Š” ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์œผ๋กœ ์ด๋ฏธ์ง€ ๋‚ด์˜ ๊ฐ์ฒด์˜ ๋ฒ”์ฃผ์™€ ์œ„์น˜๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ž์œจ์ฃผํ–‰ [3], ๋กœ๋ด‡ ๋‚ด๋น„๊ฒŒ์ด์…˜ [11], ๊ฐ์ฒด ์ถ”์  [66] ๋“ฑ ๋‹ค์–‘ํ•œ ์‹ค์ œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ ์—ฐ๊ตฌ์ž๋“ค์€ ์‹ค์‹œ๊ฐ„ ํƒ์ง€๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด CNN ๊ธฐ๋ฐ˜ ๊ฐ์ฒด ํƒ์ง€๊ธฐ๋ฅผ ์„ค๊ณ„ํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ•ด ์™”์Šต๋‹ˆ๋‹ค [18, 22, 43, 44, 45, 51, 12]. ๊ทธ ์ค‘์—์„œ๋„ YOLO๋Š” ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ ์‚ฌ์ด์˜ ๋›ฐ์–ด๋‚œ ๊ท ํ˜• ๋•๋ถ„์— ์ ์  ๋” ์ธ๊ธฐ๋ฅผ ์–ป๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค [2, 19, 27, 19, 20, 59, 54, 64, 7, 65, 16, 27]. YOLO์˜ ํƒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์€ ๋ชจ๋ธ ์ „๋ฐฉ ์ฒ˜๋ฆฌ์™€ NMS ํ›„์ฒ˜๋ฆฌ์˜ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋‘ ๋ถ€๋ถ„ ๋ชจ๋‘ ์—ฌ์ „ํžˆ ๊ฒฐํ•จ์ด ์žˆ์–ด, ์ตœ์ ์˜ ์ •ํ™•๋„-์ง€์—ฐ ๊ฒฝ๊ณ„์— ๋„๋‹ฌํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, YOLO๋Š” ํ›ˆ๋ จ ์ค‘์— ๋ณดํ†ต ๋‹ค์ˆ˜์˜ ์–‘์„ฑ ์ƒ˜ํ”Œ์— ํ•˜๋‚˜์˜ ์‹ค์ œ ๊ฐ์ฒด๋ฅผ ํ• ๋‹นํ•˜๋Š” ๋ฐฉ์‹(one-to-many label assignment)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ์ถ”๋ก  ์ค‘์— ์ตœ์ ์˜ ์–‘์„ฑ ์˜ˆ์ธก์„ ์„ ํƒํ•˜๊ธฐ ์œ„ํ•ด NMS๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ถ”๋ก  ์†๋„๋ฅผ ์ €ํ•˜์‹œํ‚ฌ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ YOLO์˜ ์ตœ์ ์˜ ์—”๋“œ ํˆฌ ์—”๋“œ ๋ฐฐํฌ๋ฅผ ๋ฐฉํ•ดํ•˜๋Š” NMS ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋ฏผ๊ฐํ•œ ์„ฑ๋Šฅ์„ ์œ ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํ•œ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์€ ์ตœ๊ทผ ๋„์ž…๋œ ์—”๋“œ ํˆฌ ์—”๋“œ DETR ์•„ํ‚คํ…์ฒ˜ [4, 74, 67, 28, 34, 40, 61]๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, RT-DETR [71]๋Š” ํšจ์œจ์ ์ธ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ธ์ฝ”๋”์™€ ๋ถˆํ™•์‹ค์„ฑ์„ ์ตœ์†Œํ™”ํ•œ ์ฟผ๋ฆฌ ์„ ํƒ์„ ์ œ์‹œํ•˜์—ฌ DETR์„ ์‹ค์‹œ๊ฐ„ ์‘์šฉ ๋ถ„์•ผ๋กœ ํ™•์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ DETR์˜ ๋ณต์žกํ•œ ๋ฐฐํฌ๋Š” ์ •ํ™•์„ฑ๊ณผ ์†๋„ ์‚ฌ์ด์˜ ์ตœ์  ๊ท ํ˜•์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋ฐฉํ•ดํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š”, CNN ๊ธฐ๋ฐ˜ ํƒ์ง€๊ธฐ๋ฅผ ์œ„ํ•œ ์—”๋“œ ํˆฌ ์—”๋“œ ํƒ์ง€๋ฅผ ํƒ๊ตฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์ด๋Š” ๋ณดํ†ต ์ค‘๋ณต๋œ ์˜ˆ์ธก์„ ์–ต์ œํ•˜๊ธฐ ์œ„ํ•ด ์ผ๋Œ€์ผ ํ• ๋‹น ์ „๋žต(one-to-one assignment strategies)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค [5, 49, 60, 73, 16]. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ฐฉ๋ฒ•์€ ๋ณดํ†ต ์ถ”๊ฐ€์ ์ธ ์ถ”๋ก  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋„์ž…ํ•˜๊ฑฐ๋‚˜ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„๋Š” ์—ฌ์ „ํžˆ YOLO์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ๋„์ „ ๊ณผ์ œ์ด๋ฉฐ, ์ด๋Š” ์ •ํ™•๋„์™€ ์†๋„์— ์ค‘์š”ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค [45, 16, 65, 7]. ๋ณด๋‹ค ํšจ์œจ์ ์ด๊ณ  ํšจ๊ณผ์ ์ธ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด, ์—ฐ๊ตฌ์ž๋“ค์€ ๋‹ค์–‘ํ•œ ์„ค๊ณ„ ์ „๋žต์„ ํƒ๊ตฌํ•ด ์™”์Šต๋‹ˆ๋‹ค. ๋‹คํฌ๋„ท(DarkNet) [43, 44, 45], CSPNet [2], EfficientRep [27], ELAN [56, 58] ๋“ฑ๊ณผ ๊ฐ™์€ ์ฃผ์š” ์ปดํ“จํŒ… ์œ ๋‹›์ด ๋ฐฑ๋ณธ์—์„œ ๊ธฐ๋Šฅ ์ถ”์ถœ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋„คํฌ(Neck)์—์„œ๋Š”, PAN [35], BiC [27], GD [54], RepGFPN [65] ๋“ฑ์ด ๋‹ค์ค‘ ์Šค์ผ€์ผ ๊ธฐ๋Šฅ ์œตํ•ฉ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํƒ๊ตฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ชจ๋ธ ์Šค์ผ€์ผ๋ง ์ „๋žต [56, 55] ๋ฐ ์žฌ๊ตฌ์„ฑ ๊ธฐ๋ฒ• [10, 27]๋„ ์กฐ์‚ฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋…ธ๋ ฅ๋“ค์€ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์ง€๋งŒ, ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•์„ฑ ์ธก๋ฉด์—์„œ YOLO์˜ ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ์ข…ํ•ฉ์ ์ธ ๊ฒ€ํ† ๋Š” ์—ฌ์ „ํžˆ ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, YOLO ๋‚ด์—๋Š” ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์ค‘๋ณต์ด ์กด์žฌํ•˜๋ฉฐ, ์ด๋Š” ๋น„ํšจ์œจ์ ์ธ ํŒŒ๋ผ๋ฏธํ„ฐ ํ™œ์šฉ๊ณผ ์ตœ์ ์˜ ํšจ์œจ์„ฑ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ๋„ ์ œํ•œ๋˜์–ด ์ •ํ™•๋„ ํ–ฅ์ƒ ๊ฐ€๋Šฅ์„ฑ์ด ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹คโ€‹.

3. ๊ด€๋ จ ์—ฐ๊ตฌ (Related Work)

3.1 ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€๊ธฐ

์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€๋Š” ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„ ๋‚ด์— ๊ฐ์ฒด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ณ  ์œ„์น˜๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ์ด๋Š” ์‹ค์ œ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ง€๋‚œ ๋ช‡ ๋…„๊ฐ„, ํšจ์œจ์ ์ธ ํƒ์ง€๊ธฐ๋ฅผ ๊ฐœ๋ฐœํ•˜๊ธฐ ์œ„ํ•œ ์ƒ๋‹นํ•œ ๋…ธ๋ ฅ์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค [18, 51, 43, 32, 72, 69, 30, 29, 39]. ํŠนํžˆ YOLO ์‹œ๋ฆฌ์ฆˆ [43, 44, 45, 2, 19, 27, 56, 20, 59]๋Š” ์ฃผ๋ฅ˜ ํƒ์ง€๊ธฐ๋กœ์„œ ๋‘๊ฐ์„ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

YOLOv1, YOLOv2, ๊ทธ๋ฆฌ๊ณ  YOLOv3๋Š” ๋ฐฑ๋ณธ, ๋„ฅ, ํ—ค๋“œ๋ผ๋Š” ์„ธ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ „ํ˜•์ ์ธ ํƒ์ง€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‹๋ณ„ํ•ฉ๋‹ˆ๋‹ค [43, 44, 45].

YOLOv4 [2]์™€ YOLOv5 [19]๋Š” ๋‹คํฌ๋„ท(DarkNet) [42]์„ ๋Œ€์ฒดํ•˜๊ธฐ ์œ„ํ•ด CSPNet [57] ์„ค๊ณ„๋ฅผ ๋„์ž…ํ–ˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์ „๋žต, ํ–ฅ์ƒ๋œ PAN, ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์Šค์ผ€์ผ ๋“ฑ์ด ์ถ”๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

YOLOv6 [27]๋Š” ๋„ฅ๊ณผ ๋ฐฑ๋ณธ์— ๊ฐ๊ฐ BiC์™€ SimCSPSPPF๋ฅผ ๋„์ž…ํ–ˆ์œผ๋ฉฐ, ์•ต์ปค ๊ธฐ๋ฐ˜ ํ•™์Šต ๋ฐ ์ž๊ธฐ ์ฆ๋ฅ˜ ์ „๋žต์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.

YOLOv7 [56]์€ ํ’๋ถ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ ํ๋ฆ„ ๊ฒฝ๋กœ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด E-ELAN์„ ๋„์ž…ํ•˜๊ณ  ์—ฌ๋Ÿฌ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ฌด๋ฃŒ ๊ธฐ๋ฒ•์„ ํƒ๊ตฌํ–ˆ์Šต๋‹ˆ๋‹ค.

YOLOv8 [20]์€ ํšจ๊ณผ์ ์ธ ํŠน์ง• ์ถ”์ถœ๊ณผ ์œตํ•ฉ์„ ์œ„ํ•œ C2f ๋นŒ๋”ฉ ๋ธ”๋ก์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. Gold-YOLO [54]๋Š” ๋‹ค์ค‘ ์Šค์ผ€์ผ ํŠน์ง• ์œตํ•ฉ ๊ธฐ๋Šฅ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ๊ธ‰ GD ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

YOLOv9 [59]๋Š” ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„ ์„ ์œ„ํ•ด GELAN์„ ์ œ์•ˆํ•˜๊ณ  ํ•™์Šต ๊ณผ์ •์„ ์ฆ๊ฐ•ํ•˜๊ธฐ ์œ„ํ•ด PGI๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.

3.2 ์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๊ธฐ

์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๋Š” ์ „ํ†ต์ ์ธ ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ๋ฒ—์–ด๋‚˜, ๊ฐ„์†Œํ™”๋œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ [48], ํƒ์ง€ ๋ถ„์•ผ์—์„œ ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์ „ํ™˜์„ ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค.

DETR [4]์€ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋„์ž…ํ•˜๊ณ  ํ—๊ฐ€๋ฆฌ์•ˆ ์†์‹ค(Hungarian loss)์„ ์ฑ„ํƒํ•˜์—ฌ ์ผ๋Œ€์ผ ๋งค์นญ ์˜ˆ์ธก์„ ์‹คํ˜„ํ•˜์—ฌ, ์ˆ˜์ž‘์—… ๊ตฌ์„ฑ ์š”์†Œ์™€ ํ›„์ฒ˜๋ฆฌ๋ฅผ ์ œ๊ฑฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดํ›„, ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ DETR ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค [40, 61, 50, 28, 34].

Deformable-DETR [74]๋Š” ์ˆ˜๋ ด ์†๋„๋ฅผ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ€ํ‹ฐ ์Šค์ผ€์ผ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ์ฃผ์˜ ๋ชจ๋“ˆ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. DINO [67]๋Š” DETR์— ๋Œ€์กฐ์  ๋””๋…ธ์ด์ง•(contrastive denoising), ์ฟผ๋ฆฌ ์„ ํƒ ํ˜ผํ•ฉ(mix query selection), ๋‘ ๋ฒˆ ๋ณด๊ธฐ(look forward twice) ์Šคํ‚ด์„ ํ†ตํ•ฉํ–ˆ์Šต๋‹ˆ๋‹ค.

RT-DETR [71]์€ ํšจ์œจ์ ์ธ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ธ์ฝ”๋”๋ฅผ ์„ค๊ณ„ํ•˜๊ณ  ๋ถˆํ™•์‹ค์„ฑ์„ ์ตœ์†Œํ™”ํ•œ ์ฟผ๋ฆฌ ์„ ํƒ์„ ์ œ์•ˆํ•˜์—ฌ ์ •ํ™•์„ฑ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋˜ ๋‹ค๋ฅธ ์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์‹คํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ CNN ๊ธฐ๋ฐ˜ ํƒ์ง€๊ธฐ์ž…๋‹ˆ๋‹ค.

ํ•™์Šต ๊ฐ€๋Šฅํ•œ NMS [23]์™€ ๊ด€๊ณ„ ๋„คํŠธ์›Œํฌ [25]๋Š” ํƒ์ง€๊ธฐ๋ฅผ ์œ„ํ•œ ์ค‘๋ณต๋œ ์˜ˆ์ธก์„ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•ด ๋˜ ๋‹ค๋ฅธ ๋„คํŠธ์›Œํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

OneNet [49]๊ณผ DeFCN [60]์€ ์™„์ „ํžˆ ์ปจ๋ณผ๋ฃจ์…˜ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์ผ๋Œ€์ผ ๋งค์นญ ์ „๋žต์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. FCOSpss [73]์€ ์˜ˆ์ธก์„ ์œ„ํ•œ ์ตœ์ ์˜ ์ƒ˜ํ”Œ์„ ์„ ํƒํ•˜๊ธฐ ์œ„ํ•ด ๊ธ์ •์  ์ƒ˜ํ”Œ ์„ ํƒ๊ธฐ๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ๋ฐฉ๋ฒ•๋ก  (Methodology)

4.1 NMS-Free ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น ์ „๋žต

ํ›ˆ๋ จ ์ค‘, YOLO๋Š” [20, 59, 27, 64] TAL [14]์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ ์ธ์Šคํ„ด์Šค์— ๋Œ€ํ•ด ๋‹ค์ˆ˜์˜ ๊ธ์ • ์ƒ˜ํ”Œ์„ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์ค‘ ํ• ๋‹น ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜๋ฉด ํ’๋ถ€ํ•œ ์ง€๋„ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์ตœ์ ํ™”๋ฅผ ์ด‰์ง„ํ•˜๊ณ  ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” YOLO๊ฐ€ ๋น„์ตœ๋Œ€ ์–ต์ œ(NMS) ํ›„์ฒ˜๋ฆฌ์— ์˜์กดํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ๋ฐฐํฌ ์‹œ ๋น„ํšจ์œจ์ ์ธ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. ์ด์ „ ์ž‘์—…๋“ค [49, 60, 73, 5]์—์„œ๋Š” ์ค‘๋ณต๋œ ์˜ˆ์ธก์„ ์–ต์ œํ•˜๊ธฐ ์œ„ํ•ด ์ผ๋Œ€์ผ ๋งค์นญ์„ ํƒ๊ตฌํ–ˆ์ง€๋งŒ, ์ด๋“ค์€ ๋ณดํ†ต ์ถ”๊ฐ€์ ์ธ ์ถ”๋ก  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋„์ž…ํ•˜๊ฑฐ๋‚˜ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‚ด์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” YOLO๋ฅผ ์œ„ํ•ด ์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น๊ณผ ์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ์„ ๊ฐ–์ถ˜ NMS ์—†๋Š” ํ›ˆ๋ จ ์ „๋žต์„ ์ œ์•ˆํ•˜์—ฌ ๋†’์€ ํšจ์œจ์„ฑ๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น(Dual label assignments)

![๊ทธ๋ฆผ 2 : (a) NMS๊ฐ€ ํ•„์š” ์—†๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น. (b) ๊ธฐ๋ณธ์ ์œผ๋กœ ฮฑo2m=0.5 ๋ฐ ฮฒo2m=6 ์„ ์‚ฌ์šฉํ•˜๋Š” YOLOv8-S์—์„œ ์ผ๋Œ€๋‹ค ๊ฒฐ๊ณผ์˜ ์ƒ์œ„ 1/5/10์—์„œ ์ผ๋Œ€์ผ ํ• ๋‹น ๋นˆ๋„ [20](/img/user/images/Untitled 1.png)

๊ทธ๋ฆผ 2 : (a) NMS๊ฐ€ ํ•„์š” ์—†๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น. (b) ๊ธฐ๋ณธ์ ์œผ๋กœ ฮฑo2m=0.5 ๋ฐ ฮฒo2m=6 ์„ ์‚ฌ์šฉํ•˜๋Š” YOLOv8-S์—์„œ ์ผ๋Œ€๋‹ค ๊ฒฐ๊ณผ์˜ ์ƒ์œ„ 1/5/10์—์„œ ์ผ๋Œ€์ผ ํ• ๋‹น ๋นˆ๋„ [20]. ์ผ๊ด€์„ฑ์„ ์œ„ํ•ด, ฮฑo2o=0.5 ฮฑo2o=0.5\beta_{o2o}=6$ ์ผ๊ด€์„ฑ ์—†๋Š” ๊ฒฝ์šฐ, ฮฑo2o=0.5; ฮฒo2o=2

๋‹ค์ค‘ ํ• ๋‹น ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ ์ผ๋Œ€์ผ ๋งค์นญ์€ ๊ฐ ์‹ค์ œ ๊ฐ์ฒด์— ํ•˜๋‚˜์˜ ์˜ˆ์ธก๋งŒ์„ ํ• ๋‹นํ•˜์—ฌ NMS ํ›„์ฒ˜๋ฆฌ๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ์•ฝํ•œ ์ง€๋„ ํ•™์Šต์„ ์œ ๋ฐœํ•˜์—ฌ ์ตœ์ ์˜ ์ •ํ™•๋„์™€ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋ฐฉํ•ดํ•ฉ๋‹ˆ๋‹ค [75]. ๋‹คํ–‰ํžˆ๋„ ์ด๋Ÿฌํ•œ ๊ฒฐ์ ์€ ๋‹ค์ค‘ ํ• ๋‹น ๋ฐฉ์‹์— ์˜ํ•ด ๋ณด์™„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [5]. ์ด๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด, YOLO์— ์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น์„ ๋„์ž…ํ•˜์—ฌ ๋‘ ์ „๋žต์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๊ทธ๋ฆผ 2.(a)์™€ ๊ฐ™์ด YOLO์— ๋˜ ๋‹ค๋ฅธ ์ผ๋Œ€์ผ ํ—ค๋“œ๋ฅผ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด ํ—ค๋“œ๋Š” ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ, ์›๋ž˜์˜ ๋‹ค์ค‘ ํ• ๋‹น ๋ถ„๊ธฐ์™€ ๋™์ผํ•œ ์ตœ์ ํ™” ๋ชฉํ‘œ๋ฅผ ์ฑ„ํƒํ•˜์ง€๋งŒ, ์ผ๋Œ€์ผ ๋งค์นญ์„ ํ™œ์šฉํ•˜์—ฌ ๋ ˆ์ด๋ธ” ํ• ๋‹น์„ ์–ป์Šต๋‹ˆ๋‹ค. ํ›ˆ๋ จ ์ค‘์—๋Š” ๋‘ ๊ฐœ์˜ ํ—ค๋“œ๊ฐ€ ๋ชจ๋ธ๊ณผ ํ•จ๊ป˜ ๊ณต๋™์œผ๋กœ ์ตœ์ ํ™”๋˜์–ด ๋ฐฑ๋ณธ๊ณผ ๋„ฅ์ด ๋‹ค์ค‘ ํ• ๋‹น ๋ฐฉ์‹์ด ์ œ๊ณตํ•˜๋Š” ํ’๋ถ€ํ•œ ์ง€๋„๋ฅผ ๋ˆ„๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ถ”๋ก  ์ค‘์—๋Š” ๋‹ค์ค‘ ํ• ๋‹น ํ—ค๋“œ๋ฅผ ๋ฒ„๋ฆฌ๊ณ  ์ผ๋Œ€์ผ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด YOLO๋Š” ์ถ”๊ฐ€์ ์ธ ์ถ”๋ก  ๋น„์šฉ ์—†์ด ์—”๋“œ ํˆฌ ์—”๋“œ ๋ฐฐํฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ผ๋Œ€์ผ ๋งค์นญ์—์„œ๋Š” ์ตœ์ƒ์œ„ ์„ ํƒ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜์—ฌ ํ—๊ฐ€๋ฆฌ ๋งค์นญ [4]๊ณผ ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๋” ์ ์€ ํ›ˆ๋ จ ์‹œ๊ฐ„์œผ๋กœ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ(Consistent matching metric)

o2o โ†’ one to one head, o2m โ†’ one to many head

ํ• ๋‹น ์ค‘, ์ผ๋Œ€์ผ๊ณผ ๋‹ค์ค‘ ํ• ๋‹น ๋ฐฉ์‹ ๋ชจ๋‘ ์˜ˆ์ธก๊ณผ ์ธ์Šคํ„ด์Šค ๊ฐ„์˜ ์ผ์น˜ ์ •๋„๋ฅผ ์ •๋Ÿ‰์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ”ํŠธ๋ฆญ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๊ฐ€์ง€ ๋ถ„๊ธฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก ์ธ์‹ ๋งค์นญ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ†ต์ผ๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค:
m(ฮฑ,ฮฒ)=sโ‹…pฮฑโ‹…IoU(b^,b)ฮฒ
์—ฌ๊ธฐ์„œ p๋Š” ๋ถ„๋ฅ˜ ์ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, b^์™€ b๋Š” ๊ฐ๊ฐ ์˜ˆ์ธก๊ณผ ์ธ์Šคํ„ด์Šค์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. s๋Š” ์˜ˆ์ธก์˜ ์•ต์ปค ํฌ์ธํŠธ๊ฐ€ ์ธ์Šคํ„ด์Šค ๋‚ด์— ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ณต๊ฐ„์  ์šฐ์„ ์ˆœ์œ„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค [20, 59, 27, 64]. ฮฑ์™€ ฮฒ๋Š” ์˜๋ฏธ ์˜ˆ์ธก ์ž‘์—…๊ณผ ์œ„์น˜ ํšŒ๊ท€ ์ž‘์—…์˜ ์˜ํ–ฅ์„ ๊ท ํ˜• ์žˆ๊ฒŒ ์กฐ์ ˆํ•˜๋Š” ์ค‘์š”ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‹ค์ค‘ ํ• ๋‹น ๋ฉ”ํŠธ๋ฆญ๊ณผ ์ผ๋Œ€์ผ ๋ฉ”ํŠธ๋ฆญ์„ ๊ฐ๊ฐ mo2m=m(ฮฑo2m, ฮฒo2m)๊ณผ mo2o=m(ฮฑo2o,ฮฒo2o)๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฉ”ํŠธ๋ฆญ์€ ๋‘ ํ—ค๋“œ์— ๋Œ€ํ•œ ๋ ˆ์ด๋ธ” ํ• ๋‹น ๋ฐ ์ง€๋„ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น์—์„œ๋Š” ์ผ๋Œ€๋‹ค ๋ถ„๊ธฐ๊ฐ€ ์ผ๋Œ€์ผ ๋ถ„๊ธฐ๋ณด๋‹ค ํ›จ์”ฌ ๋” ํ’๋ถ€ํ•œ ์ง€๋„ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ, ์ผ๋Œ€์ผ ํ—ค๋“œ์˜ ์ง€๋„๋ฅผ ์ผ๋Œ€๋‹ค ํ—ค๋“œ์™€ ์กฐํ™”๋กญ๊ฒŒ ๋งž์ถœ ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์ผ๋Œ€์ผ ํ—ค๋“œ๋ฅผ ์ผ๋Œ€๋‹ค ํ—ค๋“œ์˜ ์ตœ์ ํ™” ๋ฐฉํ–ฅ์œผ๋กœ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ์ผ๋Œ€์ผ ํ—ค๋“œ๋Š” ์ถ”๋ก  ์ค‘ ๋” ๋‚˜์€ ์ƒ˜ํ”Œ ํ’ˆ์งˆ์„ ์ œ๊ณตํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋‘ ํ—ค๋“œ ๊ฐ„์˜ ์ง€๋„ ๊ฒฉ์ฐจ๋ฅผ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ›ˆ๋ จ ์ค‘ ๋ฌด์ž‘์œ„์„ฑ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ๋Š” ๋™์ผํ•œ ๊ฐ’์œผ๋กœ ์ดˆ๊ธฐํ™”๋œ ๋‘ ํ—ค๋“œ๋ฅผ ๋™์ผํ•œ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๊ฐ€์ •ํ•˜์—ฌ ์ดˆ๊ธฐ ๋ถ„์„์„ ์‹œ์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘ ๋ถ„๊ธฐ์˜ ํšŒ๊ท€ ๋Œ€์ƒ์€ ์ถฉ๋Œํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์ผ์น˜ํ•˜์ง€ ์•Š์€ ์˜ˆ์ธก์€ ๋ฌด์‹œ๋˜๋ฏ€๋กœ ๋™์ผํ•œ ๋Œ€์ƒ์— ๋Œ€ํ•ด ์ผ์น˜๋œ ์˜ˆ์ธก์„ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. ์ง€๋„ ๊ฒฉ์ฐจ๋Š” ๋‹ค๋ฅธ ๋ถ„๋ฅ˜ ๋Œ€์ƒ์—์„œ ๋น„๋กฏ๋ฉ๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ์ธ์Šคํ„ด์Šค์˜ ๊ฒฝ์šฐ, ์˜ˆ์ธก๊ณผ์˜ ๊ฐ€์žฅ ํฐ IoU๋ฅผ uโˆ—๋กœ ๋‚˜ํƒ€๋‚ด๊ณ , ์ผ๋Œ€๋‹ค ๋ฐ ์ผ๋Œ€์ผ ๋งค์นญ ์ ์ˆ˜๋ฅผ ๊ฐ๊ฐ mo2mโˆ— ๊ณผ mo2oโˆ— ๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ผ๋Œ€๋‹ค ๋ถ„๊ธฐ๊ฐ€ ์–‘์„ฑ ์ƒ˜ํ”Œ ฮฉ์„ ์ƒ์„ฑํ•˜๊ณ , ์ผ๋Œ€์ผ ๋ถ„๊ธฐ๊ฐ€ i๋ฒˆ์งธ ์˜ˆ์ธก์„ mo2o,i=mo2oโˆ— ๋กœ ์„ ํƒํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉด, ๋ถ„๋ฅ˜ ๋Œ€์ƒ์€ to2m,j=uโˆ—โ‹…mo2m,jmo2mโˆ—โ‰คuโˆ— ์ด๋ฉฐ to2o,i=uโˆ—โ‹…mo2o,imo2oโˆ—=uโˆ— ์ž…๋‹ˆ๋‹ค.

A=to2o,iโˆ’I(iโˆˆฮฉ)to2m,i+โˆ‘kโˆˆฮฉโˆ–{i}to2m,k

์šฐ๋ฆฌ๋Š” to2m,i๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๊ฐญ์ด ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” i๊ฐ€ ฮฉ ๋‚ด์—์„œ ๋” ๋†’์€ ์ˆœ์œ„๋ฅผ ์ฐจ์ง€ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” to2m,i=uโˆ—์ผ ๋•Œ ์ตœ์†Œ์— ๋„๋‹ฌํ•˜๋ฉฐ, ์ฆ‰ i๊ฐ€ ฮฉ์—์„œ ๊ฐ€์žฅ ์ข‹์€ ๊ธ์ • ์ƒ˜ํ”Œ์ž„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค(๊ทธ๋ฆผ 2.(a) ์ฐธ์กฐ). ์ด๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญฮฑo2o=rโ‹…ฮฑo2m ๋ฐ ฮฒo2o=rโ‹…ฮฒo2m์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” mo2o=mo2mr์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ์ผ๋Œ€๋‹ค ํ—ค๋“œ์—์„œ ์ตœ๊ณ ์˜ ๊ธ์ • ์ƒ˜ํ”Œ์€ ์ผ๋Œ€์ผ ํ—ค๋“œ์—์„œ๋„ ์ตœ๊ณ ์˜ ์ƒ˜ํ”Œ์ด ๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ๋‘ ํ—ค๋“œ๋Š” ์ผ๊ด€๋˜๊ณ  ์กฐํ™”๋กญ๊ฒŒ ์ตœ์ ํ™”๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•จ์„ ์œ„ํ•ด, ๊ธฐ๋ณธ์ ์œผ๋กœ r=1, ์ฆ‰ ฮฑo2o=ฮฑo2m ๋ฐ ฮฒo2o=ฮฒo2m์œผ๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ฐœ์„ ๋œ ์ง€๋„ ์ •๋ ฌ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ํ›ˆ๋ จ ํ›„ ์ผ๋Œ€๋‹ค ๊ฒฐ๊ณผ์˜ ์ƒ์œ„ 1 / 5 / 10 ๋‚ด์—์„œ ์ผ๋Œ€์ผ ๋งค์นญ ์Œ์˜ ์ˆ˜๋ฅผ ์…‰๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 2.(b)์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ ํ•˜์—์„œ ์ •๋ ฌ์ด ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜ํ•™์  ์ฆ๋ช…์— ๋Œ€ํ•œ ๋” ํฌ๊ด„์ ์ธ ์ดํ•ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๋ถ€๋ก์„ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

4.2 ์ „๋ฐ˜์ ์ธ ํšจ์œจ์„ฑ-์ •ํ™•์„ฑ ์ค‘์‹ฌ์˜ ๋ชจ๋ธ ์„ค๊ณ„

![](/img/user/images/Untitled 2.png)

๊ทธ๋ฆผ 3. (a) YOLOv8์—์„œ ์Šคํ…Œ์ด์ง€์™€ ๋ชจ๋ธ ์ „๋ฐ˜์— ๊ฑธ์นœ ๊ณ ์œ  ๋žญํฌ. ๋ฐฑ๋ณธ๊ณผ ๋„ฅ์˜ ์Šคํ…Œ์ด์ง€๋Š” ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ์ˆœ์„œ์— ๋”ฐ๋ผ ๋ฒˆํ˜ธ๊ฐ€ ๋งค๊ฒจ์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์น˜ ๋žญํฌ r์€ y์ถ•์—์„œ r/Co๋กœ ์ •๊ทœํ™”๋˜๋ฉฐ, ์ž„๊ณ„๊ฐ’์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ฮปmax/2๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ Co๋Š” ์ถœ๋ ฅ ์ฑ„๋„ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , ฮปmax๋Š” ๊ฐ€์žฅ ํฐ ํŠน์ด๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊นŠ์€ ์Šคํ…Œ์ด์ง€์™€ ํฐ ๋ชจ๋ธ์ด ๋” ๋‚ฎ์€ ๊ณ ์œ  ๋žญํฌ ๊ฐ’์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
(b) ์ปดํŒฉํŠธ ์ธ๋ฒ„ํ‹ฐ๋“œ ๋ธ”๋ก(CIB).
(c) ๋ถ€๋ถ„ ์ž๊ธฐ ์ฃผ์˜ ๋ชจ๋“ˆ(PSA).

ํ›„์ฒ˜๋ฆฌ์™€ ๋”๋ถˆ์–ด, YOLO ๋ชจ๋ธ์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ํšจ์œจ์„ฑ-์ •ํ™•์„ฑ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„์— ํฐ ๋„์ „ ๊ณผ์ œ๋ฅผ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค [45, 7, 27]. ์ด์ „ ์—ฐ๊ตฌ๋“ค์ด ๋‹ค์–‘ํ•œ ์„ค๊ณ„ ์ „๋žต์„ ํƒ๊ตฌํ–ˆ์ง€๋งŒ, YOLO์˜ ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ์ข…ํ•ฉ์ ์ธ ๊ฒ€ํ† ๋Š” ์—ฌ์ „ํžˆ ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋Š” ๋ฌด์‹œํ•  ์ˆ˜ ์—†๋Š” ๊ณ„์‚ฐ์  ์ค‘๋ณต์„ฑ๊ณผ ์ œํ•œ๋œ ๋Šฅ๋ ฅ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด๋Š” ๋†’์€ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ž ์žฌ๋ ฅ์„ ๋ฐฉํ•ดํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•์„ฑ ๊ด€์ ์—์„œ YOLO ๋ชจ๋ธ์„ ์ „๋ฐ˜์ ์œผ๋กœ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

ํšจ์œจ์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„

YOLO์˜ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ์Šคํ…œ(stem), ๋‹ค์šด์ƒ˜ํ”Œ๋ง ๋ ˆ์ด์–ด(downsampling layers), ๊ธฐ๋ณธ ๋นŒ๋”ฉ ๋ธ”๋ก์ด ํฌํ•จ๋œ ์Šคํ…Œ์ด์ง€(stages with basic building blocks), ๊ทธ๋ฆฌ๊ณ  ํ—ค๋“œ(head)๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์Šคํ…œ์€ ์ ์€ ๊ณ„์‚ฐ ๋น„์šฉ์„ ๋ฐœ์ƒ์‹œํ‚ค๋ฏ€๋กœ, ํšจ์œจ์„ฑ ์ค‘์‹ฌ์˜ ๋ชจ๋ธ ์„ค๊ณ„๋Š” ๋‚˜๋จธ์ง€ ์„ธ ๋ถ€๋ถ„์—์„œ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.

(1) ๊ฒฝ๋Ÿ‰ ๋ถ„๋ฅ˜ ํ—ค๋“œ(Lightweight classification head):

YOLO ๋ชจ๋ธ์—์„œ๋Š” ๋ณดํ†ต ๋ถ„๋ฅ˜ ํ—ค๋“œ์™€ ํšŒ๊ท€ ํ—ค๋“œ๊ฐ€ ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋‘ ํ—ค๋“œ๋Š” ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ์—์„œ ํ˜„์ €ํ•œ ์ฐจ์ด๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOv8-S์—์„œ ๋ถ„๋ฅ˜ ํ—ค๋“œ์˜ FLOPs์™€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(5.95G/1.51M)๋Š” ํšŒ๊ท€ ํ—ค๋“œ์˜ FLOPs์™€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(2.34G/0.64M)๋ณด๋‹ค ๊ฐ๊ฐ 2.5๋ฐฐ์™€ 2.4๋ฐฐ ๋” ํฝ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜์™€ ํšŒ๊ท€ ์˜ค๋ฅ˜๊ฐ€ YOLO ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ํšŒ๊ท€ ํ—ค๋“œ๊ฐ€ YOLO ์„ฑ๋Šฅ์— ๋” ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ถ„๋ฅ˜ ํ—ค๋“œ์˜ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์—ฌ๋„ ์„ฑ๋Šฅ ์ €ํ•˜์— ๋Œ€ํ•œ ์šฐ๋ ค ์—†์ด ๋ชจ๋ธ์„ ๊ฒฝ๋Ÿ‰ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ์ปค๋„ ํฌ๊ธฐ๊ฐ€ 3ร—3์ธ ๋‘ ๊ฐœ์˜ ๊นŠ์ด ๋ถ„๋ฆฌํ˜• ์ปจ๋ณผ๋ฃจ์…˜(depthwise separable convolutions)๊ณผ 1ร—1 ์ปจ๋ณผ๋ฃจ์…˜์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ฒฝ๋Ÿ‰ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ถ„๋ฅ˜ ํ—ค๋“œ์— ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.

(2) ๊ณต๊ฐ„-์ฑ„๋„ ๋ถ„๋ฆฌ ๋‹ค์šด์ƒ˜ํ”Œ๋ง(Spatial-channel decoupled downsampling):

YOLO๋Š” ๋ณดํ†ต 3ร—3 ํ‘œ์ค€ ์ปจ๋ณผ๋ฃจ์…˜์„ ์ŠคํŠธ๋ผ์ด๋“œ 2๋กœ ํ™œ์šฉํ•˜์—ฌ ๊ณต๊ฐ„ ๋‹ค์šด์ƒ˜ํ”Œ๋ง(ํ•ด์ƒ๋„๋ฅผ Hร—W์—์„œ H2ร—W2๋กœ ์ค„์ž„)๊ณผ ์ฑ„๋„ ๋ณ€ํ™˜(์ฑ„๋„ ์ˆ˜๋ฅผ C์—์„œ 2C๋กœ ์ฆ๊ฐ€)์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” O(92HWC2)์˜ ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ O(18C2)์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๋ฐœ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ๋Œ€์‹ , ์šฐ๋ฆฌ๋Š” ๊ณต๊ฐ„ ๊ฐ์†Œ์™€ ์ฑ„๋„ ์ฆ๊ฐ€ ์ž‘์—…์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ณด๋‹ค ํšจ์œจ์ ์ธ ๋‹ค์šด์ƒ˜ํ”Œ๋ง์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋จผ์ € ํฌ์ธํŠธ์™€์ด์ฆˆ ์ปจ๋ณผ๋ฃจ์…˜(pointwise convolution)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ฑ„๋„ ์ฐจ์›์„ ์กฐ์ ˆํ•˜๊ณ , ์ดํ›„ ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜(depthwise convolution)์„ ์ด์šฉํ•ด ๊ณต๊ฐ„ ๋‹ค์šด์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์„ O(2HWC2+92HWC)๋กœ, ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ O(2C2+18C)๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์ค‘ ์ •๋ณด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜์—ฌ ์„ฑ๋Šฅ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ค„์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

(3) ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ์„ค๊ณ„(Rank-guided block design):

YOLO ๋ชจ๋ธ๋“ค์€ ๋ณดํ†ต ๋ชจ๋“  ์Šคํ…Œ์ด์ง€์— ๋™์ผํ•œ ๊ธฐ๋ณธ ๋นŒ๋”ฉ ๋ธ”๋ก์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค [27, 59]. ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOv8์—์„œ๋Š” ๋ณ‘๋ชฉ ๋ธ”๋ก(bottleneck block)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค [20]. ์ด๋Ÿฌํ•œ ๊ท ์ผํ•œ ์„ค๊ณ„๊ฐ€ YOLO์— ์ตœ์ ์ธ์ง€ ์ฒ ์ €ํžˆ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๊ฐ ์Šคํ…Œ์ด์ง€์˜ ์ค‘๋ณต์„ฑ์„ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์œ  ๋žญํฌ(intrinsic rank)๋ฅผ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ๊ฐ ์Šคํ…Œ์ด์ง€์˜ ๋งˆ์ง€๋ง‰ ๊ธฐ๋ณธ ๋ธ”๋ก์—์„œ ๋งˆ์ง€๋ง‰ ์ปจ๋ณผ๋ฃจ์…˜์˜ ์ˆ˜์น˜์  ๋žญํฌ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ, ์ž„๊ณ„๊ฐ’๋ณด๋‹ค ํฐ ํŠน์ด๊ฐ’์˜ ์ˆ˜๋ฅผ ์…‰๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 3.(a)๋Š” YOLOv8์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊นŠ์€ ์Šคํ…Œ์ด์ง€์™€ ํฐ ๋ชจ๋ธ์ด ๋” ๋‚ฎ์€ ๊ณ ์œ  ๋žญํฌ ๊ฐ’์„ ๋ณด์ด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ด€์ฐฐ์€ ๋ชจ๋“  ์Šคํ…Œ์ด์ง€์— ๋™์ผํ•œ ๋ธ”๋ก ์„ค๊ณ„๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ-ํšจ์œจ์„ฑ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์œ„ํ•ด ์ตœ์ ์ด ์•„๋‹˜์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ์„ค๊ณ„ ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์—ฌ, ์ค‘๋ณต์„ฑ์ด ๋งŽ์€ ์Šคํ…Œ์ด์ง€์— ๋Œ€ํ•ด ๋ณต์žก์„ฑ์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ์ปดํŒฉํŠธํ•œ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋จผ์ €, ์šฐ๋ฆฌ๋Š” ๊ณต๊ฐ„ ํ˜ผํ•ฉ์„ ์œ„ํ•œ ์ €๋ ดํ•œ ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜๊ณผ ์ฑ„๋„ ํ˜ผํ•ฉ์„ ์œ„ํ•œ ๋น„์šฉ ํšจ์œจ์ ์ธ ํฌ์ธํŠธ์™€์ด์ฆˆ ์ปจ๋ณผ๋ฃจ์…˜์„ ์ฑ„ํƒํ•œ ์ปดํŒฉํŠธ ์ธ๋ฒ„ํ‹ฐ๋“œ ๋ธ”๋ก(compact inverted block, CIB) ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ธ”๋ก์€ ELAN ๊ตฌ์กฐ [58, 20]์— ํšจ์œจ์ ์ธ ๊ธฐ๋ณธ ๋นŒ๋”ฉ ๋ธ”๋ก์œผ๋กœ ์‚ฝ์ž…๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ, ์šฐ๋ฆฌ๋Š” ์ตœ๊ณ ์˜ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์šฉ๋Ÿ‰์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด, ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ํ• ๋‹น ์ „๋žต์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ฃผ์–ด์ง„ ๋ชจ๋ธ์˜ ๋ชจ๋“  ์Šคํ…Œ์ด์ง€๋ฅผ ๊ณ ์œ  ๋žญํฌ์— ๋”ฐ๋ผ ์˜ค๋ฆ„์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•œ ํ›„, ์Šคํ…Œ์ด์ง€์˜ ๊ธฐ๋ณธ ๋ธ”๋ก์„ CIB๋กœ ๊ต์ฒดํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์—†์œผ๋ฉด ๋‹ค์Œ ์Šคํ…Œ์ด์ง€๋กœ ์ด๋™ํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ํ”„๋กœ์„ธ์Šค๋ฅผ ์ค‘๋‹จํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, ์Šคํ…Œ์ด์ง€์™€ ๋ชจ๋ธ ๊ทœ๋ชจ์— ๋”ฐ๋ผ ์ ์‘์ ์œผ๋กœ ์ปดํŒฉํŠธํ•œ ๋ธ”๋ก ์„ค๊ณ„๋ฅผ ๊ตฌํ˜„ํ•˜์—ฌ, ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ๋ถ€๋ก์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ •ํ™•์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„(Accuracy driven model design)

ํšจ์œจ์„ฑ ์ค‘์‹ฌ ์„ค๊ณ„ ์™ธ์—๋„, ์ •ํ™•์„ฑ ์ค‘์‹ฌ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ๋น„์šฉ์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜๊ณผ ์ž๊ธฐ ์ฃผ์˜(self-attention)๋ฅผ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

(1) ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜(Large-kernel convolution):

๋Œ€ํ˜• ์ปค๋„ ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ์ˆ˜์šฉ ์˜์—ญ์„ ํ™•์žฅํ•˜๊ณ  ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค [9, 38, 37]. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋ฅผ ๋ชจ๋“  ์Šคํ…Œ์ด์ง€์— ๋‹จ์ˆœํžˆ ์ ์šฉํ•˜๋ฉด, ์ž‘์€ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์–•์€ ํŠน์ง•์ด ์˜ค์—ผ๋˜๊ณ , ๊ณ ํ•ด์ƒ๋„ ์Šคํ…Œ์ด์ง€์—์„œ ์ƒ๋‹นํ•œ I/O ์˜ค๋ฒ„ํ—ค๋“œ์™€ ์ง€์—ฐ์„ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [7]. ๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” ๊นŠ์€ ์Šคํ…Œ์ด์ง€ ๋‚ด์—์„œ CIB์˜ ๋‘ ๋ฒˆ์งธ 3ร—3 ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜์˜ ์ปค๋„ ํฌ๊ธฐ๋ฅผ 7ร—7๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค [37]. ์ถ”๊ฐ€๋กœ, ๊ตฌ์กฐ์  ์žฌ๊ตฌ์„ฑ ๊ธฐ๋ฒ• [10, 9, 53]์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ๋˜ ๋‹ค๋ฅธ 3ร—3 ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜ ๋ถ„๊ธฐ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด, ์ˆ˜์šฉ ์˜์—ญ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ™•์žฅ๋˜๋ฏ€๋กœ ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜์˜ ์ด์ ์ด ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜์„ ์ž‘์€ ๋ชจ๋ธ ํฌ๊ธฐ์—๋งŒ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.

(2) ๋ถ€๋ถ„ ์ž๊ธฐ ์ฃผ์˜(Partial self-attention, PSA):

์ž๊ธฐ ์ฃผ์˜(self-attention) [52]๋Š” ๋›ฐ์–ด๋‚œ ๊ธ€๋กœ๋ฒŒ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ ๋•๋ถ„์— ๋‹ค์–‘ํ•œ ๋น„์ „ ์ž‘์—…์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค [36, 13, 70]. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ๋†’์€ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ฃผ์˜ ํ—ค๋“œ์˜ ์ค‘๋ณต์„ฑ์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด [63], ์šฐ๋ฆฌ๋Š” ํšจ์œจ์ ์ธ ๋ถ€๋ถ„ ์ž๊ธฐ ์ฃผ์˜(PSA) ๋ชจ๋“ˆ์„ ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” 1ร—1 ์ปจ๋ณผ๋ฃจ์…˜ ์ดํ›„ ์ฑ„๋„์„ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ท ๋“ฑํ•˜๊ฒŒ ๋ถ„ํ• ํ•œ ํ›„, ํ•œ ๋ถ€๋ถ„๋งŒ์„ MHSA(๋‹ค์ค‘ ํ—ค๋“œ ์ž๊ธฐ ์ฃผ์˜ ๋ชจ๋“ˆ)์™€ FFN(ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ)๋กœ ๊ตฌ์„ฑ๋œ NPSA ๋ธ”๋ก์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ, ๋‘ ๋ถ€๋ถ„์„ ๊ฒฐํ•ฉํ•˜์—ฌ 1ร—1 ์ปจ๋ณผ๋ฃจ์…˜์œผ๋กœ ์œตํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, [21]์„ ๋”ฐ๋ผ MHSA์—์„œ ์ฟผ๋ฆฌ์™€ ํ‚ค์˜ ์ฐจ์›์„ ๊ฐ’์˜ ์ ˆ๋ฐ˜์œผ๋กœ ํ• ๋‹นํ•˜๊ณ , ๋น ๋ฅธ ์ถ”๋ก ์„ ์œ„ํ•ด LayerNorm [1]์„ BatchNorm [26]์œผ๋กœ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค. ์ถ”๊ฐ€๋กœ, PSA๋Š” ๊ฐ€์žฅ ๋‚ฎ์€ ํ•ด์ƒ๋„์˜ ์Šคํ…Œ์ด์ง€ 4 ์ดํ›„์—๋งŒ ๋ฐฐ์น˜ํ•˜์—ฌ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, ์šฐ๋ฆฌ๋Š” ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•์„ฑ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถ˜ ์ ์‘ํ˜• ๋ธ”๋ก ์„ค๊ณ„๋ฅผ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.

5. ์‹คํ—˜ (Experiments)

5.1 ๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ

YOLOv8 [20]์„ ๊ธฐ๋ณธ ๋ชจ๋ธ๋กœ ์„ ํƒํ•œ ์ด์œ ๋Š” ๋›ฐ์–ด๋‚œ ์ง€์—ฐ ์‹œ๊ฐ„-์ •ํ™•๋„ ๊ท ํ˜•์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ๋กœ ์ œ๊ณต๋˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” NMS๊ฐ€ ํ•„์š” ์—†๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•ด ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น ์ „๋žต์„ ์‚ฌ์šฉํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํšจ์œจ์„ฑ-์ •ํ™•๋„ ์ค‘์‹ฌ์˜ ๋ชจ๋ธ ์„ค๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ YOLOv10 ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. YOLOv10์€ YOLOv8๊ณผ ๋™์ผํ•œ N / S / M / L / X ๋ณ€ํ˜•์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, YOLOv10-M์˜ ๋„ˆ๋น„ ์Šค์ผ€์ผ ํŒฉํ„ฐ๋ฅผ ์ฆ๊ฐ€์‹œ์ผœ ์ƒˆ๋กœ์šด ๋ณ€ํ˜•์ธ YOLOv10-B๋ฅผ ๋„์ถœํ–ˆ์Šต๋‹ˆ๋‹ค. COCO [33] ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋™์ผํ•œ ์ดˆ๊ธฐ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ์„ค์ •์—์„œ ์ œ์•ˆ๋œ ํƒ์ง€๊ธฐ๋ฅผ ๊ฒ€์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ชจ๋“  ๋ชจ๋ธ์˜ ์ง€์—ฐ ์‹œ๊ฐ„์€ [71]์— ๋”ฐ๋ผ T4 GPU์—์„œ TensorRT FP16์œผ๋กœ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค.

5.2 ์ตœ์‹  ๊ธฐ์ˆ ๊ณผ์˜ ๋น„๊ต

![ํ‘œ 1: ์ตœ์‹  ๊ธฐ์ˆ ๋“ค๊ณผ์˜ ๋น„๊ต. ์ง€์—ฐ ์‹œ๊ฐ„์€ ๊ณต์‹์ ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธก์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Latencyf๋Š” ํ›„์ฒ˜๋ฆฌ ์—†์ด ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ์˜ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. โ€ ๋Š” NMS๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์›๋ž˜์˜ ์ผ๋Œ€๋‹ค ํ›ˆ๋ จ์„ ํ†ตํ•ด ์–ป์€ YOLOv10์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์•„๋ž˜์˜ ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” ์ง€์‹ ์ฆ๋ฅ˜๋‚˜ PGI์™€ ๊ฐ™์€ ์ถ”๊ฐ€์ ์ธ ๊ณ ๊ธ‰ ํ›ˆ๋ จ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.](/img/user/images/Yolov10 review images/Untitled 3.png)

ํ‘œ 1: ์ตœ์‹  ๊ธฐ์ˆ ๋“ค๊ณผ์˜ ๋น„๊ต. ์ง€์—ฐ ์‹œ๊ฐ„์€ ๊ณต์‹์ ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธก์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Latencyf๋Š” ํ›„์ฒ˜๋ฆฌ ์—†์ด ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ์˜ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. โ€ ๋Š” NMS๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์›๋ž˜์˜ ์ผ๋Œ€๋‹ค ํ›ˆ๋ จ์„ ํ†ตํ•ด ์–ป์€ YOLOv10์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์•„๋ž˜์˜ ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” ์ง€์‹ ์ฆ๋ฅ˜๋‚˜ PGI์™€ ๊ฐ™์€ ์ถ”๊ฐ€์ ์ธ ๊ณ ๊ธ‰ ํ›ˆ๋ จ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

ํ‘œ 1์— ๋‚˜ํƒ€๋‚œ ๋ฐ”์™€ ๊ฐ™์ด, ์šฐ๋ฆฌ์˜ YOLOv10์€ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ๊ณผ ์—”๋“œ ํˆฌ ์—”๋“œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ €, YOLOv10์„ ๊ธฐ๋ณธ ๋ชจ๋ธ์ธ YOLOv8๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. N / S / M / L / X์˜ ๋‹ค์„ฏ ๊ฐ€์ง€ ๋ณ€ํ˜•์—์„œ ์šฐ๋ฆฌ์˜ YOLOv10์€ 1.2% / 1.4% / 0.5% / 0.3% / 0.5% AP ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, 28% / 36% / 41% / 44% / 57%์˜ ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ, 23% / 24% / 25% / 27% / 38%์˜ ๋” ์ ์€ ๊ณ„์‚ฐ, ๊ทธ๋ฆฌ๊ณ  70% / 65% / 50% / 41% / 37%์˜ ๋” ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค๋ฅธ YOLO ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ๋„, YOLOv10์€ ์ •ํ™•๋„์™€ ๊ณ„์‚ฐ ๋น„์šฉ ๊ฐ„์˜ ๋›ฐ์–ด๋‚œ ๊ท ํ˜•์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ๊ณผ ์†Œํ˜• ๋ชจ๋ธ์—์„œ, YOLOv10-N / S๋Š” YOLOv6-3.0-N / S๋ณด๋‹ค ๊ฐ๊ฐ 1.5 AP์™€ 2.0 AP ๋” ์šฐ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ค‘๊ฐ„ ๋ชจ๋ธ์—์„œ๋Š”, YOLOv9-C / YOLO-MS์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ YOLOv10-B / M์€ ๋™์ผํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์—์„œ ๊ฐ๊ฐ 46% / 62%์˜ ์ง€์—ฐ ์‹œ๊ฐ„ ๊ฐ์†Œ๋ฅผ ๋ˆ„๋ ธ์Šต๋‹ˆ๋‹ค. ๋Œ€ํ˜• ๋ชจ๋ธ์—์„œ๋Š”, Gold-YOLO-L๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์šฐ๋ฆฌ์˜ YOLOv10-L์€ 68% ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ 32% ๋” ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋ณด์˜€์œผ๋ฉฐ, 1.4% AP์˜ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, RT-DETR๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, YOLOv10์€ ์„ฑ๋Šฅ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์—์„œ ํฐ ๊ฐœ์„ ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, YOLOv10-S / X๋Š” RT-DETR-R18 / R101๋ณด๋‹ค ๊ฐ๊ฐ 1.8๋ฐฐ, 1.3๋ฐฐ ๋” ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” YOLOv10์ด ์‹ค์‹œ๊ฐ„ ์—”๋“œ ํˆฌ ์—”๋“œ ํƒ์ง€๊ธฐ๋กœ์„œ์˜ ์šฐ์ˆ˜์„ฑ์„ ์ž˜ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ๋˜ํ•œ YOLOv10์„ ๋‹ค๋ฅธ YOLO ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋น„๊ต์—์„œ๋Š” NMS ์—†์ด ์›๋ž˜์˜ ์ผ๋Œ€๋‹ค ํ›ˆ๋ จ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ๊ณผ์ •(Latencyf)์—์„œ์˜ ์„ฑ๋Šฅ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๊ณ ๋ คํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 1์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, YOLOv10์€ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์Šค์ผ€์ผ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ์˜ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

5.3 ๋ชจ๋ธ ๋ถ„์„

![Untitled](/img/user/images/Yolo images/Untitled 4.png)

![Untitled](/img/user/images/Yolo images/Untitled 5.png)

5.3.1 ์ ˆ์ถฉ ์—ฐ๊ตฌ(Ablation study)

ํ‘œ 2์— ๊ธฐ๋ฐ˜ํ•œ YOLOv10-S ๋ฐ YOLOv10-M์˜ ์ ˆ์ถฉ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ NMS๊ฐ€ ํ•„์š” ์—†๋Š” ํ›ˆ๋ จ์€ YOLOv10-S์˜ ์—”๋“œ ํˆฌ ์—”๋“œ ์ง€์—ฐ ์‹œ๊ฐ„์„ 4.63ms ์ค„์ด๋ฉด์„œ๋„ 44.3% AP์˜ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํšจ์œจ์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„๋Š” 11.8M์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ 20.8 GFLOPs๋ฅผ ์ค„์ด๋ฉฐ, YOLOv10-M์˜ ์ง€์—ฐ ์‹œ๊ฐ„์„ 0.65ms ์ƒ๋‹นํžˆ ์ค„์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด, ์ •ํ™•๋„ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„๋Š” YOLOv10-S์™€ YOLOv10-M์— ๋Œ€ํ•ด ๊ฐ๊ฐ 1.8 AP์™€ 0.7 AP์˜ ํ˜„์ €ํ•œ ๊ฐœ์„ ์„ ๊ฐ€์ ธ์™”์œผ๋ฉฐ, ์ง€์—ฐ ์‹œ๊ฐ„ ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ๊ฐ๊ฐ 0.18ms์™€ 0.17ms์— ๋ถˆ๊ณผํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ ์„ค๊ณ„ ์ „๋žต์˜ ์šฐ์ˆ˜์„ฑ์„ ์ž˜ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

5.3.2 NMS-Free ํ›ˆ๋ จ์„ ์œ„ํ•œ ๋ถ„์„:

  • ์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น(Dual label assignments)
    ์šฐ๋ฆฌ๋Š” NMS๊ฐ€ ํ•„์š” ์—†๋Š” YOLO๋ฅผ ์œ„ํ•ด ์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น ๋ฐฉ์‹์„ ์ œ์‹œํ•˜๋ฉฐ, ์ด๋Š” ํ›ˆ๋ จ ์‹œ ์ผ๋Œ€๋‹ค(o2m) ๋ถ„๊ธฐ์˜ ํ’๋ถ€ํ•œ ์ง€๋„ ์‹ ํ˜ธ์™€ ์ถ”๋ก  ์‹œ ์ผ๋Œ€์ผ(o2o) ๋ถ„๊ธฐ์˜ ๋†’์€ ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” YOLOv8-S๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด ๋ฐฉ์‹์˜ ์ด์ ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค(ํ‘œ 2์˜ #1). ๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” o2m ๋ถ„๊ธฐ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ํ›ˆ๋ จ๊ณผ o2o ๋ถ„๊ธฐ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ํ›ˆ๋ จ์„ ๊ฐ๊ฐ ์†Œ๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 3์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์šฐ๋ฆฌ์˜ ์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น ๋ฐฉ์‹์€ ์ตœ๊ณ ์˜ AP-์ง€์—ฐ ์‹œ๊ฐ„ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ(Consistent matching metric)
    ์šฐ๋ฆฌ๋Š” ์ผ๋Œ€์ผ ํ—ค๋“œ๊ฐ€ ์ผ๋Œ€๋‹ค ํ—ค๋“œ์™€ ๋” ์กฐํ™”๋ฅผ ์ด๋ฃจ๋„๋ก ์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋ฅผ YOLOv8-S(ํ‘œ 2์˜ #1)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ฮฑo2o์™€ ฮฒo2o์—์„œ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 4์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์ œ์•ˆ๋œ ์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ, ์ฆ‰ ฮฑo2o=rโ‹…ฮฑo2m ๋ฐ ฮฒo2o=rโ‹…ฮฒo2m์€ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์„œ ฮฑo2m=0.5 ๋ฐ ฮฒo2m=6.0์€ ์ผ๋Œ€๋‹ค ํ—ค๋“œ์—์„œ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค [20]. ์ด๋Ÿฌํ•œ ๊ฐœ์„ ์€ ์ง€๋„ ๊ฐ„๊ฒฉ์˜ ๊ฐ์†Œ(Eq. (2))์— ๊ธฐ์ธํ•˜๋ฉฐ, ์ด๋Š” ๋‘ ๋ถ„๊ธฐ ๊ฐ„์˜ ์ง€๋„ ์ •๋ ฌ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ œ์•ˆ๋œ ์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ์€ ์‹ค์šฉ์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋งค๋ ฅ์ ์ธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์˜ ํ•„์š”์„ฑ์„ ์—†์• ์ค๋‹ˆ๋‹ค.

5.3.4 ํšจ์œจ์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๋ถ„์„

์šฐ๋ฆฌ๋Š” YOLOv10-S/M์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํšจ์œจ์„ฑ ์ค‘์‹ฌ ์„ค๊ณ„ ์š”์†Œ๋“ค์„ ์ ์ง„์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ ๋ชจ๋ธ์€ ํšจ์œจ์„ฑ-์ •ํ™•์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„๊ฐ€ ์—†๋Š” YOLOv10-S/M ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค(ํ‘œ 2์˜ #2/#6). ํ‘œ 5์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ถ„๋ฅ˜ ํ—ค๋“œ, ๊ณต๊ฐ„-์ฑ„๋„ ๋ถ„๋ฆฌ ๋‹ค์šด์ƒ˜ํ”Œ๋ง, ๊ทธ๋ฆฌ๊ณ  ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ์„ค๊ณ„๋ฅผ ํฌํ•จํ•œ ๊ฐ ์„ค๊ณ„ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜, FLOPs, ๊ทธ๋ฆฌ๊ณ  ์ง€์—ฐ ์‹œ๊ฐ„ ๊ฐ์†Œ์— ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ์ด๋Ÿฌํ•œ ๊ฐœ์„ ์€ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋‹ฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ถ„๋ฅ˜ ํ—ค๋“œ(Lightweight classification head)
    ์šฐ๋ฆฌ๋Š” ํ‘œ 5์˜ #1๊ณผ #2์— ์žˆ๋Š” YOLOv10-S๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜ˆ์ธก์˜ ์นดํ…Œ๊ณ ๋ฆฌ ๋ฐ ์œ„์น˜ ์˜ค๋ฅ˜๊ฐ€ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ์ผ๋Œ€์ผ ํ• ๋‹น์„ ํ†ตํ•ด ์˜ˆ์ธก์„ ์ธ์Šคํ„ด์Šค์™€ ๋งค์นญํ•œ ๋‹ค์Œ, ์˜ˆ์ธก๋œ ์นดํ…Œ๊ณ ๋ฆฌ ์ ์ˆ˜๋ฅผ ์ธ์Šคํ„ด์Šค ๋ผ๋ฒจ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜๊ฐ€ ์—†๋Š” APw/ocval๋ฅผ ์–ป์—ˆ์œผ๋ฉฐ, ์œ ์‚ฌํ•˜๊ฒŒ ์˜ˆ์ธก๋œ ์œ„์น˜๋ฅผ ์ธ์Šคํ„ด์Šค์˜ ์œ„์น˜๋กœ ๋Œ€์ฒดํ•˜์—ฌ ํšŒ๊ท€ ์˜ค๋ฅ˜๊ฐ€ ์—†๋Š” APw/orval์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 6์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, APw/orval ํšŒ๊ท€ ์˜ค๋ฅ˜๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ๋ณด๋‹ค ํ›จ์”ฌ ๋†’์œผ๋ฉฐ, ํšŒ๊ท€ ์˜ค๋ฅ˜๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด ๋” ํฐ ๊ฐœ์„ ์„ ์ด๋ฃฐ ์ˆ˜ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์„ฑ๋Šฅ ๋ณ‘๋ชฉ์€ ์ฃผ๋กœ ํšŒ๊ท€ ์ž‘์—…์— ์žˆ์œผ๋ฉฐ, ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ถ„๋ฅ˜ ํ—ค๋“œ๋ฅผ ์ฑ„ํƒํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ํšจ์œจ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ณต๊ฐ„-์ฑ„๋„ ๋ถ„๋ฆฌ ๋‹ค์šด์ƒ˜ํ”Œ๋ง(Spatial-channel decoupled downsampling)
    ์šฐ๋ฆฌ๋Š” ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์ž‘์—…์„ ๋ถ„๋ฆฌํ–ˆ์œผ๋ฉฐ, ์ฑ„๋„ ์ฐจ์›์€ ๋จผ์ € ํฌ์ธํŠธ์™€์ด์ฆˆ ์ปจ๋ณผ๋ฃจ์…˜(PW)์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๊ณ , ํ•ด์ƒ๋„๋Š” ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜(DW)์œผ๋กœ ๊ฐ์†Œ์‹œ์ผœ ์ตœ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋ฅผ ํ‘œ 5์˜ #3์— ์žˆ๋Š” YOLOv10-S๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, DW์— ์˜ํ•œ ๊ณต๊ฐ„ ์ถ•์†Œ ํ›„ PW์— ์˜ํ•œ ์ฑ„๋„ ๋ณ€์กฐ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ณธ ๋ฐฉ์‹๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 7์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์šฐ๋ฆฌ์˜ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์ „๋žต์€ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์ค‘ ์ •๋ณด ์†์‹ค์„ ์ค„์ž„์œผ๋กœ์จ 0.7% AP ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ปดํŒฉํŠธ ์ธ๋ฒ„ํ‹ฐ๋“œ ๋ธ”๋ก(Compact inverted block, CIB)
    ์šฐ๋ฆฌ๋Š” ์ปดํŒฉํŠธํ•œ ๊ธฐ๋ณธ ๋นŒ๋”ฉ ๋ธ”๋ก์œผ๋กœ CIB๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 5์˜ #4์— ์žˆ๋Š” YOLOv10-S๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ทธ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ๊ธฐ์ค€ ๋ชจ๋ธ๋กœ ์ธ๋ฒ„ํ‹ฐ๋“œ ๋ ˆ์ง€๋“€์–ผ ๋ธ”๋ก(IRB)์„ ๋„์ž…ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ํ‘œ 8์—์„œ 43.7% AP๋ผ๋Š” ์•„์‰ฌ์šด ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ํ›„, IRB ๋’ค์— 3ร—3 ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜(DW)์„ ์ถ”๊ฐ€ํ•œ "IRB-DW"๋ผ๋Š” ๋ชจ๋ธ์„ ๋„์ž…ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” 0.5% AP ๊ฐœ์„ ์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. "IRB-DW"์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ, CIB๋Š” ๋˜ ๋‹ค๋ฅธ DW๋ฅผ ์ตœ์†Œํ•œ์˜ ์˜ค๋ฒ„ํ—ค๋“œ๋กœ ์ถ”๊ฐ€ํ•˜์—ฌ 0.3% AP ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, CIB์˜ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ์„ค๊ณ„(Rank-guided block design)
    ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ปดํŒฉํŠธํ•œ ๋ธ”๋ก ์„ค๊ณ„๋ฅผ ์ ์‘์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ์„ค๊ณ„๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋ฅผ ํ‘œ 5์˜ #3์— ์žˆ๋Š” YOLOv10-S๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ทธ ์ด์ ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‚ด์žฌ์  ๋žญํฌ์— ๋”ฐ๋ผ ์˜ค๋ฆ„์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌ๋œ ์Šคํ…Œ์ด์ง€๋Š” Stage 8-4-7-3-5-1-6-2์ด๋ฉฐ, ์ด๋Š” ๊ทธ๋ฆผ 3.(a)์™€ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํ‘œ 9์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ๊ฐ ์Šคํ…Œ์ด์ง€์—์„œ ๋ณ‘๋ชฉ ๋ธ”๋ก์„ ํšจ์œจ์ ์ธ CIB๋กœ ์ ์ง„์ ์œผ๋กœ ๊ต์ฒดํ•  ๋•Œ, Stage 7๋ถ€ํ„ฐ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‚ด์žฌ์  ๋žญํฌ๊ฐ€ ๋‚ฎ๊ณ  ์ค‘๋ณต์„ฑ์ด ๋” ๋งŽ์€ Stage 8๊ณผ 4์—์„œ๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ํšจ์œจ์ ์ธ ๋ธ”๋ก ์„ค๊ณ„๋ฅผ ์ฑ„ํƒํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ์„ค๊ณ„๊ฐ€ ๋ชจ๋ธ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ํšจ๊ณผ์ ์ธ ์ „๋žต์œผ๋กœ ์ž‘์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

5.3.5 ์ •ํ™•์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๋ถ„์„

์šฐ๋ฆฌ๋Š” YOLOv10-S/M์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •ํ™•์„ฑ ์ค‘์‹ฌ ์„ค๊ณ„ ์š”์†Œ๋“ค์„ ์ ์ง„์ ์œผ๋กœ ํ†ตํ•ฉํ•œ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ ๋ชจ๋ธ์€ ํšจ์œจ์„ฑ ์ค‘์‹ฌ ์„ค๊ณ„๊ฐ€ ํ†ตํ•ฉ๋œ YOLOv10-S/M ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค(ํ‘œ 2์˜ #3/#7). ํ‘œ 10์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜๊ณผ PSA ๋ชจ๋“ˆ์„ ๋„์ž…ํ•œ ๊ฒฐ๊ณผ, YOLOv10-S์—์„œ ๊ฐ๊ฐ 0.4% AP์™€ 1.4% AP์˜ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์กŒ์œผ๋ฉฐ, ์ง€์—ฐ ์‹œ๊ฐ„์€ ๊ฐ๊ฐ 0.03ms์™€ 0.15ms๋กœ ์ตœ์†Œํ•œ๋งŒ ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. YOLOv10-M์—๋Š” ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜์ด ์ ์šฉ๋˜์ง€ ์•Š์•˜์Œ์„ ์œ ์˜ํ•˜์‹ญ์‹œ์˜ค(ํ‘œ 12 ์ฐธ์กฐ).

  • ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜(Large-kernel convolution)
    ์šฐ๋ฆฌ๋Š” ํ‘œ 10์˜ #2์— ์žˆ๋Š” YOLOv10-S๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ์ปค๋„ ํฌ๊ธฐ์˜ ์˜ํ–ฅ์„ ์กฐ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 11์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์„ฑ๋Šฅ์€ ์ปค๋„ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๊ฐœ์„ ๋˜์—ˆ์œผ๋ฉฐ, 7ร—7 ์ปค๋„ ํฌ๊ธฐ์—์„œ ์„ฑ๋Šฅ์ด ์ •์ฒด๋˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋„“์€ ์ˆ˜์šฉ ์˜์—ญ์˜ ์ด์ ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ›ˆ๋ จ ์ค‘์— ์žฌ๊ตฌ์„ฑ ๋ถ„๊ธฐ๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด 0.1% AP ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•˜๋ฉฐ, ์ด๋Š” ์ตœ์ ํ™”์— ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด, ์šฐ๋ฆฌ๋Š” YOLOv10-N / S / M์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ ํฌ๊ธฐ๋ณ„ ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜์˜ ์ด์ ์„ ์กฐ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 12์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, YOLOv10-M๊ณผ ๊ฐ™์€ ๋Œ€ํ˜• ๋ชจ๋ธ์—์„œ๋Š” ๋‚ด์žฌ์  ๊ด‘๋ฒ”์œ„ ์ˆ˜์šฉ ์˜์—ญ ๋•Œ๋ฌธ์— ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜์„ ์†Œํ˜• ๋ชจ๋ธ, ์ฆ‰ YOLOv10-N / S์—๋งŒ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋ถ€๋ถ„ ์ž๊ธฐ ์ฃผ์˜(Partial self-attention, PSA)
    PSA๋Š” ์ตœ์†Œํ•œ์˜ ๋น„์šฉ์œผ๋กœ ๊ธ€๋กœ๋ฒŒ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์„ ํ†ตํ•ฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋„์ž…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋ฅผ ํ‘œ 10์˜ #3์— ์žˆ๋Š” YOLOv10-S๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ทธ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ๊ธฐ์ค€ ๋ชจ๋ธ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ ๋ธ”๋ก(์ฆ‰, MHSA ๋ฐ FFN)์„ ๋„์ž…ํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ "Trans."๋กœ ํ‘œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 13์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, PSA๋Š” 0.05ms์˜ ์ง€์—ฐ ์‹œ๊ฐ„ ๊ฐ์†Œ์™€ ํ•จ๊ป˜ 0.3% AP ๊ฐœ์„ ์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์ฃผ์˜ ํ—ค๋“œ์˜ ์ค‘๋ณต์„ฑ์„ ์™„ํ™”ํ•˜์—ฌ ์ž๊ธฐ ์ฃผ์˜์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•œ ๋•๋ถ„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์šฐ๋ฆฌ๋Š” NPSA์˜ ์˜ํ–ฅ์„ ์กฐ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 13์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, NPSA๋ฅผ 2๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด 0.1ms์˜ ์ง€์—ฐ ์‹œ๊ฐ„ ์˜ค๋ฒ„ํ—ค๋“œ์™€ ํ•จ๊ป˜ 0.2% AP ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ชจ๋ธ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ธฐ๋ณธ์ ์œผ๋กœ NPSA๋ฅผ 1๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.

6. ๊ฒฐ๋ก  (Conclusion)

์ด ๋…ผ๋ฌธ์—์„œ ์šฐ๋ฆฌ๋Š” YOLO์˜ ํƒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ ์ „๋ฐ˜์— ๊ฑธ์ณ ํ›„์ฒ˜๋ฆฌ์™€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ชจ๋‘ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ›„์ฒ˜๋ฆฌ ์ธก๋ฉด์—์„œ๋Š” NMS(๋น„์ตœ๋Œ€ ์–ต์ œ) ์—†๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•ด ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น ์ „๋žต์„ ์ œ์•ˆํ•˜์—ฌ ํšจ์œจ์ ์ธ ์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์ธก๋ฉด์—์„œ๋Š” ์„ฑ๋Šฅ-ํšจ์œจ์„ฑ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•œ ์ „์ฒด์ ์ธ ํšจ์œจ์„ฑ-์ •ํ™•์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„ ์ „๋žต์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์‹ค์‹œ๊ฐ„ ์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๊ธฐ์ธ YOLOv10์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ, YOLOv10์ด ๋‹ค๋ฅธ ์ตœ์‹  ํƒ์ง€๊ธฐ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ๊ณผ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๊ทธ ์šฐ์ˆ˜์„ฑ์„ ์ž˜ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Abstract (์ดˆ๋ก)

์ง€๋‚œ ๋ช‡ ๋…„๊ฐ„, YOLO๋Š”ย ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ํƒ์ง€ ์„ฑ๋Šฅ ๊ฐ„์˜ ๊ท ํ˜•์„ ํšจ๊ณผ์ ์œผ๋กœ ๋งž์ถ”๋ฉฐ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€ ๋ถ„์•ผ์—์„œ ์ง€๋ฐฐ์ ์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค์€ YOLO์˜ ์•„ํ‚คํ…์ฒ˜ ๋””์ž์ธ, ์ตœ์ ํ™” ๋ชฉํ‘œ, ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์ „๋žต ๋“ฑ์„ ํƒ๊ตฌํ•˜์—ฌ ์ƒ๋‹นํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋‹ค์Œ๊ณผ ๊ฐ™์€ย ๋ฌธ์ œ์ ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค:

๋ณธ ์—ฐ๊ตฌ์˜ ๋ชฉํ‘œ๋Š”:

์ด๋ฅผ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ย ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค:

๊ฒฐ๊ณผ:


Introduction (์†Œ๊ฐœ)

์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์˜ ์ค‘์š”์„ฑ ๋ฐ YOLO์˜ ์—ญํ• 

YOLO์˜ ํƒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ ๋ฐ ๋ฌธ์ œ์ 

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„์˜ ๋„์ „ ๊ณผ์ œ


Related Work (๊ด€๋ จ ์—ฐ๊ตฌ)

3.1 ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€๊ธฐ

์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๊ธฐ


Methodology (๋ฐฉ๋ฒ•๋ก )

4.1 NMS-Free ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น ์ „๋žต

images/Yolov10 review images/Untitled.png
(a) NMS๊ฐ€ ํ•„์š” ์—†๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น.
(b) ๊ธฐ๋ณธ์ ์œผ๋กœ ฮฑo2m=0.5 ๋ฐ ฮฒo2m=6 ์„ ์‚ฌ์šฉํ•˜๋Š” YOLOv8-S์—์„œ ์ผ๋Œ€๋‹ค ๊ฒฐ๊ณผ์˜ ์ƒ์œ„ 1/5/10์—์„œ ์ผ๋Œ€์ผ ํ• ๋‹น ๋นˆ๋„ [20]. ์ผ๊ด€์„ฑ์„ ์œ„ํ•ด, ฮฑo2o=0.5 ฮฑo2o=0.5ฮฒo2o=6 (r =1 )
์ผ๊ด€์„ฑ ์—†๋Š” ๊ฒฝ์šฐ, ฮฑo2o=0.5; ฮฒo2o=2 ](Untitled.png)

๊ทธ๋ฆผ 2 : (a) NMS๊ฐ€ ํ•„์š” ์—†๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ผ๊ด€๋œ ์ด์ค‘ ํ• ๋‹น.
(b) ๊ธฐ๋ณธ์ ์œผ๋กœ ฮฑo2m=0.5 ๋ฐ ฮฒo2m=6 ์„ ์‚ฌ์šฉํ•˜๋Š” YOLOv8-S์—์„œ ์ผ๋Œ€๋‹ค ๊ฒฐ๊ณผ์˜ ์ƒ์œ„ 1/5/10์—์„œ ์ผ๋Œ€์ผ ํ• ๋‹น ๋นˆ๋„ [20]. ์ผ๊ด€์„ฑ์„ ์œ„ํ•ด, ฮฑo2o=0.5 ฮฑo2o=0.5ฮฒo2o=6 (r =1 )
์ผ๊ด€์„ฑ ์—†๋Š” ๊ฒฝ์šฐ, ฮฑo2o=0.5; ฮฒo2o=2

์ด์ค‘ ๋ ˆ์ด๋ธ” ํ• ๋‹น (Dual label assignments)

์ผ๊ด€๋œ ๋งค์นญ ๋ฉ”ํŠธ๋ฆญ (Consistent matching metric)

4.2 ์ „๋ฐ˜์ ์ธ ํšจ์œจ์„ฑ-์ •ํ™•์„ฑ ์ค‘์‹ฌ์˜ ๋ชจ๋ธ ์„ค๊ณ„

images/Yolov10 review images/Untitled 1.png
(a) YOLOv8์—์„œ ์Šคํ…Œ์ด์ง€์™€ ๋ชจ๋ธ ์ „๋ฐ˜์— ๊ฑธ์นœ ๊ณ ์œ  ๋žญํฌ. ๋ฐฑ๋ณธ๊ณผ ๋„ฅ์˜ ์Šคํ…Œ์ด์ง€๋Š” ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ์ˆœ์„œ์— ๋”ฐ๋ผ ๋ฒˆํ˜ธ๊ฐ€ ๋งค๊ฒจ์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์น˜ ๋žญํฌ r์€ y์ถ•์—์„œ r/Co๋กœ ์ •๊ทœํ™”๋˜๋ฉฐ, ์ž„๊ณ„๊ฐ’์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ฮปmax/2๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ Co๋Š” ์ถœ๋ ฅ ์ฑ„๋„ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , ฮปmax๋Š” ๊ฐ€์žฅ ํฐ ํŠน์ด๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊นŠ์€ ์Šคํ…Œ์ด์ง€์™€ ํฐ ๋ชจ๋ธ์ด ๋” ๋‚ฎ์€ ๊ณ ์œ  ๋žญํฌ ๊ฐ’์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
(b) ์ปดํŒฉํŠธ ์ธ๋ฒ„ํ‹ฐ๋“œ ๋ธ”๋ก(CIB).
(c) ๋ถ€๋ถ„ ์ž๊ธฐ ์ฃผ์˜ ๋ชจ๋“ˆ(PSA).](Untitled%201.png)

๊ทธ๋ฆผ 3. (a) YOLOv8์—์„œ ์Šคํ…Œ์ด์ง€์™€ ๋ชจ๋ธ ์ „๋ฐ˜์— ๊ฑธ์นœ ๊ณ ์œ  ๋žญํฌ. ๋ฐฑ๋ณธ๊ณผ ๋„ฅ์˜ ์Šคํ…Œ์ด์ง€๋Š” ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ์ˆœ์„œ์— ๋”ฐ๋ผ ๋ฒˆํ˜ธ๊ฐ€ ๋งค๊ฒจ์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์น˜ ๋žญํฌ r์€ y์ถ•์—์„œ r/Co๋กœ ์ •๊ทœํ™”๋˜๋ฉฐ, ์ž„๊ณ„๊ฐ’์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ฮปmax/2๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ Co๋Š” ์ถœ๋ ฅ ์ฑ„๋„ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , ฮปmax๋Š” ๊ฐ€์žฅ ํฐ ํŠน์ด๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊นŠ์€ ์Šคํ…Œ์ด์ง€์™€ ํฐ ๋ชจ๋ธ์ด ๋” ๋‚ฎ์€ ๊ณ ์œ  ๋žญํฌ ๊ฐ’์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
(b) ์ปดํŒฉํŠธ ์ธ๋ฒ„ํ‹ฐ๋“œ ๋ธ”๋ก(CIB).
(c) ๋ถ€๋ถ„ ์ž๊ธฐ ์ฃผ์˜ ๋ชจ๋“ˆ(PSA).

ํšจ์œจ์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„

  1. ๊ฒฝ๋Ÿ‰ ๋ถ„๋ฅ˜ ํ—ค๋“œ(Lightweight classification head):
    • ์ฐจ์ด์ : YOLO ๋ชจ๋ธ์—์„œ Classification ํ—ค๋“œ์™€ Regression ํ—ค๋“œ๋Š” ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ๊ณต์œ ํ•˜์ง€๋งŒ, ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ์—์„œ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ž„.
    • ๊ฒฝ๋Ÿ‰ํ™” ๋ฐฉ๋ฒ•: ๋ถ„๋ฅ˜ ํ—ค๋“œ์˜ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ดย ์ปค๋„ ํฌ๊ธฐ 3ร—3์˜ Depth-wise ์ปจ๋ณผ๋ฃจ์…˜๊ณผย **1ร—1 ์ปจ๋ณผ๋ฃจ์…˜(Point-wise Conv)**์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ฒฝ๋Ÿ‰ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฑ„ํƒ.
  2. ๊ณต๊ฐ„-์ฑ„๋„ ๋ถ„๋ฆฌ ๋‹ค์šด์ƒ˜ํ”Œ๋ง(Spatial-channel decoupled downsampling):
    • ๊ธฐ์กด ๋ฐฉ๋ฒ•: 3ร—3 ํ‘œ์ค€ ์ปจ๋ณผ๋ฃจ์…˜์„ ์ŠคํŠธ๋ผ์ด๋“œ 2๋กœ ํ™œ์šฉํ•˜์—ฌย ๊ณต๊ฐ„ ๋‹ค์šด์ƒ˜ํ”Œ๋ง๊ณผย ์ฑ„๋„ ๋ณ€ํ™˜์„ ๋™์‹œ์— ์ˆ˜ํ–‰.
    • ์ƒˆ๋กœ์šด ์ ‘๊ทผ: ๊ณต๊ฐ„ ๊ฐ์†Œ์™€ ์ฑ„๋„ ์ฆ๊ฐ€ ์ž‘์—…์„ย ๋ถ„๋ฆฌํ•˜์—ฌ,ย Point-wise Conv์œผ๋กœ ์ฑ„๋„ ์ฐจ์›์„ ์กฐ์ ˆํ•˜๊ณ ,ย  Depth-wise Conv์œผ๋กœ ๊ณต๊ฐ„ ๋‹ค์šด์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰. ์ด๋ฅผ ํ†ตํ•ดย ๊ณ„์‚ฐ ๋น„์šฉ๊ณผย ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ค„์ด๊ณ ย ์„ฑ๋Šฅ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๊ฐœ์„ .
  3. ๋žญํฌ ๊ธฐ๋ฐ˜ ๋ธ”๋ก ์„ค๊ณ„(Rank-guided block design):
    • ๋ฌธ์ œ์ : YOLO ๋ชจ๋ธ์€ ๋ชจ๋“  ์Šคํ…Œ์ด์ง€(layer๋ฅผ ๊ทธ๋ฃนํ™”)์— ๋™์ผํ•œ ๊ธฐ๋ณธ ๋นŒ๋”ฉ ๋ธ”๋ก์„ ์‚ฌ์šฉํ•˜์—ฌย ์ตœ์ ์˜ ์„ฑ๋Šฅ-ํšจ์œจ์„ฑ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋‹ฌ์„ฑํ•˜์ง€ ๋ชปํ•จ.

    • ํ•ด๊ฒฐ์ฑ…: **๊ณ ์œ  ๋žญํฌ(intrinsic rank)**๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ฐ ์Šคํ…Œ์ด์ง€์˜ ์ค‘๋ณต์„ฑ์„ ๋ถ„์„ํ•˜๊ณ ,ย ์ปดํŒฉํŠธ ์ธ๋ฒ„ํ‹ฐ๋“œ ๋ธ”๋ก(CIB)ย ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆ. ๊ณ ์œ  ๋žญํฌ์— ๋”ฐ๋ผ ์Šคํ…Œ์ด์ง€๋ฅผ ์ •๋ ฌํ•˜๊ณ , ์ค‘๋ณต์„ฑ์ด ๋งŽ์€ ์Šคํ…Œ์ด์ง€์— ๋Œ€ํ•ด ๋ณต์žก์„ฑ์„ ์ค„์ธ ๋ธ”๋ก ์„ค๊ณ„.

    • ๊ณ ์œ  ๋žญํฌ ๊ณ„์‚ฐ

      ๊ณ ์œ  ๋žญํฌ(Intrinsic Rank) ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•

      1. ํŠน์ • ๊ณ„์ธต์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ ์„ ํƒ:
        • ๊ณ ์œ  ๋žญํฌ๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด, YOLOv10์˜ ํŠน์ • ์Šคํ…Œ์ด์ง€๋‚˜ ๊ณ„์ธต์˜ ๊ฐ€์ค‘์น˜(weight) ํ–‰๋ ฌ์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ฃผ๋กœ ๋งˆ์ง€๋ง‰ ๊ธฐ๋ณธ ๋ธ”๋ก์—์„œ ๋งˆ์ง€๋ง‰ ์ปจ๋ณผ๋ฃจ์…˜ ์ธต์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
      2. ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVD, Singular Value Decomposition):
        • ์„ ํƒ๋œ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์— ๋Œ€ํ•ด **ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVD)**๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ํŠน์ด๊ฐ’ ๋ถ„ํ•ด๋Š” ํ–‰๋ ฌ์„ ์„ธ ๊ฐœ์˜ ํ–‰๋ ฌ(์™ผ์ชฝ ํŠน์ด ๋ฒกํ„ฐ ํ–‰๋ ฌ, ๋Œ€๊ฐ ํŠน์ด๊ฐ’ ํ–‰๋ ฌ, ์˜ค๋ฅธ์ชฝ ํŠน์ด ๋ฒกํ„ฐ ํ–‰๋ ฌ)๋กœ ๋ถ„ํ•ดํ•˜์—ฌ, ํ•ด๋‹น ํ–‰๋ ฌ์˜ ์ค‘์š”ํ•œ ์„ฑ๋ถ„์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
        • SVD์˜ ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜ค๋Š” ๋Œ€๊ฐ ํŠน์ด๊ฐ’ ํ–‰๋ ฌ์—์„œ **ํŠน์ด๊ฐ’(singular values)**์€ ํ–‰๋ ฌ์˜ ๊ฐ ์ฐจ์›๋ณ„ ์ •๋ณด์˜ ์ค‘์š”๋„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
      3. ํŠน์ด๊ฐ’์˜ ์ž„๊ณ„๊ฐ’ ๊ฒฐ์ •:
        • ํŠน์ด๊ฐ’ ๋ถ„ํ•ด ๊ฒฐ๊ณผ์—์„œ, **์ž„๊ณ„๊ฐ’(threshold)**์„ ์„ค์ •ํ•˜์—ฌ, ๊ทธ ์ด์ƒ์˜ ํŠน์ด๊ฐ’๋งŒ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ž„๊ณ„๊ฐ’์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํŠน์ด๊ฐ’ ์ค‘ **๊ฐ€์žฅ ํฐ ํŠน์ด๊ฐ’ ฮปmax ์˜ ์ ˆ๋ฐ˜ ฮปmax2์œผ๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค.
        • ์ด ์ž„๊ณ„๊ฐ’์„ ๊ธฐ์ค€์œผ๋กœ ์œ ์˜๋ฏธํ•œ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š” ํŠน์ด๊ฐ’์„ ์„ ํƒํ•˜๊ณ , ๊ทธ ๊ฐœ์ˆ˜๋ฅผ ์…‰๋‹ˆ๋‹ค.
      4. ๊ณ ์œ  ๋žญํฌ ๊ณ„์‚ฐ:
        • ์œ„์—์„œ ์„ค์ •ํ•œ ์ž„๊ณ„๊ฐ’ ์ด์ƒ์„ ๊ฐ€์ง€๋Š” ํŠน์ด๊ฐ’์˜ ์ˆ˜๊ฐ€ ํ•ด๋‹น ๊ณ„์ธต ๋˜๋Š” ์Šคํ…Œ์ด์ง€์˜ ๊ณ ์œ  ๋žญํฌ์ž…๋‹ˆ๋‹ค. ์ด ๊ฐ’์€ ๋ชจ๋ธ์ด ํ•ด๋‹น ๊ณ„์ธต์—์„œ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด์˜ ๋ณต์žก๋„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
        • ๊ณ ์œ  ๋žญํฌ๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ํ•ด๋‹น ๊ณ„์ธต์ด ํ‘œํ˜„ํ•˜๋Š” ์ •๋ณด๊ฐ€ ๋œ ๋ณต์žกํ•˜๊ณ , ์ค‘๋ณต์„ฑ์ด ๋งŽ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ •ํ™•์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„(Accuracy driven model design)

  1. ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜(Large-kernel convolution):
    • ์ด์ : ์ˆ˜์šฉ ์˜์—ญ์„ ํ™•์žฅํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•.
    • ์ ์šฉ ๋ฒ”์œ„: ๋ชจ๋“  ์Šคํ…Œ์ด์ง€์— ์ ์šฉํ•˜๋Š” ๋Œ€์‹ ,ย ๊นŠ์€ ์Šคํ…Œ์ด์ง€์—์„œย CIB์˜ ๋‘ ๋ฒˆ์งธ 3ร—3 ๊นŠ์ด๋ณ„ ์ปจ๋ณผ๋ฃจ์…˜์˜ ์ปค๋„ ํฌ๊ธฐ๋ฅผ 7ร—7๋กœ ์ฆ๊ฐ€์‹œ์ผœ ์‚ฌ์šฉ.
      ์žฅ์  : ๋” ๋งŽ์€ ์˜์—ญ์˜ ์ •๋ณด๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Œ โ‡’ ๋” ๋ณต์žกํ•œ ํŒจํ„ด๊ณผ ๋” ๋†’์€ ์ˆ˜์ค€์˜ ํŠน์ง•์„ ์ถ”์ถœ ๊ฐ€๋Šฅ
      ๋‹จ์  : ํ•™์Šต์—์„œ๋งŒ 7x7 ์ปค๋„์„ ์‚ฌ์šฉํ•˜๊ณ  ์ถ”๋ก ์—์„œ๋Š” 3x3 ์‚ฌ์šฉ(๊ตฌ์กฐ์  ์žฌํŒŒ๋ผ๋ฏธํ„ฐํ™”) โ‡’ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ๊ด€๋ฆฌํ•˜๊ณ  ํšจ์œจ์„ฑ์„ ์œ ์ง€
    • ์ž‘์€ ๋ชจ๋ธย ํฌ๊ธฐ์—๋งŒ ๋Œ€ํ˜• ์ปค๋„ ์ปจ๋ณผ๋ฃจ์…˜์„ ์ ์šฉ โ‡’ ๋ชจ๋ธ์ด ์ปค์งˆ์ˆ˜๋ก ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ปค๋„์˜ ํฌ๊ธฐ๋„ ์ปค์ง€๊ธฐ ๋•Œ๋ฌธ
  2. ๋ถ€๋ถ„ self-attention(Partial self-attention, PSA):
    • ๋ฌธ์ œ์ : self-attention๋Š” ๋†’์€ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ํผ.
    • ํ•ด๊ฒฐ์ฑ…: attention ํ—ค๋“œ์˜ ์ค‘๋ณต์„ฑ์„ ์ค„์ด๊ธฐ ์œ„ํ•ดย ํšจ์œจ์ ์ธ ๋ถ€๋ถ„ ์ž๊ธฐ ์ฃผ์˜(PSA) ๋ชจ๋“ˆ์„ ์„ค๊ณ„. 1ร—1 ์ปจ๋ณผ๋ฃจ์…˜ ์ดํ›„ ์ฑ„๋„์„ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋ถ„ํ• ํ•˜๊ณ , ํ•œ ๋ถ€๋ถ„๋งŒ์„ MHSA์™€ FFN์œผ๋กœ ๊ตฌ์„ฑ. PSA๋Š”ย ๊ฐ€์žฅ ๋‚ฎ์€ ํ•ด์ƒ๋„์˜ ์Šคํ…Œ์ด์ง€ 4 ์ดํ›„์—๋งŒ ๋ฐฐ์น˜ํ•˜์—ฌ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ž„.

Experiments (์‹คํ—˜)

5.1 ๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ

์ตœ์‹  ๊ธฐ์ˆ ๊ณผ์˜ ๋น„๊ต

![ํ‘œ 1: ์ตœ์‹  ๊ธฐ์ˆ ๋“ค๊ณผ์˜ ๋น„๊ต. ์ง€์—ฐ ์‹œ๊ฐ„์€ ๊ณต์‹์ ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธก์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Latencyf๋Š” ํ›„์ฒ˜๋ฆฌ ์—†์ด ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ์˜ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. โ€ ๋Š” NMS๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์›๋ž˜์˜ ์ผ๋Œ€๋‹ค ํ›ˆ๋ จ์„ ํ†ตํ•ด ์–ป์€ YOLOv10์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์•„๋ž˜์˜ ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” ์ง€์‹ ์ฆ๋ฅ˜๋‚˜ PGI์™€ ๊ฐ™์€ ์ถ”๊ฐ€์ ์ธ ๊ณ ๊ธ‰ ํ›ˆ๋ จ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.](/img/user/images/Untitled 2.png)

ํ‘œ 1: ์ตœ์‹  ๊ธฐ์ˆ ๋“ค๊ณผ์˜ ๋น„๊ต. ์ง€์—ฐ ์‹œ๊ฐ„์€ ๊ณต์‹์ ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธก์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Latencyf๋Š” ํ›„์ฒ˜๋ฆฌ ์—†์ด ๋ชจ๋ธ์˜ ์ˆœ๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ์˜ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. โ€ ๋Š” NMS๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์›๋ž˜์˜ ์ผ๋Œ€๋‹ค ํ›ˆ๋ จ์„ ํ†ตํ•ด ์–ป์€ YOLOv10์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์•„๋ž˜์˜ ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” ์ง€์‹ ์ฆ๋ฅ˜๋‚˜ PGI์™€ ๊ฐ™์€ ์ถ”๊ฐ€์ ์ธ ๊ณ ๊ธ‰ ํ›ˆ๋ จ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

5.3 ๋ชจ๋ธ ๋ถ„์„

5.3.1 ์ ˆ์ถฉ ์—ฐ๊ตฌ(Ablation study)

5.3.2 NMS-Free ํ›ˆ๋ จ์„ ์œ„ํ•œ ๋ถ„์„

5.3.4 ํšจ์œจ์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๋ถ„์„

5.3.5 ์ •ํ™•์„ฑ ์ค‘์‹ฌ ๋ชจ๋ธ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๋ถ„์„


Conclusion (๊ฒฐ๋ก )

images/Yolov10 review images/Untitled 2.png

๊ทธ๋ฆผ 1: ์ง€์—ฐ ์‹œ๊ฐ„-์ •ํ™•๋„(์™ผ์ชฝ) ๋ฐ ํฌ๊ธฐ-์ •ํ™•๋„(์˜ค๋ฅธ์ชฝ) ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์ธก๋ฉด์—์„œ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค๊ณผ์˜ ๋น„๊ต. ์šฐ๋ฆฌ๋Š” ๊ณต์‹์ ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์—”๋“œ ํˆฌ ์—”๋“œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ๋Š”ย YOLO์˜ ํƒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ ์ „๋ฐ˜์—์„œย ํ›„์ฒ˜๋ฆฌ์™€ย ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ชจ๋‘ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ดย ์ƒˆ๋กœ์šด ์‹ค์‹œ๊ฐ„ ์—”๋“œ ํˆฌ ์—”๋“œ ๊ฐ์ฒด ํƒ์ง€๊ธฐ YOLOv10์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ,ย YOLOv10์€ ๋‹ค๋ฅธ ์ตœ์‹  ํƒ์ง€๊ธฐ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌย ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ๊ณผย ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๊ทธ ์šฐ์ˆ˜์„ฑ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.