Week 11 ํ•™์Šต ์ •๋ฆฌ

  1. Data-Centric AI์˜ ๊ฐœ์š”
  2. Data-Centric AI์˜ ์ค‘์š”์„ฑ
  3. OCR Task
  4. ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ OCR ๋ฐ ๋ฌธ์„œ ์ดํ•ด
  5. OCR Services & Applications
  6. OCR ๋ฐ ๋ฌธ์„œ ๋ฐ์ดํ„ฐ์…‹ ์†Œ๊ฐœ
  7. OCR ์„ฑ๋Šฅ ํ‰๊ฐ€
  8. Annotation ๋„๊ตฌ ์†Œ๊ฐœ
  9. ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์ž‘์—… ์„ค๊ณ„
  10. Data-Centric AI๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํ›„์ฒ˜๋ฆฌ

1. Data-Centric AI์˜ ๊ฐœ์š”

1.1 AI System

Code + Data๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.

์ด์— Data-Centric AI๋Š” Code (model or algorithm) ๋ณด๋‹ค Data๋ฅผ ์ด์šฉํ•ด ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋ ค ํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ๋ฒ•

1.2 Data-Centric AI

2. Data-Centric AI์˜ ์ค‘์š”์„ฑ

2.1 Production Process of AI Model

image.png

3. OCR Task

3.1 OCR ์ •์˜

  1. ๋จผ์ € ๊ธ€์ž๋ฅผ ์ฐพ๋Š”๋‹ค.
  2. ์ฐพ์€ ๊ธ€์ž๊ฐ€ ๋ฌด์—‡์ธ์ง€ ํŒ๋‹จํ•œ๋‹ค.

3.2 OCR ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•

3.3 OCR ๋ฐ์ดํ„ฐ ์˜์—ญ ํ‘œํ˜„ ๋ฐฉ๋ฒ•

3.4 OCR Module

4. ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ OCR ๋ฐ ๋ฌธ์„œ ์ดํ•ด

4.1 TrOCR

image.png

4.2 DTrOCR

image.png

4.3 MATRN

5. OCR ๋ฐ ๋ฌธ์„œ ๋ฐ์ดํ„ฐ์…‹ ์†Œ๊ฐœ

image.png

5.1 OCR EDA

5.2 Tips

6. OCR ์„ฑ๋Šฅ ํ‰๊ฐ€

โ‡’ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™”์„ ๋•Œ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋™์ž‘ํ•˜๋Š”๊ฐ€?

6.1 ์„ฑ๋Šฅ ํ‰๊ฐ€ ์‹œ ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌ ๋ฐฉ๋ฒ•

image.png

6.2 ๊ธ€์ž ๊ฒ€์ถœ ๋ชจ๋ธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•

์—ฌ๊ธฐ๋Š” ๋‹ค์‹œ ๊ณต๋ถ€ํ•ด์•ผํ•  ๋“ฏ

7. Annotation ๋„๊ตฌ ์†Œ๊ฐœ

7.1 ์ข‹์€ ๋ฐ์ดํ„ฐ

โ‡’ ๊ณจ๊ณ ๋ฃจ ๋ชจ์—ฌ์žˆ๊ณ  ์ผ์ •ํ•˜๊ฒŒ ๋ผ๋ฒจ๋ง๋œ ๋ฐ์ดํ„ฐ

7.2 Annotation ๋„๊ตฌ

image.png

8. ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์ž‘์—… ์„ค๊ณ„

8.1 ๊ฐ€์ด๋“œ ๋ผ์ธ

โ‡’ ์ข‹์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•œ ๊ณผ์ •์„ ์ •๋ฆฌํ•ด ๋†“์€ ๋ฌธ์„œ

๊ฐ€์ด๋“œ๋ผ์ธ์€ ๋ชฉ์ ์— ๋งž๊ฒŒ ์ผ๊ด€๋˜์–ด์•ผ ํ•œ๋‹ค.

Annotationguide๋Š” ์ ˆ๋Œ€ ํ•œ ๋ฒˆ์— ์™„์„ฑ๋˜์ง€ ์•Š๊ณ , ์™„๋ฒฝํ•œ ๊ฐ€์ด๋“œ๋Š” ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค!

8.2 Summary

  1. ์ถฉ๋ถ„ํ•œ pilot tagging์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ€์ด๋“œ ์ œ์ž‘
  2. ๊ฐ€์ด๋“œ ๋ผ์ธ ์ˆ˜์ • ์‹œ versioning ํ•„์š”,๊ธฐ์กด ๋‚ด์šฉ๊ณผ ์ถฉ๋Œ ์—†๋„๋ก ์ตœ์†Œํ•œ์˜ ๋ณ€๊ฒฝ๋งŒ
  3. ์ตœ๋Œ€ํ•œ ๋ช…ํ™•ํ•˜๊ณ  ๊ฐ๊ด€์ ์ธ ํ‘œํ˜„์„ ์‚ฌ์šฉ
  4. ์ผ๊ด€์„ฑ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์žฅ ์ž˜ ๋งŒ๋“ค์–ด์ง„ ๋ฐ์ดํ„ฐ
  5. ์šฐ์„ ์ˆœ์œ„๋ฅผ ์•Œ๊ณ , ํ•„์š”ํ•˜๋‹ค๋ฉด ํฌ๊ธฐํ•˜๋Š” ๊ฒƒ๋„ ์ค‘์š”

9. Data-Centric AI๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํ›„์ฒ˜๋ฆฌ

9.1 Image Data Augmentation

โ‡’ Image Data Augmentation = Geometric Transformation + StyleTransformation + โ€ฆ

์ž˜๋ชป๋œ Geometric Transformation์€ ๋„์›€์ด ์•ˆ๋˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

image.png

9.2 ์˜ฌ๋ฐ”๋ฅธ Geometric Transformation์„ ์œ„ํ•œ ๊ทœ์น™

  1. Positive ratio ๋ณด์žฅ: ์ตœ์†Œ 1๊ฐœ์˜ ๊ฐœ์ฒด๋ฅผ ํฌํ•จํ•ด์•ผ ํ•œ๋‹ค
  2. ๊ฐœ์ฒด ์ž˜๋ฆผ ๋ฐฉ์ง€: ์ž˜๋ฆฌ๋Š” ๊ฐœ์ฒด๊ฐ€ ์—†์–ด์•ผ ํ•œ๋‹ค.

9.3 ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ œ์ž‘

โ‡’ Synthetic Data: Real Data์— ๋Œ€ํ•œ ๋ถ€๋‹ด์„ ๋œ์–ด์ค€๋‹ค

9.4 ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ ๋ฐฉ๋ฒ•

Target dataset๋งŒ์œผ๋กœ ํ•™์Šตํ•  ๋•Œ:

  1. Image Netpretrained model๋กœ ๋ถ€ํ„ฐ backbone์„ ๋ถˆ๋Ÿฌ์˜จ๋‹ค
  2. target dataset์— ๋Œ€ํ•ด fine-tuning์„ ์ง„ํ–‰ํ•œ๋‹ค ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ:
  3. ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ํ•œ๋ฒˆ ๋” pretraining์„ ํ•ด์ค€๋‹ค
  4. ์ดํ›„ target dataset์— ๋Œ€ํ•ด fine-tuning์„ ์ง„ํ–‰.

9.5 Data Cleansing

โ‡’ ์ด์ƒํ•œ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์— ์•…์˜ํ–ฅ์„ ์ค€๋‹ค