3. ๋ฅ๋ฌ๋
๋ฅ๋ฌ๋์ด๋? ๋ฅ๋ฌ๋๊ณผ ๋จธ์ ๋ฌ๋์ ์ฐจ์ด
-
๋ฅ๋ฌ๋: ์ฌ๋ฌ ์ธต์ ๊ฐ์ง ์ธ๊ณต์ ๊ฒฝ๋ง(ANN)์ ์ฌ์ฉํ์ฌ ๋จธ์ ๋ฌ๋ ํ์ต์ ์ํํ๋ ๊ฒ, ์ฌ์ธตํ์ต์ด๋ผ๊ณ ๋ ํ๋ค.
๋ฅ๋ฌ๋์ ๋จธ์ ๋ฌ๋์ ํฌํจ๋๋ ๊ฐ๋ ์ด๋ค.
-
๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋ ์ฐจ์ด์
ํน์ง ์ถ์ถ ๋จ๊ณ์์ ์ฌ๋์ด ์ง์ ๋ถ์ํ๊ณ ํ๋จํ๋ฉด โ ๋จธ์ ๋ฌ๋
ํน์ง ์ถ์ถ ๋จ๊ณ์์ ๊ธฐ๊ณ๊ฐ ์๋์ผ๋ก ํ๋จํ๋ฉด โ ๋ฅ๋ฌ๋์ ํ๋ฐ์ดํฐ๋ ์ฃผ๋ก ๋จธ์ ๋ฌ๋, ๋น์ ํ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ๋ฅ๋ฌ๋์์ ์ฌ์ฉ๋๋ค.
-
Cost Function๊ณผ Activate Function
-
Cost function: ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ๋ํด ํ์ฌ ์์ธก์ ์ผ๋ง๋ ์ํ๊ณ ์๋์ง ์์์ผ ํ์ต ๋ฐฉํฅ์ ์ด๋ ๋ฐฉํฅ์ผ๋ก, ์ผ๋ง๋ ๊ฐ์ ํ ์ง ํ๋จ ๊ฐ๋ฅํ๋ค.
์ด๋ ์์ธก ๊ฐ๊ณผ ๋ฐ์ดํฐ ๊ฐ์ ์ฐจ์ด์ ๋ํ ํจ์๋ฅผ Cost function(MSE, Cross Entropy ๋ฑ)์ด๋ผ๊ณ ํ๋ค.
Cost function์ด ์ต์ํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ ์ ํ ํํ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ์ต ์ํฌ ์ ์๋ค.
-
Activate function: ์ ํ ๋ชจ๋ธ๋ง์ ์ฌ์ฉํด์๋ ๋ณต์กํ ๋ฐ์ดํฐ์ ๋ํด ์ ์ ํ ์์ธก์ด ๋ถ๊ฐ๋ฅํ ์ ์๋ค. ์ด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋น์ ํ ๋ชจ๋ธ์ด ํ์๋ก๋๋ค.
์ ํ ๋ชจ๋ธ์ ๋น์ ํ ๋ชจ๋ธ๋ก ๋ฐ๊ฟ์ฃผ๋ ํจ์๋ฅผ Activate function(ReLU, Sigmoid ๋ฑ)์ด๋ผ๊ณ ํ๋ค.
๋น์ ํ ๋ชจ๋ธ์ ๊น๊ฒ ์์ ์ ์๋ค. ์ด๋ฅผ ํตํด ๋ ๋ณต์กํ ๋ฐ์ดํฐ์ ๋ํ ํํ๋ ฅ์ด ์ข์์ง ์ ์๋ค.
Tensorflow์ Pytorch
๊ตฌ๋ถ | Tensorflow | PyTorch |
---|---|---|
ํจ๋ฌ๋ค์ | Define and Run | Define by Run |
๊ทธ๋ํ ํํ | Static graph(์ ์ ) | Dynamic graph(๋์ ) |
- Tensorflow์ Pytorch์ ์ฐจ์ด์
- ํจ๋ฌ๋ค์์ด ๋ค๋ฅด๋ค
- Define and Run: ๋ชจ๋ธ ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ๋จผ์ ์ ์ํ๊ณ ๊ทธ ๊ทธ๋ํ๋ฅผ ๋ฐ๋ก ์ธ์ ๋ฑ์ ํตํด ํ ๋ฒ์ ์คํํ๋ ๋ฐฉ์์ด๋ค. (๊ทธ๋ํ๊ฐ ์ ์ )
- Define by Run: ํ ์ค ํ ์ค์ ์ฐ์ฐ์ ์คํํ๋ฉด์ ๊ทธ๋ํ๊ฐ ๋์ ์ผ๋ก ์ ์๋๋ ๋ฐฉ์์ด๋ค. (๊ทธ๋ํ๊ฐ ๋์ )
- ํจ๋ฌ๋ค์์ด ๋ค๋ฅด๋ค
๊ตฌ๋ถ | Define and Run | Define byy Run |
---|---|---|
์ฅ์ | - ๋ด๋ถ ์ต์ ํ์ ์ ๋ฆฌ - ๋๊ท๋ชจ ๋ฐฐ์ด๋ ๋ชจ๋ฐ์ผ/์๋ฒ ๋๋ ํ๊ฒฝ์์ ํจ์จ์ - ํ๋ฒ ๊ทธ๋ํ๋ฅผ ํ์ ์ง์ผ๋ฉด ์์ธก์ด ์ฉ์ด |
- ์ง๊ด์ ์ด๊ณ ํ์ด์ฌ์ค๋ฌ์ ๋๋ฒ๊น
์ด ์ฝ๊ณ ํ์ต ๊ณก์ ์ด ๋น๊ต์ ๋ฎ์ - ์คํ ํ๋ฆ๊ณผ ์ฝ๋๊ฐ ๊ฐ์ ๋น ๋ฅธ ํ๋กํ ํ์ ๊ฐ๋ฅ |
๋จ์ | - ๋๋ฒ๊น
์ด ์ด๋ ต๊ณ ์ ์ง๋ณด์๊ฐ ์ด๋ ค์ - ์ฆ์ ๊ฒฐ๊ณผํ์ธ์ด ์ด๋ ค์ |
- ๊ทธ๋ํ ์ต์ ํ๋ฅผ ์ํด ์ถ๊ฐ์ ์ธ ์์
์ด ํ์ํ ์๋ ์์ - ์ด๊ธฐ์๋ ์ ์ ๊ทธ๋ํ๋๋น ์๋๊ฐ ๋๋ฆผ |
Data Nomalization
-
Data Nomalization: Feature๋ค์ ๋ถํฌ(Scale)์ ์กฐ์ ํ์ฌ ๊ท ์ผํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค.
ํฌ๊ธฐ๊ฐ ํฐ feature๋ ์์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ feature๋ณด๋ค ๋ ๊ฐํ๊ฒ ๋ชจ๋ธ์ ์ํฅ์ ๋ผ์น ์ ์๊ธฐ ๋๋ฌธ์ ์ฌ์ฉ๋๋ค.๋ฐ๋ผ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ค์ด ๋์ผํ ์ค์ผ์ผ(์ค์๋)๋ฅผ ๋ฐ์ํ ์ ์๋๋ก ํ๊ธฐ์ํด ์ฌ์ฉํ๋ค
- ํ์ต์๋ ๊ฐ์
- ๋ ธ์ด์ฆ ๊ฐ์ โ ์ค๋ฒํผํ ์ต์
- ๋ฐ์ดํฐ๊ฐ ๋ ์น์ฐ์ณ์ ธ ์ข์ ์ฑ๋ฅ์ ๋ณด์
-
Regularization: ๋ชจ๋ธ์ ์ ์ฝ์ ์ฃผ์ด ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ๋ฎ์ถ๊ณ ์ด๋ฅผ ํตํด ์ค๋ฒํผํ ์ ๋ฐฉ์งํ๋ ๋ฐฉ๋ฒ
์ฒ์ ๋ณด๋ ๋ฐ์ดํฐ์๋ ์ ์์ธกํ๋๋ก ๋ง๋๋ ๋ฐฉ๋ฒ์ Regularization(์ผ๋ฐํ)๋ผ๊ณ ํ๋ค.
Dropout, EarlyStopping, Weight decay, L1,L2์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ด ์๋ค. -
Normalization, Standardization: ๋ ๋ค ๋ฐ์ดํฐ๋ฅผ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
-
Normalization
- Batch Nomalization: ์ ์ฉ์ํค๋ ค๋ ๋ ์ด์ด์ ํต๊ณ๋, ๋ถํฌ๋ฅผ ์ ๊ทํ์ํค๋ ๋ฐฉ๋ฒ์ด๋ค.
- Min-Max Normalization: ๋ชจ๋ ๋ฐ์ดํฐ ์ค์์ ๊ฐ์ฅ ์์ ๊ฐ์ 0, ๊ฐ์ฅ ํฐ ๊ฐ์ 1๋ก ๋๋๋ก ์ค์ผ์ผ๋งํ๋ ๋ฐฉ๋ฒ, ์ด์์น๋ฅผ ์ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋ค.
-
Standardization: ํ์คํ ํ๋ฅ ๋ณ์๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ z-score๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ ์๋ฏธํ๋ค. ๋ฐ๋ผ์ z-score normalization์ด๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
- Z-score: ๊ด์ธก๊ฐ์ด ํ๊ท ๊ธฐ์ค์ผ๋ก ์ผ๋ง๋ ๋จ์ด์ ธ์๋์ง ๋ํ๋ผ ๋ ์ฌ์ฉํ๋ค. ์ด์์น(outlier)๋ฅผ ์ ์ฒ๋ฆฌํ์ง๋ง, ์ ํํ ๋์ผํ ์ฒ๋๋ก ์ ๊ทํ ๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ง๋ ์๋๋ค.
- Z-score: ๊ด์ธก๊ฐ์ด ํ๊ท ๊ธฐ์ค์ผ๋ก ์ผ๋ง๋ ๋จ์ด์ ธ์๋์ง ๋ํ๋ผ ๋ ์ฌ์ฉํ๋ค. ์ด์์น(outlier)๋ฅผ ์ ์ฒ๋ฆฌํ์ง๋ง, ์ ํํ ๋์ผํ ์ฒ๋๋ก ์ ๊ทํ ๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ง๋ ์๋๋ค.
-
Activation function์ ์ข ๋ฅ ๋ฐ ํน์ง
-
Sigmoid:
์ ์์์ผ๋ก ๊ณ์ฐ๋๋ฉฐ 0 ~ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋งคํ๋๋ค.
์ ๋ ฅ๊ฐ์ด ๋๋ฌด ํฌ๊ฑฐ๋ ์์ผ๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ๊ฐ๊น์์ ธ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค.
zero-centered๊ฐ ์๋๊ธฐ ๋๋ฌธ์ ๋ถํธ์ ๋ฐ๋ผ ์ํฅ์ ๋ฐ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์์ ์ ํํ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง ๋ชปํ๊ณ ์ง๊ทธ์ฌ๊ทธ๋ก ์์ง์ด๊ฒ ๋๋ค.
-
Tanh: ์ ๋ ฅ์ -1 ~ 1์ฌ์ด์ ๊ฐ์ผ๋ก ๋งคํํ๋ค. Sigmoid์ ์ ์ฌํ ๋ชจ์์ ๋๋ฉฐ ๋์ผํ๊ฒ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
-
ReLU:
์ ์์์ผ๋ก ๊ณ์ฐ๋๋ค. ๊ณ์ฐ ํจ์จ๊ณผ ์ฑ๋ฅ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ํ์ฑํ ํจ์์ด๋ค. ์์ ์ ๋ ฅ์์๋ ๊ธฐ์ธ๊ธฐ ์์ค๊ณผ ๊ฐ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์์ง๋ง ์์ ์ ๋ ฅ์์๋ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด๋ผ ์ด๋ค ์ ๋ฐ์ดํธ๋ ์งํ๋์ง ์๋ Dead ReLU ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
-
Leaky ReLU:
์ผ๋ก ๊ณ์ฐ๋๋ฉฐ ReLU์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ข์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ์์ ์ ๋ ฅ์์๋ 0์ด ์๋๊ธฐ ๋๋ฌธ์ Dead ReLU๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๋ค.
์ค๋ฒํผํ ์ ๊ฒฝ์ฐ ์ด๋ป๊ฒ ๋์ฒํด์ผํ๋๊ฐ
-
Early Stopping: train loss๋ ๊ณ์ ๋ฎ์์ง๋๋ผ๋ validation loss๊ฐ ์ฌ๋ผ๊ฐ๋ ์์ ์ ์ค๋ฒํผํ ์ผ๋ก ๊ฐ์ฃผํ์ฌ ํ์ต์ ์ข ๋ฃํ๋ ๋ฐฉ๋ฒ์ด๋ค.
-
Parameter Norm Penalty / Weight Decay: ๋น์ฉํจ์์ ์ ๊ณฑ์ ๋ํ๊ฑฐ๋(L2 ์ ๊ทํ) ์ ๋๊ฐ์ ๋ํด์(L1 ์ ๊ทํ) weight์ ํฌ๊ธฐ์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํ๋ ๋ฐฉ๋ฒ์ด๋ค.
-
Data Augmentation: ํ๋ จ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ๋ ์ธ์์ ์ผ๋ก ๋ฐ์ดํฐ์ ์์ ๋๋ ค ํ๋ จ ๋ฐ์ดํฐ ์๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ์ด๋ค.
-
Noise robustness: ๋ ธ์ด์ฆ๋ ์ด์์น ๊ฐ์ ์๋ฑํ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์๋ ๊ฐ๊ฑดํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด input data๋ weight์ ์ผ๋ถ๋ฌ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์ด๋ค.
-
Label smoothing: ๋ชจ๋ธ์ด ์ ํํ๊ฒ GT๋ฅผ ์์ธกํ์ง ์์๋ ๋๋๋ก ๋ง๋ค์ด ์ ํํ์ง ์์ ๋ฐ์ดํฐ์ ์ ์น์ค๋๋ ๊ฒฝํฅ(overconfident)์ ๋ง์์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ค. โ ๊ธฐ์กด์ 100์ ์ด์ด์ผ ์ฑ๊ณต์ด๋ผ๋ฉด 90์ ์ด์ด๋ ์ฑ๊ณต์ผ๋ก ์ณ์ค๋ค~
-
Dropout: ๊ฐ ๊ณ์ธต์์ ์ผ์ ๋น์จ์ ๋ด๋ฐ์ ์์๋ก drop์์ผ ๋๋จธ์ง ๋ด๋ฐ๋ง์ ํตํด ํ์ต์ ์งํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ ํ์ต ๊ณผ์ ์์๋ง ์ฌ์ฉํ๊ณ ์ถ๋ก ์์๋ ์ฌ์ฉํ์ง ์๋๋ค.
-
Batch Normalization: ํ์ฑํํจ์์ ํ์ฑํ๊ฐ ๋๋ ์ถ๋ ฅ๊ฐ์ ์ ๊ทํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ฐ hidden layer์์ ์ ๊ทํ๋ฅผ ํ๋ฉด์ ์ ๋ ฅ๋ถํฌ๊ฐ ์ผ์ ํ๊ฒ ๋๊ณ , ์ด์ ๋ฐ๋ผ Learning rate์ ํฌ๊ฒ ์ค์ ํด๋ ๊ด์ฐฎ์์ง๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ต์๋๊ฐ ๋นจ๋ผ์ง๋ ํจ๊ณผ๊ฐ ์๋ค.
ํ์ดํผ ํ๋ผ๋ฏธํฐ๋?
-
ํ์ดํผ ํ๋ผ๋ฏธํฐ: ๋ชจ๋ธ๋ง ์งํ ์ ์ฌ์ฉ์๊ฐ ์ง์ ์ง์ ํด์ฃผ์ด์ผํ๋ ๊ฐ์ ์๋ฏธํ๋ค.
์ ํด์ ธ์๋ ์ต์ ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ์์ผ๋ฉฐ ๋ชจ๋ธ ๊ตฌ์กฐ, ๋ฐ์ดํฐ ์๊ณผ ๊ฐ์ ์ฌ๋ฌ๊ฐ์ง ์์์ ์ํด ์ ์ ํ ๊ฐ์ด ๋ฌ๋ผ์ง ์ ์๋ค.Manual Search, Grid Search, Random Search, Bayesian Opimization๋ฑ์ ๋ฐฉ๋ฒ์ ํตํค ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋์ ํ ์ ์๋ค.
-
๋ฅ๋ฌ๋์์ ์ถ์ฒํ๋ ๋ฐฉ์์ Random Search ๋ฐฉ์์ด๋ค.
- ๊ณ ์ฐจ์ ๊ณต๊ฐ์์์ ํจ์จ์ฑ:
- Grid Search: ๋ชจ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐํฉ์ ๊ฒฉ์ ํํ๋ก ํ์ํ๋ฏ๋ก ํ๋ณด ์กฐํฉ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋ ํ์ ๋น์ฉ์ด ํฝ๋๋ค.
- Random Search: ๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ์ฌ ์ ์ฒด ํ์ ๊ณต๊ฐ์ ํจ์จ์ ์ผ๋ก ์ปค๋ฒํฉ๋๋ค.
- ์ค์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ง์ค:
- ์ผ๋ถ ํ๋ผ๋ฏธํฐ๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ์ฃผ๋๋ฐ, Random Search๋ ์ด๋ฌํ ํต์ฌ ํ๋ผ๋ฏธํฐ์ ๋ค์ํ ๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ํ์ํ ์ ์์ต๋๋ค.
- ๊ณ ์ฐจ์ ๊ณต๊ฐ์์์ ํจ์จ์ฑ:
-
ํ๋ผ๋ฏธํฐ vs ํ์ดํผ ํ๋ผ๋ฏธํฐ: ์ฌ๋์ด ์ง์ ์ค์ ํ๋๋ ๋ง๋๋์ ๋ฐ๋ผ ๊ตฌ๋ถ๋๋ค.
- ์ ํ์ ์ง์: ๊ฒฝํํ์ง ์์๋ ์ ์ ์๋ ๊ฒ์ ๋งํ๋ค.
- ํด๋ฆฌ์คํฑ: ์ฒด๊ณ์ ์ด๋ฉด์ ํฉ๋ฆฌ์ ์ธ ํ๋จ์ด ๊ตณ์ด ํ์ํ์ง ์์ ์ํฉ์์ ์ฌ๋๋ค์ด ๋น ๋ฅด๊ฒ ์ฌ์ฉํ ์ ์๋๋ก, ๋ณด๋ค ์ฉ์ดํ๊ฒ ๊ตฌ์ฑ๋ ๊ฐํธ์ถ๋ก ์ ๋ฐฉ๋ฒ์ด๋ค. '๋์ถฉ ์ด๋ฆผ์ง์ํ๊ธฐ', '๋๋์ค์ผ๋ก ๋ง์ถ๊ธฐ' ๋ฑ์ ๋ฐฉ๋ฒ์ ์ผ์ปซ๋๋ค.
Weight Initalization
-
๊ฐ์ค์น ์ด๊ธฐํ: ๊ธฐ์ธ๊ธฐ ์์ค์ด๋ local minimum ๋ฑ์ ๋ฌธ์ ๋ฅผ ์ผ์ผํฌ ์ ์๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ค.
-
LeCun Initialization: ๋ค์ด์ค๋ ๋ ธ๋ ์์ ๋ํด ์ ๊ท ๋ถํฌ์ ๊ท ๋ฑ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ
- ์ ๊ท ๋ถํฌ
- ๊ท ๋ฑ ๋ถํฌ
- ์ ๊ท ๋ถํฌ
-
Xavier Initialization: LeCun ๋ฐฉ๋ฒ๊ณผ ๋น์ทํ์ง๋ง ๋ค์ด์ค๋ ๋ ธ๋ ์์ ๋๊ฐ๋ ๋ ธ๋ ์์ ์์กดํ๊ณ , ์ ์ ํ ์์๊ฐ๋ ๋ฐ๊ฒฌํ์ฌ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ด๋ค.
sigmoid ๋ tanh ํจ์์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง ReLU ํจ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ 0์ ์๋ ดํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ๋ฐ๋ผ์ยsigmoid
ย ๋ยtanh
ย ํจ์์ ์ฃผ๋ก ๋ง์ด ์ฌ์ฉํ๋ค.- ์ ๊ท ๋ถํฌ
- ๊ท ๋ฑ ๋ถํฌ
- ์ ๊ท ๋ถํฌ
-
He Initialization: ReLU ์ ํจ๊ป ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ผ๋ก, LeCun ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ง๋ง ์์๋ฅผ ๋ค๋ฅด๊ฒ ํ์๋ค. ๋ค์ด์ค๋ ๋ ธ๋๋ง ๊ณ ๋ คํ๋ค.
- ์ ๊ท ๋ถํฌ
- ๊ท ๋ฑ ๋ถํฌ
- ์ ๊ท ๋ถํฌ
๋ณผ์ธ ๋ง ๋จธ์
- ๋ณผ์ธ ๋ง ๋จธ์ : ๊ฐ์์ธต(Visible Layer)์ ์๋์ธต(Hidden Layer), ์ด ๋ ๊ฐ์ ์ธต์ผ๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ชจ๋ ๋ด๋ฐ์ด ์ฐ๊ฒฐ๋์ด ์๋ ์์ ๊ทธ๋ํ ํํ์ด๋ฉฐ, ์ ํ๋ ๋ณผ์ธ ๋ง ๋จธ์ (RBM)์์๋ ๊ฐ์ ์ธต์ ๋ด๋ฐ๋ค์ ์ฐ๊ฒฐ๋์ด ์์ง ์์ ๋ชจ์์ด๋ค.
๋ด๋ด๋ท์ ๊ฐ์ฅ ํฐ ๋จ์ ์ ๋ฌด์์ธ๊ฐ
-
์ฌ๋์ ์ฒ์ ๋ณธ ๋ฌผ๊ฑด(๋ ์ด๋ธ)์ ๋ํด ๊ตฌ๋ถ์ด ๊ฐ๋ฅํ๋ค. ํ์ง๋ง ๋ด๋ด๋ท์ ์ด ๋ฌผ๊ฑด์ ๊ตฌ๋ถํ๊ธฐ ์ํด ์ด ๋ฌผ๊ฑด์ ๋ํ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค.
-
One-shot Learning: ๋ด๋ด๋ท๋ ์๋ก์ด ๋ ์ด๋ธ์ ์ง๋ ๋ฐ์ดํฐ๊ฐ ์ ์ ๋ (one shot์์๋ 1๊ฐ) ์๋ ๋ชจ๋ธ์ด ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค.
์ด๋ฅผ ์ํด์๋ ๋ค๋ฅธ ๋ ์ด๋ธ์ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ Pretrained๋ชจ๋ธ์ด ํ์ํ๋ค.
ํ์ต๋ ๋ชจ๋ธ์ ์๋ก์ด ๋ ์ด๋ธ์ ๋ฐ์ดํฐ ํ๋ ๋์ ธ ์ฃผ๋ฉด ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ํ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ์ด ๋ ์ด๋ธ์ ๋ํด์๋ ์ดํด๋ฅผ ํ๊ฒ ๋๋ค.
None-Linearity
-
Linearlity(์ ํ): ์ด๋ค ๋ชจ๋ธ์ด ์ ํ์ ์ด๋ค ๋ผ๊ณ ํ๋ค๋ฉด ๊ทธ ๋ชจ๋ธ์ ๋ณ์
๊ณผ ๊ฐ์ค์น ์ผ๋ก ์ผ๋ก ํํํ ์ ์์ผ๋ฉฐ,
๊ฐ์ฐ์ฑ(Additreivityly)๊ณผ ๋์ฐจ์ฑ(Homogeneity)์ ๋ง์กฑํด์ผ ํ๋ค.- ๊ฐ์ฐ์ฑ: ์์์ ์
์ ๋ํด ๊ฐ ์ฑ๋ฆฝ - ๋์ฐจ์ฑ: ์์์ ์
์ ๋ํด ๊ฐ ์ฑ๋ฆฝ
- ๊ฐ์ฐ์ฑ: ์์์ ์
-
์์ ์กฐ๊ฑด์ ๋ง์กฑํ์ง ๋ชปํ๋ ๋ชจ๋ธ์ ๋น์ ํ ๊ด๊ณ์ ์๋ ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ค.
-
๋น์ ํ ๋ชจ๋ธ์ ํ์ฑํ ํจ์๋ฅผ ํตํด ํํํ ์ ์๊ณ ์ด๋ฌํ ๋น์ ํ ๊ด๊ณ๋ฅผ ํตํด ๋ณต์กํ ํํ์ด ๊ฐ๋ฅํด์ ธ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ๋๋ค.
ReLU ๋ฌธ์ ์
-
Dead ReLU: ReLU๋ ๊ฒฐ๊ณผ๊ฐ์ด ์์์ธ ๊ฒฝ์ฐ ๋ชจ๋ 0์ผ๋ก ์ทจ๊ธํ๋๋ฐ, back propagation์ ๊ธฐ์ธ๊ธฐ์ 0์ด ๊ณฑํด์ ธ ํด๋น ๋ถ๋ถ์ ๋ด๋ฐ์ ์ฃฝ๊ณ ๊ทธ ์ดํ์ ๋ด๋ฐ ๋ชจ๋ ์ฃฝ๊ฒ ๋๋ค.
โ Leaky ReLU๋ ๊ฐ์ด ์์์ผ ๋ ์กฐ๊ธ์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋๋ก ํ์ฌ ๋ด๋ฐ์ด ์กฐ๊ธ์ด๋ผ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋๋ก ํ๋ค. ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ ๋ ฅ๊ฐ์ ์์ฃผ ์กฐ๊ธ์ ํธํฅ(bias)๋ฅผ ์ฃผ์ด ReLU๋ฅผ ์ผ์ชฝ์ผ๋ก ์กฐ๊ธ ์ด๋์ํค๋ ๋ฐฉ๋ฒ์ด ์๋ค. -
Bias Shift(ํธํฅ ์ด๋): ReLU๋ ํญ์ 0์ด์์ ๊ฐ์ ์ถ๋ ฅํ๊ธฐ ๋๋ฌธ์ ํ์ฑํ๊ฐ์ ํ๊ท ์ด 0๋ณด๋ค ์ปค zero-centeredํ์ง ์๋ค. ํ์ฑํ๊ฐ์ด zero-centered๋์ง ์์ผ๋ฉด ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ๋์ผํ ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ฐ์ดํธ๊ฐ ๋ผ์ ํ์ต ์๋๊ฐ ๋๋ ค์ง ์๊ฐ ์๋ค.
-
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Batch Nomalization์ ์ฌ์ฉํ๊ฑฐ๋ zero-centered๋ ELU, SeLU์ ๊ฐ์ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- Zero-Centered: ํ๊ท (๋๋ ๊ธฐ๋๊ฐ)์ด 0์ ๊ฐ๊น๋๋ก ์ ์ฒ๋ฆฌํ๊ฑฐ๋ ๋ณํํ ์ํ๋ฅผ ๋งํฉ๋๋ค.
ํธํฅ์ ์ ์กด์ฌํ๋๊ฐ
-
ํธํฅ(bias): ๊ฐ์ค์น์ ์ ํ ๊ฒฐํฉ์ ์ถ๊ฐ๋ก ๋ํด์ง๋ ์์ ํญ์ ๋งํฉ๋๋ค.
: ์ ๋ ฅ ๋ฒกํฐ
: ๊ฐ์ค์น(Weight)
: ํธํฅ(Bias)
: ๋ด๋ฐ์ ์ถ๋ ฅ ํ์ฑํ ํจ์๊ฐ ์ผ์ชฝ ํน์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ด๋ํ๋ค. ๊ฐ์ค์น(weight)๋ ํ์ฑํ ํจ์์ ๊ฐํ๋ฅธ ์ ๋ ์ฆ, ๊ธฐ์ธ๊ธฐ๋ฅผ ์กฐ์ ํ๋ ๋ฐ๋ฉด, ํธํฅ(bias)๋ย ํ์ฑํ ํจ์๋ฅผ ์์ง์์ผ๋ก์จ ๋ฐ์ดํฐ์ ๋ ์ ๋ง๋๋ก ํ๋ค.
Gradient Descent
- Gradient Descent: ์ด๋ค ํจ์์ ๊ทน์์ ์ ์ฐพ๊ธฐ ์ํด gradient ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํด ๊ฐ๋ ๋ฐฉ๋ฒ์ด๋ค.
Loss function์ ์ต์ํ์ํค๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ์ ๋ํด Loss function์ ๋ฏธ๋ถํ์ฌ ๊ทธ ๊ธฐ์ธ๊ธฐ๊ฐ(gradient)์ ๊ตฌํ๊ณ , ๊ฒฝ์ฌ๊ฐ ํ๊ฐํ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ ์ง์ ์ผ๋ก ์ฐพ๊ธฐ์ํด ์ฌ์ฉ๋๋ค.
Gradient Descent๋ฅผ ์์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.
-
: ํ์ฌ ์์ t์ ๊ฐ์ค์น -
: ํ์ฌ ๊ฐ์ค์น ์์์ ๋น์ฉํจ์ ๊ธฐ์ธ๊ธฐ -
: ํ์ต๋ฅ (lr) -
๋ฌธ์ ์
- ์ ์ ํ Step size(lr)์ด ํ์ํจ โ ๋๋ฌด ํฌ๋ฉด ๋น ๋ฅด๊ฒ ์๋ ดํ์ง๋ง ์ต์๊ฐ์ ์๋ ด์ด ์๋๊ณ ๋ฐ์ฐํ ์ ์๋ค. ๋๋ฌด ์์ผ๋ฉด ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฐ๋ค.
- Local Minimum์ ๋น ์ง ์ ์๋ค. โ local minimum์ด global minimum์ด๋ผ๊ณ ์ฐฉ๊ฐํ์ฌ ๋น ์ ธ๋์ค์ง ๋ชปํ ์ ์๋ค.
- ์ ์ ํ Step size(lr)์ด ํ์ํจ โ ๋๋ฌด ํฌ๋ฉด ๋น ๋ฅด๊ฒ ์๋ ดํ์ง๋ง ์ต์๊ฐ์ ์๋ ด์ด ์๋๊ณ ๋ฐ์ฐํ ์ ์๋ค. ๋๋ฌด ์์ผ๋ฉด ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฐ๋ค.
-
๊ผญ Gradient๋ฅผ ์จ์ผ ํ ๊น? ๊ทธ ๊ทธ๋ํ์์ ๊ฐ๋ก์ถ๊ณผ ์ธ๋ก์ถ ๊ฐ๊ฐ์ ๋ฌด์์ธ๊ฐ? ์ค์ ์ํฉ์์๋ ๊ทธ ๊ทธ๋ํ๊ฐ ์ด๋ป๊ฒ ๊ทธ๋ ค์ง๊น?
- Gradient๊ฐ ์์์ด๋ฉด ์ฌ๋ผ๊ฐ๋ ๋ฐฉํฅ์ด๋ฉฐ ์์์ด๋ฉด ๋ด๋ ค๊ฐ๋ ๋ฐฉํฅ์ด๋ค. ์ค์ ์ํฉ์์๋ Gradient ๊ทธ๋ํ๊ฐ 0์ ์ค์ฌ์ผ๋ก ์ง๋ํ๋ ๋ชจ์์ด ๋ ๊ฒ์ด๋ค.
GD ์ค์ ๋๋๋ก Loss๊ฐ ์ฆ๊ฐํ๋ ์ด์ ๋?
-
minima์ ๋ค์ด๊ฐ๋ค๊ฐ ๋์ค๋ ๊ฒฝ์ฐ์ผ ๊ฒ์ด๋ค. ์ค์ ๋ก ์ฌ์ฉ๋๋ GD์์๋ local minima ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด Momentum ๋ฑ์ ๊ฐ๋ ์ ๋์ ํ RMSprop, Adam ๋ฑ์ optimization ์ ๋ต์ ์ฌ์ฉํ๋ค.
๊ฐ optimization ์ ๋ต์ ๋ฐ๋ผ gradient๊ฐ ์์์ธ ๋ฐฉํฅ์ผ๋ก๋ parameter update step์ ๊ฐ์ ธ๊ฐ๋ ๊ฒฝ์ฐ๊ฐ ์๊ธธ ์ ์์ผ๋ฉฐ, ์ด ๊ฒฝ์ฐ์๋ Loss๊ฐ ์ผ์์ ์ผ๋ก ์ฆ๊ฐํ ์ ์๋ค.
Back Propagation
-
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ: Loss์ ๋ํ ์ ๋ ฅ๊ฐ์ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)๋ฅผ ์ถ๋ ฅ์ธต layer์์๋ถํฐ ๊ณ์ฐํ์ฌ ๊ฑฐ๊พธ๋ก ์ ํ์ํค๋ ๊ฒ์ด๋ค.
์ต์ข ์ ์ผ๋ก ์ถ๋ ฅ์ธต์์์ output๊ฐ์ ๋ํ ์ ๋ ฅ์ธต์์์ input data์ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ๊ตฌํ ์ ์๋ค.์ด ๊ณผ์ ์์ chain rule์ด ์ฌ์ฉ๋๋ค
์ถ๋ ฅ์ธต ๋ฐ๋ก ์ layer์์๋ถํฐ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)์ ๊ณ์ฐํ๊ณ ์ด๋ฅผ ์ ์ ๊ฑฐ๊พธ๋ก ์ ํ์ํค๋ฉด์ ์ layer๋ค์์์ ๊ธฐ์ธ๊ธฐ์ ์๋ก ๊ณฑํ๋ ํ์์ผ๋ก ๋์๊ฐ๋ฉด ์ต์ข ์ ์ผ๋ก ์ถ๋ ฅ์ธต์ output์ ๋ํ ์ ๋ ฅ์ธต์์์ input์ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)์ ๊ตฌํ ์๊ฐ ์๋ค. -
๊ณผ์
- ์์ ํ๋ฅผ ์ด์ฉํด Loss ๊ณ์ฐ
- Chain Rule(์ฐ์ ๋ฒ์น)์ ์ด์ฉํ์ฌ ์์ค ํจ์์ ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ๋ฏธ๋ถ(gradient)์ ๊ณ์ฐํฉ๋๋ค.
- ์ถ๋ ฅ์ธต๋ถํฐ ์์ํด ์ ๋ ฅ์ธต ๋ฐฉํฅ์ผ๋ก, ๊ฐ ๊ณ์ธต์ ํ์ฑํ ํจ์ ๋ฏธ๋ถ๊ณผ ๊ฐ์ค์น์ ๋ํ ๊ธฐ์ธ๊ธฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ๊ตฌํด ๋๊ฐ๋๋ค.
- ์ด๋ฅผ ํตํด โ์ค์ฐจ๊ฐ ๊ฐ ํ๋ผ๋ฏธํฐ์ ์ด๋ป๊ฒ ๊ธฐ์ฌํ๋์งโ๋ฅผ ์ ์ ์์ต๋๋ค.
๋ฅผ ํตํด ๊ฐ์ค์น ์ ๋ฐ์ดํธ
Local minima ๋ฌธ์ ์๋ ๋ฅ๋ฌ๋์ด ์ ๋๋ ์ด์
-
Local minima ๋ฌธ์ ๋ ๊ณ ์ฐจ์์ ๊ณต๊ฐ์์๋ ๋ฐ์ํ๊ธฐ ๋๋ฌธ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ค์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ Weight๊ฐ ์๋ ์์ด ๋ง์ผ๋ฉฐ, ๊ทธ ์๋ง์ weight๊ฐ ๋ชจ๋ local minima์ ๋น ์ ธ์ผ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ์ ๋ฐ์ํ๊ธฐ ๋๋ฌผ๋ค.๊ณ ์ฐจ์์ ๊ณต๊ฐ์์๋ ๋ชจ๋ ์ถ์ ๊ณต๊ฐ์ด ์ค๋ชฉํ ํํ์ผ ํ๋ฅ ๋ ๋งค์ฐ ๋ฎ๋ค. (0์ ๊ฐ๊น๋ค) ๋ฐ๋ผ์ ๋๋ถ๋ถ์ critical point๋ Saddle point์ด๋ค.
critical point
: ์ผ์ฐจ ๋ฏธ๋ถ์ด 0์ธ ์ง์ ์ด๋ค. (local/global)minima, (local/global)maxima, saddle point๋ฅผ ๊ฐ๋ฆฌํดlocal minimum
: ๋ชจ๋ ๋ฐฉํฅ์์ ๊ทน์๊ฐ์ ๋ง์กฑํ๋global minimum
: ๋ชจ๋ ๋ฐฉํฅ์์ ๊ทน์๊ฐ์ ๋ง์กฑํ๋ ์ ์ค์ ๊ฐ์ฅ ๊ฐ์ด ์์ ์ (์ ๋ต)saddle point
: ์ด๋ ๋ฐฉํฅ์์ ๋ณด๋ฉด ๊ทน๋๊ฐ์ด์ง๋ง ๋ค๋ฅธ ๋ฐฉํฅ์์ ๋ณด๋ฉด ๊ทน์๊ฐ์ด ๋๋ ์
Gradient Descent๊ฐ Local Minima ๋ฌธ์ ๋ฅผ ํผํ๋ ๋ฐฉ๋ฒ
-
Momentum: ๊ด์ฑ์ ์๋ฏธํ๋ฉฐ gradient์ ๋ฐฉํฅ์ฑ์ ๋ด๊ณ ์๋ momentum์ธ์๋ฅผ ํตํด ํ๋ฅด๋ ๋ฐฉํฅ์ ์ด๋ ์ ๋ ์ ๋์์ผ local minima์ ๋น ์ง์ง ์๊ฒ ๋ง๋ ๋ค.
-
Nesterov Accelerated Gradient(NAG): ๋ชจ๋ฉํ ๊ณผ ๋น์ทํ ์ญํ ์ ์ํํ๋ย
Look-ahead gradient
์ธ์๋ฅผ ํฌํจํ์ฌ,ย aย ๋ผ๋ยaccumulate gradient
๊ฐ gradient๋ฅผ ๊ฐ์์ํค๋ ์ญํ ์ ํ๋ค. ๋ชจ๋ฉํ ๊ณผ ๋ค๋ฅธ ์ ์, ๋ฏธ๋ฆฌ ํ ์คํ ์ ์ฎ๊ฒจ๊ฐ๋ณธ ํ์ ์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง ์ ํ๋ค๋ ๊ฒ์ด๋ค. -
Adagrad: ย ๋ด๋ด๋ท์ ํ๋ผ๋ฏธํฐ๊ฐ ๋ง์ด ๋ฐ๋์๋์ง ์ ๊ฒ ๋ฐ๋์๋์ง ํ์ธํ๊ณ , ์ ๊ฒ ๋ณํ๊ฑด ๋ ํฌ๊ฒ ๋ณํ๊ฒ ํ๊ณ , ํฌ๊ฒ ๋ณํ๊ฑด ๋ ์๊ฒ ๋ณํ์ํค๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ฐ ๊ณ์ ์ปค์ง๋ฉด ๋ถ๋ชจ๊ฐ ์ ์ ๋ฌดํ๋์ ๊ฐ๊น์์ง๊ฒ ๋์ด,ย ย ์ ๋ฐ์ดํธ๊ฐ ๋์ง ์๊ฒ ๋์ด, ๋ค๋ก ๊ฐ์๋ก ํ์ต์ด ์ ์ ์๋๋ ๋ฌธ์ ์ ์ด ๋ฐ์
-
Adadelta:
Exponential Moving Average(EMA)
๋ฅผ ์ฌ์ฉํ์ฌ, Adagrad์ย๊ฐ ๊ณ์ ์ปค์ง๋ ํ์์ ๋ง์ ์ ์๋ค.
์ฐพ์ ํด๊ฐ Global Minimum์ธ์ง ์๋์ง ์ ์ ์๋ ๋ฐฉ๋ฒ์?
- saddle point๊ฐ ์๋ ์์ ํ local minimum์ด ๋ฐ์ํ๋ ๊ฒฝ์ฐ๋ ํฌ๊ทํ๋ค. ๋ฐ๋ผ์ ๋ชจ๋ ๋ฐฉํฅ์์ ์๋๋ก ๋ณผ๋ก์ธ local minima๋ฅผ ๋ฐ๊ฒฌํ๋ค๋ฉด, ๊ทธ ์ง์ ์ด ๋ฐ๋ก global minima์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
Training set๊ณผ Test set์ ๋๋๋ ์ด์
-
๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ๋ํด ์์ธก๊ฐ์ ๋ง๋ค๊ณ ์ ๋ต๊ณผ ๋น๊ตํ๋ฉฐ ์ ๋ฐ์ดํธ๋๋ฉด์ ํ์ต์ด ๋๋ค. ๊ทธ๋ฐ๋ฐ ํ์ต ๋ฐ์ดํฐ์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค ํ๋๋ผ๋ ๋ณธ ์ ์๋ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ๋์ํ์ง ๋ชปํ๋ย ์ค๋ฒํผํ ย ๋ฌธ์ ๊ฐ ์๊ธด๋ค๋ฉด ์ข์ ๋ชจ๋ธ์ด ์๋๋ค.
-
์ด๋ฅผ ๋ง๊ธฐ ์ํด ํ์ต๋ ๋ชจ๋ธ์ด ์ฒ์ ๋ณด๋ ๋ฐ์ดํฐ์๋ ๊ฐ๊ฑดํ๊ฒ ์ฑ๋ฅ์ ๋ด๋์ง ํ๋จํ๊ธฐ ์ํ ์๋จ์ผ๋ก test ์ธํธ๋ฅผ ๋ฐ๋ก ๋ง๋ ๋ค.
Validation set์ด ์๋ ์ด์
-
๋ชจ๋ธ์ ํ์ต์ํค๊ณ test ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ์ ํ๊ณ , ๋ค์ ๋ชจ๋ธ์ ์๋ก์ด ์๋๋ฅผ ํ๊ณ test ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ ํ๋ค๊ณ ์๊ฐํด๋ณด์.
-
์ด ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ๊ฒฐ๊ตญ test ๋ฐ์ดํฐ์๋ ์ค๋ฒํผํ ์ด ๋์ด ๋ค์ ์ฒ์ ๋ณด๋ ๋ฐ์ดํฐ๋ฅผ ์ฃผ๋ฉด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฅํ ์ ์๊ฒ ๋๋ค.
-
์ด ๋ฌธ์ ๋ฅผ ๋ง๊ธฐ ์ํด validation ์ธํธ๋ฅผ ์ฌ์ฉํ๋ค. validation ์ธํธ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฑ์ ์์ ํ๋ ๊ฒ์ด๋ค.
-
์ฆ, train ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๊ณ valid ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ํ๊ณ ๋ ์ข์ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ์์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ต์ข ์ ์ผ๋ก ๋ง๋ค์ด์ง ๋ชจ๋ธ๋ก test ๋ฐ์ดํฐ๋ฅผ ํตํด ์ต์ข ์ฑ๋ฅ์ ํ๊ฐํ๋ค.
Test set์ด ์ค์ผ๋์๋ค๋ ์๋ฏธ
-
Test ๋ฐ์ดํฐ๋ ํ ๋ฒ๋ ํ์ต์์ ๋ณธ ์ ์๋ ๋ฐ์ดํฐ์ฌ์ผ ํ๋ค. ๊ทธ๋ฐ๋ฐ train ๋ฐ์ดํฐ๊ฐ test ๋ฐ์ดํฐ์ ํก์ฌํ๊ฑฐ๋ ํฌํจ๋๊ธฐ๊น์ง ํ๋ค๋ฉด test ๋ฐ์ดํฐ๋ ๋์ด์ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ๊ฐ๊ด์ ์ผ๋ก ํ์ง ๋ชปํ๋ค.
-
์ด๋ ๋ฏ test ๋ฐ์ดํฐ๊ฐ train ๋ฐ์ดํฐ์ ์ ์ฌํ๊ฑฐ๋ ํฌํจ๋ ๊ฒฝ์ฐ์ test ์ธํธ๊ฐ ์ค์ผ๋์๋ค๊ณ ๋งํ๋ค.
Batch Normalization์ ํจ๊ณผ
-
๋ฐฐ์น ์ ๊ทํ: ํ์ต ์ย ๋ฏธ๋๋ฐฐ์น ๋จ์๋ก ์ ๋ ฅ์ ๋ถํฌ๊ฐ ํ๊ท ์ด 0, ๋ถ์ฐ์ด 1์ด ๋๋๋ก ์ ๊ทํํ๋ค. ๋๋ถ์ดย
๋ก ์ค์ผ์ผ๊ณผย ๋ก ์ด๋ ๋ณํ์ ์ํํ๋ค. - ์ฅ์ 1: ๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ด ํฐ ํ์ต๋ฅ ์ ์ค์ ํ ์ ์์ด ํ์ต์๋๊ฐ ๋นจ๋ผ์ง๋ค.
- ์ฅ์ 2: ํญ์ ์ ๋ ฅ์ ์ ๊ทํ์ํค๊ธฐ ๋๋ฌธ์ ๊ฐ์ค์น ์ด๊น๊ฐ์ ํฌ๊ฒ ์์กดํ์ง ์์๋ ๋๋ค.
- ์ฅ์ 3: ์์ฒด์ ์ธ ๊ท์ (Regularization) ํจ๊ณผ๊ฐ ์์ด Dropout์ด๋ Weight Decay์ ๊ฐ์ ๊ท์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์์๋ ๋๋ค.
-
์ฃผ์์ฌํญ
ํ์ต ๊ณผ์ ์์๋ ๋ฏธ๋ ๋ฐฐ์น์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ์ฌ ๋ฐฐ์น ์ ๊ทํ๋ฅผ ์ ์ฉํ์ง๋ง, ์ถ๋ก ์์๋ ํ์ต ๋ฐ์ดํฐ ์ ์ฒด์ ๋ํ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ์ฌ ์ ์ฉ์ ํด์ผ ํ๋ค. ์๋ํ๋ฉด ์ฌ์ฉ์๊ฐ ์ค์ ํ ๋ฐฐ์น์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ถ๋ก ๊ฒฐ๊ณผ๊ฐ ๋ณํ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
GAN์์ Generator ์ชฝ์๋ BN์ ์ ์ฉ ๊ฐ๋ฅ?
- ์ผ๋ฐ์ ์ผ๋ก GAN์์๋ ์์ฑ๊ธฐ(Generator)์ ์ถ๋ ฅ์ธต(Output Layer)์๋ง BN(Batch Normalization)์ ์ ์ฉํ์ง ์๋๋ค. ์๋ํ๋ฉด ์์ฑ๊ธฐ๊ฐ ๋ง๋ ์ด๋ฏธ์ง๊ฐ BN์ ์ง๋๋ฉด ์ค์ ์ด๋ฏธ์ง์๋ ๊ฐ์ ๋ฒ์๊ฐ ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
SGD, RMSprop, Adam
-
GD: Loss Function์ ๊ณ์ฐํ ๋ ์ ์ฒด train set์ ์ฌ์ฉํ๋ ๊ฒ์ Batch Gradient Descent ๋ผ๊ณ ํ๋ค.
-
SGD: loss function์ ๊ณ์ฐํ ๋ ์ ์ฒด ๋ฐ์ดํฐ(batch) ๋์ ๋ฐ์ดํฐ ํ ๊ฐ ๋๋ ์ผ๋ถ ์กฐ๊ทธ๋งํ ๋ฐ์ดํฐ์ ๋ชจ์(mini-batch)์ ๋ํด์๋ง loss function์ ๊ณ์ฐํ๋ค.
์ด ๋ฐฉ๋ฒ์ batch gradient descent ๋ณด๋ค ๋ค์ ๋ถ์ ํํ ์๋ ์์ง๋ง, ํจ์ฌ ๊ณ์ฐ ์๋๊ฐ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ๊ฐ์ ์๊ฐ์ ๋ ๋ง์ step์ ๊ฐ ์ ์์ผ๋ฉฐ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ ๊ฒฝ์ฐ ๋ณดํต batch์ ๊ฒฐ๊ณผ์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ก ์๋ ดํ๋ค.
-
RMSprop: Adagrad์ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค.
Adagrad์ ์์์ gradient์ ์ ๊ณฑ๊ฐ์ ๋ํด๋๊ฐ๋ฉด์ ๊ตฌํย Gt๋ถ๋ถ์ ํฉ์ด ์๋๋ผ ์ง์ํ๊ท ์ผ๋ก ๋ฐ๊พธ์ด์ ๋์ฒดํ ๋ฐฉ๋ฒ์ด๋ค.์ด๋ ๊ฒ ๋์ฒด๋ฅผ ํ ๊ฒฝ์ฐ Adagrad์ฒ๋ผย Gt๊ฐ ๋ฌดํ์ ์ปค์ง์ง๋ ์์ผ๋ฉด์ ์ต๊ทผ ๋ณํ๋์ ๋ณ์๊ฐ ์๋์ ์ธ ํฌ๊ธฐ ์ฐจ์ด๋ ์ ์งํ ์ ์๋ค.
-
Adam: RMSProp๊ณผ Momentum ๋ฐฉ์์ ํฉ์น ๊ฒ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ด ๋ฐฉ์์์๋ Momentum ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ์ง๊ธ๊น์ง ๊ณ์ฐํด์จ ๊ธฐ์ธ๊ธฐ์ ์ง์ํ๊ท ์ ์ ์ฅํ๋ฉฐ, RMSProp๊ณผ ์ ์ฌํ๊ฒ ๊ธฐ์ธ๊ธฐ์ ์ ๊ณฑ๊ฐ์ ์ง์ํ๊ท ์ ์ ์ฅํ๋ค.
๋ฏธ๋ ๋ฐฐ์น ํฌ๊ธฐ
- ๋ฏธ๋ ๋ฐฐ์น๊ฐ ์์ ๋์ ์ฅ์
- ํ iteration์ ๊ณ์ฐ๋์ด ์ ์ด์ง๊ธฐ ๋๋ฌธ์ step ๋น ์๋๊ฐ ๋นจ๋ผ์ง๋ค.
- ์ ์ Vram์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ๋ค.
- ๋จ์
- ๋ฐ์ดํฐ ์ ์ฒด์ ๊ฒฝํฅ์ ๋ฐ์ํ๊ธฐ ํ๋ค๋ค. ์ ๋ฐ์ดํธ๋ฅผ ํญ์ ์ข์ ๋ฐฉํฅ์ผ๋ก ํ์ง๋ง์ ์๋๋ค.