Week 2 ํ์ต ์ ๋ฆฌ
Day 1 (๋จธ์ ๋ฌ๋ ๋ผ์ดํ์ฌ์ดํด)
์ ๋ฐ์ ์ธ ๋ด์ฉ
- ๋จธ์ ๋ฌ๋์ ๊ฐ๋ ๊ณผ ์ ์ฉ ์ฌ๋ก, ํ์ต์ ์ข ๋ฅ๋ฅผ ์ค๋ช ํ ํ, ๋จธ์ ๋ฌ๋ ๋ผ์ดํ์ฌ์ดํด์ ๊ฐ ๋จ๊ณ์ ๋ํด ์์ธํ ์ค๋ช ํฉ๋๋ค. ๊ฐ ๋จ๊ณ๋ ๊ณํ, ๋ฐ์ดํฐ ์ค๋น, ๋ชจ๋ธ ์์ง๋์ด๋ง, ๋ชจ๋ธ ํ๊ฐ, ๋ชจ๋ธ ๋ฐฐํฌ ๋ฐ ๋ชจ๋ํฐ๋ง๊ณผ ์ ์ง ๊ด๋ฆฌ๋ก ๋๋ฉ๋๋ค. ๋ํ, ๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํ ํ๋ก์ธ์ค์ ๊ฐ ๋จ๊ณ์ ์ค์์ฑ์ ๋ํด ๋ค๋ฃน๋๋ค.
1. ์ฃผ์ ๋ด์ฉ
-
๐ก ๋จธ์ ๋ฌ๋ ์ ์: ๋จธ์ ๋ฌ๋์ ๊ฒฝํ์ ํตํด ์ฑ๋ฅ์ ํฅ์์ํค๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฐ๊ตฌํ๋ ํ๋ฌธ์ผ๋ก ์ ์๋ฉ๋๋ค.
-
๐ก ๋จธ์ ๋ฌ๋ ์ ์ฉ ์ฌ๋ก: ์ด๋ฏธ์ง ๋ถ๋ฅ, ์คํธ๋ฉ์ผ ํํฐ๋ง ๋ฑ ๋ค์ํ ์ค์ ์ฌ๋ก๋ฅผ ํตํด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก ํ์ต์ ์ข ๋ฅ: ์ง๋ ํ์ต, ๋น์ง๋ ํ์ต, ๊ฐํ ํ์ต์ผ๋ก ๋๋๋ฉฐ ๊ฐ๊ฐ์ ํน์ง๊ณผ ์์๊ฐ ์ ์๋ฉ๋๋ค.
-
๐ก ๋จธ์ ๋ฌ๋ ๋ผ์ดํ์ฌ์ดํด: ๋ชจ๋ธ์ ๊ฐ๋ฐ๋ถํฐ ๋ฐฐํฌ, ์ ์ง๋ณด์๊น์ง ํฌํจํ๋ ์ผ๋ จ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
-
๐ก ๊ณํํ๊ธฐ: ML ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ฒ์์ ์ฑ๊ณต ์งํ๋ฅผ ์ ์ํ๋ ๋จ๊ณ๋ก, ํ๋น์ฑ ๋ณด๊ณ ์ ์์ฑ์ด ํฌํจ๋ฉ๋๋ค.
-
๐ก ๋ฐ์ดํฐ ์ค๋น: ๋ฐ์ดํฐ ์์ง, ์ ๋ฆฌ, ์ฒ๋ฆฌ, ๊ด๋ฆฌ์ ๋ค ๊ฐ์ง ํํธ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ ์ค๋น ๊ณผ์ ์ ๋๋ค.
-
๐ก ๋ชจ๋ธ ์์ง๋์ด๋ง: ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ๊ตฌ์ถํ๊ณ ํ์ต ๋ฐ ๊ฒ์ฆ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ตํ๋ ๊ณผ์ ์ ๋๋ค.
-
๐ก ๋ชจ๋ธ ํ๊ฐ: ๋ชจ๋ธ์ด ์ ํ์ ์ฌ์ฉ๋ ์ค๋น๊ฐ ๋์๋์ง ํ์ธํ๋ ๊ณผ์ ์ผ๋ก, ๊ฒฌ๊ณ ์ฑ ํ ์คํธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ํฌํจํฉ๋๋ค.
-
๐ก ๋ชจ๋ธ ๋ฐฐํฌ ๋ฐ ๋ชจ๋ํฐ๋ง: ๋ชจ๋ธ์ ์์คํ ์ ๋ฐฐํฌํ๊ณ ์ง์์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ๋ฉฐ ๊ฐ์ ํ๋ ๊ณผ์ ์ ๋๋ค.
Day 2 (์ ํ ๋์)
์ ๋ฐ์ ์ธ ๋ด์ฉ
- ํ๊ท ๋ถ์์ ๊ฐ๋ ๊ณผ ์ ํ ํ๊ท ๋ฐฉ์ ์, ๊ทธ๋ฆฌ๊ณ ์ต์ ์ ๊ณฑ๋ฒ(OLS) ๋ฑ์ ํต๊ณ์ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค. ๋ํ, ๋ค์ค ์ ํ ํ๊ท์ ๋ชจ๋ธ ํ๊ฐ ์งํ์ ๋ํด์๋ ๋ค๋ฃจ๋ฉฐ, ์ด์ด์ ์ต๊ทผ์ ์ด์ ๋ถ๋ฅ๊ธฐ์ ๊ธฐ๋ณธ ๊ฐ๋ ๊ณผ ๊ตฌํ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์ด๋ก ์ ํ๊ณ์ ์ ๋ํด ๋ ผ์ํฉ๋๋ค.
- Linear Classifier์ ์ ์์ ๋งค๊ฐ๋ณ์์ ์ ๊ทผ ๋ฐฉ์, ๊ทธ๋ฆฌ๊ณ Softmax Classifier์ ํ์์ฑ๊ณผ ์ด๋ฅผ ๊ตฌํํ๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃน๋๋ค. ๋ํ, ์์ค ํจ์์ ์ต์ ํ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํ๋ฉฐ, ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ๋ค์ํ ๋ฌธ์ ์ ๊ณผ ๊ทธ ํด๊ฒฐ ๋ฐฉ์์ ๋ํด ๋ ผ์ํฉ๋๋ค.
1. ์ฃผ์ ๋ด์ฉ
-
๐ก ํ๊ท ๋ถ์์ ์ ์: ๊ณผ๊ฑฐ ์ํ๋ก ๋์๊ฐ๋ ๊ฒฝํฅ์ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ์๋๋ฉฐ, ๋ณ์ ๊ฐ์ ์ ํ์ ๊ด๊ณ๋ฅผ ์ค๋ช ํฉ๋๋ค.
-
๐ก ์ ํ ํ๊ท: ์ข ์ ๋ณ์์ ๋ ๋ฆฝ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ํต๊ณ์ ๋ฐฉ๋ฒ์ผ๋ก, ์ง๊ฐ ์์ธก ๋ฑ ๋ค์ํ ์ฌ๋ก๋ฅผ ํตํด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก ์ ํ ํ๊ท ๋ฐฉ์ ์:
ํํ์ ๋ฐฉ์ ์์ ํตํด ๋ ๋ฆฝ ๋ณ์์ ๊ฐ์ผ๋ก ์ข ์ ๋ณ์๋ฅผ ์์ธกํฉ๋๋ค. -
๐ก ๋ชจ๋ธ ํ๊ฐ ์งํ: ํ๊ท ์ ๋ ์ค์ฐจ(MAE), ํ๊ท ์ ๊ณฑ ์ค์ฐจ(MSE), ์ ๊ณฑ๊ทผ ํ๊ท ์ ๊ณฑ ์ค์ฐจ(RMSE), ๊ฒฐ์ ๊ณ์(Rยฒ) ๋ฑ์ ํ๊ฐ ์งํ๊ฐ ์๊ฐ๋ฉ๋๋ค.
-
๐ก ์ต๊ทผ์ ์ด์ ๋ถ๋ฅ๊ธฐ(NN Classifier): ์ฟผ๋ฆฌ ๋ฐ์ดํฐ ํฌ์ธํธ์ ๊ฐ์ฅ ๊ฐ๊น์ด ํ์ต ๋ฐ์ดํฐ ํฌ์ธํธ์ ๋ผ๋ฒจ์ ์ฌ์ฉํ์ฌ ์์ธกํฉ๋๋ค.
-
๐ก k-NN ๋ถ๋ฅ๊ธฐ: ๊ฐ์ฅ ๊ฐ๊น์ด k๊ฐ์ ์ด์์ผ๋ก๋ถํฐ ๊ณผ๋ฐ์ ๋ํ๋ฅผ ํตํด ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
-
๐ก ์ต๊ทผ์ ์ด์ ๋ถ๋ฅ๊ธฐ์ ํ๊ณ์ : ํฝ์ ๊ฑฐ๋ฆฌ์ ์ ๋ณด ๋ถ์กฑ, ์ฐจ์์ ์ ์ฃผ ๋ฑ ๋ค์ํ ๋ฌธ์ ์ ์ด ๋ ผ์๋ฉ๋๋ค.
2. ์ฃผ์ ๋ด์ฉ
-
๐ก Linear Classifier ์ ์: Linear Classifier๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ค์น ํฉ๊ณ๋ฅผ ๊ณ์ฐํ์ฌ ํด๋์ค๋ฅผ ์์ธกํ๋ ๋จ์ํ ์ ํ ๋ชจ๋ธ์ ๋๋ค.
-
๐ก ๋งค๊ฐ๋ณ์์ ์ ๊ทผ: ๋ชจ๋ธ์ ๊ฐ์ค์น(W)์ ํธํฅ(b)์ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํน์ ํด๋์ค๋ก ๋ถ๋ฅํ๋ ํจ์ f(x)๋ก ์ ์๋ฉ๋๋ค.
-
๐ก Linear Classifier์ ํ๊ณ: ์ ์์ ํฌ๊ธฐ๊ฐ ๋ฌดํ๋๋ก ์ปค์ง ์ ์๊ณ , ํด์์ด ์ด๋ ค์ด ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
-
๐ก Softmax Classifier: ๊ฐ ํด๋์ค์ ์ํ ํ๋ฅ ์ ๊ณ์ฐํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ํ๋ฅ ๋ถํฌ๋ก ๋ํ๋ด๋ฉฐ, Linear Classifier์ ํ๊ณ๋ฅผ ๋ณด์ํฉ๋๋ค.
-
๐ก ์์ค ํจ์: ๋ชจ๋ธ์ ์์ธก์ด ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ์ ๋ํํ๋ ์งํ๋ก, ๋ค์ํ ํํ์ ์์ค ํจ์๊ฐ ์๊ฐ๋ฉ๋๋ค.
-
๐ก ์ต์ ํ ๊ธฐ๋ฒ: Gradient Descent์ Stochastic Gradient Descent์ ๊ฐ์ ๋ฐฉ๋ฒ์ ํตํด ๋ชจ๋ธ์ ๊ฐ์ค์น(W)๋ฅผ ์ต์ ํํ๋ ๊ณผ์ ์ ์ค๋ช ํฉ๋๋ค.
-
๐ก Gradient Descent ๋ฌธ์ ์ : ๋น์ฉ ํจ์์ ๊ตญ๋ถ ์ต์ ์ ์ ๋น ์ง ์ ์๋ ๋ฌธ์ ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ๋ฐ์ํ๋ ๊ณ์ฐ ์๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
Day 3 (๊ธฐ์ด ์ ๊ฒฝ๋ง ์ด๋ก )
์ ๋ฐ์ ์ธ ๋ด์ฉ
- Linear Model์ ๊ฐ๋ ๊ณผ ํ๊ณ๋ฅผ ์ค๋ช ํ ํ, ์ ๊ฒฝ๋ง์ ๊ธฐ์ด์ธ ํผ์ ํธ๋ก (Perceptron)๊ณผ ๋จ์ธต ๋ฐ ๋ค์ธต ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํฉ๋๋ค. ๋ํ, ํ์ฑํ ํจ์(Activation Functions)์ ์ ๊ฒฝ๋ง์ ํ์ต ๊ณผ์ ์์ ๋ฐ์ํ๋ ๊ทธ๋๋์ธํธ ๊ณ์ฐ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃน๋๋ค.
- ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ค๋ช ํ๋ฉฐ, ์ด๋ฅผ ํตํด ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น๋ฅผ ํจ์จ์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃน๋๋ค. ๋ํ, ์ฐ์ ๋ฒ์น(Chain Rule)์ ํตํด ๊ทธ๋๋์ธํธ ๊ณ์ฐ ๊ณผ์ ์ ์ค๋ช ํ๊ณ , ๋ก์ง์คํฑ ํ๊ท(Logistic Regression) ์์ ๋ฅผ ํตํด ์ค์ ๊ณ์ฐ ๊ณผ์ ์ ๋ณด์ฌ์ค๋๋ค.
- ์ ๊ฒฝ๋ง ํ๋ จ์์ ์ค์ํ ์์๋ค์ ์๊ฐํฉ๋๋ค. ๋จผ์ , ๋ค์ํ ํ์ฑํ ํจ์์ ํน์ง๊ณผ ๋จ์ ์ ๋ํด ์ค๋ช ํ๊ณ , ์ด์ด์ ๊ฐ์ค์น ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ์ค์์ฑ์ ๋ค๋ฃน๋๋ค. ๋ง์ง๋ง์ผ๋ก, ํ์ต๋ฅ ์กฐ์ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํ๋ฉฐ, ๊ฐ ๋ฐฉ๋ฒ์ด ํ๋ จ ๊ณผ์ ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง์ ๋ํด ๋ ผ์ํฉ๋๋ค.
- ์ ๊ฒฝ๋ง ํ๋ จ์์ ํ์์ ์ธ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Data Preprocessing)์ ๋ฐ์ดํฐ ์ฆ๊ฐ(Data Augmentation) ๊ธฐ๋ฒ์ ์๊ฐํฉ๋๋ค. Zero-centering, PCA & Whitening, Data Augmentation์ ํ์์ฑ๊ณผ ๋ค์ํ ๊ตฌํ ๋ฐฉ๋ฒ๋ค์ด ๋ ผ์๋ฉ๋๋ค. ๋ํ, ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์ ํํ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ๋ค์ ์์์ ํจ๊ป ์ค๋ช ํฉ๋๋ค.
1. ์ฃผ์ ๋ด์ฉ
-
๐ก Linear Model์ ํ๊ณ: Linear Classifier๋ ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ๋น์ ํ์ ์ธ ๋ฐ์ดํฐ๋ ์ ๋๋ก ๋ถ๋ฅํ์ง ๋ชปํฉ๋๋ค.
-
๐ก Perceptron: ์ ๊ฒฝ๋ง์ ๊ธฐ๋ณธ ๋จ์๋ก, ์ ๋ ฅ ๊ฐ์ ๋ฐ์ ๊ฐ์ค์น์ ํจ๊ป ๊ณ์ฐํ ํ ํ์ฑํ ํจ์๋ฅผ ํตํด ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค.
-
๐ก ๋จ์ธต ์ ๊ฒฝ๋ง: ์ ๋ ฅ ์ธต๊ณผ ์ถ๋ ฅ ์ธต์ผ๋ก ๊ตฌ์ฑ๋ ๋จ์ํ ๊ตฌ์กฐ๋ก, ๋ณต์กํ ํจํด์ ํ์ตํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ต๋๋ค.
-
๐ก ๋ค์ธต ํผ์ ํธ๋ก (MLP): ์ฌ๋ฌ ๊ฐ์ ์๋์ธต์ ๊ฐ์ง ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ก, ๋น์ ํ์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
-
๐ก ํ์ฑํ ํจ์: ์ ๊ฒฝ๋ง์์ ๋น์ ํ์ฑ์ ๋์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ํจ์๋ก, ๋ํ์ ์ผ๋ก Sigmoid, tanh, ReLU๊ฐ ์์ต๋๋ค.
-
๐ก ๊ทธ๋๋์ธํธ ๊ณ์ฐ: ์ ๊ฒฝ๋ง ํ์ต์ ์ํด ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ณํ๊ฐ ์์ค ํจ์์ ๋ฏธ์น๋ ์ํฅ์ ๊ณ์ฐํ๋ ๊ณผ์ ์ ๋๋ค.
-
๐ก ํ์ต์ ์์: Python ์ฝ๋๋ฅผ ํตํด 2-layer MLP์ ํ์ต ๊ณผ์ ์ ๊ตฌํํ ์์๊ฐ ์ ๊ณต๋ฉ๋๋ค.
2. ์ฃผ์ ๋ด์ฉ
-
๐ก ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ: ์ ๊ฒฝ๋ง์ ์ถ๋ ฅ์์ ์ ๋ ฅ ๋ฐฉํฅ์ผ๋ก ๊ทธ๋๋์ธํธ๋ฅผ ์ญ์ผ๋ก ์ ํํ์ฌ ๊ฐ ๊ฐ์ค์น์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
-
๐ก ๊ณ์ฐ ๊ทธ๋ํ: ๊ณ์ฐ ๊ณผ์ ์์์ ๊ฐ ๋จ๊ณ์ ๊ทธ๋๋์ธํธ๋ฅผ ์๊ฐ์ ์ผ๋ก ํํํ ๊ทธ๋ํ๋ก, ์ญ์ ํ์ ๊ณ์ฐ ๊ณผ์ ์ ์ฝ๊ฒ ์ดํดํ ์ ์์ต๋๋ค.
-
๐ก ์ฐ์ ๋ฒ์น(Chain Rule): ๋ณต์กํ ํจ์์ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ ๋ ์ฌ์ฉํ๋ ์ํ์ ๊ท์น์ผ๋ก, ์ญ์ ํ์ ํต์ฌ ๊ฐ๋ ์ ๋๋ค.
-
๐ก ๋ก์ง์คํฑ ํ๊ท ์์ : ์ญ์ ํ๋ฅผ ํ์ฉํ ๋ก์ง์คํฑ ํ๊ท์ ๊ทธ๋๋์ธํธ ๊ณ์ฐ ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ์ค๋ช ํฉ๋๋ค.
-
๐ก ๊ทธ๋๋์ธํธ ํ๋ฆ ํจํด: ์ญ์ ํ ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ๋ค์ํ ํจํด๊ณผ ๋ฌธ์ ๋ฅผ ์ค๋ช ํ๋ฉฐ, ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ ผ์ํฉ๋๋ค.
-
๐ก ๊ทธ๋๋์ธํธ ๊ตฌํ ์์ : Python ์ฝ๋๋ฅผ ํตํด ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ๋ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.
3. ์ฃผ์ ๋ด์ฉ
-
๐ก ํ์ฑํ ํจ์(Activation Functions): ์ ๊ฒฝ๋ง์ ์ถ๋ ฅ์ ๋น์ ํ์ฑ์ ๋์ ํ๋ ํจ์๋ก, Sigmoid, Tanh, ReLU ๋ฑ์ ๋ค์ํ ํจ์๋ค์ด ์๊ฐ๋ฉ๋๋ค.
-
๐ก Sigmoid ํจ์์ ๋จ์ : Vanishing Gradient ๋ฌธ์ ์ zero-centered ๋์ง ์์ ์ถ๋ ฅ์ผ๋ก ์ธํ ํ์ต์ ๋นํจ์จ์ฑ์ ์ค๋ช ํฉ๋๋ค.
-
๐ก Tanh ํจ์: ์ถ๋ ฅ ๊ฐ์ด [-1, 1]์ ๋ฒ์๋ฅผ ๊ฐ์ง๋ฉฐ, Zero-centered๋ ์ถ๋ ฅ์ด ํน์ง์ด์ง๋ง ์ฌ์ ํ Vanishing Gradient ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
-
๐ก ReLU์ ๊ทธ ๋ณํ๋ค: ReLU๋ ๋น ๋ฅธ ํ์ต ์๋๋ฅผ ์ ๊ณตํ์ง๋ง Dead ReLU ๋ฌธ์ ๋ฅผ ๋ฐ์์ํฌ ์ ์์ผ๋ฉฐ, Leaky ReLU์ ELU ๊ฐ์ ๋ณํ๋ค์ด ์ด์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก ์ ์๋ฉ๋๋ค.
-
๐ก ๊ฐ์ค์น ์ด๊ธฐํ(Weight Initialization): Small Gaussian Random, Large Gaussian Random, Xavier Initialization ๋ฑ์ ์ด๊ธฐํ ๋ฐฉ๋ฒ๋ค์ด ์ ๊ฒฝ๋ง์ ํ์ต์ ๋ฏธ์น๋ ์ํฅ์ ์ค๋ช ํฉ๋๋ค.
-
๐ก ํ์ต๋ฅ ์กฐ์ (Learning Rate Scheduling): ํ์ต๋ฅ ์ ์ ์ ํ๊ฒ ์ค์ ํ๋ ๋ฐฉ๋ฒ๊ณผ, ํ์ต๋ฅ ์ ์ ์ฐจ ๊ฐ์์ํค๋ ๋ค์ํ ๊ธฐ๋ฒ๋ค์ด ์๊ฐ๋ฉ๋๋ค.
-
๐ก Learning Rate Decay: ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ํ์ต๋ฅ ์ ์ ์ฐจ ๊ฐ์์ํค๋ ๋ฐฉ๋ฒ์ผ๋ก, Step Decay, Cosine, Linear, Inverse Sqrt ๋ฑ ๋ค์ํ ๊ธฐ๋ฒ๋ค์ด ์ค๋ช ๋ฉ๋๋ค.
4. ์ฃผ์ ๋ด์ฉ
-
๐ก ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Data Preprocessing): Zero-centering, ์ ๊ทํ(Normalization), PCA & Whitening์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ ๊ฒฝ๋ง์ ์ ํฉํ ํํ๋ก ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก Zero-centering & Normalization: ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํ๊ท ์ด 0์ด ๋๋๋ก ์กฐ์ ํ๊ณ , ์ ๊ทํ๋ฅผ ํตํด ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๊ท ์ผํ๊ฒ ๋ง์ถฅ๋๋ค.
-
๐ก PCA & Whitening: ๋ฐ์ดํฐ์ ๋ถ์ฐ์ ์ต๋ํํ๋ ์ถ์ ์ฐพ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฌํ๊ณ , ๊ฐ ์ถ์ ์ค์๋๋ฅผ ๊ท ๋ฑํ๊ฒ ๋ง์ถ๋ ๊ณผ์ ์ ๋๋ค.
-
๐ก ๋ฐ์ดํฐ ์ฆ๊ฐ(Data Augmentation): ๊ธฐ์กด ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ ๋ณํํ์ฌ ๋ฐ์ดํฐ ์์ ๋๋ฆฌ๋ ๊ธฐ๋ฒ์ ๋๋ค.
-
๐ก Horizontal Flips: ์ด๋ฏธ์ง์ ์ํ ๋ฐ์ ์ ํตํด ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ฆ๊ฐ์ํต๋๋ค.
-
๐ก Random Crops: ์ด๋ฏธ์ง์ ์ผ๋ถ๋ง์ ์๋ผ๋ด์ด ํ์ต์ํค๋ ๊ธฐ๋ฒ์ผ๋ก, ๊ฐ์ฒด์ ๋ถ๋ถ์ ์ ๋ณด๋ก๋ ํ์ตํ ์ ์๋๋ก ๋์์ค๋๋ค.
-
๐ก Scaling: ๋ค์ํ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ๋ฐ์ดํฐ๋ฅผ ํ์ฅ ๋๋ ์ถ์ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
-
๐ก Color Jitter: ์์, ์ฑ๋, ๋ช ๋ ๋ฑ์ ์์๋ก ์กฐ์ ํ์ฌ ๋ค์ํ ์กฐ๋ช ์กฐ๊ฑด์์ ๋ชจ๋ธ์ด ๊ฒฌ๊ณ ํ๊ฒ ์๋ํ๋๋ก ํฉ๋๋ค.
-
๐ก Data Augmentation in Practice: ๋ฌธ์ ์ ๋ฐ์ดํฐ์ ์์ญ์ ๋ฐ๋ผ ๋ค์ํ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ๋ค์ ์ค์ต์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ ผ์ํฉ๋๋ค.
Day 4 (Transformer)
์ ๋ฐ์ ์ธ ๋ด์ฉ
- RNN์ ๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ๋ฌธ์ ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ LSTM๊ณผ GRU๋ฅผ ์๊ฐํฉ๋๋ค. ๋ํ, Seq2seq ๋ชจ๋ธ์ ๊ฐ๋ ๊ณผ ๊ตฌ์กฐ, ๊ทธ๋ฆฌ๊ณ ์ค์ ๊ตฌํ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, ํนํ ๊ธฐ๊ณ ๋ฒ์ญ(Machine Translation)๊ณผ ๊ฐ์ NLP(Natural Language Processing) ์์ ์ ์ ์ฉ๋๋ ๋ฐฉ์์ ์ค๋ช ํฉ๋๋ค.
- RNN ๋ชจ๋ธ์ ํ๊ณ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ Attention ๋ฉ์ปค๋์ฆ์ ์ค๋ช ํ๊ณ , Transformer ๋ชจ๋ธ์ ์ฃผ์ ์์ด๋์ด์ ๊ตฌ์กฐ๋ฅผ ๋ค๋ฃน๋๋ค. ํนํ, Attention์ ์ญํ ๊ณผ ์ค์์ฑ, ๋ค์ํ ๋ณํ ๊ธฐ๋ฒ๋ค์ ๋ํด ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช ํ๋ฉฐ, ์ด๋ฅผ ํตํ ์ฑ๋ฅ ํฅ์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- Transformer ๋ชจ๋ธ์ ํ์ต ๊ณผ์ , ํ ํฐ ์ง๊ณ ๋ฐฉ๋ฒ, Encoder-Decoder ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํ๊ณ , ์ด์ด์ BERT์ Vision Transformer์ ์๋ฆฌ์ ํ์ฉ ๋ฐฉ๋ฒ์ ๋ค๋ฃน๋๋ค. ํนํ, Self-Attention ๋ฉ์ปค๋์ฆ๊ณผ Multi-head Attention์ ๊ฐ๋ ์ ์ค์ฌ์ผ๋ก ์ค๋ช ํ๋ฉฐ, ๋ชจ๋ธ ํ์ต์ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ๊ณผ ์คํ ๊ฒฐ๊ณผ๋ฅผ ํฌํจํฉ๋๋ค.
1. ์ฃผ์ ๋ด์ฉ
-
๐ก RNN์ ์ ์์ ๋ฌธ์ ์ : RNN์ ์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ชจ๋ธ์ด์ง๋ง, ๊ธฐ์ธ๊ธฐ ์์ค(Vanishing Gradient)๊ณผ ๊ธฐ์ธ๊ธฐ ํญ๋ฐ(Exploding Gradient) ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค.
-
๐ก LSTM(Long Short-Term Memory): LSTM์ RNN์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด ์ค๊ณ๋ ๋ชจ๋ธ๋ก, ์ ์ํ(cell state)์ ๊ฒ์ดํธ(gate)๋ฅผ ๋์ ํ์ฌ ์ฅ๊ธฐ ์์กด์ฑ์ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
-
๐ก GRU(Gated Recurrent Units): LSTM์ ๋ณํ ๋ชจ๋ธ๋ก, ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ๊ณ , LSTM๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
-
๐ก Seq2seq ๋ชจ๋ธ: Encoder-Decoder ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ ๋ ฅ ์ํ์ค๋ฅผ ์ธ์ฝ๋ฉํ ํ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ ๋๋ค.
-
๐ก Machine Translation ๋ฌธ์ : Seq2seq ๋ชจ๋ธ์ ๊ธฐ๊ณ ๋ฒ์ญ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ๊ณผ, ์ ๋ ฅ ์ํ์ค์ ์ถ๋ ฅ ์ํ์ค์ ๊ธธ์ด๊ฐ ๋ค๋ฅผ ๋ ๋ฐ์ํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก Encoder-Decoder ๊ตฌ์กฐ: ์ ๋ ฅ ์ํ์ค๋ฅผ ์ธ์ฝ๋ฉํ์ฌ ๋จ์ผ ๋ฒกํฐ๋ก ํํํ ํ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํฉ๋๋ค.
-
๐ก Auto-Regressive Generation: ์ด์ ์ถ๋ ฅ๊ฐ์ ๋ค์ ๋จ๊ณ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์์ผ๋ก, ์ํ์ค ์์ฑ ๊ณผ์ ์ ์ค๋ช ํฉ๋๋ค.
-
๐ก Teacher Forcing: ํ์ต ๋จ๊ณ์์ ์ค์ ์ถ๋ ฅ๊ฐ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ธฐ๋ฒ์ ๋๋ค.
-
๐ก Seq2seq ๋ชจ๋ธ ๊ตฌํ: Python์ PyTorch ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ Seq2seq ๋ชจ๋ธ์ ๊ตฌํํ๋ ๋ฐฉ๋ฒ์ด ์๊ฐ๋ฉ๋๋ค.
2. ์ฃผ์ ๋ด์ฉ
-
๐ก Attention ๋ฉ์ปค๋์ฆ์ ํ์์ฑ: RNN ๊ธฐ๋ฐ ๋ชจ๋ธ์์๋ ๊ธด ์ํ์ค ์ฒ๋ฆฌ ์ ์ ๋ณด ์์ค์ด ๋ฐ์ํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Attention ๋ฉ์ปค๋์ฆ์ด ๋์ ๋ฉ๋๋ค.
-
๐ก Attention ์์ด๋์ด: Decoder๋ ๋ชจ๋ ์ ๋ ฅ ์์ ์ hidden state๋ฅผ ๊ณ ๋ คํ๋ฉฐ, ๊ด๋ จ์ฑ์ด ๋์ ์ ๋ ฅ ํ ํฐ์ ์ง์คํฉ๋๋ค.
-
๐ก Dot-Product Attention: Query์ Key ๊ฐ์ ๋ด์ (dot-product)์ ํตํด ์ ์ฌ์ฑ์ ๊ณ์ฐํ๊ณ , ์ด ๊ฐ์ผ๋ก Value์ ๊ฐ์ค์น๋ฅผ ๊ฒฐ์ ํ์ฌ ์ต์ข Attention ๊ฐ์ ๊ณ์ฐํฉ๋๋ค.
-
๐ก Attention ๋ฉ์ปค๋์ฆ์ ์์ฝ: Query, Key, Value์ ์ญํ ๊ณผ Attention ๊ฐ ๊ณ์ฐ ๋ฐฉ๋ฒ์ด ์์ฝ๋ฉ๋๋ค.
-
๐ก ๋ค์ํ Attention ๋ฐฉ๋ฒ: Dot-product, ํ์ต ๊ฐ๋ฅํ ๊ฐ์ค์น ์ ์ฉ, Concatenation ๋ฑ ๋ค์ํ ์ ์ฌ์ฑ ๊ณ์ฐ ๋ฐฉ๋ฒ์ด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก Machine Translation์์์ Attention: Attention ๋ฉ์ปค๋์ฆ์ ํ์ฉํ ๊ธฐ๊ณ ๋ฒ์ญ์ ์ธ์ฝ๋ฉ ๋ฐ ๋์ฝ๋ฉ ๊ณผ์ ์ด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก Transformer ๋ชจ๋ธ์ ์ฃผ์ ์์ด๋์ด: Self-Attention์ ํตํด ๊ฐ ์์๊ฐ ์์ ์ ํฌํจํ ์ํ์ค์ ๋ค๋ฅธ ์์๋ค๊ณผ์ ๊ด๊ณ๋ฅผ ํ์ตํ์ฌ, ๋ ๋์ ํํ์ ์์ฑํฉ๋๋ค.
-
๐ก Self-Attention์ ๊ณ์ฐ ๊ณผ์ : Query, Key, Value๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ์ฌ ์ต์ข Attention ๊ฐ์ ์์ฑํ๋ ๊ณผ์ ์ด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก ๋ค์ ํ์ต ์ฃผ์ ์๊ณ : Transformer ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๋ค์ํ ์์ฉ ์ฌ๋ก๋ฅผ ํ๊ตฌํ ์์ ์ ๋๋ค.
3. ์ฃผ์ ๋ด์ฉ
-
๐ก Token Aggregation ๋ฐฉ๋ฒ: ํ๊ท ํ๋ง(Average Pooling)๊ณผ Classification Token์ ์ฌ์ฉํ ํ ํฐ ์ง๊ณ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค.
-
๐ก Transformer ํ์ต ๊ณผ์ : ์ ๋ ฅ ์๋ฒ ๋ฉ์์ ์์ํด Multi-head Self-Attention๊ณผ Feed-forward Layer๋ฅผ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ ๋ค๋ฃน๋๋ค.
-
๐ก Positional Encoding: Transformer ๋ชจ๋ธ์์ ์์ ์ ๋ณด๊ฐ ์๋ ํ ํฐ์ ์์น ์ ๋ณด๋ฅผ ๋ถ์ฌํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค.
-
๐ก Decoder ๊ตฌ์กฐ: Masked Multi-head Self-Attention๊ณผ Encoder-Decoder Attention์ ํตํด ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๋ ๊ณผ์ ์ด ์ค๋ช ๋ฉ๋๋ค.
-
๐ก BERT ๋ชจ๋ธ: BERT์ ๊ตฌ์กฐ์ Masked Language Modeling, Next Sentence Prediction ๊ณผ์ ์ ๋ํด ์ค๋ช ํฉ๋๋ค.
-
๐ก Vision Transformer(ViT): Transformer ๋ชจ๋ธ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ทธ ํ๊ณ์ ๋ํด ๋ ผ์ํฉ๋๋ค.
-
๐ก ViT์ ์คํ ๊ฒฐ๊ณผ: ViT๊ฐ ๋งค์ฐ ํฐ ๋ฐ์ดํฐ์ ์์ ์ ์๋ํ๋ ์ด์ ์ ํ์ต ๋น์ฉ์ด ๋ ผ์๋ฉ๋๋ค.
Day 5
์์์โฆ