2. ๋จธ์ ๋ฌ๋
Metric์ ์ข ๋ฅ
-
๋ถ๋ฅ ์์ ์ ์ํ Metric
-
์ ํ๋(Accuracy)
๋ชจ๋ธ์ ์์ธก์ด ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ์๋ฏธ
์์ธก์ด ๋ง์ ๊ฒฝ์ฐ / ์ ์ฒด ์์ธก์ ์ ๋ฅผ ํตํด์ ๊ณ์ฐํ๋ค
๋ง์ฝ์ ์ ๋ต์ด ํ์ชฝ์ ๋ชฐ๋ ค ์์ ๊ฒฝ์ฐ ์ ํ๋๋ ์๋ฏธ๊ฐ ์์ด์ง ์ ์๋ค. -
์ค์ฐจํ๋ ฌ
๋ชจ๋ธ์ด ์์ธก์ ์ผ๋ง๋ ํท๊ฐ๋ คํ๋์ง๋ฅผ ์๋ ค์ฃผ๋ ์งํ
์ฃผ๋ก ์ด์ง ๋ถ๋ฅ์์ ๋ง์ด ์ฌ์ฉํ๋ค
-
์ ๋ฐ๋(Precision), ์ฌํ์จ(Recall)
Positive ๋ฐ์ดํฐ ์์ธก์ฑ๋ฅ์ ์ด์ ์ ๋ง์ถ ํ๊ฐ์งํ์ด๋ค.- ์ ๋ฐ๋: ์์ธก์ Positive์ผ ๋ ์ค์ ๋ก Positive์ธ ๊ฒฝ์ฐ
TP / (FP + TP) - ์ฌํ์จ: ์ค์ ๋ก Positive์ผ ๋ ์์ธก๋ Positive์ธ ๊ฒฝ์ฐ
TP / (FN + TP)
์ ๋ฐ๋์ ์ฌํ์จ์ trad-off ๊ด๊ณ๋ฅผ ๊ฐ๋๋ค. ๋ฐ๋ผ์ ๊ฐ์ฅ ์ข์ ๊ฒฝ์ฐ๋ ์ ๋ฐ๋, ์ฌํ์จ ๋ชจ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ ๋์ด๋ค.
- ์ ๋ฐ๋: ์์ธก์ Positive์ผ ๋ ์ค์ ๋ก Positive์ธ ๊ฒฝ์ฐ
-
F1 score
์ ๋ฐ๋์ ์ฌํ์จ ๋ ์ค์ ์ด๋ ํ์ชฝ์ผ๋ก ์น์ฐ์น์ง ์๊ณ ๋ ๋ค ๊ท ํ์ ์ด๋ฃจ๋ ๊ฒ์ ๋ํ๋ธ ์งํ
F1 score๋ฅผ ํตํด ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํํ๊ท ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค.
-
ROC-AUC
ROC๋ย FPR(False Positive Rate)๊ฐ ๋ณํ ๋ TPR(True Positive Rate)๊ฐ ์ด๋ป๊ฒ ๋ณํ๋์ง๋ฅผ ๋ํ๋ด๋ ๊ณก์ ์ ๋งํ๋ค.
FPR์ด๋ย **FP / (FP + TN)์ด๊ณ , TPR์ย TP / (FN + TP)์ผ๋ก ์ฌํ์จ์ ๋งํ๋ค.- FPR: ์ค์ Negative์ผ ๋ ์์ธก์ด Positive์ธ ๊ฒฝ์ฐ
- TPR: ์ค์ Positive์ผ ๋ ์์ธก์ด Positive์ธ ๊ฒฝ์ฐ -> Recall
๊ทธ๋ผ ์ด๋ป๊ฒ FPR์ ์์ง์ผ๊น?
๋ฐ๋ก ๋ถ๋ฅ ๊ฒฐ์ ์๊ณ๊ฐ์ ๋ณ๊ฒฝํจ์ผ๋ก์จ ์์ง์ผ ์ ์๋ค. FPR์ด 0์ด ๋๋ ค๋ฉด ์๊ณ๊ฐ์ 1๋ก ์ค์ ํ๋ฉด ๋๋ค. ๊ทธ๋ผ ๊ธ์ ์ ๊ธฐ์ค์ด ๋์ผ๋ ๋ชจ๋ ๋ถ์ ์ผ๋ก ์์ธก๋ ๊ฒ์ด๋ค. ๋ฐ๋๋ก 1์ด ๋๋ ค๋ฉด ์๊ณ๊ฐ์ 0์ผ๋ก ์ค์ ํ์ฌ ๋ชจ๋ ๊ธ์ ์ผ๋ก ์์ธก์ํค๋ฉด ๋๋ค. ์ด๋ ๊ฒ ์๊ณ๊ฐ์ ์์ง์ด๋ฉด์ ๋์ค๋ FPR๊ณผ TPR์ ๊ฐ๊ฐ x์ y ์ขํ๋ก ๋๊ณ ๊ทธ๋ฆฐ ๊ณก์ ์ด ROC์ด๋ค.
AUC๋ ROC ๊ณก์ ์ ๋์ด๋ฅผ ์๋ฏธํ๋ค. AUC๊ฐ ๋์ ์๋ก Perfect Classifier์ ๊ฐ๊น์์ง๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ๋งํ ์ ์๋ค.
-
-
-
ํ๊ท ์์ ์ ์ํ Metirc
-
MAE: Mean Absolute Error๋ฅผ ์๋ฏธํ๋ฉฐ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ์ฌ์ด์ ์ฐจ์ด๋ฆ ์ ๋๊ฐ ํ๊ท ์ ๋งํ๋ค.
-
MSE: Meas Square Error๋ฅผ ์๋ฏธํ๋ฉฐ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ ๊ณฑ์ ํ๊ท ์ ๋งํ์ฌ, MAE์ ๋ค๋ฅด๊ฒ ์ ๊ณฑ์ ํด์ ์ด์์น์ ๋ ๋ฏผ๊ฐํ๋ค.
-
RMSE: Root Mean Square Error๋ MSE์ ๋ฃจํธ๋ฅผ ์์ด ๊ฐ์ ๋งํ๋ค.
-
R Squared:ย ๋ถ์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์์ธก ์ฑ๋ฅ์ ํ๊ฐํ๋ ์งํ๋ฅผ ๋งํ๋ค. ์ ๋ต๊ฐ์ ๋ถ์ฐ ๋๋น ์์ธก๊ฐ์ ๋ถ์ฐ ๋น์จ์ ์งํ๋ก ํ๋ฉฐ, 1์ ๊ฐ๊น์ธ์๋ก ์ ํ๋๊ฐ ๋๋ค.
-
์ ๊ทํ(Normalization)์ ํ์์ฑ
-
์ ๊ทํ(Normalization): ๊ฐ๋ณ feature์ ํฌ๊ธฐ๋ฅผ ๋ชจ๋ ๋๊ฐ์ ๋จ์๋ก ๋ณ๊ฒฝํ๋ ๊ฒ์ ๋งํ๋ค.
-
์ฌ์ฉ ์ด์ : feature ๋ณ๋ก scale์ฐจ์ด๊ฐ ์ฌํ๊ฒ ๋๋ ๊ฒฝ์ฐ ๊ฐ์ด ํฐ feature๊ฐ ๋ ์ค์ํ๊ฒ ์ฌ๊ฒจ์ง ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด์ ๋ชจ๋ ๋์ผํ scale์ ๋ฐ์ํ๋๋ก ํด์ผํ๋ค.
-
๋ฐฉ๋ฒ
-
Min-Max ์ ๊ทํ
๊ฐ feature์ ์ต์๊ฐ์ 0, ์ต๋๊ฐ์ 1๋ก ๋๊ณ ๋ณํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ฐ์, ์ต์๊ฐ์ , ์ต๋๊ฐ์ ๋ก ๊ฐ์ ํ๋ฉด ์ ๊ทํ ํ๋ ๊ณต์์ ์ ๊ฐ๋ค. -
Z-score ์ ๊ทํ
๊ฐ feature์ ํ์คํธ์ฐจ์ ํ๊ท ์ผ๋ก ๊ฐ์ ์ ๊ทํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
์ ๊ทํํ๋ ๊ณต์์๋ก ๋ํ๋ผ ์ ์๋ค.
-
Local minimum๊ณผ Global minimum์ ์ฐจ์ด
- Global minimum: ๋น์ฉํจ์์์ ์๋ฌ๊ฐ ์ต์ํ ๋๋ ์ง์ . ์ฆ, ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ํ๋ ์ง์ ์ ๋งํ๋ค.
- Local minimum: ์๋ฌ๊ฐ ์ต์๊ฐ ๋ ์ ์๋ ์ง์ ์ค์์ Global minimum์ ์ ์ธํ ์ง์ ์ ๋งํ๋ค.
์ด๋ ์ฐ๋ฆฌ๊ฐ Global minimum์ ๋๋ฌํ๋ค๊ณ ์ฐฉ๊ฐํ ์ ์๊ฒ ํ๋ค. ๋ฐ๋ผ์ Momemtum์ด๋ lr๋ฑ์ ์ ์ ์ฉํ์ฌ ๋ฒ์ด๋๋๋ก ํด์ผํ๋ค.
์ฐจ์์ ์ ์ฃผ
- ์ฐจ์์ ์ ์ฃผ: ๋ฐ์ดํฐ ์ฐจ์์ด ์ฆ๊ฐํ ์๋ก ๋ฐ์ดํฐ๊ฐ ์๋ ๊ณต๊ฐ์ ํฌ๊ธฐ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ปค์ง๋ฉฐ ๋ฐ์ดํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ ๋ํ ๋ฉ์ด์ง๋ฉด์ ํฌ์ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ฒ๋๋ ํ์์ ๋งํ๋ค. โ ๋ฐ์ดํฐ์ ํน์ง์ ๋ชจ๋ ์์ด๋ฒ๋ฆฌ๊ฒ ๋จ
ํด๊ฒฐํ๊ธฐ ์ํด์๋ ๋ฐ์ดํฐ๋ฅผ ๋ ์ถ๊ฐํ๊ฑฐ๋ PCA์ ๊ฐ์ ์ฐจ์ ์ถ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์ผํ๋ค.
์ฐจ์ ์ถ์ ๊ธฐ๋ฒ
-
Feature Selection(ํน์ง ์ ํ)
ํน์ feature์์ ์ข ์์ฑ์ด ๊ฐํ ๋ถํ์ํ feature๋ ์ ๊ฑฐํ๊ณ ๋ฐ์ดํฐ์ ํน์ง์ ์ ํํํ๋ ์ฃผ์ feature๋ง ์ ํํ๋ ๋ฐฉ๋ฒ์ด๋ค. -
Feature Extraction(ํน์ง ์ถ์ถ)
๊ธฐ์กด์ feature๋ฅผ ์ ์ฐจ์์ feature๋ก ์์ถํ์ฌ ํจ์ถ์ ์ผ๋ก ์ค๋ช ํ ์ ์๋๋ก ์ ์ฐจ์์ผ๋ก ๋งคํ ์ํค๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋ํ์ ์ผ๋ก PCA๋ฑ์ด ์๋ค.
PCA๋ ์ฐจ์์ถ์? ๋ฐ์ดํฐ ์์ถ? ๋ ธ์ด์ฆ ์ ๊ฑฐ?
-
PCA(Principle Component Analysis)
์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ ๊ฒ ๊ตฌํ ๊ณ ์ ๋ฒกํฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ณํํ์ฌ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฐจ์์ ๊ณง feature๋ฅผ ์๋ฏธํ๊ธฐ์ ๋ฐ์ดํฐ ์์ถ๊ธฐ๋ฒ์ด๋ผ ๋ณผ ์ ์๋ค.๋ํ ๊ณ ์ ๊ฐ์ด ๊ฐ์ฅ ํฐ ์์๋ก ์ฃผ์ฑ๋ถ ๋ฒกํฐ๋ฅผ ์ถ์ถํ๋๋ฐ ์ด๋ฅผ ํตํด ๊ฐ์ฅ ๋จผ์ ๋ฝํ ๋ฒกํฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ ์ผ ์ ์ค๋ช ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ธฐ๋ฒ์ด๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
Markov Chain
-
Markov Chain: ๋ง์ฝํ ์ฑ์ง์ ์ง๋ ์ด์ฐ ํ๋ฅ ๊ณผ์ ์ ์๋ฏธํ๋ค โ ํ๋ฅ ๋ณ์(random variable)๊ฐ ์ด๋ค ์ํ(state)์ ๋๋ฌํ ํ๋ฅ ์ด ์ค์ง ๋ฐ๋ก ์ด์ ์์ ์ ์ํ(state)์ ๋ฌ๋ ค ์๋ ๊ฒฝ์ฐ๋ฅผ ๊ฐ๋ฆฌํจ๋ค.
-
Markov Property: n+1ํ์ ์ํ๋ ์ค์งย nํ์์์ ์ํ, ํน์ ๊ทธ ์ด์ ์ผ์ ๊ธฐ๊ฐ์ ์ํ์๋ง ์ํฅ์ ๋ฐ๋ ๊ฒ์ ์๋ฏธํ๋ค.
-
์๋ฅผ ๋ค์ด, ์ค๋์ ๋ ์จ๊ฐ ์ด์ ์ ๋ ์จ์๋ง ์์กดํ๋ฉด 1์ฐจ ๋ง์ฝํ ์ฒด์ธ, ์ดํ ์ ๊น์ง์ ๋ ์จ์๋ง ์์กดํ๋ฉด 2์ฐจ ๋ง์ฝํ ์ฒด์ธ์ด๋ค.
-
Markov Model: ์์ ๊ฐ์ ํ์ ํ๋ฅ ์ ๋ชจ๋ธ์ ๋ง๋ ๊ฒ์ผ๋ก ๊ฐ์ฅ ๋จผ์ ๊ฐ ์ํ๋ฅผ ์ ์, ๊ทธ ๋ค์ ์ํ ์ ์ด ํ๋ฅ ์ ์ ์ํ๋ค.
SVM
-
SVM: Support Vector Machine์ ๋ฐ์ดํฐ๊ฐ ๋งคํ๋ ๊ณต๊ฐ์์ ๊ฒฝ๊ณ๋ก ํํ๋๋ฉฐ, ๊ณต๊ฐ์์์ ์กด์ฌํ๋ ์ฌ๋ฌ ๊ฒฝ๊ณ ์ค ๊ฐ์ฅ ํฐ ํญ(๋ง์ง)์ ๊ฐ์ง๋ ๊ฒฝ๊ณ๋ฅผ ์๋ฏธํ๋ค.
-
SVM ์ฅ๋จ์
์ฅ์ | ๋จ์ |
---|---|
๋ถ๋ฅ์ ํ๊ท์ ๋ชจ๋ ์ฌ์ฉํ ์ ์๋ค. | ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋งค๊ฐ๋ณ์ ์ค์ ์ ๋ฐ๋ผ ์ ํ๋๊ฐ ๋ฌ๋ผ์ง ์ ์๋ค. |
์ ๊ฒฝ๋ง ๊ธฐ๋ฒ์ ๋นํด ๊ณผ์ ํฉ ์ ๋๊ฐ ๋ฎ๋ค. | ์์ธก์ด ์ด๋ป๊ฒ ์ด๋ฃจ์ด์ง๋์ง์ ๋ํ ์ดํด์ ๋ชจ๋ธ์ ๋ํ ํด์์ด ์ด๋ ต๋ค. |
์์ธก์ ์ ํ๋๊ฐ ๋๋ค. | ๋์ฉ๋ ๋ฐ์ดํฐ์ ๋ํ ๋ชจ๋ธ ๊ตฌ์ถ ์ ์๋๊ฐ ๋๋ฆฌ๋ฉฐ,๋ฉ๋ชจ๋ฆฌ ํ ๋น๋์ด ํฌ๋ค. |
์ ์ฐจ์๊ณผ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๋ํด์ ๋ชจ๋ ์ ์๋ํ๋ค. |
-
๋ง์ง(Margin): plus-plane๊ณผ minus-plane ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์๋ฏธํ๋ฉฐ ์ต์ ์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ ๋ง์ง์ ์ต๋ํํ๋ค.
-
๋น์ ํ ๋ถ๋ฅ์์ SVM
์ปค๋ ํธ๋ฆญ(kernel trick)์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ด์ฉํด ์ ํ ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํ ๊ณ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ฌ ๋ ๋ฒ์ฃผ๋ฅผ ๊ตฌ๋ถํ๋ ์ดํ๋ฉด์ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค. (Kernel-SVM)
- Kernel Trick (์ปค๋ ํธ๋ฆญ): ์ปค๋ ํจ์๋ฅผ ์ด์ฉํด ์ ์ฐจ์ ๊ณต๊ฐ์ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํด์ฃผ๋ ์์
Naive Bayes(๋์ด๋ธ ๋ฒ ์ด์ฆ)
- ๋ฐ์ดํฐ์์ ๋ณ์๋ค์ ๋ํย ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ ๊ฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํด๋์ค์ ๋ํ ์ฌ์ ์ ๋ณด์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ถ์ถ๋ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๊ณ ,ย **๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes Theorem)๋ฅผ ์ด์ฉํ์ฌ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ํน์ ํด๋์ค์ ์ํ๋์ง ๋ถ๋ฅํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ฅ์ | ๋จ์ |
---|---|
๋จ์ํ๊ณ ๋น ๋ฅด๋ฉฐ ๋งค์ฐ ํจ๊ณผ์ ์ด๋ค | ๋ชจ๋ ์์ฑ์ ๋๋ฑํ๊ฒ ์ค์ํ๊ณ ๋ ๋ฆฝ์ ์ด๋ผ๋ ์๋ ค์ง ๊ฒฐํจ ๊ฐ์ ์ ์์กดํ๋ค |
๋ ธ์ด์ฆ์ ๊ฒฐ์ธก ๋ฐ์ดํฐ๊ฐ ์์ด๋ ์ ์ํํ๋ค | ์์น ์์ฑ์ผ๋ก ๊ตฌ์ฑ๋ ๋ง์ ๋ฐ์ดํฐ์ ์ ๋ํด ์ด์์ ์ด์ง ์๋ค |
ํ๋ จ์ ๋ํ ์๋์ ์ผ๋ก ์ ์ ์์ ๊ฐ ํ์ํ์ง๋ง ๋งค์ฐ ๋ง์ ์์ ๋ ์ ์ํํ๋ค | ์ถ์ ๋ ํ๋ฅ ์ ์์ธก๋ ๋ฒ์ฃผ๋ณด๋ค ๋ ์ ๋ขฐ์ ์ด๋ค |
์์ธก์ ๋ํ ์ถ์ ๋ ํ๋ฅ ์ ์ป๊ธฐ ์ฝ๋ค |
- ๋ฒ ์ด์ฆ ์ ๋ฆฌ
- ์ด๋ค ์ฌ๊ฑด A๊ฐ ์ฃผ์ด์ก์ ๋ ์ฌ๊ฑด B๊ฐ ์ผ์ด๋ ํ๋ฅ ์ ๊ฐฑ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ฆ, ์๋ก์ด ์ ๋ณด๊ฐ ์ฃผ์ด์ก์ ๋, ํด๋น ์ ๋ณด๋ฅผ ํ ๋๋ก ์ด๋ค ๊ฐ์ค(์ฌ๊ฑด)์ด๋ ๋ชจ์๋ฅผ ์ถ๋ก ยท์ ๋ฐ์ดํธํ๋ ๋ฐ ํ์ฉ๋ฉ๋๋ค.
๋จธ์ ๋ฌ๋(machine)์ ์ ๊ทผ๋ฐฉ๋ฒ๊ณผ ํต๊ณ(statistics)์ ์ ๊ทผ๋ฐฉ๋ฒ
-
๋จธ์ ๋ฌ๋์ ์ ๊ทผ๋ฐฉ๋ฒ: ๋ชจ๋ธ์ย ์์ธก ์ฑ๊ณต๋ฅ ์ ๋์ด๋๊ฒ ๋ชฉ์ ์ด๋ค.
๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ ๋ขฐ๋๋ ์ ๊ตํ ๊ฐ์ ๋ณด๋ค๋ ๋ค์ํ ํผ์ณ๋ฅผ ์ฌ์ฉํ์ฌ (์ค๋ฒํผํ ์ ๊ฐ์ํ๋๋ผ๋) ๋์ ์์ธก๋ฅ ์ ๋ฌ์ฑํ๊ณ ์ ํ๋ค. -
ํต๊ณ์ ์ ๊ทผ๋ฐฉ๋ฒ: ๋ถํฌ์ ๊ฐ์ ์ ํตํดย ์ ๋ขฐ ๊ฐ๋ฅํ๊ณ ์ ๊ตํย ๋ชจ๋ธ์ ๋ง๋๋๊ฒ ๋ชฉ์ ์ด๋ค.
๋ฐ๋ผ์ ๋ชจํ์ ๋ณต์กํ์ง ์๊ณ ๋จ์ํ๊ฒ ๋ง๋ค๊ณ , ์ด๋ค ํผ์ณ๊ฐ ์ด๋ค ์์ธ์ ์ฃผ๋์ง ์ ์ ์๋๋ก ํ๋ค.
์ธ๊ณต์ ๊ฒฝ๋ง(deep learning ์ด์ )์ด ๊ฐ์ง๋ ์ผ๋ฐ์ ์ธ ๋ฌธ์ ์
- ์ ํ์ ์ธ ๊ตฌ์กฐ๋ง์ ์ด์ฉํด ํ๊ท, ๋ถ๋ฅ ๋ฑ์ ๋ฌธ์ ๋ฅผ ํ์๊ธฐ ๋๋ฌธ์ XOR๋ฌธ์ ์ ๊ฐ์ ๋ณต์กํ ๋ฌธ์ ๋ ํด๊ฒฐํ์ง ๋ชปํ๋ค.
Sigmoid์ ๊ฐ์ ๋น์ ํ ํจ์๋ฅผ ์ ํ๋ชจ๋ธ ์ถ๊ฐํ๋ฉด์ XOR๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ๋์๋ค.
Deep Learning์ ํ์ ์ ๊ทผ๊ฐ
-
ImageNet ๊ณผ ๊ฐ์ย ๊ฑฐ๋ํ๊ณ ๋์ ํ์ง์ ๋ฐ์ดํฐ์ ์ด ๋ชจ๋์๊ฒ ๊ณต๊ฐ๋๋ฉด์ ๋ฅ๋ฌ๋์ ํ์ ์ ์ธ ๋ฐ์ ์ด ์์๋ ์ ์์๋ค. ํ์ฌ๋ ๋ ๋ค์ํ ํ์คํฌ์ ์ ํฉํ ์ข์ GLUE ๊ฐ์ ๋ฐ์ดํฐ๋ค๋ ๊ณต๊ฐ๋์ด ๋์ฑ ๋ฅ๋ฌ๋์ ๋ฐ์ ์ ์ด๋ฐ์งํ๊ณ ์๋ค.
-
ํ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ๋ชจ๋ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ๋ค์ธ๋ฐย ํ๋์จ์ด์ ๋ฐ์ ์ด ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
์๋ฒ๊ฐ ๋ง์ ๋ Random Forest๊ฐ ์ ๋ฆฌํ ์ด์
- ์ฌ๋ฌ Decision Tree๋ฅผ ์ด์ฉํด ์์๋ธํ์ฌ ์ต์ข
๊ฒฐ๋ก ์ ๋ด๋๋ ๊ฒ์ด Random Forest์ด๋ค.
๋ง์ฝ ์๋ฒ์ ์๊ฐ ๊ต์ฅํ ๋ง๋ค๋ฉด ๊ฐ ์๋ฒ๋ง๋ค Decision Tree๋ฅผ ๋ณ๋ ฌ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ค.
์ด๋ ๋ง์ฝ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ค๋ฉด ์๋ฒ ์์ฒด๊ฐ end to end ๊ตฌ์กฐ๋ก ์ง๋ ฌ์ ์ผ๋ก ๊ตฌ์ฑ๋๊ฒ ๋๋ฏ๋ก Random Forest๊ฐ ์ ๋ฆฌํ๋ค.
K-means
- ๋น์ง๋ ํ์ต(unsupervised learning) ๊ธฐ๋ฒ ์ค ํ๋๋ก, ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ ์ ํด์ง K๊ฐ์ ํด๋ฌ์คํฐ๋ก ๋๋๋ ์๊ณ ๋ฆฌ์ฆ
- ๊ฐ ํด๋ฌ์คํฐ๋ ๋ฐ์ดํฐ๋ค์ ์ค์ฌ, ์ฆ centroid(์ค์ฌ์ ) ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด ์ค์ฌ์ ์ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ค์ด ๊ฐ์ฅ ๊ฐ๊น์ด ํด๋ฌ์คํฐ์ ํ ๋น๋ฉ๋๋ค.
L1, L2 ์ ๊ทํ(Regularization)
-
์ ๊ทํ(Regularization): ํ์ต ๋ฐ์ดํฐ์ ์ค๋ฒํผํ ๋์ง ์๊ณ ์ฒ์ ๋ณด๋ ํ ์คํธ ๋ฐ์ดํฐ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก ๋ง๋๋ ๊ฒ์ ์๋ฏธํ๋ค.
-
๋ฒกํฐ์ Norm: ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๋ํ๋ธ๋ค. L1์์๋ ์ ๋๊ฐ์ผ๋ก, L2์์๋ ์ง์ ๊ฑฐ๋ฆฌ(์ ๊ณฑ์ ๋ฃจํธ) ๋ก ๋ํ๋ธ๋ค.
-
L1 ์ ๊ทํ
-
๊ณต์
์ฌ๊ธฐ์๋ ์ ๊ทํ ๊ฐ๋๋ฅผ ๊ฒฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ, ๋ ๋ชจ๋ธ์ ๊ฐ ๊ฐ์ค์น๋ฅผ ์๋ฏธ -
ํน์ง
- ๊ฐ์ค์น์ ์ ๋๊ฐ์ ์ต์ํ
๊ฐ์ค์น๋ค์ ๋ ์๊ฒ ๋ง๋ค๋๋ก **์๋ฐ(ํจ๋ํฐ)**์ ๊ฐํฉ๋๋ค. - ํฌ์์ฑ(Sparsity)์ ์ ๋
ํน์ ๊ฐ์ค์น๋ค์ด ์ ํํ 0์ด ๋๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. (์ผ๋ถ ๊ฐ์ค์น๋ ์์ ํ 0์ด ๋๊ณ , ์ผ๋ถ๋ง ๋จ์์๊ฒ ๋จ)
๋ชจ๋ธ์ด Feature Selection์ ์๋์ผ๋ก ์ํํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. - ๊ฐ์ค์น ์
๋ฐ์ดํธ์ ๋ถ์ฐ์์ ์ด ์๊น
์ ๋๊ฐ ํจ์๋ ์์ ๋ฏธ๋ถ ๋ถ๊ฐ๋ฅ์ ์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ ์ฉํ ๋ ์ด์ ๋ํ ์ฒ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค(์๋ธ๊ทธ๋๋์ธํธ ๋ฑ).
- ๊ฐ์ค์น์ ์ ๋๊ฐ์ ์ต์ํ
-
-
L2 ์ ๊ทํ
-
๊ณต์
-
ํน์ง
- ๊ฐ์ค์น์ ์ ๊ณฑํฉ์ ์ต์ํ
๊ฐ์ค์น () ๋ค์ ๋ ์๊ฒ ๋ง๋ค๋๋ก ์๋ฐํฉ๋๋ค. - ๊ฐ์ค์น๊ฐ 0์ ๊ฐ๊น์์ง
๋ชจ๋ ๊ฐ์ค์น๊ฐ ์กฐ๊ธ์ฉ ์์์ง๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ, ํน์ ๊ฐ์ค์น๊ฐ ์ ํํ 0์ด ๋๋ ๊ฒฝ์ฐ๋ ๋๋ญ ๋๋ค(ํฌ์์ฑ์ ์๋์ ์ผ๋ก ๋ฎ์). - ํด ์๋ก ๋ ๊ฐํ๊ฒ ํจ๋ํฐ
๊ฐ์ค์น๊ฐ ํฐ ํญ์ผ์๋ก ํจ๋ํฐ ํญ์ ํฐ ์ํฅ์ ์ฃผ๋ฏ๋ก, ํฐ ๊ฐ์ค์น๊ฐ ๋ ๋น ๋ฅด๊ฒ ์ถ์๋ฉ๋๋ค. - ๋ฏธ๋ถ์ด ์ฐ์์
๋ ๋ชจ๋ ์ ๋ํด ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฏ๋ก ๊ฒฝ์ฌํ๊ฐ๋ฒ ์ ๋ฐ์ดํธ๊ฐ ๋ถ๋๋ฝ๊ฒ ์ด๋ค์ง๋๋ค.
- ๊ฐ์ค์น์ ์ ๊ณฑํฉ์ ์ต์ํ
-
-
L1 ์ ๊ทํ์ ํน์ฑ
- L1 ์ ๊ทํ๋ฅผ ์ฌ์ฉํ๋ฉด
๋ฒกํฐ์์ ๋ง์ ๊ฐ์ด 0์ด ๋ฉ๋๋ค. - ์ด๋ ๋ชจ๋ธ์ด sparse(ํฌ์)ํด์ง๋๋ก ๋ง๋ญ๋๋ค.
- ํ๋ผ๋ฏธํฐ ์ค ๋ง์ ๊ฐ์ด 0์ด ๋๋ฏ๋ก, ๋ชจ๋ธ์ ์ ์ฅํ๋ ๋ฐ ๋ ์ ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค.
- ๋ฐ๋ผ์ ๋ชจ๋ธ์ ์์ถํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค.
- L1 ์ ๊ทํ๋ฅผ ์ฌ์ฉํ๋ฉด
Cross Validation์ด๋?
-
Cross Validation(๊ต์ฐจ๊ฒ์ฆ): ํ์ต(train) ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ด, ํ์ต์ ์ฌ์ฉ๋์ง ์์ ๊ฒ์ฆ(validation) ๋ฐ์ดํฐ์ ๋ํด ์ผ๋ง๋ ์ ๋์ํ๋์ง๋ฅผ ํ๊ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ์ ์ ๋ฐ๋ก ๋๊ณ ํ์ต ๊ณผ์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํด ํ๊ฐํ๋ ๊ฒ์ด ํต์ฌ ์์ด๋์ด์ ๋๋ค. -
์ฅ๋จ์
-
์ ์ ๋ฐ์ดํฐ๋ก๋ ์์ ์ ์ธ ๊ฒ์ฆ ๊ฐ๋ฅ
์ฌ๋ฌ ๋ฒ์ ํ๋ จ-๊ฒ์ฆ ๊ณผ์ ์ ํตํด, ์๋์ ๋ฐ์ดํฐ๋ก๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ๋ขฐ๋ ์๊ฒ ํ๊ฐํ ์ ์์ต๋๋ค. -
๋ฐ์ดํฐ ํธ์ค ์ต์ํ
๋ชจ๋ ์ํ์ด ํ์ต์ ์ฌ์ฉ๋ ๊ธฐํ๋ฅผ ์ป๊ณ , ๊ฒ์ฆ์๋ ๊ณ ๋ฃจ ์ฐธ์ฌํ๊ฒ ๋๋ฏ๋ก ํน์ ๋ถ๋ถ์๋ง ํธํฅ๋๋ ๋ฌธ์ ๋ฅผ ์ค์ผ ์ ์์ต๋๋ค (์: K-Fold Cross Validation). -
๋ ์ผ๋ฐํ๋ ๋ชจ๋ธ์ ๋์ถ
๋ฐ๋ณต ํ์ต-๊ฒ์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํด ๋ชจ๋ธ ์ฑ๋ฅ์ ํ์ ํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ํจ์ผ๋ก์จ, ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ผ ์ ์์ต๋๋ค. -
ํ์ต ์๊ฐ ์ฆ๊ฐ
ํด๋๋ง๋ค ๋ชจ๋ธ์ ์๋ก ํ์ตํ๊ณ ๊ฒ์ฆํด์ผ ํ๋ฏ๋ก, ๋จ์ ํ๋์์ ๋ฐฉ์์ ๋นํด ๊ณ์ฐ ๋น์ฉ์ด ์ปค์ง๋๋ค.
-
-
ํ๋ ์์ ๊ต์ฐจ๊ฒ์ฆ
์ผ์ ํ ๋น์จ์ Validation ๋ฐ์ดํฐ ์ ํ๋๋ฅผ ์ง์ ํ์ฌ ๊ฒ์ฆ ๋ฐ์ดํฐ ์ ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ- Validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ๋ ๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ ํ์ต์ ์ฌ์ฉ๋์ง ์์
- Validation ๋ฐ์ดํฐ์ ์ ํธํฅ๋จ
-
K-fold ๊ต์ฐจ๊ฒ์ฆ
๋ฐ์ดํฐ๋ฅผ k๊ฐ์ fold๋ก ๋๋์ด ๊ทธ ์ค ํ๋์ fold๋ฅผ validation ๋ฐ์ดํฐ ์ ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ k๋ฒ ๋ฐ๋ณตํ์ฌ ๊ทธ ํ๊ท ์ ๊ฒฐ๊ณผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ- train ๋ฐ์ดํฐ์ ์ k๊ฐ์ fold๋ก ๋๋๊ณ , ๊ทธ ์ค ํ๋๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ํ๋ค.
- validation ๋ฐ์ดํฐ์ ์ ์ ์ธํ ๋๋จธ์ง ํด๋๋ค์ train ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๋ค.
- ํ์ตํ ๋ชจ๋ธ์ 1๋ฒ์์ ์ง์ ํด๋ validation ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฒ์ฆํ๊ณ , ๊ทธ ๊ฒ์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ ์ฅํด๋๋ค.
- ๋ชจ๋ธ์ ์ด๊ธฐํํ ํ, ๊ธฐ์กด validation ๋ฐ์ดํฐ์ ์ด ์๋ ๋ค๋ฅธ fold๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ํ๊ณ , 2๋ฒ ๊ณผ์ ๋ถํฐ ๋ค์ ์ํํ๋ค.
- ๋ชจ๋ fold๋ค์ด ํ๋ฒ์ฉ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉ๋ ํ์๋, ์ ์ฅํด๋ ๊ฒ์ฆ๊ฒฐ๊ณผ์ ํ๊ท ์ ๋ด์ด, ๊ทธ๊ฒ์ ์ต์ข validation ๊ฒฐ๊ณผ๋ก ์ฌ์ฉํ๋ค.
- ๋๋คํ๊ฒ validation ๋ฐ์ดํฐ์ ์ ์ง์ ํ๊ฒ ๋๋ฏ๋ก, ํธํฅ๋ ๋ฐ์ดํฐ๋ก ์ด๋ค์ง ํด๋๊ฐ ์์ฑ๋ ์ ์๋ค๋ ๋จ์ ์ด ์กด์ฌ
-
๊ณ์ธจ๋ณ K-fold ๊ต์ฐจ๊ฒ์ฆ
๋๋คํ๊ฒ fold๋ฅผ ์ง์ ํ๋ ๊ฒ์ด ์๋, ๊ฐ ํด๋์ค๋ณ ๋น์จ์ ๊ณ ๋ คํ์ฌ fold๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
์ test ๋ฐ์ดํฐ์
๋ง์ผ๋ก ๊ฒ์ฆํ๋ฉด ์๋ ๊น?
๋ชจ๋ train ๋ฐ์ดํฐ์
์ ํ์ตํ๊ณ , test ๋ฐ์ดํฐ์
์ผ๋ก ๊ฒ์ฆํ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ค๊ณ ํ์. ๊ฐ๋ฐ์๋ test ๋ฐ์ดํฐ์
์ ์๋ฅผ ๋์ด๊ธฐ ์ํด, test ๋ฐ์ดํฐ์
์ ํธํฅ๋๋๋ก ๋ชจ๋ธ์ ํ๋ํ๊ฒ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ค์ํ ๊ฒ์ test ๋ฐ์ดํฐ์
์ ๋ํ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ ๋ฟ๋ง์๋๋ผ, ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ์ด๋ค. ์ด๋ค ๋ฐ์ดํฐ๊ฐ ๋ค์ด์๋ ์ผ์ ํ๊ฒ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ ํ ์ ์์ผ๋ฏ๋ก, validation ๋ฐ์ดํฐ์
๊ณผ test ๋ฐ์ดํฐ์
์ ๋ถ๋ฆฌํ์ฌ ๊ฒ์ฆํ๋ ๊ณผ์ ์ ํตํด, ๋ชจ๋ธ์ ์ผ๋ฐํ์์ผ์ผ ํ๋ค.
XGBoost
-
ํธ๋ฆฌ ๊ธฐ๋ฐ์ ์์๋ธ ํ์ต์์ ๊ฐ์ฅ ๊ฐ๊ด๋ฐ๊ณ ์๋ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ด๋ค.
-
์์ธก๋ชจํ์ย ์์๋ธ ๋ฐฉ๋ฒ๋ก ย ์คย ๋ถ์คํ ย ๊ณ์ด์ ์ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
-
์ฅ์
- ๋ถ๋ฅ์ ํ๊ท์์ญ์์ย ๋ฐ์ด๋ ์์ธก ์ฑ๋ฅ์ ๋ฐํํ๋ค.
- XGBoost๋ ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ, GBM ๋๋นย ๋น ๋ฅธ ์ํ์๊ฐ์ ๋ณด์ธ๋ค.
- Regularization, Early Stoppingย ๊ธฐ๋ฅ์ ํตํด ์ค๋ฒํผํ ์ ๋ฐฉ์งํ ์ ์๋ค.
- Tree Pruning(๊ฐ์ง์น๊ธฐ) ์ ๊ณตํ๋ค. ๋ฏธ๋ฆฌ ์ ํด๋ max_depth๊น์ง๋ง splitํ๊ณ pruning์ ํ๊ณ , ๊ฑฐ๊พธ๋ก ์ฌ๋ผ๊ฐ๋ฉด์ positive gain์ด ์๋ ๋ ธ๋๋ฅผ ์ญ์ ํ๋ค.
- ์์ฒด์ ์ผ๋ก ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํด์ค๋ค.
- ๋งค iteration๋ง๋ค ๊ต์ฐจ๊ฒ์ฆ์ ์ํํ๋ค.
์์๋ธ
-
์์๋ธ: ์ฌ๋ฌ๊ฐ์ ๋ชจ๋ธ์ ์กฐํฉํด์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฝ์ ๋ด๋ ๋ฐฉ๋ฒ์ด๋ค. "์ ํ๋๊ฐ ๋์ ๊ฐํ ๋ชจ๋ธ์ ํ๋ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค, ์ ํ๋๊ฐ ๋ฎ์ ์ฝํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ ์กฐํฉ ํ๋ ๋ฐฉ์์ ์ ํ๋๊ฐ ๋๋ค"๋ ๊ฐ๋ ์์ ๋น๋กฏํ ๋ฐฉ๋ฒ์ด๋ค.ย
Bagging
,ยBoosting
,ยStacking
ย ๋ฑ์ ๋ฐฉ๋ฒ์ด ์๋ค.-
๋ฐฐ๊น : ์ํ์ ์ฌ๋ฌ๋ฒ ๋ฝ์(Bootstrap = ๋ณต์ ๋๋ค ์ํ๋ง) ๊ฐ ๋ชจ๋ธ์ ํ์ต์์ผ ๊ฒฐ๊ณผ๋ฌผ์ ์ง๊ณ(Aggregation) ํ๋ ๋ฐฉ๋ฒ
์นดํ ๊ณ ๋ฆฌ ๋ฐ์ดํฐ๋ ํฌํ ๋ฐฉ์(Votinig)์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ง๊ณํ๋ฉฐ, ์ฐ์ํ ๋ฐ์ดํฐ๋ ํ๊ท ์ผ๋ก ์ง๊ณํ๋ค.
๋ํ์ ์ธ ๊ธฐ๋ฒ์๋ Random Forest, Hard Votin, Soft Voting ๋ฑ์ด ์๋ค. -
๋ถ์คํ : ์ด์ ๋ชจ๋ธ์ ์ค๋ต์ ๊ฐ์ค์น๋ฅผ ๋๊ฒ ๋ถ์ฌํ์ฌ ๋ค์ ๋ชจ๋ธ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ค๋ต์ ์ ๋ต์ผ๋ก ๋ง์ถ๊ธฐ ์ํด ์ค๋ต์ ๋ ์ง์คํ์ฌ ํ์ต์ํค๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก ๋ฐฐ๊น ์ ๋นํด ์ ํ๋๊ฐ ๋๋ค.
์ค๋ต ๋ถ๋ถ์ ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์ ์ค๋ฒํผํ ๋ฌธ์ ๊ฐ ์๊ณ outlier์ ์ทจ์ฝํ๊ณ ์๋๊ฐ ๋๋ฆฌ๋ค.
๋ํ์ ์ธ ๊ธฐ๋ฒ์ผ๋ก XGBoost, AdaBoost, GradientBoost๊ฐ ์กด์ฌํ๋ค. -
์คํํน: ์ฌ๋ฌ ๊ฐ๋ณ ๋ชจ๋ธ์ด ์์ธกํ ๊ฒฐ๊ณผ๊ฐ์ ๋ค์ ํ์ต ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉํด์ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ฐ์ ๋ฐ์ดํฐ์ ์ ํตํด ์์ธกํ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ํ์ตํ๋ฏ๋ก ์ค๋ฒํผํ ย ๋ฌธ์ ์ ์ด ์๋ค.
Cross Validation ๋ฐฉ์์ ๋์ ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค. ๋ฐ์ดํฐ๋ฅผ ์ชผ๊ฐ๊ณ ์ด๋ค ์ค ์ผ๋ถ๋ง์ ๊ฐ์ง๊ณ ํ์ตํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ ๋ง๋ค์ด, ๊ทธ ๊ฒฐ๊ณผ๋ค์ย๋ฉํ ํ์ต ๋ฐ์ดํฐ์ (meta train dataset)
ย ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ค์ ํ์ตํ๋ ๊ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ง์ ๊ฐ๋ณ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ์ฌ ์์ธก ์ฑ๋ฅ์ ๋์ผ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
-
๋ฐฐ๊น
vs ๋ถ์คํ
๋ฐฐ๊น
์ ๋๋ค ๋ณต์์ถ์ถ(๋ถํธ์คํธ๋ฉ)์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ์ฌ ๋ชจ๋ธ์ย ๋ณ๋ ฌ์ ์ผ๋ก ์ฌ๋ฌ๊ฐ ํ์ต์ ์ํจ ๋ค์, ํ๊ท ์ ๋ด๋ ๋ฐฉ์์ด๋ค. ๋ฐ๋ฉด,ย ๋ถ์คํ
์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ์ฌ์ฉํ๋, ์ค๋ต์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋์ด ๋ค์ ํ์ฐจ๋ฅผ ํ์ต์ํค๋ย ์์ฐจ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค
์ข์ ๋ชจ๋ธ์ด๋?
- ์ข์ ๋ชจ๋ธ: ๋ฐ์ดํฐ์ ํจํด์ ์ ํ์ตํ ๋ชจ๋ธ๋ก์,ย ํ๋ฒ๋ ๋ณธ์ ์๋ ๋ฐ์ดํฐ์ ๋ํด ์ณ์ ํ๋จ์ ๋ด๋ฆฌ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
50๊ฐ์ ์์ Decision Tree(๋ฐฐ๊น ) vs ํฐ Decision Tree
- ํฐ Decision tree๋ ์์ ํธํฅ(bias)์ ํฐ ๋ถ์ฐ(variance)๋ฅผ ๊ฐ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๊น์ Tree๋ ์ค๋ฒํผํ ์ด ๋ฐ์ํ๊ฒ ๋๋ค.
- ๋ฐฐ๊น ํ๋ ๋ฐฉ๋ฒ์ ํธํฅ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์ ์ฌ๋ฌ ๋ฐ์ดํฐ ์ /์ฌ๋ฌ ๊ฒฝ์ฐ์ ๋ํด ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋ถ์ฐ์ด ๊ฐ์ํ๋ค. ๋ฐ๋ผ์ ํฐ Decision Tree๋ณด๋ค ๋ ๊ฐ๊ฑดํ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค.
๋ถ๋ฅ ๋ฌธ์ ์์ Rogistic Regression vs Linear Regression
-
Rogistic Regression
์๊ทธ๋ชจ์ด๋ ํจ์(sigmoid function)ย ๋ฅผ ํตํด ์ ํํจ์๋ฅผ 0๊ณผ 1 ์ฌ์ด์ ํจ์๋ก ๋ฐ๊พผ ๊ฒ์ด๋ฉฐ, S์ ํํ๋ฅผ ๋ณด์ธ๋ค. ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ ์๋์ ๊ฐ๋ค. -
Linear Regression
์ด๋ค ์ ๋ ฅ๊ฐ์ด ๋ค์ด์ค๋๋์ ๋ฐ๋ผย 0๊ณผ 1 ์ฌ์ด์ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ธฐ๋ย ํ๋ค.