๊น์ด์ง ์ธ๊ณต์ ๊ฒฝ๋ง์ ๋ฌธ์ ์
Generalization
: training์ ์ฌ์ฉ๋์ง ์์ data์ ๋ํ ์ฑ๋ฅ
Data set
-
Training set
training์ ์ฌ์ฉํ๋ data set
-
Validation set
์ฃผ์ด์ง data set ์ค ๋นผ๋์๋ค๊ฐ ์ฑ๋ฅ์ ๊ฒ์ฆํ ๋ ์ฌ์ฉํ๋ data set
-
Test set
์ฃผ์ด์ง์ง ์์๋ ์ ํ ์ ์๋ data set
ํ์ต์ด training set์ผ๋ก ์งํ๋๊ธฐ ๋๋ฌธ์, ํ์ต์ ๋ฐ๋ณตํ ์๋ก training set์ ๋ํ ์ ํ๋๋ ๋์์ง๊ณ ์ค๋ฅ์จ์ ๋ฎ์์ง๋ค. ํ์ง๋ง validation set์ ๋ํ ์ค๋ฅ์จ์ ๋ฎ์์ง๋ค๊ฐ ๋์์ง๋ ํ์์ ๋๋๋ฐ, ์ด๋ ํ์ต์ด ๋๋ฌด training set์๋ง ์ ํฉํ๊ฒ ๋์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ training set์ overfitting(๊ณผ์ ํฉ)๋์๋ค๊ณ ํ๋ค.
์ด์ฒ๋ผ ์ฃผ์ด์ง data ๋ฟ๋ง ์๋๋ผ ์์ง ํ์ตํด๋ณด์ง ์์ data๋ค๋ ์ฑ๋ฅ์ ์์ ์ ์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋ชจ๋ธ๊ณผ ํ์ต ๋ฐ์ดํฐ ์์ ๊ด๊ณ๋ฅผ ์ ์ ํ ๋ง์ถ์ด์ผ ํ๋ค.
์ฌ๊ธฐ์ ์ฐ๋ฆฌ ๊ต์๋์ด ๋์ ์๋ฅผ ํ์ฉํ์๋ฉด, ๋จธ๋ฆฌ๊ฐ ์ข์ ํ์์๊ฒ (์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์๊ฒ) ์ ์ ํ ์์ ๋ฌธ์ ์ ๋ต์์ง๋ฅผ ์ฃผ๊ณ ๋ฌธ์ ๋ฅผ ํ๋ผ๊ณ ํ๋ฉด (training data) ๋ต์ ๋ค ์ธ์์ ๋ฌธ์ ์ง๋ฅผ ํ ์ ์๋ค. ํ์ง๋ง ์ด ํ์์ ๋ค๋ฅธ ๋ฌธ์ ๊ฐ ์ฃผ์ด์ก์ ๋ ํ์ง ๋ชปํ ๊ฒ์ด๋ค (Overfitting). ๊ทธ๋ฐ๋ฐ ๋ง์ฝ ์ด ํ์์๊ฒ ์ธ์ฐ์ง ๋ชปํ ์ ๋๋ก ๋ง์ ๋ฌธ์ ์ ๋ต์์ง๋ฅผ ์ค๋ค๋ฉด ๋ฌธ์ ๋ฅผ ์ธ์ฐ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ํธ๋ ๋ฐฉ๋ฒ์ ์ตํ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฉด ์ด ํ์์ ๋ค๋ฅธ ๋ฌธ์ ๊ฐ ์ฃผ์ด์ก์ ๋๋ ํ ์ ์๋ค.
๊ฒฐ๊ตญ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋นํด์ ์ฃผ์ด์ง ํ์ต ๋ฐ์ดํฐ ์๊ฐ ์ ์ผ๋ฉด ์ด ๋ชจ๋ธ์ ๋๋ฌด ์ฌ์์ ๋ค ์ธ์๋ฒ๋ฆฐ๋ค. (Overfitting ๋์ด๋ฒ๋ฆฐ๋ค.) ๋ฐ๋ผ์ ์ฑ๋ฅ์ ๋นํด ๋ ๋ง์ ํ์ต ๋ฐ์ดํฐ ์๋ฅผ ์ฃผ์ด์ผ ์ ์ ํ ํ์ต์ ์ด๋ฃฐ ์ ์๋ค.
deep neural network์ ๋ฌธ์ ์
์ฐ๋ฆฌ๋ ์ด์ ๊น์ ์ธ๊ณต์ ๊ฒฝ๋ง์์๋ back propagation์ ํตํด weight๋ฅผ ํ์ตํ ์ ์๊ฒ ๋์๋ค. ํ์ง๋ง ๋ฌธ์ ๊ฐ ์๋ค.
-
๋ฐฉ๊ธ ์ค๋ช ํ Overfitting ๋ฌธ์
data๋ฅผ ๋ง์ด ๋ชจ์๋ ๋ถ์กฑํ๋ค๋ฉด ์ด๋ป๊ฒ ํด์ผํ ๊น?
์ฑ๋ฅ์ ์ค์ฌ์ผํ๋ค. (weight ์ ์ค์ด๊ธฐ)
-
๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์
weight๋ฅผ ํ์ตํ๊ธฐ ์ํด ๋ฏธ๋ถ์ ๊ตฌํ๋ ๊ณผ์ ์์ ๊ณ์ activation function์ ๋ฏธ๋ถ ๊ฐ์ด ๊ณฑํด์ง๊ฒ ๋๋ค. sigmoid ํจ์์ ๋ฏธ๋ถ ๊ฐ์ 0๊ณผ 1์ฌ์ด ์ด๋ฏ๋ก ์์ ์๊ฐ ๊ณ์ ๊ณฑํด์ ธ์ ๊ฒฐ๊ตญ ํํํ ์ ์๋ ๋ฒ์๋ฅผ ๋์ด์๊ฒ ๋๊ณ ๊ฐ์ด 0์ด ๋๋ (๊ธฐ์ธ๊ธฐ๊ฐ ์์ค๋๋) ๋ฌธ์ ๊ฐ ์ด๊ฒ์ด๋ค.
๊ธฐ์ธ๊ธฐ๊ฐ 1์ด์์ธ activation function์ ์ฌ์ฉํด์ผํ๋ค.
-
local minimum ๋ฌธ์
error์ ์ต์๊ฐ์ ์ฐพ์์ผํ๋ ๋ฌธ์ ์์ ๊ทน์๊ฐ์ ๋น ์ ธ์ ๋์ด์ ์์ง์ด์ง ์๋ ์ด ๋ฌธ์ ๋ ์์ ํํธ์์ ๊ทธ๋ํ๋ก ์ค๋ช ํ ๋ ๋ฐ๊ฒฌํ๋ค.
์ด ๋ฌธ์ ๋ ์ฃผ์ด์ง data๋ฅผ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด์ ํ์ตํ๋ ๋ฐฉ์์ผ๋ก ํด๊ฒฐ ๊ฐ๋ฅํ๋ค.
๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์
ํด๊ฒฐ ๋ฐฉ๋ฒ
-
Bottom-up layerwise unsupervised pre-training
์ธต๋ง๋ค bottom-up ๋ฐฉ์์ผ๋ก ํ์ต
-
ReLU
activation ํจ์ ๋ฐ๊พธ๊ธฐ
-
Gradient Flow
output์์์ ๋ฏธ๋ถ ๊ฐ์ด ์ด์ ์ ์ด๋ค layer๋ก ํ๋ฅด๋ ํต๋ก๋ฅผ ๋ง๋ค์ด์ ์ฌ๋ฌ ๋จ๊ณ๋ฅผ ์ ๊ฑฐ์น๊ฒ ํด์ค
Bottom-up layerwise unsupervised pre-training
unsupervised pre-training
์ฌ๋ฌ ํ์ต๋ฒ์์ label์ด ์๋ ํ์ต data๊ฐ ๋ถ์กฑํ ๋, ์๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด์ ์ฌ์ ํ์ต(unsupervised pre-training)์ํค๊ณ ์ดํ์ label์ด ์๋ data๋ฅผ ์ด์ฉํด supervised fine-tuningํ๋ ๋ฐฉ๋ฒ์ ์ด๋ค.
Greedy layer-wise training
์์๋ถ๋ถ์ ์ฐจ๋ก๋ก ํ์ตํ๋ fine-tuning ๋ฐฉ๋ฒ์ ์ฌ์ฉ, AE(AutoEncoder) ์์์ ๋์
๊ธฐ์กด์๋ ๊ธฐ๋๊ฐ๊ณผ ์ค์ ์ถ๋ ฅ๊ฐ์ ์ฐจ๋ฅผ ์ญ์ ํ ์ํค๋ ์ง๋ํ์ต์ ํํ์ง๋ง, AE์์๋ ์ ๋ ฅ๊ณผ ์ค์ฒด ์ถ๋ ฅ๊ฐ์ ์ฐจ๋ฅผ ์ด์ฉํ๋ค. (์ญ์ ํ ๋ฐฉ์์ ๋น์ท)
hidden layer๊ฐ ์ฌ๋ฌ ์ธต์ผ๋๋ ์ธต ๋ณ๋ก ํ์์ค๋ฝ๊ฒ(Greedy) ํ์ต์ ์ํจ๋ค.
ReLU (Rectified linear unit)
Residual(๋๋จธ์ง) net
Gradient flow๋ฅผ ์ํ ํต๋ก๋ฅผ ๋ง๋ค์ด ๊น์ ์ธต์ ๊ตฌํํ ์ ์์
์์ชฝ์ผ๋ก ๊ฐ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋ํด์ ์ฌ์ฉํจ
์ ๋ ฅ(x)๊ณผ ์ถ๋ ฅ(f(x))์ ํจ๊ป ๋ด๋๋ก(f(x)+x) ํ์ต๋จ
์ธต๋ณ๋ก ๋ ๋ฆฝ์ ์ผ๋ก ์๊ฐํ ์ ์์ผ๋ฏ๋ก ๋ช ๊ฐ์ ์ธต๋ง ์ ๋๋ก ๋์ํ๋ฉด ์ ์์ ์ผ๋ก ์๋ํจ
Comment