์ธ๊ณต์ง€๋Šฅ ์ •๋ฆฌ [๋ณธ๋ก 5] :: ์‹ ๊ฒฝ๋ง์˜ ์›๋ฆฌ

์‹ ๊ฒฝ๋ง์˜ ์›๋ฆฌ

์ด์ œ multi-layer perceptron์„ ์ด์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์ง€๋งŒ, ์ •ํ™•ํžˆ ๊ตฌ๋™์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์•Œ์•„์•ผํ•  ๊ฒƒ์ด ์žˆ๋‹ค. ์ฃผ์–ด์ง„ input์„ ๊ฐ€์ง€๊ณ  ๊ณ„์‚ฐ์„ ํ•ด์„œ output์„ ๋‚ผ ์ˆ˜๋Š” ์žˆ์ง€๋งŒ, output ๊ฐ’์ด ์ฃผ์–ด์ง„ ์ •๋‹ต๊ณผ ๋‹ค๋ฅผ ๋•Œ ํ•™์Šตํ•˜๋Š” ๊ธฐ๋Šฅ์„ ์•„์ง ๊ตฌํ˜„ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•™์Šต์ด๋ž€ w๊ฐ’์„ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.

w๊ฐ’์„ ์กฐ์ •ํ•˜๋Š” ํ•™์Šต์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋žœ๋ค, ์กฐ๊ธˆ์”ฉ ์˜ฎ๊ฒจ๋ณด๊ธฐ ์˜ ๋ฐฉ์‹๋ณด๋‹ค๋Š” ๋ฏธ๋ถ„์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

w์— ๋Œ€ํ•œ Error์˜ ๋ฏธ๋ถ„๊ฐ’์„ ๊ตฌํ•œ ํ›„ ๋ฐ˜๋Œ€์ชฝ์œผ๋กœ ์ผ์ •์น˜๋งŒํผ ์›€์ง์—ฌ์•ผ ํ•˜๋ฏ€๋กœ Error๋ฅผ w์˜ ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๊ณ , ์กฐ์ •๋˜๋Š” w์˜ ๊ฐ’์„ ์ด์™€ ๊ด€๋ จํ•˜์—ฌ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์–ด์•ผํ•œ๋‹ค.

๊ฒฐ๊ตญ error๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด w๊ฐ’์„ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์— error์— ๋Œ€ํ•œ w์˜ ๋ฏธ๋ถ„๊ฐ’์ด ํ•„์š”ํ•œ ๊ฒƒ์ด๋‹ค.

์ด๋ ‡๊ฒŒ ๊ธฐ์šธ๊ธฐ์˜ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์œผ๋กœ ํ•จ์ˆ˜์—์„œ ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅธ ๊ธฐ์šธ๊ธฐ๋กœ ๋‚ด๋ ค๊ฐ€๋Š” learning ๋ฐฉ๋ฒ•์„ steepest descent ๋ผ๊ณ  ํ•œ๋‹ค.

๋ชฉํ‘œ : error ๊ฐ์†Œ

  1. training data๋กœ ์ •๋‹ต๊ณผ input ๊ฐ’์„ ์ค€๋‹ค.
  2. ์‹œ์Šคํ…œ์ด output ๊ฐ’์„ ๋‚ธ๋‹ค.
  3. error๊ฐ€ ์ง€์ •ํ•œ ๊ฐ’ ์ดํ•˜์ธ์ง€ ํŒ๋‹จํ•œ๋‹ค.
    1. ์ดํ•˜๋ผ๋ฉด ํ•™์Šต์„ ์ข…๋ฃŒํ•œ๋‹ค.
    2. ์ดˆ๊ณผ๋ผ๋ฉด ํ•™์Šต ํ›„ ์‹œ์Šคํ…œ์„ ์žฌ๊ตฌ๋™ํ•œ๋‹ค. (2๋กœ ๋Œ์•„๊ฐ€๊ธฐ)

3๋ฒˆ์ด ์ด์ œ๋ถ€ํ„ฐ ํ•ด์•ผํ•  ๊ณผ์ œ์ด๋‹ค.

์—ฌ๊ธฐ์„œ ๋ฌธ์ œ๋Š”

  1. error์˜ ๊ธฐ์ค€์„ ์–ด๋–ป๊ฒŒ ์ •ํ•  ๊ฒƒ์ธ์ง€ (3)

๋ชฉํ‘œ๋ฅผ ์‹์œผ๋กœ ๋งŒ๋“ค์–ด์„œ ์ถฉ์กฑํ•˜๋„๋ก ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”

  1. ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์—์„œ weight ๊ฐ’์„ ์–ด๋–ป๊ฒŒ ์กฐ์ •ํ•  ๊ฒƒ์ธ์ง€ (3-2)

์–ด๋Š ์ •๋„์˜ ์ด๋™์„ ํ•  ๊ฒƒ์ธ์ง€ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”

1. error์˜ ์ข…๋ฅ˜

์•ž์„œ ์‚ฌ์šฉํ•œ error์˜ ์ธก์ •์€ ๊ฑฐ๋ฆฌ๋ฅผ ์ด์šฉํ•œ ๋ฐฉ์‹์ด์—ˆ๋‹ค.

  • Mean squared error

์ •๋‹ต๊ณผ ์ถœ๋ ฅ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์ œ๊ณฑํ•ด์„œ ๋ชจ๋“  ๊ฒฝ์šฐ์— ๋Œ€ํ•ด์„œ ๋”ํ•˜๊ณ  ๋ฐ˜์œผ๋กœ ๋‚˜๋ˆˆ๋‹ค.

2. weight ์กฐ์ •

์•ž์„œ ์ด๋Ÿฌํ•œ ๊ทธ๋ฆผ์„ ์„ค๋ช…ํ•œ ์ ์ด ์žˆ๋Š”๋ฐ, ์ด ๊ทธ๋ฆผ์„ ์˜ˆ์ œ๋กœ ํ•™์Šต์„ ํ•ด๋ณด๋„๋ก ํ•˜๊ฒ ๋‹ค.

๋จผ์ €, ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ํ˜๋Ÿฌ๊ฐ€๋Š” ์ด๋Ÿฌํ•œ ํ๋ฆ„์„ forward propagation์ด๋ผ๊ณ  ํ•œ๋‹ค๊ณ  ํ–ˆ๋‹ค.

์—ฌ๊ธฐ์„œ x3์€ -1๋กœ ๊ณ ์ •๋˜์–ด ์žˆ๋‹ค๊ณ  ํ•˜์ž.

์ด๋Ÿฌํ•œ ์ƒํ™ฉ์—์„œ w3์„ theta๋ผ๊ณ ๋„ ํ•˜๋Š”๋ฐ, theta๋Š” layer๋งˆ๋‹ค ํ•„์š”ํ•˜๋‹ค.

ํ•„์š”ํ•œ ์ด์œ ๋Š” ๋Œ€์ถฉ input์ด ๋ชจ๋‘ 0์ด์–ด๋„ net์ด 0์ด ์•„๋‹Œ ์–ด๋–ค ๊ฐ’์„ ๋งŒ์กฑํ•ด์•ผํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋ฉฐ, ๋‚˜์ค‘์— ์ž์„ธํžˆ ์„ค๋ช…ํ•œ๋‹ค.

๊ทธ ๋ฐ˜๋Œ€๋กœ ์—ญํ๋ฆ„์„ back propagation์ด๋ผ๊ณ  ํ•˜๋Š”๋ฐ, ์ด ํ๋ฆ„์„ ํ†ตํ•ด ๋ฏธ๋ถ„์„ ๊ณ„์‚ฐํ•˜๊ณ  Error์— ๋”ฐ๋ผ w๋ฅผ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

์ฆ‰, forward propagation์€ input์— ๋”ฐ๋ฅธ output์„ ๋‚ด๋Š” ๊ณผ์ •์ด๊ณ  back propagation์€ error์— ๋”ฐ๋ผ w๋ฅผ ์กฐ์ •ํ•˜๋Š” ํ•™์Šต์˜ ๊ณผ์ •์ด๋‹ค.

๋ฐฉ๊ธˆ ์ „ error๊นŒ์ง€ ๋ฐฐ์šฐ๋ฉด์„œ forward propagation์˜ ๋ฐฉ๋ฒ•์€ ๋ชจ๋‘ ์•Œ์•˜์œผ๋ฉฐ, ์ด์ œ๋Š” ํ•™์Šต์„ ์œ„ํ•œ back propagation์„ ๋ฐฐ์šธ ์ฐจ๋ก€์ด๋‹ค. back propagation์€ ์‹ ๊ฒฝ๋งํ•™์Šต์—์„œ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ด๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด ์ด์ œ ์œ„์˜ ์˜ˆ์ œ์—์„œ w๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์„ ๋‚˜ํƒ€๋‚ด๋ณด์ž. ํ™œ์„ฑํ™” ํ•จ์ˆ˜(activation function)๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์ด๋ฉฐ, Error๋Š” Mean Squared Error๋กœ ๊ณ„์‚ฐํ•˜๋Š” perceptron์ด๋ผ ๊ฐ€์ •ํ•œ๋‹ค.

 

์šฐ์„  error์— ๋Œ€ํ•œ w์˜ ๋ฏธ๋ถ„ ๊ฐ’์„ ๊ตฌํ•ด์•ผํ•œ๋‹ค.

์ด ๊ฐ’๊ณผ ๋ฐ˜๋Œ€ ๋ถ€ํ˜ธ๋กœ w๋ฅผ ์›€์ง์—ฌ์•ผ ํ•˜๋ฉฐ, ์ด ๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ์›€์ง์ผ w๊ฐ’์„ ๊ฒฐ์ •ํ•  ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

error๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •์—์„œ w๊ฐ€ ๋งŽ์€ ํ•จ์ˆ˜์— ๊ฐ์‹ธ์ ธ์žˆ์œผ๋ฏ€๋กœ, w๊ฐ’์— ๋Œ€ํ•œ error์˜ ๋ฏธ๋ถ„์„ ๋ฐ”๋กœ ๊ตฌํ•˜๊ธฐ๋Š” ์‰ฝ์ง€ ์•Š๋‹ค. ๋”ฐ๋ผ์„œ, ์—ฌ๊ธฐ์„œ๋Š” ๋ฏธ๋ถ„์—์„œ ๋ฐฐ์› ๋˜ chain rule์„ ์‚ฌ์šฉํ•˜๊ธฐ๋กœ ํ•œ๋‹ค.

์œ„์˜ chain rule์„ ์ด์šฉํ•ด์„œ ํ‘œํ˜„ํ•˜๋ฉด,

๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

์ด๋ฏ€๋กœ

์€

์ด๋‹ค.

 

 

์ด๋ฏ€๋กœ

 

์€

์ด๋‹ค.

 

 

์ด๋ฏ€๋กœ

 

์€ x ์ด๋‹ค.

 

 

delta rule

๋”ฐ๋ผ์„œ

์ด๊ณ 

 

w๋Š” ๋ฏธ๋ถ„ ๊ฐ’์˜ ๋ฐ˜๋Œ€๋กœ ์ด๋™ํ•ด์•ผ ํ•˜๋ฏ€๋กœ

์ด๋ ‡๊ฒŒ ์ƒ์ˆ˜ c ๊ฐ’์„ ๋ถ™์—ฌ w์˜ ์กฐ์ • ๊ฐ’์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ด๋Ÿฐ ์‹์œผ๋กœ ๋ฏธ๋ถ„ ๊ฐ’์— ์ƒ์ˆ˜ ๊ฐ’๋งŒ์„ ๊ณฑํ•ด์„œ w๊ฐ’์„ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ delta rule์ด๋ผ๊ณ  ํ•œ๋‹ค.

์—ฌ๊ธฐ์„œ c ๋Š” learning rate๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ๋ฐ, ํ•™์Šต์˜ ๋Œ€์ƒ์€ ์•„๋‹ˆ๊ณ  ๊ฐœ๋ฐœ์ž๊ฐ€ ๋ฏธ๋ฆฌ ์ง€์ •ํ•ด์ฃผ๋Š” ๊ฐ’์ด๋‹ค.

 
๊ฐœ๋ฐœ์ž๊ฐ€ ๋ฏธ๋ฆฌ ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ

์ง€๊ธˆ๊นŒ์ง€ ๋ฐฐ์šด ๊ฒƒ๋“ค ์ค‘ ๊ฐœ๋ฐœ์ž๊ฐ€ ๋ฏธ๋ฆฌ ์ธ๊ณต์ง€๋Šฅ์˜ ๊ธฐ๋Šฅ์„ ์œ„ํ•ด ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ๋“ค์ด ์žˆ๋‹ค.

Error์˜ ์ข…๋ฅ˜, activation function(ํ™œ์„ฑํ™” ํ•จ์ˆ˜), learning rate ์ด๋‹ค.

 
learning rate

c ์ฆ‰, learning rate๋Š” ํฌ๋ฉด w๊ฐ’์ด ํฌ๊ฒŒ ์กฐ์ •๋˜๊ณ  ์ž‘์œผ๋ฉด w๊ฐ’์ด ์ž‘๊ฒŒ ์กฐ์ •๋œ๋‹ค.

  1. c๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ


๊ธฐ์กด๊ณผ ๊ฐ™์ด ํ•™์Šต์†๋„๊ฐ€ ๋Š๋ฆฌ๋ฉฐ, local minimum์— ๋น ์งˆ ํ™•๋ฅ ์ด ํฌ๋‹ค.

  1. c๊ฐ€ ํฐ ๊ฒฝ์šฐ

     

     

learning rate๊ฐ€ ํฌ๋ฉด w๊ฐ’์ด ํฌ๊ฒŒ ์กฐ์ •๋œ๋‹ค.

์ด๋Ÿฐ ๊ฒฝ์šฐ์— ์™ผ์ชฝ์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ local minimum์„ ํ”ผํ•ด์„œ global minimum์œผ๋กœ ๊ฐˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์ด ์ƒ๊ธฐ์ง€๋งŒ, ์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ์ง„๋™์„ ํ•˜๋ฉด์„œ ํ•™์Šต์†๋„๊ฐ€ ๋” ๋Š๋ ค์งˆ ์ˆ˜๋„ ์žˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ด๋ ‡๊ฒŒ ๊ฐœ๋ฐœ์ž๊ฐ€ ์ง€์ •ํ•˜๋Š” ๊ฐ’์€ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ๋”ฐ์ ธ๊ฐ€๋ฉฐ ๊ณ„์† ๋ฐ”๊ฟ”์„œ ๊ฐ€์žฅ ์ตœ์ ์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ๋ฅผ ํƒํ•ด์•ผ ํ•œ๋‹ค. ์ฆ‰, ์‹คํ—˜์ ์œผ๋กœ ๊ฒฐ์ •ํ•ด์•ผํ•œ๋‹ค.

 

computational graph

์ด์ œ ์ดํ•ด๋ฅผ ํ–ˆ์ง€๋งŒ, ๋ฏธ๋ถ„ ๊ฐ’์„ ์ฐพ๋Š” ๊ฑธ ์ง๊ด€์ ์œผ๋กœ ํ‘œํ˜„ํ•ด๋ณด๊ณ ์ž ํ•œ๋‹ค.

์œ„์—์„œ ์‹์œผ๋กœ ๊ณ„์‚ฐํ•œ ์ผ๋ จ์˜ ๊ณผ์ •์„ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•ด ๋‘” ๊ฒƒ์„ computational graph๋ผ ํ•œ๋‹ค. ์œ„์˜ ๊ทธ๋ฆผ์„ computational graph๋กœ ํ‘œํ˜„ํ•ด๋ณด์ž.

์šฐ์„  error๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์ „์ธ output๊นŒ์ง€๋งŒ computational graph๋กœ ํ‘œํ˜„ํ•˜์˜€๋‹ค.

์‚ฌ์šฉ์ž๊ฐ€ ์ž…๋ ฅํ•œ x๊ฐ’์€ x1 = -1, x2 = -2์ด๊ณ  ์‹œ์Šคํ…œ์— ์˜ํ•ด ๋žœ๋ค์œผ๋กœ ๊ฒฐ์ •๋œ ๊ฐ’์ด w1 = 2, w2 = -3, w3 = -3์ผ ๋•Œ, w๊ฐ’์ด ์–ด๋–ป๊ฒŒ ์กฐ์ •๋˜์–ด์•ผํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

forward propagation๋ถ€ํ„ฐ ํ™”์‚ดํ‘œ ์œ„์ชฝ์— ํ‘œํ˜„ํ•ด๋ณด๋ฉด, ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์ด์ œ back propagation์„ ๊ณ„์‚ฐ๋œ ๊ฐ’์„ ์ด์šฉํ•ด์„œ ํ‘œํ˜„ํ•˜์—ฌ์•ผํ•œ๋‹ค. ์šฐ์„  ์ฒ˜์Œ ์ ๋ถ„์€ ๋‹ค๋ฅธ ์ˆ˜๋ฅผ ๊ณฑํ•  ์ˆ˜ ์žˆ๋„๋ก 1๋กœ ๋‘๊ณ  ๊ณ„์‚ฐํ•ด๋ณด์ž.

ํ•ด๋‹น ๊ทธ๋ฆผ์—์„œ upstream gradient๋ฅผ local gradient์™€ ๊ณฑํ•˜๋ฉด downstream gradient๊ฐ€ ๋œ๋‹ค.

์ด๋ฏ€๋กœ x์— 0.73์„ ๋„ฃ์œผ๋ฉด

์ด๋‹ค.

 

 

์ด๋Ÿฐ ์‹์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ , ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ณ„์† ํ‘œํ˜„ํ•ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ทธ๋ž˜ํ”„๊ฐ€ ๋‚˜์˜จ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ณ„์‚ฐ์ด ํ—ท๊ฐˆ๋ฆฌ๋Š” ๋ถ€๋ถ„์€ ์•„๋ž˜์˜ ๊ทธ๋ฆผ์„ ์ฐธ๊ณ ํ•˜๋ฉด ๋œ๋‹ค.

 

 

error์˜ w1์— ๋Œ€ํ•œ ๋ฏธ๋ถ„๊ฐ’์€ -0.2์ด๊ณ  w2์— ๋Œ€ํ•œ ๋ฏธ๋ถ„๊ฐ’์€ -0.4, w3์— ๋Œ€ํ•œ ๋ฏธ๋ถ„๊ฐ’์€ 0.2์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฅผ ์ด์šฉํ•ด์„œ delta rule์˜ ๋ฐฉ์‹์„ ์ ์šฉํ•˜๋ฉด w๋“ค์˜ ์กฐ์ •๊ฐ’๋“ค์„ ์•„๊นŒ์™€ ๊ฐ™์ด ์ƒ์ˆ˜ c๋ฅผ ๊ณฑํ•ด์„œ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋˜ํ•œ ์œ„์˜ ๊ทธ๋ž˜ํ”„์—์„œ 4๊ฐœ์˜ ์—ฐ์‚ฐ๊ณผ์ •์€ ํ•˜๋‚˜์˜ sigmoid ํ•จ์ˆ˜๋ฅผ ํ’€์–ด๋†“์€ ๊ฒƒ์ธ๋ฐ, ์ด๋Š” sigmoid ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„์„ ์•ˆ๋‹ค๋ฉด ํ•˜๋‚˜์˜ ์—ฐ์‚ฐ์œผ๋กœ ์ค„์—ฌ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ฐธ๊ณ ๋กœ sigmoid ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„์‹์€

์ด๋‹ค.

 

๋”ฐ๋ผ์„œ

์˜ f'(net)์— ํ•ด๋‹น ์‹์„ ๋„ฃ์œผ๋ฉด

 

๋ผ๊ณ  ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ •๋ฆฌ

ํ•™์Šต์€ ํŠน์ • input x์— ๋Œ€ํ•ด์„œ ์›ํ•˜๋Š” output y๋ฅผ ์–ป๋„๋ก weight๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์—ฌ๊ธฐ์„œ weight๋Š” ์ฒ˜์Œ์— ๋žœ๋ค์œผ๋กœ ์ง€์ •๋˜์—ˆ๋‹ค๊ฐ€ ์ •๋‹ต๊ณผ output์˜ ์ฐจ์ด์ธ error์— ์˜ํ•ด ์ˆ˜์ •๋˜๋Š”๋ฐ, error์— ๋Œ€ํ•œ w์˜ ํŽธ๋ฏธ๋ถ„ ๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ๊ทธ์™€ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์œผ๋กœ w๊ฐ’์„ ์กฐ์ •ํ•ด์•ผํ•œ๋‹ค.

w๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ delta rule์„ ๋ฐฐ์› ๋Š”๋ฐ, ๋‹จ์ˆœํžˆ ํŽธ๋ฏธ๋ถ„ ๊ฐ’์— ์ƒ์ˆ˜ c๋ฅผ ๊ณฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

์—ฌ๊ธฐ์„œ c๋Š” learning rate๋กœ error ์ธก์ •๋ฐฉ๋ฒ•, ํ™œ์„ฑํ™”ํ•จ์ˆ˜ ๊ฐ™์ด ๊ฐœ๋ฐœ์ž๊ฐ€ ์‹œ์Šคํ…œ ๊ตฌ๋™ ์ „์— ์ •ํ•ด์ฃผ์–ด์•ผํ•˜๋Š” ๊ฐ’์ธ๋ฐ, ํฌ๋ฉด ์ง„๋™์„ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ๊ณ  ์ž‘์œผ๋ฉด ํ•™์Šต์ด ๋Š๋ฆฌ๋ฏ€๋กœ ์‹คํ—˜์ ์œผ๋กœ ๊ฐ’์„ ๊ฒฐ์ •ํ•ด์ฃผ์–ด์•ผํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ์›ํ•˜๋Š” error ๋ฒ”์œ„๊ฐ€ ๋  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ•˜์—ฌ ์ ์ ˆํ•œ w์˜ ๊ฐ’์„ ์ถ”์ถœํ•ด ๋‚ด๋Š” ๊ฒƒ์ด ์‹ ๊ฒฝ๋งํ•™์Šต์ด๋‹ค.

๋ฐ˜์‘ํ˜•