인공지능 정리 [본론3] :: 학습 (feat. weight의 조정)

By 희은w

컴퓨터과학 (CS)/AI

2020. 1. 31. 16:24

weight의 변화

1. 랜덤

실습

one-layer perceptron

weight를 랜덤으로 학습하는 퍼셉트론 만들기

input, weight 갯수는 입력받기

output은 1개로 고정

/*
    2020-01-28 W.HE
one-layer perceptron
*/

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

main() {
    /* variable set */
    int input_num;
    float* input;
    float* w;
float output = 0;
    float answer = 3;
    int try_num = 0;

    /* input input_num */
    printf("enter number of inputs\n");
    scanf_s("%d", &input_num);

    /* memory allocation */
    input = (float*)malloc(sizeof(int)*input_num);
    w = (float*)malloc(sizeof(int)*input_num);

    /* input */
    printf("enter inputs\n");
    int n_tmp = 0;

    while (input_num != n_tmp) {
        printf("%d번째 input : ", n_tmp + 1);
        scanf_s("%f", input + n_tmp++);
    }

    /*
    input 입력 확인
    for (int i = 0; i < input_num; i++) {
        printf("%lf ", *(input + i));
    }
    */

    while (output-answer<1 || output-answer>-1) { // error가 1 이하일 때까지

        /* random w (0~1) */
        srand(time(NULL));
        for (int i = 0; i < input_num; i++) {
            w[i] = rand() % 10;
            w[i] = 0.1*w[i];
            // w 확인 
            // printf("%lf ", w[i]);
        }

        /* perceptron */
        for (int i = 0; i < input_num; i++) {
            output += w[i] * input[i];
        }

        printf("try number : %d\n", ++try_num);
        printf("output : %lf\n", output);
        printf("error : %lf\n\n", output-answer);
    }

    getch();
}

문제점 : 발산하는 경우가 허다하고 특정한 알고리즘 없이 그저 추측만 반복할 뿐이다.

error 값에 따라 w 값이 조정이 되어야한다.

어차피 Error는 x,w 두 변수에 대한 식이므로 x가 고정되어있을 때 w라는 한 변수로 나타낼 수 있음

사실은 w가 w1,w2, ... 인 배열이긴하다. ( 하나하나씩 보면 위와 같다는 이야기 )

즉, 전체 w값에 대해 나타내려면 n차원의 그래프가 필요하지만 쉽게 이해하기 위해 아래의 그래프들은 하나의 w값에 대해서 error 값의 변화를 나타내는 2차원 그래프이다.

따라서 w와 error에 대한 그래프로 나타내보았다.

주황색 점이 현재의 error라고 하면, weight가 랜덤으로 초기화될 때마다 output이 달라지면서 error가 1보다 작을 때까지 무한 반복하게된다.

2. w값 조정

조금씩 옮겨보기

w값을 아주 조금씩 옮겨보면서 error가 감소하는 방향으로 이동하는 방법이다.

그림에서 1=>2로 가면 error가 증가하지만, 1=>3으로 가면 error가 감소하므로 1=>3로 가는 w값의 변화를 택해서 적용한다.

하지만 위의 그림에서는 error 값이 1보다 작아질 수 없으므로 정답을 찾을 수 없다.

이러한 문제가 일어나는 이유는 위의 그래프에서 최소점(global minimum)이 아닌 극소점(local minimum)을 찾기 때문인데 나중에 이를 극복할 수 있는 방법이 나온다.
미분 이용하기

w에 대한 error의 미분을 구하면 error가 낮아지는 방향을 알 수 있다.

그림 1에서 현재 w값에 대한 error 그래프의 기울기가 +이므로,

error 값이 작아지기 위해서는 기울기의 반대 부호인 -쪽으로 w값이 이동하여야한다.

따라서, w값에서 error값으로 계산한 어떠한 수를 빼서 새로운 w값으로 다시 net을 구하고 output을 구하고 error값을 구해야한다. (즉, perceptron에서 forward propagation을 해야한다.)

하지만 이러한 경우에도 극소점(local minimum)에 빠질 수 있는 위험은 위의 경우와 같이 존재한다.

다른 관점 (참고)

x에 따른 error의 그래프는 나타낼 필요가 없다.

항상 error가 0인 것이 정답이기 때문에, 상수 0의 그래프가 나옴

그렇다면 x에 따른 output의 그래프를 나타내서 output에 가까워지기 위한 w값의 조정을 살펴보자.

여기서도 x는 x1,x2,... 등 무수히 많을 수 있지만 이해를 돕기 위해 하나의 x 값에 대해서만 그래프를 나타내었다.

output은 f(net)이고 즉, f(w*x의 합)이므로 하나의 w*x만을 볼 때

w는 정해진 x(input)을 통과하는 직선의 기울기이다.

따라서, 주어진 input만이 아니라 모든 x에 대해서 error( answer - output )를 적게 하려면 정답 그래프와 이 직선간의 거리가 가까워야한다.

결론적으로 x를 통과하는 직선의 기울기 w를 전체 error가 낮아지는 방향으로 조정해야한다는 것이다.

이를 좀 더 구체적으로 살펴보기 위해 input이 2개인 경우를 가정하여, x1,x2에 대한 output의 그래프로 나타내보자.

나와있는 구들은 모두 정답을 나타낸 것이다.

정답과 가까운 output을 만들어야하는데,

우선 net은 현재 w1*x1+w2*x2+B이다.

여기서 B는 우선 상수라고 생각하면 된다. (B도 learning의 대상이다.)

net이 activation function을 거쳐 output으로 나타나게 되는데

output = f(net)

여기서 사용한 activation function은

이와 같은 threshold function이다.

이제 학습의 대상인 w1, w2를 조정하여 이와 같은 activation function이 answer를 만족하도록 만들면 된다.

쉽게 생각해서 net이라는 직선으로 x1, x2 축으로 된 2차원 상에서 같은 output을 갖는 점들을 분리할 수 있으면 된다.

평면적으로 나타내면 이러하다.

예를 들어 위와 같은 경우 (0,1)에서 0이 아닌 1의 output이 나오도록 net이 구성되어있으므로 error가 커진다.

여기서 문제를 하나 발견할 수 있는데, (1,1,1)이라는 점이 생기면 어떻게 해결하냐는 것이다.

이 경우 차원을 하나늘려 4차원 상에서 생각하거나

input을 하나 추가하여 x3를 만든다.

그러면 x1,x2,x3의 3차원 상에서 평면인 net이 점들을 분리할 수 있다.

주어진 차원을 변환하여 3차원에서 해결할 수 있는 형태로 바꾸는 방법이 있다.

layer를 하나 추가하여 multi-layer perceptron을 만든다.

그림으로 나타내자면,

이와 같은 기존의 perceptron을

input을 하나 추가하거나

layer를 하나 늘리는 방법으로 바꾸어야 한다.

여기서 layer란

node(뉴런세포) 들이 이루는 하나의 층이다.

input node 들로 이루어져있는 layer는 input layer이며, input에서 최종 output이 나올 때까지 중간과정이자 겉으로 드러나지 않는 layer를 hidden layer라고 한다.

이 층이 깊어진 perceptron을 deep neural networks (multi-layer perceptron)라고 하는데, 이는 복잡한 문제가 layer를 거칠 수록 낮은 차원에서 해결할 수 있는 간단한 문제로 변환될 수 있기 때문에 유용하다. 이러한 deep neural network를 이용하는 머신러닝을 딥러닝이라고 한다.

'컴퓨터과학 (CS) > AI' 카테고리의 다른 글

인공지능 정리 [부록] :: Restricted Boltzmann Machine (RBM) (0)	2020.02.08
인공지능 정리 [본론4] :: 딥러닝의 시작 (0)	2020.02.01
인공지능 정리 [본론2] :: 신경망 학습 (0)	2020.01.31
인공지능 정리 [본론1] :: 인공지능의 목표 (0)	2020.01.29
인공지능 정리 [서론] :: 인공지능이란? (0)	2020.01.29

Notice

Category

Recent Post

Popular Post

Comment

Tags

Visitor Counter

weight의 변화

1. 랜덤

실습

2. w값 조정

다른 관점 (참고)

'컴퓨터과학 (CS) > AI' 카테고리의 다른 글

티스토리툴바