선형회귀란 Supervised Learning의 한 종류로써 데이터, 타겟 값 사이의 관계를 선형적(직선)으로 나타내는 최적의 함수, 모델을 찾는 방법이다.
x1, x2, x2 : 입력 값 ex) 집의 크기
y1, y2, y3 : 출력 값, 타겟 ex) 집의 가격
집의 크기에 따라 집의 가격이 결정되는 것을 그래프로 표현하면 위의 그림과 같다.
여기에서 각각의 점에 대한 선형적인 1차 그래프를 그리면 위의 식과 같다. 여기에서 위의 3개의 1차 그래프가 전부 일렬로 놓여있지 않는 한 3개의 그래프가 하나의 그래프로 표현되는 것은 불가능하다.
선형회귀는 이러한 직선 그래프(그림에서 빨간색으로 표시된)에서 가중치 W를 조정하면서 모든 점을 정확히 표현하지는 못하지만 최대한 잘 표현하는 하나의 직선(그림에서 파란색으로 표시된)을 찾는 것이 목적이다.
여기서 Least Squre 라는 방법을 사용할 수 있다.
각각의 1차 그래프에서 우변을 좌변으로 넘긴 후 그것을 e로 표현한다.
그리고 모든 e^2를 더한 e1^2 + e2^2 + e3^2 이 최소가 되는 가중치 W를 구해서 모든 점을 최대한 비슷하게 표현할 수 있는 하나의 직선을 찾는다.
벡터 x가 2차 이상일 경우에는 Ø(x)로 나타낸다. 이렇게하면 2차 이상이었던 식이 Ø(x)에서 봤을 때 1차로 표현되어져서 선형회귀를 사용할 수 있다.
Ø(x)는 x(입력값)이 가지는 특성을 나타낸다. 가중치 W가 높으면 출력 Y를 찾는데 더 많이 기여를 한다. 즉 중요한 특성임을 뜻한다.
가중치 W를 찾기위해서는 앞서 언급했던 Least Squre를 사용한다.
Yn은 이미 가지고 있던 Ture값이다 Yn에서 모델을 통해 만든 예측값을 뺀 후 제곱함으로써 비용함수 J(w)를 만든다.
즉 비용함수 J(w)는 예측값과 Ture값이 얼마나 차이나는지를 설명하는 함수가 된다.
비용함수가 최소가 되게하는 W 가중치를 찾는 방향으로 학습함으로써 최적의 모델을 찾을 수 있게 된다.
가장 쉬운 방법은 미분을 사용하는 것이다.
비용함수를 미분해서 0이 되는 점을 찾음으로써 비용함수가 최소가 되는 W0를 찾을 수 있다.
위의 식은 비용함수를 미분한 후 W를 찾은 식이다.
'머신러닝' 카테고리의 다른 글
규제(Regularization), 과대적합(Overfitting)의 의미 (0) | 2023.01.17 |
---|---|
최대가능도 방법 - Maximum likelihood estimation (0) | 2023.01.17 |
커널 SVM으로 비선형적 데이터 분류 (0) | 2022.11.20 |
로지스틱 회귀 Logistic Regression (0) | 2022.11.17 |
사이킷런으로 퍼셉트론 학습 (0) | 2022.11.17 |