로지스틱 회귀에서 가중치 찾기 (MLE, Newton's method)
y가 0과 1만 있는 이진 분류 모델이라면 로지스틱 회귀를 이용할 수 있다.
이것을 풀기 위해서는 가중치 w를 찾아야한다.
로지스틱 회귀에서 w를 찾기 위해서 최대가능도방법(MLE)와 Newton's method를 사용한다.
가능도 : 관측된 값이 특정한 확률 분포에 속해있을 확률
가능도는 다음과 같이 쓸수 있다.
그림으로 설명하면
빨간색 X가 관측값이라고 할 때, 가능도가 높을 수 록 관측 값이 특정한 확률분포에 있을 확률이 높다.
그림에서는 파란색 확률분포가 빨간색 X(관측값)을 많이 포함활 확률이 높기 때문에 빨간색 확률 분포들보다 파란색 확률분포의 가능도가 더 높다는 것을 알 수있다.
MLE(Maximu, Likelihood estimation)은 이 가능도를 최대화해서 관측값에 대해 가장 적절한 확률 분포를 찾으며 적절한 가중치 w를 찾는 과정이라고 할 수 있다.
가능도 식을 이전에 로지스틱 회귀에서 사용한 로지스틱 함수, 가중치 w로 매개화하면 가능도를 통해 적절한 w를 찾을 수 있는 것이다.
계산을 간단히 하기 위해 log를 사용해서 표현하면 위의 식과 같다.
이전에 이러한 상황에서 가능도 식을 최대화하기 위해서는 미분을 사용했었다.
미분한 후 0이되는 상황에서 w값이 가능도를 최대화하는 상황이었다.
하지만 이 상황에서는 미분해서 0이되는 값을 찾으려니 답이 닫힌형태(closed-form solution)로 나오지 않는다.
따라서 다른 방법 -> Newton's method를 사용한다.
Newton;s method를 이해하기 위해서 헤세행렬(Hessian metric)이 필요하다.
헤세행렬이 0보다 크면 아래로 볼록, 0보다 작으면 위로 볼록한 그래프이다.
Newton's method는 H>0인 상황에서만 사용할 수 있다.
Newton's method는 경사하강법과 비슷하지만 반복적으로 수행하는데 차이가 있다. 위의 그림에서 왼쪽이 Newton's method를 사용한 그림이다.
파란색이 찾고 싶은 Truth이고 빨간색이 이차근사식이다.
Xk에 접하는 이차근사식을 만들고 식의 최소값을 찾는다, 그리고 식의 최소값 Xk +Dk에서 이차근사식을 만드는 것을 계속 반복한다. 이렇게하면 결과적으로 파란색 함수를 얻을 수 있다고 한다.
이것은 헤세행렬 H>0 인 경우에만 유효하다.
오른쪽 그림은 보면 Xk에서 이차근사식을 구했는데 식의 최소값을 구할 수 없고 최대값이 구해지는 것을 알 수 있다.
로지스틱 회귀에서는 항상 H>0 이어서 Newton's method를 사용할 수 있다고 한다.
이렇게 Newton's method를 이용해서 가중치 w를 찾으면 결과는 다음과 같다.