김천종 — 김천종

로지스틱 회귀를 이용해서 이진 분류하는 모델을 만들 수 있다. 선형회귀와 이진분류 모델의 다른 점은 Output y에 있다. 선형 회귀에서 y는 실수 값이다. 즉 무수히 많은데, 이진 분류에서는 y = { 0 ,1 } 이다. 따라서 선형 회귀에서 모델에 input X를 넣어서 y가 output으로 나올 기댓값을 구한다. 하지만 이진 분류에서는 모델에 input X를 넣을 때 y가 발생할 확률을 구한다. 이러한 확률을 바탕으로 y가 0인지, 1인지를 판단하는 것이 이진분류이다. 만약 확률이 50%이상이라면 그것을 1로 판단하고 50%미만이라면 그것을 0으로 판단한다. x가 2차원 벡터일 때 파란색, 빨간색으로 데이터를 표현할 수 있다면 이진분류를 통해 데이터들을 분류할 수 있다. 그림으로 표현하면 초록색으..

Lasso는 Ridge regression과 마찬가지로 규제(regularization)의 한 종류이다. 우선 Lasso를 통해 얻은 가중치 W는 다음과 같다. Least squre를 통해 얻은 squre loss는 Ridge regression과 똑같이 사용하지만 다른 점은 패널티 항에 있다. Ridge regression에서는 패널티 항을 2Norm을 사용했지만 Lasso에서는 1Norm을 사용한다는 것이 가장 큰 차이이다. 마찬가지로 1Norm의 크기를 조정해서 찾고자 하는 가중치 범위를 제한한다. Lasso를 이해하기 위해서는 Sparseness를 알아야한다. Sparseness는 단어 뜻은 "드문드문함", "산재함"이라고 하는데 위의 그림에서처럼 가중치 W의 값이 0이 된 값이 많아서 실제로 사..

Ridge regression은 규제(regularization)의 방법 중 하나로 2 norm을 사용한다. 위의 식이 최소가 되는 가중치 W와 하이퍼파라미터 Λ를 찾는 것이 목적이다. regularizer에서 보이는 2norm은 위의 그림과 같이 상수 B로 규제한다. w가 2차원 벡터 즉 w T= [ w0, w1 ] 일 때 2norm 이 뜻하는 것은 w0^2 + w1^2 = B(상수) 이다. 이것은 평면 위에 놓인 반지름이 루트B인 원을 뜻한다. 다음으로 2차원 벡터일 때 square loss(빨간색)를 그래프로 표현하면 위의 그림과 같이 3차원의 면으로 표현할 수 있다. 그것을 위에서 본 그래프가 하늘색으로 표시된 그래프이다. 우리는 상수 B를 통해 가중치 W의 크기를 규제하고(B보다 작도록) 평면에..

초록색 : True, 정답 값 빨간색 : Traing example 파란색 : f(x), 모델이 예측한 값 x가 0.85인 지점에서 그래프를 보면 Traing example과 모델이 예측한 값은 같다. 즉 Traing error는 존재하지 않는다. 하지만 True, 정답 값과는 큰 차이를 보인다. 이러한 현상은 모델을 만들 때 너무 복잡한 방법을 사용해서 발생하는 결과이다. 이것을 과대적합(Overfitting)이라고 하고 이것을 해결하기 위해 복잡도를 규제(Regularization)한다. 왼쪽 항은 앞에서 언급한 Traing error(loss)이다. 비용함수라고 할 수 있다. 오른쪽의 항은 regularizer이다. regularizer는 model이 얼마나 복잡한가를 측정한다. 복잡할수록 큰 값을..

위 그림에서 빨간색 X가 데이터라고 할 때 데이터를 가장 잘 설명하는 정규분포는 세 가지 중에 파란색(2번) 정규분포이다. 이처럼 데이터를 가장 잘 설명하는 확률을 가진 정규분포를 찾아가면서 적절한 모델을 찾는 것이 최대가능도 방법이다. 선형적인 모델일 때 타겟 함수 Yn은 다음과 같이 쓸 수 있다. 여기에서 En을 가우시안 노이즈라고 한다. likelihood = 가능도 = Parametrized distribution = P(Yn|Xn) = X(입력)이 주어졌을 때 Y(타겟)이 일어날 확률의 최댓값 즉 가능도를 최대로 높이는 가중치W를 찾는 것이 목적이다. 가중치는 일어날 확률을 모두 곱한 것이기 때문에 쉽게 계산하기 위해 로그를 붙여서 합으로 나타낸다. 계산하면 최소제곱법에서 나온 비용함수 J를 찾..

티스토리툴바