아무거나

머신러닝 여러가지

김천종 2022. 11. 12. 22:22
반응형

머신러닝

스스로 데이터를 학습하여 변수 간의 관계를 찾아나가는 과정

예측(prediction), 분류(classification), 군집(clustering) 알고리즘 등으로 분류된다.

 

지도학습 : 정답 데이터를 입력해서 답을 얻는 방식

비지도학습 : 정답 데이터를 입력하지 않고 기계가 스스로 패턴을 찾아 답을 얻는 방식

 

 

### 회기분석 ###

종속변수(Y), 독립변수(X)의 관계를 이용해서 답을 예측하는 방법

-지도학습-

 

 단순회기분석 : Y = aX + b 처럼 종속변수와 독립변수가 선형관계에 있다고 생각하고 예측

 

다항회기분석 : Y = aX^2 +  bX + c 처럼 독립변수 하나에 의해 종속변수가 결정되지만 곡선형태를 가질때 사용

 

다중회기분석 : Y = aX1 + bX2 + c 처럼 독립변수가 하나가 아닐때 사용(여러가지 요인에 의해서 예측값이 결정)

 

 

### 분류 ###

예측하려는 대상의 속성을 입력받고 목표 변수가 가지고 있는 범주 중에서 어느 한 값으로 분류해서 예측

-지도학습-

 

KNN(K-Nearest-Neighbors) :  관측값의 입력이 발생하면 기존 데이터 중에서 가장 속성이 비슷한 k개의 이웃을 찾아서 유사성을 찾는 방법

 

SVM(Support Vector Machine) : 벡터로 구성된 데이터를 학습을 통해 경계를 나누고 나눠진 벡터 공간을 통해 예측

 

Decision Tree : 트리 자료형을 이용, 각 분기점마다 최적의 속성을 선택하는데 해당 속성을 기준으로 분류한 값들이 구분되는 정도를 측정한다. 다른 종류의 값이 섞여있는 정도를 Entropy로 나타내는데 지정한 Entropy 미만으로 낮아질 때까지 분류를 반복함.

 

 

### 군집 ###

데이터셋의 속성을 분석해서 서로 비슷한 특징을 갖는 데이터끼리 클러스터(집단)으로 묶는 알고리즘

-비지도학습-

 

k-Means : 데이터 간의 유사성을 측정하는 기준으로 각 클러스터(집단)까지의 거리를 이용. 벡터 공간에 위치한 데이터에 대해서 k개의 클러스터가 주어졌을때 클러스터의 중심까지 거리가 가장 가까운 클러스터로 해당 데이터를 할당.

 

DBSCAN : 데이터가 위치하는 공간의 공간밀집도를 기준으로 클러스터를 구분, 서로 밀접한 데이터끼리 하나의 클러스터를 구성, 어느 클러스터에도 속하지 않는 점은 Noise.

 

 

 

본 내용은 책 ["파이썬 머신러닝 판다스 데이터 분석"] 에 나오는 내용을 요약한 것임.  완벽하게 이해한 것은 아무것도 없기 때문에 많은 오류가 있을 수 있음.

반응형