데이터 전처리 - 정규화
·
Pandas
데이터셋에 변수들의 숫자 데이터 크기의 상대적 차이 떄문에 머신러닝 분석 결과가 달라질 수 있다. ex) A변수는 0 ~ 10000 의 범위를 가지로 B변수는 0~10의 범위를 가질 때 상대적으로 큰 값인 A변수가 머신러닝 분석 결과에 더 큰 영향을 미친다. 따라서 이러한 데이터의 상대적인 크기 차이를 제거해야한다. 데이터를 각 열에 속하는 동일한 크기 기준으로 나눈 비율로 표현하는 것을 정규화(normalization)이라고 한다. 정규화를 거치면 데이터의 범위는 0~1 or -1~1 이 된다. ### 정규화 방법 1 ### 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 #..