피벗 테이블(Pivot_table)
·
Pandas
엑셀에서 사용하는 피벗테이블과 유사하다. 피벗테이블은 (행 인덱스, 열 인덱스, 데이터 값, 데이터 집계함수) 로 이루어진다. ### 피벗 테이블 ### 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ### 피벗 테이블 ### # pivot_table() 함수 사용 # pdf1 = pd.pivot_table(df, # 피벗할 데이터프레임 index = 'class', # 행 인덱스 columns = 'sex', # 열 인덱스 values = 'age', # 데이터로 사용될 열 aggfunc = ['mean', 'sum']) # 데이터 집계 함수 print(pdf1) ''' mean sum sex female male female male class First ..
그룹 연산
·
Pandas
복잡한 데이터를 기준에 따라 그룹화해서 연산하는 것은 좋은 방법이다. 특정 기준을 적용해서 그룹으로 분할해서 처리하는 것을 그룹 연산이라고 부른다. 1 2 3 4 ### 그룹 연산 ### # 1단계. 분할 : 데이터를 특정 조건에 따라 분할 # 2단계. 적용 : 데이터를 필터링, 집계하는데 필요한 메소드 적용 # 3단계. 결합 : 데이터 처리 결과를 하나로 결합 cs ## 그룹 객체 만들기 ## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 6..
필터링
·
Pandas
데이터프레임의 데이터 중에서 특정한 조건을 만족하는 원소만 따로 추출하는 것 ## 불린 인덱싱 ## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ### 필터링 ### ## 불린 인덱싱 ## # 각 원소에 대해 참, 거짓을 판별해서 불린 값으로 # 구성된 시리즈를 반환함, 이때 참인 데이터만 따로 선택 # 조건식(, == 등) 사용 # titanic = sns.load_dataset('titanic') mask1 = (titanic.age >=10) & (titanic.age
함수 매핑
·
Pandas
시리즈, 데이터 프레임의 값, 열, 행, 데이터프레임 전체에 함수를 일대일로 대응시켜서 연산을 수행할 수 있다. 1 2 3 4 5 ### 함수 매핑 ### # 데이터 프레임의 원소에 특정 함수를 일대일로 대응시킨다. # 판다스 기본 함수로 처리하기 힘든 연산을 # 데이터프레임에 적용하는 것이 가능하다. # apply() 메소드 사용 # cs ## 원소에 함수 매핑 ## # 시리즈 원소에 함수 매핑 # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 6..
데이터 전처리 - 시계열 데이터
·
Pandas
시계열 데이터 - 시간에 관련된, 시간을 표시할 수 있는 데이터 판다스에서 시계열 데이터 표현에 자주 이용되는 두 가지 유형이다. 1. 두 시점 사이의 기간을 나타내는 Period 2. 특정한 시점을 기록하는 Timestamp ### 시계열 객체로 변환 ### 1 2 3 # 많은 날짜, 시간 데이터는 별도의 시간 자료형으로 기록된 것이 # 아니라 문자열 또는 숫자형으로 기록된 경우가 많다. # 따라서 이러한 데이터를 시계열 객체로 변환해 주어야 한다. cs ## 문자열을 Timestamp로 변환 ## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 4..