Pandas
데이터 전처리 - 중복 데이터 처리
김천종
2022. 11. 6. 22:00
반응형
동일한 관측값이 2개 이상 중복되는 경우 븐석 결과를 왜곡하기 때문에 삭제해주어야 한다.
### 중복 데이터 확인 ###
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
|
import pandas as pd
##### 중복 데이터 처리 #####
### 중복 데이터 확인 ###
# duplicated() 메소드 사용 #
df = pd.DataFrame({'1열': ['a', 'a', 'b', 'a', 'b'],
'2열': [1, 1, 1, 2, 2],
'3열': [1, 1, 2, 2, 2]})
print(df)
'''
1열 2열 3열
0 a 1 1
1 a 1 1
2 b 1 2
3 a 2 2
4 b 2 2
'''
df_dup = df.duplicated()
# 행의 전체 데이터가 중복되었을 경우 True
print(df_dup)
'''
0 False
1 True 1행의 a 1 1 이 0행의 a 1 1 과 중복되었음으로 True
2 False
3 False
4 False
dtype: bool
'''
col_dup = df['2열'].duplicated()
# 2열에서 데이터가 중복되었을 경우 True
print(col_dup)
'''
0 False
1 True
2 True
3 False
4 True
Name: 2열, dtype: bool
'''
|
cs |
### 중복 데이터 제거 ###
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
### 중복 데이터 제거 ###
#drop_duplicates() 메소드 사용 #
df_new = df.drop_duplicates()
print(df_new) # 중복된 1행 a 1 1 이 삭제되었다.
'''
1열 2열 3열
0 a 1 1
2 b 1 2
3 a 2 2
4 b 2 2
'''
df_new2 = df.drop_duplicates(subset=['1열', '3열'])
# subset(부분집합) 을 사용해서 특정 열을 기준으로 중복된 값을 삭제할 수 있다.
print(df_new2)
'''
1열 2열 3열
0 a 1 1
2 b 1 2
3 a 2 2
'''
|
cs |
반응형