데이터 전처리 - 중복 데이터 처리

Pandas

데이터 전처리 - 중복 데이터 처리

김천종 2022. 11. 6. 22:00

동일한 관측값이 2개 이상 중복되는 경우 븐석 결과를 왜곡하기 때문에 삭제해주어야 한다.

### 중복 데이터 확인 ###

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43

import pandas as pd
 
##### 중복 데이터 처리 #####
### 중복 데이터 확인 ###
# duplicated() 메소드 사용 #
 
df = pd.DataFrame({'1열': ['a', 'a', 'b', 'a', 'b'],
              '2열': [1, 1, 1, 2, 2],
              '3열': [1, 1, 2, 2, 2]})
print(df)
'''
 1열  2열  3열
0  a   1   1
1  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2
'''
df_dup = df.duplicated()
# 행의 전체 데이터가 중복되었을 경우 True
 
print(df_dup)
'''
0    False
1     True     1행의 a 1 1 이 0행의 a 1 1 과 중복되었음으로 True
2    False
3    False
4    False
dtype: bool
'''
 
col_dup = df['2열'].duplicated() 
# 2열에서 데이터가 중복되었을 경우 True
 
print(col_dup)
'''
0    False
1     True
2     True
3    False
4     True
Name: 2열, dtype: bool
'''
Colored by Color Scripter

cs

### 중복 데이터 제거 ###

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

### 중복 데이터 제거 ###
#drop_duplicates() 메소드 사용 #
 
df_new = df.drop_duplicates()
 
print(df_new) # 중복된 1행 a 1 1 이 삭제되었다.
'''
  1열  2열  3열
0  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2
'''
df_new2 = df.drop_duplicates(subset=['1열', '3열'])
# subset(부분집합) 을 사용해서 특정 열을 기준으로 중복된 값을 삭제할 수 있다.
 
print(df_new2)
'''
  1열  2열  3열
0  a   1   1
2  b   1   2
3  a   2   2
'''
Colored by Color Scripter

cs