본문 바로가기

BLOG/데이터분석

[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수 - duplicated(), sum()

 

이전 글에서는 데이터 프레임에서 결측치가 있는 행을 찾는 함수 isnull()과 칼럼마다 결측치의 개수를 구하는 함수 isnull().sum() 함수에 대해 알아보았는데요, 이번에는 중복된 행을 찾는 함수 duplicated()와 그 개수를 구하는 방법에 대해서 살펴보도록 하겠습니다.

 

 

1. duplicated() : 중복된 행 찾기

먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다.

 

	temp	item	count	price
0	hot	coffee	1	3000
1	ice	juice	5	4000
2	ice	ade	2	5000
3	hot	coffee	1	3000
4	hot	tea	3	4000
5	ice	water	2	1000

 

위 데이터프레임을 보면, 0번째 행과 3번째 행의 데이터가 겹치는 것을 볼 수 있는데요,

한 번 duplicated() 함수를 이용하여 중복된 데이터를 찾는지 살펴보겠습니다.

 

df.duplicated()

 

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

 

함수 사용 결과, 3번째 행에서 True를 반환한 것을 볼 수 있는데요, 이는 3번째 행이 중복된 데이터라는 것을 의미합니다.

 

 

 

2. duplicated() : 중복된 행 개수 구하기

한편, 데이터가 매우 많아지면 duplicate()로 중복된 데이터를 찾는 것에 한계가 있을 수 있는데요, sum() 함수를 결합해줌으로써 중복된 행이 몇 개인지 나타낼 수 있습니다.

 

df.duplicated().sum()

 

1

 

출력 결과, 1이 나왔는데요, 중복된 데이터가 1개임을 의미한답니다.

 

 

 

이렇게 중복된 행과 중복된 행의 개수를 구하는 방법에 대해서 살펴보았는데요, 다음 글에서는 중복된 행을 삭제하는 방법에 대해서 살펴보도록 하겠습니다.