[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수

이전 글에서는 데이터 프레임에서 결측치가 있는 행을 찾는 함수 isnull()과 칼럼마다 결측치의 개수를 구하는 함수 isnull().sum() 함수에 대해 알아보았는데요, 이번에는 중복된 행을 찾는 함수 duplicated()와 그 개수를 구하는 방법에 대해서 살펴보도록 하겠습니다.

1. duplicated() : 중복된 행 찾기

먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다.

	temp	item	count	price
0	hot	coffee	1	3000
1	ice	juice	5	4000
2	ice	ade	2	5000
3	hot	coffee	1	3000
4	hot	tea	3	4000
5	ice	water	2	1000

위 데이터프레임을 보면, 0번째 행과 3번째 행의 데이터가 겹치는 것을 볼 수 있는데요,

한 번 duplicated() 함수를 이용하여 중복된 데이터를 찾는지 살펴보겠습니다.

df.duplicated()

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

함수 사용 결과, 3번째 행에서 True를 반환한 것을 볼 수 있는데요, 이는 3번째 행이 중복된 데이터라는 것을 의미합니다.

2. duplicated() : 중복된 행 개수 구하기

한편, 데이터가 매우 많아지면 duplicate()로 중복된 데이터를 찾는 것에 한계가 있을 수 있는데요, sum() 함수를 결합해줌으로써 중복된 행이 몇 개인지 나타낼 수 있습니다.

df.duplicated().sum()

출력 결과, 1이 나왔는데요, 중복된 데이터가 1개임을 의미한답니다.

이렇게 중복된 행과 중복된 행의 개수를 구하는 방법에 대해서 살펴보았는데요, 다음 글에서는 중복된 행을 삭제하는 방법에 대해서 살펴보도록 하겠습니다.

'BLOG > 데이터분석' 카테고리의 다른 글

[데이터분석] 데이터프레임 : 특정 조건 만족하는 행 추출 & 해당 인덱스 반환 (0)	2021.03.11
[데이터분석] 데이터프레입 : 중복된 행 삭제 - drop_duplicates (0)	2021.03.11
[데이터분석] 데이터프레임 : 결측치 있는지 확인하기 & 칼럼별 개수 세기 - isnull(), isnull().sum() (0)	2021.03.11
[데이터분석] 데이터프레임 concat() 으로 병합 시, 인덱스 재배열 하는 방법 (0)	2021.03.11
[데이터분석] 데이터프레임 : 위/아래, 좌/우로 합치기 - concat() (0)	2021.03.11

디노랩스

[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수 - duplicated(), sum()

1. duplicated() : 중복된 행 찾기

2. duplicated() : 중복된 행 개수 구하기

'BLOG > 데이터분석' 카테고리의 다른 글

티스토리툴바

[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수 - duplicated(), sum()

1. duplicated() : 중복된 행 찾기

2. duplicated() : 중복된 행 개수 구하기

'BLOG > 데이터분석' 카테고리의 다른 글

'BLOG/데이터분석' Related Articles

티스토리툴바