본문 바로가기

BLOG/데이터분석

[데이터분석] 데이터프레입 : 중복된 행 삭제 - drop_duplicates

 

이전 글에서는 데이터프레임에서 중복된 행이 있는지 확인하고, 중복된 행이 몇 개 있는지 구하는 방법에 대해서 살펴보았는데요, 이번 글에서는 중복된 행을 삭제하는 방법에 대해서 설명하도록 하겠습니다.

 

 

1. drop_duplicates() : 중복된 행 삭제하기

먼저, 다음과 같이 중복된 데이터가 있는 데이터프레임이 있다고 가정해보겠습니다.

 

	temp	item	count	price
0	hot	coffee	1	3000
1	ice	juice	3	4000
2	ice	ade	2	5000
3	hot	coffee	1	3000
4	hot	tea	3	4000
5	ice	water	2	1000
6	ice	juice	3	4000

 

위 데이터 프레임을 보면, 3번째 행은 0번재 행과 중복, 6번째 행은 1번째 행과 중복됩니다.

이는 duplicated() 함수를 통해서 아래 코드처럼 중복된 행이 몇 개인지 구할 수 있습니다.

 

df.duplicated().sum()

 

2

 

 

이제 중복된 행에 대해서 삭제를 하기 위해 drop_duplicates() 함수를 사용해보겠습니다.

 

df.drop_duplicates(inplace=True)
display(df)

 

	temp	item	count	price
0	hot	coffee	1	3000
1	ice	juice	3	4000
2	ice	ade	2	5000
4	hot	tea	3	4000
5	ice	water	2	1000

 

중복된 행을 삭제하고 데이터프레임을 다시 출력한 결과, 중복된 행이 있던 행은 삭제되었음을 확인할 수 있습니다.