BLOG/데이터분석
[데이터분석] 데이터프레입 : 중복된 행 삭제 - drop_duplicates
알디노
2021. 3. 11. 15:16
이전 글에서는 데이터프레임에서 중복된 행이 있는지 확인하고, 중복된 행이 몇 개 있는지 구하는 방법에 대해서 살펴보았는데요, 이번 글에서는 중복된 행을 삭제하는 방법에 대해서 설명하도록 하겠습니다.
1. drop_duplicates() : 중복된 행 삭제하기
먼저, 다음과 같이 중복된 데이터가 있는 데이터프레임이 있다고 가정해보겠습니다.
temp item count price
0 hot coffee 1 3000
1 ice juice 3 4000
2 ice ade 2 5000
3 hot coffee 1 3000
4 hot tea 3 4000
5 ice water 2 1000
6 ice juice 3 4000
위 데이터 프레임을 보면, 3번째 행은 0번재 행과 중복, 6번째 행은 1번째 행과 중복됩니다.
이는 duplicated() 함수를 통해서 아래 코드처럼 중복된 행이 몇 개인지 구할 수 있습니다.
df.duplicated().sum()
2
이제 중복된 행에 대해서 삭제를 하기 위해 drop_duplicates() 함수를 사용해보겠습니다.
df.drop_duplicates(inplace=True)
display(df)
temp item count price
0 hot coffee 1 3000
1 ice juice 3 4000
2 ice ade 2 5000
4 hot tea 3 4000
5 ice water 2 1000
중복된 행을 삭제하고 데이터프레임을 다시 출력한 결과, 중복된 행이 있던 행은 삭제되었음을 확인할 수 있습니다.