본문 바로가기

BLOG/데이터분석

[데이터분석] 데이터프레임 : 랜덤으로 행 복제하는 방법 - sample

 

이전 글에서는 sample() 함수를 이용하여 원하는 개수 또는 원하는 비율만큼 랜덤으로 행을 추출하는 것에 대해서 알아보았는데요, 이번에는 원하는 비율만큼 랜덤으로 행을 복제해서 나타내는 방법에 대해서 살펴보도록 하겠습니다.

 

 

- sample(frac=  ) : 랜덤으로 행 복제하기

sample(frac=  ) 함수는 데이터프레임에서 원하는 비율만큼 랜덤으로 행을 추출하는 함수로, 예를 들어 df라는 이름의 데이터프레임에서 25%만 랜덤으로 추출해서 보고 싶으면 다음과 같이 입력하면 됩니다.

 

df.sample(frac=0.25)

 

즉, 50%는 df.sample(frac = 0.5), 75%는 df.sample(frac = 0.75) 라고 입력하면 되는데요,

그렇다면 frac의 값이 1을 넘어가게 되면 어떻게 될까요?

바로, 1이 넘어간 만큼 행을 추가로 복제해서 나타내게 한답니다.

 

즉, 만약 100개의 행이 있는데, df.sample(frac = 1.2) 라고 입력한다면, 기존 100개의 행과 또 무작위로 선택된 20개의 행이 복제되어서 총 120개로 나타난답니다. 따라서 이는 랜덤으로 행이 복제되었다고 말할 수 있습니다.

 

따라서 이러한 방법으로 행을 랜덤으로 복제하는 것은 데이터의 개수가 적을 때 유용하게 사용될 수 있답니다.