본문 바로가기

[데이터분석] 데이터 프레임 : 행과 열 바꾸기 - transpose() pandas 라이브러리를 이용하면 데이터프레임으로 데이터 분석을 쉽게 할 수 있는데요, 특히 다양한 형태로 쉽게 변경할 수 있기 때문에 많이 사용됩니다. 한편, 데이터프레임으로 데이터를 분석할 때, 행과 열을 바꿔서 나타내고 싶을 수 있는데요, 이러한 경우 transpose() 함수를 사용하여 행과 열을 바꿀 수 있습니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. tempcountpricerating item coffeehot130004.5 juiceice540003.0 adeice250004.0 milkhot420002.5 teahot340003.0 waterice210004.5 위 데이터프레임은 'item' 칼럼이 인덱스로 설정된 데이터프레임입니다. 이제 이 데이터프레임에서 tran.. 더보기
[데이터분석] 데이터 프레임 : 인덱싱 - iloc / loc 차이 이전 포스팅에서는 데이터프레임에서 원하는 행을 인덱싱 하는 iloc[ ] 에 대해서 알아보았는데요, iloc[ ] 뿐만 아니라 loc[ ] 도 인덱싱을 하는 함수입니다. iloc[ ] 와 loc[ ] 의 차이에 대해 바로 설명하자면, iloc[ ] 는 인덱스 번호로 인덱싱 하는 방법이고, loc[ ] 는 인덱스 이름으로 인덱싱 하는 방법입니다. 한 번 코드를 보면서 설명드리도록 하겠습니다. 1. iloc[ ] : 인덱스 번호로 인덱싱 먼저, 다음과 같은 데이터프레임(df)이 있다고 가정해보겠습니다. tempitemcountpricerating 0hotcoffee130004.5 1icejuice540003.0 2iceade250004.0 3hotmilk420002.5 4hottea340003.0 5icew.. 더보기
[데이터분석] 데이터 프레임 : 원하는 행 인덱싱 하기 - iloc 데이터 프레임을 다루다보면, 원하는 행만 추출하는 등 인덱싱을 해야 하는 경우가 있는데요, 인덱싱은 iloc 라는 모듈을 이용해서 할 수 있습니다. - iloc[ ] : 원하는 행 인덱싱 먼저, 아래와 같은 데이터프레임(df)이 있다고 가정해보겠습니다. tempitemcountpricerating 0hotcoffee130004.5 1icejuice540003.0 2iceade250004.0 3hotmilk420002.5 4hottea340003.0 5icewater210004.5 위 데이터프레임에서 왼쪽을 보면 알 수 있듯이, 첫 번째 행의 인덱스가 0부터 시작합니다. 이제 여기서 인덱싱을 하려면 iloc[인덱스번호] 처럼 코드를 입력하면 되는데요, 첫 번째 행을 인덱싱 해보도록 하겠습니다. df.ilo.. 더보기
[데이터분석] 엑셀 파일, 원하는 행 선택적으로 불러와서 dataframe으로 나타내기 - skiprows 이전 포스팅에서는 skipfooter 를 이용하여 엑셀파일에서 맨 마지막 행, 또는 하단 행을 제외한 행만 불러와 dataframe으로 나타내는 방법에 대해 살펴보았는데요, 이번에는 skiprows를 사용하여 원하는 행만 선택적으로 골라서 이를 dataframe으로 나타내보도록 하겠습니다. - skiprows : 특정 행 제외하고 불러오기 = 원하는 행만 불러오기 먼저, 아래와 같이 데이터가 있는 'sample.xlsx' 파일이 있다고 가정해보겠습니다. 위 파일을 보면, 1행에는 칼럼 이름이 있고, 2행부터 8행까진 항목들이 나열되어 있는 것을 볼 수 있습니다. 이제 이 엑셀 파일을 데이터프레임으로 나타내 보도록 하겠습니다. import pandas as pd file = r"C:\Users\Dinola.. 더보기
[데이터분석] 엑셀 파일, 마지막 행 제외하고 데이터 프레임으로 불러오기 - skipfooter 엑셀 파일에 있는 데이터를 분석하기 위해 파일을 불러와 데이터 프레임으로 나타낼 때, 모든 데이터가 함께 출력됩니다. 이때 필요 없는 행이 있다면 전처리 과정에서 삭제를 해주어야 하는데요, 데이터 프레임으로 불러올 때 마지막 행 또는 아랫부분의 행을 빼고 가져오는 방법이 있습니다. 바로, read_excel() 함수에서 skipfooter 라는 모듈을 이용하는 것인데요, 말 그대로 하단 부분을 스킵하고 나머지 부분만을 불러오는 모듈입니다. 예를 들어, 아래와 같이 'sample.xlsx' 이라는 이름의 엑셀 파일이 있다고 가정해보겠습니다. 엑셀 파일에 있는 데이터를 살펴보자면 'item', 'count', 'price', 'rating' 이라는 칼럼이 있고, 해당 데이터가 2행부터 6행까지 나열되어 있으.. 더보기
[파이썬] 데이터프레임(dataframe) 지정된 행 삭제하기 - drop() 데이터프레임을 이용하여 데이터를 다룰 때, 특정 행을 지워야 할 수 있는데요, 이때 사용하는 함수가 바로 drop() 입니다. drop() 함수는 .drop([행번호]) 와 같이 사용할 수 있습니다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd info = pd.DataFrame({'item' : ['coffee', 'tea', 'juice' ], 'price' : [3000, 4000, 5000], 'rating' : [4.0, 3.5, 3.7]}) info itempricerating 0coffee30004.0 1tea40003.5 2juice50003.7 위 데이터프레임에서 만약 인덱스가 1인 'tea'-'4000'-'3.5' 행을 지우고 싶다.. 더보기
[파이썬] 데이터프레임(dataframe) 특정 조건을 만족하는 행 삭제하기 - drop() 데이터프레임으로 데이터를 가공할 때, 필요에 맞게 특정 조건을 만족하는 행을 삭제해야 하는 경우가 있습니다. 이때 drop() 함수를 사용하면 되는데요, 아래 예를 들면서 설명하도록 하겠습니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd info = pd.DataFrame({'item' : ['coffee', 'tea', 'juice', 'ade' ], 'price' : [3000, 4000, 5000, 6000], 'rating' : [4.0, 3.5, 3.7, 4.2]}) info itempricerating 0coffee30004.0 1tea40003.5 2juice50003.7 3ade60004.2 이때, 이 데이터프레임에서 만약 'price'가.. 더보기