[데이터분석] 엑셀 파일, 마지막 행 제외하고 데이터 프레임으로 불러오기 - skipfooter
엑셀 파일에 있는 데이터를 분석하기 위해 파일을 불러와 데이터 프레임으로 나타낼 때, 모든 데이터가 함께 출력됩니다. 이때 필요 없는 행이 있다면 전처리 과정에서 삭제를 해주어야 하는데요, 데이터 프레임으로 불러올 때 마지막 행 또는 아랫부분의 행을 빼고 가져오는 방법이 있습니다. 바로, read_excel() 함수에서 skipfooter 라는 모듈을 이용하는 것인데요, 말 그대로 하단 부분을 스킵하고 나머지 부분만을 불러오는 모듈입니다. 예를 들어, 아래와 같이 'sample.xlsx' 이라는 이름의 엑셀 파일이 있다고 가정해보겠습니다. 엑셀 파일에 있는 데이터를 살펴보자면 'item', 'count', 'price', 'rating' 이라는 칼럼이 있고, 해당 데이터가 2행부터 6행까지 나열되어 있으..
더보기
[데이터분석] 데이터프레임 : 특정 칼럼의 데이터 종류별로 평균 / 합 구하는 방법 - groupby()
데이터프레임으로 데이터분석을 하다 보면, 특정 칼럼(열) 데이터 종류별로 평균이나 합을 구해야 하는 경우가 있을 수 있는데요, 이러한 경우 groupby() 함수를 사용하여 구할 수 있습니다. groupby() 함수는 말 그대로 그룹을 지어주는 함수로, 평균을 구하는 함수 mean()과 전체 합을 구하는 함수 sum() 을 함께 사용함으로써 그룹별 평균과 합을 구할 수 있습니다. 1. 특정 칼럼, 데이터 종류별로 합 구하기 코드를 보면서 살펴볼텐데요, 먼저 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000,..
더보기
[데이터분석] 데이터프레임 : 칼럼(열) 이름 변경하는 방법 - rename()
데이터프레임으로 데이터분석을 할 때, 전처리 과정으로 칼럼의 이름을 알아보기 쉽게 변경하는 경우가 있는데요, 칼럼의 이름을 어떻게 변경하는지 알아보도록 하겠습니다. - rename() : 칼럼(열) 이름 변경하기 rename() 함수는 칼럼의 이름을 변경하는 함수인데요, df.rename(columns = {'old_name' : 'new_name'), inplace=True) 와 같이 코드를 입력해서 사용하면 됩니다. 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], '..
더보기
[데이터분석] 데이터프레임 : inplace = True 뜻
데이터프레임을 다루는 코드를 구글링 하다 보면, 해당 함수 안에 inplace = True 라는 코드가 입력되어 있는 것을 많이 볼 수 있는데요, inplace = True 란 무엇을 의미하는 걸까요? 먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52..
더보기