본문 바로가기

칼럼

[데이터분석] 데이터프레임 : 결측치 있는지 확인하기 & 칼럼별 개수 세기 - isnull(), isnull().sum() 데이터 분석을 하기 전 데이터 전처리를 할 때, 결측치(결측값, NaN)가 있으면 데이터 분석을 할 때 문제가 될 수 있는데요, 사전에 결측치가 있는지 알아보는 것이 중요합니다. 하지만 데이터가 많지 않을 때 결측치가 있는지 한 눈에 알 수 있지만 데이터가 매우 많다면 결측치가 어디에 있는지, 칼럼마다 몇 개가 있는지 확인하기 어려울 수 있습니다. 따라서 pandas 에서는 결측치가 얼마큼 있는지 알려주는 함수를 제공하는데요, 아래 예시와 코드를 보면서 설명하도록 하겠습니다. 1. isnull() : 결측치 확인하기 먼저, 결측치가 있는지 확인하는 함수는 isnull() 함수로, 각 행, 열마다 결측치가 있는 데이터가는 True, 결측치가 아닌 데이터는 False를 반환합니다. 예를 들어, 아래와 같은 .. 더보기
[데이터분석] 데이터 프레임 : 행과 열 바꾸기 - transpose() pandas 라이브러리를 이용하면 데이터프레임으로 데이터 분석을 쉽게 할 수 있는데요, 특히 다양한 형태로 쉽게 변경할 수 있기 때문에 많이 사용됩니다. 한편, 데이터프레임으로 데이터를 분석할 때, 행과 열을 바꿔서 나타내고 싶을 수 있는데요, 이러한 경우 transpose() 함수를 사용하여 행과 열을 바꿀 수 있습니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. tempcountpricerating item coffeehot130004.5 juiceice540003.0 adeice250004.0 milkhot420002.5 teahot340003.0 waterice210004.5 위 데이터프레임은 'item' 칼럼이 인덱스로 설정된 데이터프레임입니다. 이제 이 데이터프레임에서 tran.. 더보기
[데이터분석] 데이터 프레임 : 두 개의 칼럼(열) 합치기 (문자열 데이터) - map() 데이터 프레임에서 문자열 데이터(텍스트)가 있는 두 열이 있을 때, 이 두 열을 합치고 싶다면 어떻게 해야 할까요? 바로, map() 함수를 사용하면 쉽게 열을 합칠 수 있는데요, 아래 코드를 보면서 설명드리도록 하겠습니다. 1. 두 개의 칼럼 합치기 먼저, 아래와 같이 'df' 라는 이름의 데이터 프레임이 있다고 가정해보겠습니다. tempitemcountpricerating 0hotcoffee130004.5 1icejuice540003.0 2iceade250004.0 3hotmilk420002.5 4hottea340003.0 5icewater210004.5 위 데이터프레임을 보면, 'temp' 칼럼과 'item' 칼럼에 문자열 데이터가 있음을 확인할 수 있습니다. 여기서 텍스트 데이터로 이루어진 열을 .. 더보기
[데이터분석] 엑셀 파일, 원하는 칼럼(열) 선택적으로 불러와서 dataframe으로 나타내기 - usecols 이전 포스팅에서는 skipfooter를 이용하여 엑셀 파일에서 맨 마지막 행, 또는 하단 행을 제외한 행만 불러오거나, skiprows를 이용하여 선택적으로 특정 행만 불러서 가져오는 방법에 대해 살펴보았는데요, 이번에는 usecols를 사용하여 원하는 칼럼(열)만 선택해서 이를 dataframe으로 나타내는 방법에 대해 살펴보도록 하겠습니다. - usecols : 원하는 칼럼(열)만 불러오기 먼저, 아래와 같이 데이터가 있는 'sample.xlsx' 파일이 있다고 가정해보겠습니다. 위 파일을 보면, 1행에는 칼럼 이름이 있고, 2행부터 8행까진 항목들이 나열되어 있는 것을 볼 수 있습니다. 이제 이 엑셀 파일을 데이터프레임으로 나타내 보도록 하겠습니다. import pandas as pd file = .. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼의 데이터 종류별로 평균 / 합 구하는 방법 - groupby() 데이터프레임으로 데이터분석을 하다 보면, 특정 칼럼(열) 데이터 종류별로 평균이나 합을 구해야 하는 경우가 있을 수 있는데요, 이러한 경우 groupby() 함수를 사용하여 구할 수 있습니다. groupby() 함수는 말 그대로 그룹을 지어주는 함수로, 평균을 구하는 함수 mean()과 전체 합을 구하는 함수 sum() 을 함께 사용함으로써 그룹별 평균과 합을 구할 수 있습니다. 1. 특정 칼럼, 데이터 종류별로 합 구하기 코드를 보면서 살펴볼텐데요, 먼저 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000,.. 더보기
[데이터분석] 데이터프레임 : 칼럼(열) 이름 변경하는 방법 - rename() 데이터프레임으로 데이터분석을 할 때, 전처리 과정으로 칼럼의 이름을 알아보기 쉽게 변경하는 경우가 있는데요, 칼럼의 이름을 어떻게 변경하는지 알아보도록 하겠습니다. - rename() : 칼럼(열) 이름 변경하기 rename() 함수는 칼럼의 이름을 변경하는 함수인데요, df.rename(columns = {'old_name' : 'new_name'), inplace=True) 와 같이 코드를 입력해서 사용하면 됩니다. 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], '.. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼(열) 삭제하기 - drop() 데이터프레임으로 데이터 분석을 할 때, 필요 없는 칼럼은 삭제하는 게 좋은데요, drop() 함수를 사용하면 쉽게 칼럼을 삭제할 수 있습니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice50003.73 3milk20003.04 4ad.. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼(열) 기준으로 오름차순/내림차순 정렬하기 - sort_values() 데이터프레임으로 데이터 분석을 할 때, 필요 없는 칼럼은 제거하거나 특정 칼럼을 기준으로 정렬하는 등 데이터 전처리 과정을 거치게 되는데요, 이때 특정 칼럼(열) 기준으로 정렬을 하려면 어떻게 해야 할까요? 데이터프레임에는 sort_values() 라는 함수를 이용하여 정렬을 할 수 있는데요, 아래 코드를 보면서 설명드리도록 하겠습니다. - sort_values : 특정 칼럼 기준으로 정렬 먼저 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼만 조회하기 데이터프레임으로 데이터분석을 할 때, 칼럼이 너무 많다면 필요 없는 칼럼은 없애거나 필요한 칼럼만 조회해서 사용하는 것이 더 효율적일 수 있는데요, 원하는 특정 칼럼만 조회하는 방법은 매우 간단하답니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice5000.. 더보기
[데이터분석] 데이터프레임 - 칼럼(열) 순서 바꾸기 데이터프레임은 칼럼(열)이 있는데요, 이 칼럼의 순서를 바꾸고 싶을 수 있습니다. 칼럼을 바꾸는 방법은 매우 쉬운데요, 우선, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'a.breeze'], 'price': [3000, 4000, 5000, 2000, 2000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice50003.73 3milk20003.04 4a.breeze 20002.04 위 데이터프레임을 보면.. 더보기