본문 바로가기

DINOLEARNING

[데이터분석] 데이터 프레임 : 두 개의 칼럼(열) 합치기 (문자열 데이터) - map() 데이터 프레임에서 문자열 데이터(텍스트)가 있는 두 열이 있을 때, 이 두 열을 합치고 싶다면 어떻게 해야 할까요? 바로, map() 함수를 사용하면 쉽게 열을 합칠 수 있는데요, 아래 코드를 보면서 설명드리도록 하겠습니다. 1. 두 개의 칼럼 합치기 먼저, 아래와 같이 'df' 라는 이름의 데이터 프레임이 있다고 가정해보겠습니다. tempitemcountpricerating 0hotcoffee130004.5 1icejuice540003.0 2iceade250004.0 3hotmilk420002.5 4hottea340003.0 5icewater210004.5 위 데이터프레임을 보면, 'temp' 칼럼과 'item' 칼럼에 문자열 데이터가 있음을 확인할 수 있습니다. 여기서 텍스트 데이터로 이루어진 열을 .. 더보기
[데이터 분석] 데이터 프레임 : 결측값(NaN) 있는 행/열 삭제하기 - dropna() 데이터분석을 하기 전 데이터 전처리를 할 때, 결측값(NaN)이 있는 항목은 다른 값을 넣어주던가 해당 행을 삭제하는 것이 좋은데요, 만약, 결측값이 들어있는 행 전체를 삭제하고 싶다면 dropna() 함수를 사용하면 됩니다. 1. dropna() : 결측값이 들어있는 행 삭제하기 pandas 라이브러리에서는 결측값이 들어있는 행을 삭제하는 함수를 제공하는데요, 바로 dropna() 함수입니다. 먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. display(df) itemcountpricerating 0coffee1.030004.5 1juice5.040003.0 2ade2.05000NaN 3milk4.020002.5 4tea3.040003.0 5waterNaN10004.5 6coke4.0200.. 더보기
[데이터분석] 엑셀 파일, 원하는 칼럼(열) 선택적으로 불러와서 dataframe으로 나타내기 - usecols 이전 포스팅에서는 skipfooter를 이용하여 엑셀 파일에서 맨 마지막 행, 또는 하단 행을 제외한 행만 불러오거나, skiprows를 이용하여 선택적으로 특정 행만 불러서 가져오는 방법에 대해 살펴보았는데요, 이번에는 usecols를 사용하여 원하는 칼럼(열)만 선택해서 이를 dataframe으로 나타내는 방법에 대해 살펴보도록 하겠습니다. - usecols : 원하는 칼럼(열)만 불러오기 먼저, 아래와 같이 데이터가 있는 'sample.xlsx' 파일이 있다고 가정해보겠습니다. 위 파일을 보면, 1행에는 칼럼 이름이 있고, 2행부터 8행까진 항목들이 나열되어 있는 것을 볼 수 있습니다. 이제 이 엑셀 파일을 데이터프레임으로 나타내 보도록 하겠습니다. import pandas as pd file = .. 더보기
[데이터분석] 엑셀 파일, 원하는 행 선택적으로 불러와서 dataframe으로 나타내기 - skiprows 이전 포스팅에서는 skipfooter 를 이용하여 엑셀파일에서 맨 마지막 행, 또는 하단 행을 제외한 행만 불러와 dataframe으로 나타내는 방법에 대해 살펴보았는데요, 이번에는 skiprows를 사용하여 원하는 행만 선택적으로 골라서 이를 dataframe으로 나타내보도록 하겠습니다. - skiprows : 특정 행 제외하고 불러오기 = 원하는 행만 불러오기 먼저, 아래와 같이 데이터가 있는 'sample.xlsx' 파일이 있다고 가정해보겠습니다. 위 파일을 보면, 1행에는 칼럼 이름이 있고, 2행부터 8행까진 항목들이 나열되어 있는 것을 볼 수 있습니다. 이제 이 엑셀 파일을 데이터프레임으로 나타내 보도록 하겠습니다. import pandas as pd file = r"C:\Users\Dinola.. 더보기
[데이터분석] 엑셀 파일, 마지막 행 제외하고 데이터 프레임으로 불러오기 - skipfooter 엑셀 파일에 있는 데이터를 분석하기 위해 파일을 불러와 데이터 프레임으로 나타낼 때, 모든 데이터가 함께 출력됩니다. 이때 필요 없는 행이 있다면 전처리 과정에서 삭제를 해주어야 하는데요, 데이터 프레임으로 불러올 때 마지막 행 또는 아랫부분의 행을 빼고 가져오는 방법이 있습니다. 바로, read_excel() 함수에서 skipfooter 라는 모듈을 이용하는 것인데요, 말 그대로 하단 부분을 스킵하고 나머지 부분만을 불러오는 모듈입니다. 예를 들어, 아래와 같이 'sample.xlsx' 이라는 이름의 엑셀 파일이 있다고 가정해보겠습니다. 엑셀 파일에 있는 데이터를 살펴보자면 'item', 'count', 'price', 'rating' 이라는 칼럼이 있고, 해당 데이터가 2행부터 6행까지 나열되어 있으.. 더보기
[데이터분석] 엑셀을 데이터 프레임으로 불러올 때 Sheet 설정하는 방법 - sheet_name 엑셀 파일을 데이터 프레임으로 불러올 때 보통 다음과 같이 코드를 입력하는데요, import pandas as pd file = r"C:\Users\Dinolabs\Desktop\데이터분석\sample.xlsx" #해당 경로 df = pd.read_excel(file) 이때 기본 값 설정으로, 엑셀 파일에서 첫 번째 시트인 Sheet1을 불러옵니다. 하지만 데이터 분석을 할 데이터가 Sheet2, Sheet3 또는 특정 이름의 시트에 있을 수 있는데요, sheet를 선택하기 위해선 pd.read_excel() 함수에 인자를 추가해서 입력해주어야 합니다. 바로, sheet_name 이라는 인자를 넣어주면 되는데요, 예를 들어 'Sheet2' 를 열고 싶다면 sheet_name="Sheet2" 를 인자로 넣.. 더보기
[데이터분석] 엑셀(excel) 파일 dataframe으로 불러오기 - pd.read_excel() 지난 포스팅 중 하나가 csv 파일을 dataframe으로 불러오는 방법과 관련된 글이었는데요, 이번에는 엑셀 파일을 데이터 프레임으로 불러오는 방법에 대해 살펴보도록 하겠습니다. 엑셀 파일을 데이터프레임으로 불러오기 위해 먼저 pandas 라이브러리를 import 해줍니다. 그리고 나서 아래 코드처럼 file 경로를 변수로 설정해주고, pd.read_excel() 함수를 이용하여 데이터프레임으로 열어주면 되는데요, sheet_name 을 입력하여 sheet를 선택할 수 있습니다.(sheet1은 기본값이므로 생략 가능) import pandas as pd file = r"C:\Users\Dinolabs\Desktop\데이터분석\sample.xlsx" #해당 경로+파일 이름 df = pd.read_exce.. 더보기
[파이썬] Folium : 경복궁 위치 지도 상에 나타내기 (+ 마커) Folium 라이브러리는 Open Street Map 이라는 오픈 지도를 통해 위치 정보를 시각화할 수 있는 라이브러리인데요, 이를 이용하면 주피터 노트북에서 원하는 장소를 지도 상에 나타낼 수 있답니다. - Folium으로 경복궁 위치 지도 상에 나타내기 Folium 라이브러리는 먼저 설치를 해야 하는데요, cmd 창에 pip install folium 명령어를 입력하면 설치가 됩니다. 설치가 완료되었다면 주피터 노트북에서 다음과 같이 코드를 입력하면 됩니다. import folium location = "경복궁" latitude = 37.5759 longitude = 126.9768 place = folium.Map(location=[latitude, longitude], zoom_start=16) .. 더보기
[데이터분석] matplotlib : 파이차트(pie chart) 간단하게 만들기 이전 글에서는 막대그래프와 수평 막대그래프를 그리는 방법에 대해서 알아보았는데요, 이번에는 도넛 모양 그래프라고도 하는 파이차트(pie chart)를 간단하게 만들어보도록 하겠습니다. 먼저, 파이차트를 만드는 코드와 출력된 그래프를 살펴보도록 하겠습니다. import matplotlib.pyplot as plt ratio = [30, 40, 10, 20] labels = ['coffee', 'tea', 'ade', 'milk'] plt.pie(ratio, labels=labels, autopct='%.1f%%') plt.show() 보시다시피, 코드가 매우 간단한데요, 한 줄 한 줄 살펴보도록 하겠습니다. import matplotlib.pyplot as plt 그래프를 그리기 위해선 matplotlib.. 더보기
[데이터분석] matplotlib : 수평 막대그래프 간단하게 만들기 이전 포스팅에서는 matplotlib을 이용해서 막대그래프를 그리는 방법에 대해 살펴보았는데요, 이번에는 수평 막대그래프를 그리는 방법에 대해서 살펴보도록 하겠습니다. 수평 막대그래프를 그리는 방법은 수직 막대그래프와 코드 몇 줄 빼고 거의 동일한데요, 아래 코드와 출력된 그래프를 한 번 보도록 하겠습니다. import matplotlib.pyplot as plt import numpy as np y = np.arange(3) item = ['coffee', 'tea', 'ade'] values = [2000, 4000, 5000] plt.barh(y, values) plt.yticks(y, item) plt.grid(True) plt.show() 수직 막대그래프를 그리는 방법과 다른 점이 있다면 plt.. 더보기