본문 바로가기

dataframe

[데이터분석] 데이터프레임 : 특정 칼럼(열)에 있는 데이터 출력하기 for문을 이용하면 데이터프레임에서 특정 칼럼(열)에 있는 데이터를 하나씩 출력할 수 있는데요, 먼저, 아래와 같은 데이터프레임(df1)이 있다고 가정해보겠습니다. # itempricecount 0water10001 1milk20005 2coffee30002 3ade40001 4juice50003 5tea60002 이 데이터프레임에서 만약 'item' 칼럼에 있는 데이터를 출력하고 싶다면 다음과 같이 코드를 작성하면 됩니다. for i in df1['item'] : print(i) water milk coffee ade juice tea 출력된 결과, 'item'에 있는 데이터가 모두 잘 출력되었음을 확인할 수 있습니다. 추가로, 만약 'item' 칼럼에 있는 데이터들을 하나의 리스트로 만들고 싶다면 아.. 더보기
[데이터분석] 데이터프레임 : 칼럼이 일치하는 데이터프레임에 다른 칼럼 붙여 넣기 - merge 만약 두 데이터프레임 df1, df2가 있을 때, 두 데이터프레임에서 특정 칼럼이 동일하고, 그 칼람에 들어있는 데이터가 일치한다면, df1에는 없고 df2에는 있는 칼럼을 df1에 붙여넣으려면 어떻게 해야 할까요? 바로, merge() 함수를 이용해서 변경이 가능한데요, 아래 코드를 보면서 설명하도록 하겠습니다. - merge() : 칼럼 비교 후 붙여 넣기 먼저, 아래와 같은 데이터프레임 df1과 df2가 있다고 가정해보겠습니다. # itempricecount 0water10001 1milk20005 2coffee30002 3ade40001 4juice50003 5tea60002 # itempricerating 0water10004.5 1milk20003.4 2americano 35005.3 3ade.. 더보기
[데이터분석] 데이터프레임 : 하나의 데이터 다른 값으로 바꾸기 (2) - iloc 이전 글에서는 loc를 사용해서 데이터프레임에서 하나의 데이터를 다른 값으로 바꾸는 방법에 대해서 살펴보았는데요, loc는 인덱스 이름을 이용해서 데이터를 변경하는 방법이었습니다. 이번에는 인덱스 번호를 이용하는 iloc를 사용해서 데이터를 변경하는 방법에 대해서 살펴보겠습니다 2. iloc[행번호][열번호] = '바꾸는 값' 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. itemcountprice 0coffee13000 1juice54000 2ade25000 3milk12000 4tea34000 5water21000 이 데이터프레임에서 'item'이 'juice'인 첫 번째 행에서 'count' 칼럼에 있는 데이터 '5'를 '3'으로 변경하고 싶다고 가정해보겠습니다. 그러기 위해선, 먼저 .. 더보기
[데이터분석] 데이터프레임 : 하나의 데이터 다른 값으로 바꾸기 (1) - loc 데이터프레임에서 하나의 데이터를 다른 값으로 바꾸는 방법은 여러 개가 있는데요, 그중 자주 사용되는 두 가지 방법에 대해서 설명드리도록 하겠습니다. 1. loc['index이름']['칼럼이름'] = '바꿀 값' 첫 번째 방법은 loc을 이용하여 데이터를 바꾸는 방법인데요, 먼저 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. itemcountprice 0coffee13000 1juice54000 2ade25000 3milk12000 4tea34000 5water21000 이 데이터프레임에서 만약 'item'이 juice인 행에서 'count' 칼럼에 있는 데이터 '5'를 '3'으로 바꾸고 싶다면 어떻게 해야할까요? 우선 데이터를 바꾸기 전 'item' 칼럼을 인덱스로 설정해야 하는데요, 아래와 같이 .. 더보기
[데이터분석] 데이터프레임 : 특정 열(칼럼)에 있는 데이터를 연산해서 결측치(NaN) 채우기 - fillna() 만약 아래와 같은 데이터프레임이 있다고 가정할 때, itemcountpricetotal 0coffee130003000.0 1juice5400020000.0 2ade25000NaN 3milk120002000.0 4tea34000NaN 5water210002000.0 'count' 칼럼과 'price' 칼럼에 있는 데이터의 곱이 'total' 칼럼의 데이터에 해당되는 것을 살펴볼 수 있는데요, total 칼럼에 2번째 행과 4번째 행을 보면 결측값(NaN)으로 비워져 있는 것을 볼 수 있습니다. 일일이 비어있는 데이터에 값을 넣어줘도 되지만 데이터의 양이 매우 많으면 많은 시간이 소요될 수 있습니다. 따라서 fillna() 라는 함수를 사용하면 한 번에 연산해서 결측값을 채울 수 있는데요, 만약 'total.. 더보기
[데이터분석] 데이터프레임 : 다른 열(칼럼)에 있는 값으로 결측치(NaN) 채우기 - fillna 데이터를 가지고 분석하기 전, 결측치가 있다면 이를 삭제할지 다른 값으로 대체할지 결정해야 하는데요, 같은 행 다른 열에 있는 값으로 결측치를 채우는 방법에 대해서 살펴보도록 하겠습니다. - fillna() : 결측값(NaN) 채우기 먼저, 아래와 같은 데이터프레임(df)이 있다고 가정해보겠습니다. itemcountprice1price2 0coffee13000.03500 1juice54000.03500 2ade25000.04500 3milk1NaN2000 4tea34000.04500 5water21000.01000 위 데이터프레임을 보면 'price1' 칼럼에서 3번째 행에 결측값(NaN)이 있는 것을 확인할 수 있는데요, fillna() 함수를 사용하여 'price2' 칼럼의 3번째 행에 있는 데이터로.. 더보기
[데이터분석] 데이터프레임 : 데이터프레임 사이에 다른 데이터프레임 삽입하기 - concat() concat() 함수는 데이터프레임을 위/아래 또는 좌/우로 병합해주는 함수로 잘 알려져 있는데요, concat() 함수로 한 데이터프레임 사이에 다른 데이터프레임을 삽입할 수도 있답니다. 한번 코드를 보면서 살펴보도록 하겠습니다. - concat() : 데이터 프레임 사이에 다른 데이터 프레임 삽입하기 먼저 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. # df1 classnummath 0A197 1B267 2F489 3G576 4H679 #df2 classnummath 0C389 1D478 2E597 위와 같은 데이터프레임 df1, df2가 있을 때, 만약 df1의 1번째 행과 2번째 행 사이에 df2를 삽입하려면 아래와 같이 코드를 작성하면 됩니다. row = 2 new_df = pd.conc.. 더보기
[데이터분석] 데이터프레임 : 다중 인덱스 설정하는 방법 - set_index() 데이터프레임에서는 인덱스를 하나만 설정하는 것 말고도 여러 개의 칼럼으로 인덱스를 설정할 수 있는데요, 아래 코드를 보면서 다중 인덱스를 설정하는 방법에 대해 살펴보도록 하겠습니다. - set_index() : 다중 인덱스 설정하기 먼저, 아래와 같은 데이터프레임(df)이 있다고 가정해보겠습니다. classnummatheng 0A19798 1A26776 2A38997 3B17667 4B27989 5B36877 6C19898 7C25887 8C39767 데이터프레임을 보면 'class' 칼럼에 A, B, C 에 해당하는 데이터가 있고, 'num' 칼럼에는 1, 2, 3이라는 데이터가 있으며, 'math'와 'eng' 칼럼에는 점수에 해당하는 값들이 입력되어 있습니다. 만약 위 데이터프레임에서 'class'.. 더보기
[데이터분석] 데이터프레임 : 정렬 후 인덱스 재정렬 하기 - reset_index(drop = True) 데이터프레임으로 분석을 하기 전 전처리 과정을 거치는데요, sort() 함수를 이용하여 정렬을 시키는 경우가 있습니다. 하지만 sort() 함수를 사용하고 나면, 인덱스 번호가 뒤죽박죽 섞이게 되는데요, 이를 재정렬하기 위해 인덱스를 지웠다 새로 만들기보다, reset_index() 함수를 이용하면 쉽게 재정렬 할 수 있답니다. 한 번 아래 코드를 보면서 살펴보도록 하겠습니다. - reset_index(drop=True) : 인덱스 재정렬하기 먼저, 아래와 같이 정렬을 하기 전인 데이터프레임(df)이 있다고 가정해보겠습니다. itemcountpricerating 0coffee130004.5 1juice540003.0 2ade250004.0 3milk130002.5 4tea340003.0 5water230.. 더보기
[데이터분석] 데이터프레임 : 한 칼럼(열)에서 특정 값과 일치하는 행 필터링 하기 데이터프레임에서 한 칼럼(열)에 특정 데이터와 일치하는 행을 찾고, 일치하는 행들만 따로 데이터프레임으로 나타내고 싶다면 어떻게 해야 할까요? 아래 코드를 보면서 살펴보도록 하겠습니다. - 한 칼럼(열)에서 특정 값과 일치하는 행 필터링 하기 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. itemcountpricerating 0coffee130004.5 1juice540003.0 2ade250004.0 3milk130002.5 4tea340003.0 5water230004.5 위 데이터를 살펴보면 항목(item)마다 'count', 'price', 'rating'에 대한 데이터가 있는데요, 만약 'price'칼럼에서 데이터가 '3000'인 행만 필터링해서 새로운 데이터프레임으로 만들고 싶다면.. 더보기