본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] 라이프로그 플랫폼(2) - 일반인과 당뇨 환자의 라이프로그 융합데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#13 라이프로그 플랫폼(2) - 일반인 및 당뇨 환자 라이프로그 융합데이터

 

 

 

 

건강 상태를 나타내는 신체 지표로는 여러 가지가 있는데요, 실제 공복혈당, 콜레스테롤, LDL, HDL, 중성지방, 당화혈색소, 체중 등 여러 가지 데이터를 분석하여 당뇨, 고혈압 등 여러 질병을 진단하기도 합니다. 또 이 요소들의 상관관계를 분석하여 또 다른 질병을 예측하기도 하고요!

 

이와 관련해서 데이터 거래소인 <라이프로그 플랫폼>에서 '일반인과 당뇨 환자의 라이프로그 융합데이터'를 제공하고 있는데요, 이버 리뷰기에서는 이 데이터를 읽어보고. 어떻게 활용 및 분석할지 생각해보도록 하겠습니다!

 

 

 

 

 

라이프로그 융합데이터

 

1. 일반인 및 당뇨 환자 라이프로그 융합데이터

(1) 데이터 정보

  • 제공기관 : 연세대학교원주산학협력단
  • 데이터 형식 : csv
  • 데이터 개수 : 4,389건(일반인=3,499, 당뇨환자=899)
  • 칼럼 : 공복혈당, 총콜레스테롤, LDL, HDL, 중성지방, Hb, 당화혈색소, 키, 체중, 허리둘레, 혈압, BMI 데이터 및 당뇨 진단 여부 등
  • 다운로드 : https://www.bigdata-lifelog.kr/portal/find/dataList?mode=detail&name=ywm20210524135359

 

'일반인 및 당뇨 환자의 라이프로그 융합데이터'는 일반인과 당뇨환자의 공복혈당, 총콜레스테롤, LDL, HDL, 중성지방, Hb, 당화혈색소, 키, 체중, 혈압, BMI 데이터 및 당뇨 진단 여부를 제공하는 데이터인데요, 위 다운로드 페이지에 들어가서 회원가입 또는 로그인을 한 후 데이터를 무료로 다운로드 받을 수 있답니다! 

 

그럼 먼저 전체 데이터의 일부인 샘플 데이터를 다운받아 데이터를 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

아래 이미지는 실제 데이터의 일부를 캡쳐한 것입니다.

 

 

데이터를 보면, 첫 행에는 칼럼 이름, 그리고 그 아래로는 데이터가 있습니다. 각 데이터가 정확히 어떤 칼럼의 데이터인지 확인하기 위해서는 현재 칼럼이 무슨 데이터를 나타내는지 알아야 하는데요, 컬럼명의 정보가 나와있는 자료를 사용해서 다시 칼럼을 정리해보도록 하겠습니다.

 

 

다시 칼럼을 알아보기 쉽게 정리한 후의 데이터 모습인데요, 좀 더 데이터를 보기 편해진 것 같지 않나요~?

 

그렇다면 데이터를 더 자세히 살펴보도록 하겠습니다. 먼저 첫 번째 데이터를 읽어볼까요?

2번째 행에 있는 첫 번째 사람의 경우 공복혈당은 196, 총 콜레스테롤은 204, LDL과 HDL은 각각 저밀도지단백질콜레스테롤, 고밀도지단백질콜레스테롤로 120과 33, 중성지방은 205, 헤모글로빈과 당화혈색소는 각각 16.4, 8.4 혈당은 미측정, 나이는 62세, 성별은 남자(=1), 키와 체중과 허리둘레는 164.2, 71.3, 91 이고요, 수축기혈압과 인관기혈압은 각각 175, 98, BMI는 26.44로 이 환자는 당뇨병을 진단받은 환자의 데이터인 것을 확인할 수 있습니다.

 

당뇨진단여부에 1이라고 있는 사람이 당뇨병 환자이고, 0인 사람이 일반인인데요, 일반인과 이 첫 번째 사람의 수치를 비교해보면 상당히 공복 혈당과 당화혈색소, 혈압 등의 수치가 높다는 것을 확인할 수 있습니다. 만약 좀 더 구체적이고 근거가 있는 분석을 하기 위해선 당뇨병 환자와 일반인을 나누어 평균 또는 분산 값을 구해도 좋을 것 같습니다.

 

 

(3) 데이터 활용

그렇다면 이 라이프로그 융합데이터를 이용하여 어떻게 분석 및 활용할 수 있을까요?

우선 이 데이터에는 당뇨병 환자인지를 나타내는 값이 있다는 것인데요, 이 값을 어떻게 보면 결과값이라고 생각할 수 있답니다. 즉, 나머지 16개의 데이터를 토대로 상관관계 분석을 하여 결과값(당뇨병 환자 유무)이 어떻게 결정되는지를 분석할 수 있는 것입니다.

 

따라서 여러 분석 모델을 이용하여 어떠한 칼럼이 결과값에 영향을 얼마나 많이 끼치는지, 또는 덜 끼치는지, 이러한 칼럼의 중요도를 분석한다면 어떠한 데이터가 당뇨병 진단에 얼마큼의 영향을 끼칠 수 있는지 알 수 있지 않을까 싶습니다. 또한 각 데이터들의 연관성을 분석할 수도 있겠고요, 이러한 분석을 토대로 새로운 데이터를 넣었을 때 당뇨병 환자인지 일반인인지를 예측해주는 예측 모델까지 만들 수 있지 않을까 싶습니다!

 

 

 

 

 

#라이프로그 빅데이터 플랫폼

 

https://www.bigdata-lifelog.kr/portal

 

이번 데이터 리뷰기에서 소개한 '일반인 및 당뇨 환자 라이프로그 융합데이터'는 <라이프로그 빅데이터 플랫폼>에서 다운받은 데이터인데요, 라이프로그(lifelog)는 개인의 일상(life)에 대한 기록(log)을 의미한다고 합니다. 이러한 라이프로그 빅데이터 플랫폼은 병원 안 의료데이터와 병원 밖 일상 데이터를 포괄하여 적재하고, 관리와 유통을 하는 플랫폼이라고 합니다!

 

https://www.bigdata-lifelog.kr/portal/intro/dbIntro

 

라이프로그 플랫폼은 위와 같이 구성되어 있는데요, 현재 약 228개의 데이터를 무료 또는 유료로 제공하고 있답니다.

 

이렇게 오늘 데이터 리뷰기에서는 라이프로그 플랫폼에서의 '일반인 및 당뇨 환자 라이프로그 융합데이터'를 리뷰해보았는데요, 라이프로그 플랫폼에는 당뇨 환자 데이터 말고도 고혈압 환자에 대한 융합데이터도 있으니 참고해보시기 바랍니다! 그럼 다음 리뷰기에서도 라이프로그 플랫폼의 다른 데이터를 리뷰해보도록 하겠습니다.

 

이전 데이터 리뷰기에는 소방, 사회범죄, 해양수산 등 여러 플랫폼에서 제공하는 데이터의 데이터 리뷰기가 있으니, 관심 있으신 분들은 참조하시기 바랍니다~ 그럼 이번 데이터리뷰기는 여기서 마치도록 하겠습니다!