본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] 디지털산업혁신 플랫폼(2) - 유저 인터넷 키워드 정보 데이터 (쿠팡, 네이버 등)

데이터 리뷰 : 데이터 대신 읽어드립니다!
#8 디지털산업혁신 플랫폼(2) - 유저 인터넷 키워드 정보 데이터 (쿠팡, 지마켓, 11번가, 옥션 등)

 

 

 

 

 작년, 발병한 코로나19에 대해서 미리 이를 예측한 곳이 있었는데요, 스마트 체온계 기기를 판매하는 의료기기업체 '킨사 헬스'였습니다. 판매하는 스마트 체온계 기기는 인터넷과 연동되는 기기였는데요, 스마트 체온계로 발혈 환자가 급증한 지역을 실시간으로 찾았고, 그곳은 코로나 바이러스 확진 환자가 발생한 지역이었다고 합니다. 실제로도 킨사의 발열 환자 분포도는 우한 코로나 환자 발생지와 일치했다고 합니다. 이처럼 이 사건은 개개인이 이용한 인터넷 정보들이 모여 하나의 큰 흐름을 발견한 사례인데요, 그만큼 각 유저들의 인터넷 정보는 하나의 중요한 데이터가 될 수 있습니다.

 

따라서 이번 데이터 리뷰기에서는 <디지털 산업혁신 빅데이터 플랫폼>에서 제공하는 '유저 인터넷 키워드 정보 데이터'를 리뷰하고, 어떻게 분석할지 또는 어떻게 활용하면 좋을지 생각해보려고 합니다. 해당 빅데이터 플랫폼에서 쇼핑 사이트인 쿠팡, 지마켓, 옥션 외 3개 사이트뿐만 아니라, 네이버, 다음, 소규모 검색 사이트에서의 인터넷 키워드 정보 데이터가 있는데요, 대표적으로 쿠팡과 네이버에서의 유저 인터넷 키워드 정보 데이터에 대해 리뷰해보도록 하겠습니다!

 

 

 

 

 

 

유저 인터넷 키워드 정보 데이터

 

1. 유저 인터넷 키워드 정보(쿠팡) - RAW DATA

(1) 데이터 정보

  • 제공기관 : 에스티에이치아이에스
  • 데이터 개수 : 1,048,575
  • 데이터 형식 : csv
  • 칼럼 : 타겟키워드일련번호, 배포기업명, 키워드호스트명, 검색어명, 측정년월일, 측정시간, 검색어합계, 비고
  • 다운로드 : https://www.bigdata-dx.kr/product/DX072000030005

 

[유저 인터넷 키워드 정보(쿠팡) - RAW DATA]는 에스티에이치아이에스(STHIS)에서 제공하는 데이터로, 제휴업체 이용자의 인터넷 키워드(쿠팡) 수집 데이터입니다.

 

 

 

(2) 데이터 리뷰

유저 인터넷 키워드 정보 데이터는 csv 파일로 이루어져 있는데요, 무려 백만 개의 데이터를 갖고 있답니다. 아래 이미지는 데이터의 일부분인데 한번 볼까요~?

 

 

데이터를 보면, 타겟키워드일련번호, 배포기업명, 키워드호스트명, 검색어명, 측정년월일, 측정시간 등의 칼럼이 있는 것을 확인할 수 있는데요, 여기서 주목할 칼럼은 [검색어명] 칼럼과 [측정년월일] 칼럼인 것 같습니다. 

 

측정년월일을 기준으로 정렬한 뒤 검색어명 데이터를 보면 시간의 흐름에 따라 어떠한 검색어가 등장하는지를 확인할 수 있는데요, 자주 등장하는 검색어를 통해 특정 시기에 어느 검색어가 많이 검색되었는지를 분석할 수 있을 것 같네요~

 

쿠팡 데이터뿐만 아니라 다른 쇼핑 데이터를 취합한다면 더 많은 검색 키워드 빅데이터 자료가 될 수 있을 것 같습니다.

 

 

 

 

2. 유저 인터넷 키워드 정보(네이버) - RAW DATA

(1) 데이터 정보

  • 제공기관 : 에스티에이치아이에스
  • 데이터 유료
  • 데이터 형식 : csv
  • 칼럼 : 타겟키워드일련번호, 배포기업명, 키워드호스트명, 검색어명, 측정년월일, 측정시간, 검색어합계, 비고
  • 다운로드 : https://www.bigdata-dx.kr/product/DX072000030005

 

(2) 데이터 리뷰

[유저 인터넷 키워드 정보(네이버) - RAW DATA] 데이터 역시 에스티에이치아이에스(STHIS)에서 제공하는 데이터로, 다만 유료란 점에서 아쉽게도 샘플 데이터밖에 확인을 하지 못했는데요, 아래 이미지는 샘플 데이터의 일부입니다.

 

 

네이버 검색 키워드 데이터에도 마찬가지로 동일한 칼럼으로 데이터가 이루어져 있는데요, 전체 데이터 포탈 검색어 키워드보다는 네이버 쇼핑 페이지에서의 키워드 검색 데이터인 것 같습니다. 네이버 데이터 역시도 측정년월일을 기준으로 검색어 분석을 할 수 있을 것 같습니다!

 

 

(3) 데이터 활용

 위에서도 살짝 언급했지만, 이러한 인터넷 키워드 정보 데이터를 시간에 따른 검색어 분석을 한다면 다양하게 활용될 수 있을 것 같습니다. 예를 들어, 하나의 키워드가 활발하게 검색되었다면 그 기간이 얼마나 지속되었는지, 또는 그 키워드의 연관검색어 또한 검색량이 증가했는지 분석할 수 있을 것 같습니다. 현재 이 데이터가 그렇게 최신 데이터는 아니지만, 이러한 분석 방안을 갖고 추가로 최신 데이터를 확보한다면 더 좋은 데이터 분석이 될 수 있을 것 같습니다!

 

 

 

 

#디지털 산업혁신 빅데이터 플랫폼

 

 

이번 데이터 리뷰기에서 소개한 데이터는 '디지털 산업혁신 빅데이터 플랫폼'에서 받은 데이터인데요, 디지털 산업혁신 빅데이터 플랫폼은 디지털 & 산업혁신과 관련한 데이터를 제공하는 플랫폼입니다. 구체적인 카테고리로는 M&A 정보, 과학기술, 금융, 기업정보, 물류, 수출입, 재무, 투자유치, 특허, 펀드 등이 있고 현재 약 280개 이상의 데이터를 무료 또는 유료로 제공하고 있답니다.

 

 

위와 같이 상세 검색을 통해서 원하는 분야의 데이터를 검색해 다운로드할 수 있어서 원하는 데이터를 쉽게 다운로드 받을 수 있답니다!

 

 

이렇게 이번 데이터 리뷰기에서는 디지털 산업혁신 플랫폼에서의 유저 인터넷 키워드 검색 데이터를 리뷰하고 활용 방안에 대해 생각해보았는데요, 다음 리뷰기에서는 동일한 플랫폼에서 다른 분야의 데이터를 리뷰해보도록 하겠습니다. 이전 글에서는 다른 플랫폼에서 리뷰한 다양한 데이터 리뷰기들이 있으니 관심 있으시면 참조하시기 바랍니다~ 혹시나 특정 분야나 찾고 싶은 데이터가 있다면 댓글로 남겨주시면 참고해 데이터 리뷰기를 하도록 하겠습니다! 그럼 다음 리뷰기에서 만나요! :D