본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] 경남 빅데이터허브포털(2) - 경상남도 육성품종 등록현황 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#70 경남 빅데이터허브포털(2) - 경상남도 육성품종 등록현황 데이터

 

 

 

 경상남도의 직속기관인 농업기술원에서는 식량작물, 원예, 화훼, 과수 등 품종육성 사업을 수행하고 있다고 하는데요, 매년 육성된 우량계통은 경상남도종자위원회의 자체 심의를 거쳐 국림종자원에 출원하고, 재배심사 통과 후 품종을 등록한다고 합니다. 이러한 육성품종은 2020년 기준으로 300여 품종이 등록된 상태라고 합니다.

 

이와 관련하여 경남 빅데이터허브포털에서는 '경상남도 육성품종 등록현황' 데이터를 제공하고 있는데요, 해당 데이터에는 332종에 대한 육성품종에 대한 정보가 구축되어 있습니다. 그렇다면 이번 데이터 리뷰기에서는 해당 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

경상남도 육성품종 등록현황 데이터

 

(1) 데이터 정보

  • 제공기관 : 경상남도
  • 데이터 형식 : csv
  • 데이터 개수 : 332개
  • 데이터 칼럼 : 작물명, 품종명, 계통명, 등록년도, 주요특성
  • 다운로드 : https://bigdata.gyeongnam.go.kr/index.gn?menuCd=DOM_000000104001001000&publicdatapk=15091169&contentId=

 

 '경상남도 육성품종 등록현황' 데이터는 332종의 육성품종에 대한 정보를 구축한 데이터로, 해당 작물명에 대한 품종명, 계통명, 등록년도, 주요특성 칼럼이 포함되어 있습니다.

 

한편, 위 다운로드 링크에 들어가면 해당 데이터를 다운로드할 수 있는데요, 한번 데이터를 다운받아서 데이터가 어떻게 이루어져 있는지 리뷰해보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 데이터를 다운로드하면 아래와 같이 csv 파일 형식으로 데이터가 이루어져있답니다.

 

 

위 데이터는 전체 데이터의 일부를 캡쳐한 것인데요, 데이터를 살펴보면 첫 번째 행에는 칼럼 이름이, 그 밑으로는 데이터가 나열되어 있는 것을 확인할 수 있습니다. 칼럼은 총 5개로 작물명, 품종명, 계통명, 등록년도, 주요특성 칼럼이 있답니다. 여기서 주요특성 칼럼의 경우 해당 품종에 대한 특성이 문자열 데이터로 나와있는데요, 주요특성 칼럼을 통해 해당 품종이 어떠한 특성을 갖고 있는지 정보를 얻을 수 있습니다.

 

그럼 데이터를 좀더 자세하게 살펴보기 위해 동일한 작물명에 대한 데이터를 모아서 살펴볼까요~?

 

 

위 데이터는 '장미' 작물에 대한 데이터 68개 중 일부분인데요, 장미에 대해서도 참 다양한 품종이 있는 것을 살펴볼 수 있습니다. 특히 품종명을 보면 그 이름이 참 신기한데요, 오렌지뷰티, 레드썬, 금맥, 레드카펫 등 참 재밌는 이름이 많은 것 같습니다. 한편, 계통은 품종이 재배되면서 그 계통에 따라 이름이 붙여진 것 같습니다. 다음으로 등록년도는 2003년도부터 위에 이미지에는 다 나와있지 않지만 2020년까지 오랫동안 품종 개량이 이루어졌음을 알 수 있습니다. 

 

마지막으로 주요특성 칼럼을 보면 품종의 색깔에 대한 정보와 스탠다드 정보, 기타 사항에 대한 내용을 찾아볼 수 있는데요, '가시적음', '병충해강함', '화형우수' 등의 특성이 많이 있는 것으로 보아, 가시가 적고 병충해에 강하며 화형이 우수한 장미품종을 우수품종으로 취급할 것이라는 것을 어느정도 가늠해볼 수 있습니다. 

 

 

(3) 데이터 활용

 그렇다면 '경상남도 육성품종 등록현황' 데이터를 이용하여 어떻게 분석 및 활용할 수 있을까요?

우선 해당 데이터에 '주요특성' 칼럼을 한번 전처리 해주어야 분석에 사용할 수 있을 것 같은데요, 색깔 칼럼, 가시유무 칼럼, 수명 칼럼과 같이 나누어져 있지 않고 '적색, 가시적음, 수명강함'과 같이 문자열 데이터로 이루어져 있기 때문에 자연어처리를 통해 '적색', '(가시)적음', '(수명)강함'키워드로 나눠줄 필요가 있습니다. 따라서 자연어처리 모델을 이용하여 주요특성 데이터를 전처리 해주어 새로운 칼럼에 정리하면, 동일한 키워드에 따른 작물/품종에 따라 데이터를 그룹화 하여 분석할 수 있을 것 같습니다. 예를 들어 '적색'이라고 입력하면 '적색' 키워드가 포함되어 있는 '장미-템테이션', '장미-레드템' 품종 데이터가 출력되도록 하는 것처럼 말입니다.

 

이렇게 키워드 분석을 통해 데이터를 가공한다면 원하는 품종에 대한 특성 키워드를 입력하면 그에 맞는 품종을 추천해주는 서비스 등을 구현할 수 있지 않을까 싶습니다. 또한 이러한 품종 맞춤 검색 서비스를 통해 소비자가 원하는 키워드를 분석하고, 이를 조합하여 그에 맞는 새로운 품종을 개발하는 데에 도움을 줄 수 있지 않을까 싶습니다-!

 

 

 

 

 

 

# 경남 빅데이터 허브 포털

https://bigdata.gyeongnam.go.kr/index.gn

 

 오늘 리뷰한 '경상남도 육성품종 등록현황' 데이터는 <경남 빅데이터 허브 포털>에서 다운로드 받은 데이터로, 데이터 기반 과학적 의사결정 지원을 위한 경상남도 빅데이터 허브 포털은 경남만의 데이터 플랫폼을 구축하여 데이터 융복합 및 공동 활용성 증대 및 경제 혁신을 실현하고자 하는 플랫폼입니다.

 

 

 한편, 경남 빅데이터 허브 포털에서는 농산물 가격예측 시스템, 해황정보, 지역별 흡연율, 사어체 통계와 같은 데이터 정책지도를 제공하고 있으며, 아래와 같이 서비스 유형, 카테고리별, 외부기관 및 제공기관별로 데이터를 제공하고 있습니다. 따라서 현재 경남 빅데이터 허브 포털에서는 약 2천 건에 달하는 데이터에서 원하는 데이터를 검색하여 무료로 다운로드하실 수 있답니다.

 

 

 이렇게 오늘 데이터 리뷰기에서는 경남 빅데이터 허브 포털의 '경상남도 육성품종 등록현황' 데이터를 리뷰해보았는데요, 다음 리뷰기에서는 경남 빅데이터 허브 포털에 있는 다른 데이터에 대해 리뷰하도록 하겠습니다. 이전 데이터 리뷰기에서는 AIHUB, 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물, 경기, 서울시, 제주시 데이터 플랫폼 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D