본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(농축수산) - 시설 작물 개체 이미지 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#38 AIHUB(농축수산) - 시설 작물 개체 이미지 데이터

 

 

 

 

 '시설 작물'이란 말 그대로 시설 재배 방식으로 재배되는 작물을 말하는데요, 우리가 자주 먹는 방울토마토, 고추, 딸기, 부추, 오이, 가지 모두 다 시설 작물입니다. 한편, 4차 산업 혁명이 도래함으로써 농업분야에도 인공지능 관련 기술이 많이 연구되고 있는데요, 더욱더 발전된 기술 개발을 위해선 이러한 시설 작물과 같은 농산물에 대한 방대한 학습용 데이터가 필요로 해질 수 있습니다.

 

이와 관련해서 AIHUB에서는 시설작물 개체의 이미지를 분류 및 판단하기 위한 학습용 데이터 구축을 위해 '시설 작물 개체 이미지' 데이터를 제공하고 있는데요, 이 데이터는 시설 작물의 개체 식별과 생육 단계를 구별한 시설 작물 20종의 이미지 데이터로 구축되어 있습니다. 그렇다면, 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

시설 작물 개체 이미지 데이터

 

(1) 데이터 정보

  • 제공기관 : 경상대학교 산학협력단
  • 데이터 개수 : 100만 개
  • 데이터 형식 : json, jpg
  • 데이터 구성 : 이미지 정보(넓이, 높이), 작물 명, 파일 종류, 촬영일, 촬영시각, 촬영위치, 해상도, 날씨, 작물명, 품종, 생육단계 등 35개 항목
  • 다운로드 : https://aihub.or.kr/aidata/30727

 

'시설 작물 개체 이미지' 데이터는 시설 작물 20종에 대하여 120만 장 이상의 이미지로 구축된 데이터인데요, 구축단계는 아래와 같은 방식으로 이루어졌다고 합니다.

 

https://aihub.or.kr/aidata/30727

 

한편, 선정된 시설 작물 20종은 국내 시설 채소류 수경재배 품목별 현황, 국내 화훼류 생산 통계, 열대과수 재배면적 통계를 활용하여 우리나라에서 주로 재배되는 시설 작물로, 생육단계 3단계 이상 데이터가 수집 가능한 국내 작물을 주요 대상으로 했다고 합니다. 

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 그렇다면 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 데이터를 다운로드하면, 크게 원천데이터와 라벨링데이터로 이루어져 있는데요, 원천데이터는 시설 작물의 이미지 데이터로 구성되어 있고, 라벨링 데이터는 각 작물의 이미지 별 가각의 메타데이터를 json 파일로 구성된 데이터입니다.

그럼 원천데이터부터 살펴볼까요~?

 

 

#원천데이터

 

원천데이터에는 20종의 시설 작물 이미지 데이터로 나누어져 있는데요, 대표적으로 방울토마토의 데이터를 살펴보겠습니다. 

 

- 토마토(방울)

 

 

해당 데이터를 확인해보면 방울토마토가 촬영된 이미지라는 것을 확인할 수 있고, 이렇게 다양하게 촬영된 이미지가 약 6만 장이나 구축되어 있습니다.

 

그럼 다른 시설 작물 이미지도 살펴볼까요?

 

- 고추(풋고추)

 

- 국화

 

- 애플망고

 

각 시설 작물의 이미지는 거리별, 각도별 기준을 정하여 각 작물별로 6만 장 이상, 총 120만 장 이상의 이미지를 수집했다고 합니다. 이렇게 많은 이미지를 통해 우리가 잘 아는 작물의 모습 말고도 뿌리, 잎, 줄기 등의 재배 모습을 살펴볼 수 있습니다.

 

 

 

#라벨링데이터

 

 

반면 라벨링 데이터는 각 이미지에 대한 메타 정보를 포함하고 있는 json 파일 형식으로 이루어져 있는데요, 위에 가지 작물 이미지에 대한 라벨링 데이터는 아래와 같습니다.

 

"width":"5472",
"height":"3648",
"file_path":"s3://aidata-2020-02-024/069.시설 작물 개체 영상/069.시설 작물 개체 영상/01.데이터//라벨링데이터_NIA/null/가지/",
"pl_name":"가지",
"pl_code":"15",
"fext":"JPG",
"license":1,
"date_captured":"2020:12:31 14:58:21",
"create_de":"2020-12-31",
"create_angle":45,
"create_dist":"원거리",
"resolution":"5472*3648"
,"f_stop":"f/11.0",
"shutter_speed":"1/500 sec",
"iso":"1250",
"white_balance":"Auto white balance",
"focal_length":"9 mm",
"weather":"맑음",
"pl_type":"팡파레",
"pl_step":"개화기",
"pl_leaf":"1",
"pl_stem":"1",
"pl_grpoint":"0",
"pl_fruit":"1",
"pl_flower":"1",
"offical_dt":"2020.09.17"}],
 "annotations":[{"segmentation":[3190.83,1242.77,3994.16,1242.77,3994.16,2184.6,3190.83,2184.6],
       "area":756600.29,
       "bbox":[3190.83,1242.77,803.33,941.83],
       "isCrowd":0,
       "id":0,
       "image_id":1830463,
       "category_id":0},
       {"segmentation":[2407.62,1819.1,2891.96,1819.1,2891.96,2758.5,2407.62,2758.5],
...
(생략)

 

위 텍스트 데이터는 라벨링 데이터의 일부인데요, 위 메타데이터를 통해 해당 이미지의 촬영시각 및 촬영 정보(위치, 각도, 거리, 해상도, 광량, iso정보 등), 날씨, 작물명, 품종, 생육단계 등을 알 수 있습니다.

 

위에 가지 작물에 대한 데이터를 살펴보면, 해당 가지 작물은 2020년 12월 31일에 촬영된 가지 작물로, 날씨가 맑고, 가지가 개화기일 때 촬영된 이미지임을 알 수 있습니다. 그 밖에도 annotations 정보를 통해 이미지 속 해당 작물의 위치(bbox) 등을 파악할 수 있습니다.

 

 

(3) 데이터 활용

  이렇게 '시설 작물 개체 이미지' 데이터를 살펴보았는데요, 시설작물 20종에 대한 120만 장의 데이터를 이용하여 어떻게 활용할 수 있을까요? 앞서, 이 데이터는 농업분야에서 구축 목표를 수립하고, 대상 영역에 대한 분석, 수집, 가공된 데이터를 품질 평가 및 관리의 절차를 통해 구축되었다는 점에서도 의미가 있는데요, 방대한 양과 목적에 맞는 양질의 데이터라는 점에서 국내 농업분야에서 크게 활용가치가 높을 것으로 예상됩니다.

 

따라서 구축 목적답게, 해당 데이터를 학습용 데이터로 사용하여 시설작물 개체의 이미지를 분류 및 판단하는 인공지능 모델을 구현할 수 있습니다. 이미지뿐만 아니라 촬영 정보, 생육 정보, 개체 정보 등의 데이터도 담고 있기 때문에 작물의 종류뿐만 아니라 작물의 생육 정보 등을 분류 및 판단할 수 있는 알고리즘을 구현할 수 있지 않을까 싶습니다-! 그 외에도 작물 발견 및 관리 서비스 등 농업분야 AI 응용서비스 개발을 통해 데이터를 유용하게 활용할 수 있지 않을까 싶네요 :D

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr/

 

 오늘 리뷰한 '시설 작물 개체 이미지' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '농축수산' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '농축수산' 카테고리에 있는 데이터였는데요, 농축수산 카테고리는 농업, 축업, 수산 등과 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 농축수산 데이터들이 제공되고 있고, 실제 우리나라 지리에서 하고 있는 농축수산업에서 구축된 데이터들로 이루어져 있기 때문에 우리나라에서 상용화하기 위한 서비스 개발에 활용하기에 매우 적합한 데이터이기도 하답니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지, 데이터를 어떻게 활용하면 좋을지 살펴볼 수 있답니다.

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '시설 작물 개체 이미지' 데이터를 리뷰해보았는데요, 다음 리뷰기에서는 다른 카테고리의 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D