본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(농축수산) - 농산물 품질(QC) 이미지 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#37 AIHUB(농축수산) - 농산물 품질(QC) 이미지 데이터

 

 

 

 

 농산물은 어떠한 환경과 어떠한 조건에서 키웠는지에 따라 그 품질이 달라질 수 있는데요, 품질에 따라 가격이 결정되기도 합니다. 따라서 좋은 품질의 농산물을 생산하기 위한 많은 노력이 이루어지고 있습니다. 한편, 다양한 품질의 농산물을 분류하고 선별하기 위해서 많은 인력이 소모되고 있는데요, 만약 농산물의 품질을 자동으로 분류할 수 있는 인공지능 기술이 개발된다면 좀 더 객관적인 기준과 판단으로 분류가 이루어질 수 있습니다.

 

이와 관련해서 AIHUB에서는 농산물의 상품 등급 분류를 위해 20종의 농산물의 상품 등급별 이미지 데이터를 구축한  '농산물 품질(QC) 이미지' 데이터를 제공하고 있습니다. 그럼, 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

 

농산물 품질(QC) 이미지 데이터

 

(1) 데이터 정보

  • 제공기관 : 경상대학교 산학협력단
  • 데이터 개수 : 30만 개
  • 데이터 형식 : json, jpg
  • 데이터 구성 : 파일 유형, 파일명, 이미지 파일, 메타데이터(작물의 종류, 품종의 종류, 촬영각도, 촬영장비, 촬영장소, 촬영날짜, 장소, 크기 부피)
  • 다운로드 : https://aihub.or.kr/aidata/30726

 

'농산물 품질(QC) 이미지' 데이터는 우리나라 농산물 중에서 시설재배 품목을 제외하고, 소비량이 많고 수입 의존도가 낮은 10개의 품목을 선정하여 농산물 품질을 구분할 수 있는 기준과 품질 분류를 제공하는 원천 데이터를 확보하여 데이터셋을 구축했다고 합니다.

 

한편, 거래량이 충분한 상위 10개 품목은 무, 배추, 양파, 마늘, 양배추, 감, 사과, 배, 감귤, 감자이며, 각 농산물 10개 품목에 대해 각 6만 건의 이미지 데이터를 확보하여 품질 기준을 특, 상, 보통 품으로 분류되었다고 합니다.

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 그렇다면 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 데이터를 다운로드 받으면 크게 원천 데이터, 라벨링 데이터로 나누어져 있는데요, 원천 데이터는 이미지 데이터로 이루어져 있고 라벨링 데이터는 메타 데이터로 구성되어 있습니다.

 

 

#원천데이터

 

먼저 원천 데이터에는 각 농산물 품목에 대한 이미지가 있는데요, 사과에 대한 이미지 데이터를 살펴보겠습니다.

 

 

위 이미지를 살펴보면 동일한 사과에 대해 다양한 각도로 촬영이 된 것을 살펴볼 수 있는데요, 위 3개의 이미지 말고도 아래와 같이 동일한 품목에 대해 여러 이미지(약 150~200개)로 구축되어 있습니다.

 

 

반면 다른 품목도 살펴볼까요~?

 

양배추

 

 

마늘

 

이렇게 품목에 대해 다양한 조건에서의 이미지가 있는 것을 확인할 수 있는데요, 이러한 이미지 모두 특정한 조건 아래에서 촬영되었다고 합니다. 데이터 설명에 따르면 날씨 제약이 없는 실내 스튜디오에서 농산물의 색감이 잘 표현되도록 촬영하고, 5개 카메라 촬영장비를 이용하여 40개의 각도로 촬영되었다고 합니다. 그밖에도 일반 배경, 재비시설 현장 등에서도 촬영을 했다고 합니다.

 

https://aihub.or.kr/aidata/30726

 

 

#라벨링데이터

 

 

반면, 라벨링 데이터는 각 이미지 데이터에 대한 메타 정보가 들어있는 json 형식으로 이루어져 있는데요, 위에 사과 품목 이미지 파일에 대한 라벨링 데이터는 다음과 같습니다.

 

{
    "group_no": 601031001000,
    "no": 601031001001,
    "img_no": 1,
    "catecode": "060103",
    "cate1": "사과",
    "cate2": "부사",
    "cate3": "특",
    "width": "9.7",
    "height": "9.0",
    "weight": "450",
    "copyright": "",
    "repo": "사과/부사/특/1",
    "identifier": "/사과_부사_특_1_1TOP.png",
    "format": "png",
    "img_height": 1000,
    "img_width": 1000,
    "date": "2021-04-09 02:14:00",
    "resolution": 1000000,
    "bit": "24",
    "f_stop": "8",
    "camera_model": "ILCE-6400",
    "camera_software": "PhotoScape",
    "exposure_time": "0.016666666666666666",
    "iso": "400",
    "focal_length": "16",
    "full_aperture": "3.6171875",
    "white_balance": "1",
    "gps_lng": "",
    "gps_lat": "",
    "truncated": "on",
    "angle_direction": "top",
    "verticality_angle": 90,
    "horizontality_angle": 0,
    "bndbox": {
        "xmin": 0,
        "ymin": 0,
        "xmax": 1000,
        "ymax": 1000
    }
}

 

위 데이터를 통해 이미지로만 보고는 알 수 없는 정보들을 얻을 수 있습니다. 위에서부터 확인해보면 위 이미지의 사과 품목은 2021년 4월 9일에 촬영된 사과/부사/특 크기의 1등급 상품(repo)임을 알 수 있고, 사과의 높이(height), 너비(width), 무게(weight)에 대한 정보를 얻을 수 있습니다. 또 그 밑으로는 촬영 장비와 환경에 대한 정보도 알 수 있는데요, 해상도(resolution), 비트값(bit), 조리개 투과량(F-Stop), 노출시간(exposure time) 등에 대한 정보를 얻을 수 있습니다. 하단에는 해당 품목을 촬영한 각도, 위치 등에 대한 정보를 알 수 있습니다!

 

이렇게 라벨링 데이터를 통해 각 이미지당 해당 품목의 품질, 사이즈 및 무게, 촬영 장비 및 환경 등을 매우 구체적으로 알 수 있어서 정말 구체적으로 구축된 데이터임을 확인할 수 있습니다.

 

 

(3) 데이터 활용

 '농산물 품질(QC) 이미지' 데이터는 인공지능 학습을 위한 농산물 이미지 데이터를 수집하여, 정제를 거친 후 메타데이터를 추가하여 구축된 데이터셋인데요, 이 데이터셋을 이용하여 어떻게 활용할 수 있을까요?

 

다양한 활용방안이 있겠지만, 메타데이터에 해당 이미지 속 품목의 종류, 등급, 크기, 무게 등을 알 수 있다는 점을 이용한다면 품질별 이미지 학습을 통해 농산물의 품질을 자동으로 판단하는 모델을 구현할 수 있지 않을까 싶습니다. 뿐만 아니라 구현된 모델의 판단 기준을 파악함으로써 농산물의 품질을 결정하는 AI 요약기술 등을 개발할 수 있지 않을까요-?

 

또한 농산물을 수확하기 전 품질을 사전에 판단하여 수확시기에 영향을 준다던가, 농산물이 최상의 품질로 인식되도록 농산물 관리 서비스를 제공하는 등 농산물 품질에 대한 여러 AI 응용 서비스를 개발할 수 있지 않을까 싶습니다!

 

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr/

 

 오늘 리뷰한 '농산물 품질(QC) 이미지' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '농축수산' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '농축수산' 카테고리에 있는 데이터였는데요, 농축수산 카테고리는 농업, 축업, 수산 등과 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 농축수산 데이터들이 제공되고 있고, 실제 우리나라 지리에서 하고 있는 농축수산업에서 구축된 데이터들로 이루어져 있기 때문에 우리나라에서 상용화하기 위한 서비스 개발에 활용하기에 매우 적합한 데이터이기도 하답니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지, 데이터를 어떻게 활용하면 좋을지 살펴볼 수 있답니다.

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '농산물 품질(QC) 이미지' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 '농축수산' 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D