본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(농축수산) - 동의보감 약초 이미지 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#34 AIHUB(농축수산) - 동의보감 약초 이미지 데이터

 

 

 

 

 산에서는 다양한 약초가 자라고, 그 효능과 기능에 따라 상품성이 알려지면서 약초를 캐는 사람들이 많아졌는데요, 종종  부정확한 정보로 약초가 아닌 독초를 오용해 중독사고가 발생한 사례들을 찾아볼 수 있습니다. 이러한 경우,  민간에서 채취 및 복용하는 약초는 전적으로 개인의 책임으로 돌아가게 됩니다. 따라서 정확하게 분별하여 약초를 캐는 것이 중요한데요, 아무래도 비슷하게 생긴 풀들 사이에서 원하는 약초를 찾는 일은 전문가가 아니라면 어려울 수 있습니다.

 

따라서, 이와 관련해서 AIHUB에서는 생활 속 자연 약초의 안전 이용 기준 및 정확한 판별에 대한 도움을 제공하고자  '동의보감 약초 이미지' 데이터를 제공하고 있는데요, 이 데이터는 동의보감에 수록된 약초 457종의 약초를 판별하기 위한 이미지 데이터로 구축되어 있습니다. 그렇다면, 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

 

동의보감 약초 이미지 데이터

 

(1) 데이터 정보

  • 제공기관 : 가천대학교 산학협력단
  • 데이터 개수 : 66.1만 개
  • 데이터 형식 : json, jpg
  • 데이터 구성 : 이미지 정보, 약초명, 부위명, 촬영장소, 촬영일시, 독초여부, 촬영 카메라 정보 등 24개 항목
  • 다운로드 : https://aihub.or.kr/aidata/27768

 

'동의보감 약초 이미지' 데이터는 독초/약초 오용으로 인한 중독사고 예방을 위해 구축된 데이터로, 식물 및 한의학 전문가의 자문을 통해 동의보감 수록 약초 457종 중 2020년 사업 대상으로 50종을 선정하여 선정 약초와 형태, 모양 등이 매우 유사한 78종의 식물을 비교식물로 선정했다고 합니다. 그리고나서 수행기관과 참여기관을 통해 지정한 촬영 매뉴얼에 따라 직접 촬영하여 846,277건의 데이터를 수집했다고 합니다.

 

데이터 수집 후, 수집된 데이터를 기술 검증한 뒤 전문가 검수를 통해 최종 정제를 완료함으로써 품질 높은 66만 건의 정제된 데이터를 확보한 뒤, 학슴용 데이터로 구축했다고 합니다!

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 그렇다면 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 데이터를 다운로드받으면, 크게 img 폴더와 json 폴더로 나누어져 있는데요, img 폴더는 해당 약초의 이미지 데이터가 들어있고, json 폴더에는 이미지 파일에 대한 어노테이션 정보가 담겨 있습니다. 그럼 각각 데이터를 살펴보도록 할까요~?

 

 

#img 데이터

 

먼저, img 폴더부터 살펴보도록 하겠습니다. img 폴더에 들어가면, 136종의 약초 파일이 있는데요, 그중 '도라지'에 해당하는 이미지를 살펴보겠습니다.

 

 

도라지 파일에는 도라지의 잎, 꽃을 담은 이미지들이 있습니다.

 

그럼 다른 약초 이미지도 살펴볼까요~?

 

 

위 이미지에 있는 약초는 산에서 많이 볼 수 있는데요, 어떠한 약초인지 아시겠나요~?

해당 약초는 엉겅퀴라고 합니다! 마찬가지로 엉겅퀴 폴더에는 엉겅퀴에 대한 이미지들이 구축되어 있습니다.

 

이렇게 136종의 약초 이미지가 약 66만 장 구축되어 있는데요, 비슷하게 생긴 약초도 살펴볼까요?

 

 

 

위에 4가지 약초는 민들레종으로 각각 민들레, 흰민들레, 서양민들레, 붉은씨서양민들레 입니다. 아무런 정보 없이 각 약초들을 눈으로 구분하라고 하면 어려울 수 있는데요, 각 약초에 대한 이미지들을 확인하고 나면 민들레를 구분하기 쉬워진답니다!

 

   

#json 데이터

 

반면, json 데이터는 각 약초 이미지에 대한 정보가 담긴 데이터인데요, 처음 살펴보았던 도라지 약초 이미지에 대한 json 데이터를 살펴보도록 하겠습니다.

 

{
    "imagedata": {
        "width": 1228,
        "height": 1840,
        "filename": "028_00000006_leaf.jpg"
    },
    "metadata": {
        "kind": "028",
        "part": "leaf",
        "gps_long": 126.98492,
        "gps_lat": 37.52085,
        "place": "서빙고동, 용산구, 서울, 04428, 대한민국",
        "date": "2016:04:06 22:28:56\u0000",
        "is_copyright": true,
        "is_compare": false,
        "is_poisonous": false
    },
    "exif": {
        "manufacturer": "NIKON CORPORATION",
        "model": "NIKON D700",
        "flash": false,
        "focal_length": "(28, 1)",
        "exposure_time": null,
        "ISO": null,
        "resolution": "(300, 1)",
        "f_number": "(22, 1)",
        "aperture_value": null,
        "depth": 3,
        "bit": 8
    },
    "tag": []
}

 

위에 json 데이터를 확인해보면, 크게 3부분(imagedata, metadata, exif)으로 나눌 수 있는데요, imagedata에서는 해당 이미지에 대한 이미지 길이, 높이, 파일명을 알 수 있습니다.

 

두 번째로 metadata에서는 해당 이미징 있는 약초에 대한 정보를 담고 있는데요, 순서대로 약초명, 부위명, 위도, 경도, 촬영장소, 촬영일시, 저작권 동의 여부, 비교식물 여부, 독초 여부 등을 알 수 있습니다. 여기서 약초명, 부위명, 독초 여부 등이 중요한 칼럼인 것 같습니다~

 

마지막으로 exif는 촬영 장비에 대한 정보인데요 카메라 제조사, 모델명, 플래시 여부, 초점 거리 등 자세한 촬영 관련 데이터가 구축되어 있답니다.

 

 

(3) 데이터 활용

 그렇다면 이렇게 많은 이미지와 자세한 정보를 담고 있는 '동의보감 약초 이미지' 데이터를 어떻게 활용할 수 있을까요? 아마 가장 좋은 활용 방안은 약초 채취 전이나 약초 음용 전에 약초에 대한 판별과 정확한 활용 방법에 대해 확인할 수 있도록 관련 서비스 또는 애플리케이션을 개발하는 것이 좋은 방안이 되지 않을까 싶습니다. 해당 이미지 데이터를 약초 분류 모델의 학습 데이터로 사용한 뒤, 약초/독초 판별 인공지능 알고리즘을 개발하여 제공한다면 약초 중독 또는 독초 음용으로 인한 사고를 방지할 수 있지 않을까 싶습니다.

 

또한 약초 분류 알고리즘에 이어 약초 사용법이나 효능 데이터를 함께 구축한다면, 교육, 농업, 환경 등 여러 분야에서 적절하게 사용될 수 있을 것으로 예상하는데요, 이렇게 동의보감 기반의 정확한 약초 활용 AI 모델을 통해 몸에 이로운 약초를 채집하는 데에 도움이 되면 좋겠습니다!

 

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr/

 

 오늘 리뷰한 '동의보감 약초 이미지' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '농축수산' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '농축수산' 카테고리에 있는 데이터였는데요, 농축수산 카테고리는 농업, 축업, 수산 등과 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 농축수산 데이터들이 제공되고 있고, 실제 우리나라 지리에서 하고 있는 농축수산업에서 구축된 데이터들로 이루어져 있기 때문에 우리나라에서 상용화하기 위한 서비스 개발에 활용하기에 매우 적합한 데이터이기도 하답니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지, 데이터를 어떻게 활용하면 좋을지 살펴볼 수 있답니다.

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '토동의보감 약초 이미지' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 '농축수산' 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D