본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(국토환경) - 한국형 사물 이미지 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#31 AIHUB(국토환경) - 한국형 사물 이미지 데이터

 

 

 

 4차 산업 혁명 시대가 도래함으로써 인공지능 사물 이미지 인식 기술은 점점 업그레이드되고 있는데요, 이러한 기술은 자율주행, 스마트시티 및 제조 등 다양한 산업분야에서 활용 가능한 기술입니다. 하지만 이러한 기술을 만들려면 학습 데이터가 많이 필요한데요, 대부분의 데이터가 해외에서 구축된 데이터이기 때문에 아무리 학습을 시켜도 한국에서 상용화가 어려울 수밖에 없습니다. 따라서 한국에서 활용할 수 있는 사물 이미지 인식 기술을 발전시키기 위해서는 국내 특성에 맞는 AI 학습 데이터가 필요합니다.

 

이와 관련해서 AIHUB에서는 국내 장소와 상품에 대한 인공지능 기반의 시각지능 기술 개발 및 서비스 강화 목적으로  '한국형 사물 이미지' 데이터를 공개하고 있답니다. 그렇다면, 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

 

한국형 사물 이미지 데이터

 

(1) 데이터 정보

  • 제공기관 : ㈜미디어그룹사람과숲
  • 데이터 개수 : 350만 개
  • 데이터 형식 : json, jpg
  • 데이터 구성 : 유적건조물(궁궐, 가옥, 탑, 무덤, 사찰, 교회, 성곽, 성당 등), 상품(귀금속, 화장품, 시계, 신발 등), 랜드마크(동상, 타워, 빌딩 등), 이미지정보(파일명, 일자, 해상도, 분류항목, 대상체, 의미확장 정보 등)
  • 다운로드 : https://aihub.or.kr/aidata/132

 

'한국형 사물 이미지' 데이터는 국가지정 문화재, 도시별 랜드마크, 국내 상품 등 한국형 사물에 대한 데이터셋을 구축한 데이터로, 4차 산업(스마트 관광, 스마트 스토어 등)에 필요한 데이터셋입니다. 

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 한국형 사물 이미지 데이터를 다운받으면, 크게 이미지 파일과 이미지에 대한 정보가 담긴 json 형식의 파일이 있는데요, 각각 자세하게 알아보도록 하겠습니다.

 

 

#한국형 사물 이미지 데이터

 

먼저, 한국형 사물 이미지 데이터는 크게 유적건조물, 상품, 랜드마크 이미지로 나누어져 있는데요, 유적건조물은 궁궐, 가옥, 탑, 무덤, 사찰, 교회, 성곽, 성당 등의 건조물을 촬영한 250만 장의 이미지로 이루어져 있습니다. 상품 이미지는 귀금속, 화장품, 시계, 액세서리, 신발, 가방, 지갑, 모자, 아이웨어에 대한 이미지로 80만 장의 데이터가 구축되어 있으며, 랜드마크 이미지는 동상, 타워, 전망대, 빌딩, 대교, 센터, 역사, 정자, 성문, 등대에 대한 이미지로 20만 장의 데이터가 구축되어 있답니다.

 

그렇다면 어떠한 이미지가 있는지 확인해볼까요~?

 

1. 유적건조물(종교시설_여주신륵사보제존자석종앞석) 이미지 

 

 

2. 상품(신발_운동화캐주얼화) 이미지

 

 

3. 랜드마크(서울시_타워_롯데월드) 이미지

 

 

데이터를 확인해보면, 위와 같이 동일한 건조물, 상품, 랜드마크에 대해 다양한 각도에서 촬영된 사진이 5~10장의 이미지로 구축되어 있답니다.

 

 

#이미지 정보 데이터(json)

 

 반면, 각 이미지마다 json 파일로 이루어진 데이터가 있는데요, 위에서 '랜드마크_롯데타워'의 첫 번째 이미지에 해당하는 json 파일을 확인해보도록 하겠습니다.

 

{
  "image" : {
    "identifier" : "HF030004_0301_0001.JPG",
    "imsize" : [ 1920, 1280 ]
  },
  "regions" : [ {
    "type" : "box",
    "boxcorners" : [ 900, 476, 991, 926 ],
    "ansize" : [ 1920, 1280 ],
    "class" : "타워",
    "tags" : [ "종ID:HF030004", "대분류:랜드마크", "중분류:서울시", "소분류:-", "Instance:롯데월드타워", "Instance Upper:" ],
    "instance_uri" : "adr:0000184963",
    "sem_ext" : [ {
      "property" : "description",
      "value" : "롯데월드타워(영어: Lotte World Tower는 대한민국 서울특별시 송파구 신천동 롯데월드몰 단지 내에 위치한 마천루이다. 지상 123층, 높이 555m의 마천루로 2010년에 착공을 시작하여 2015년 12월 22일 123층까지 상량 완료했으며, 2016년 3월경 첨탑공사가 완료됨으로써 외장 공사가 완료되었고, 2016년 12월 22일에 완공되었다.2017년 4월 3일에 오픈했다."
    }, {
      "property" : "relatedTerm",
      "value" : "롯데월드몰"
    }, {
      "property" : "address",
      "value" : "대한민국 서울특별시 송파구 올림픽로 300"
    } ]
  } ]
}

 

위와 같이 json 형식으로 이루어진 것을 볼 수 있는데요, 위 데이터를 통해 해당 이미지의 사이즈, 종류(카테고리), 분류항목, 분류 정보, GPS 위도/경도 값 등을 알 수 있습니다. 또한 'value' key를 보면 해당 랜드마크에 대한 정보가 담겨 있는 것을 확인할 수 있습니다. 위에 데이터를 보면 알 수 있듯이, 이미지 데이터만 확인해서는 알 수 없는 정보들이 많이 담겨 있음을 알 수 있습니다!

 

 

(3) 데이터 활용

 그렇다면 360만 장에 달하는 한국형 사물 이미지를 이용하여 어떻게 활용할 수 있을까요?

실제 이 한국형 사물 이미지는 올해 상반기 오픈 예정이었던 AI 상품 결재 알고리즘 서비스 'AI캐셔'에 학습 데이터로 사용되었다고 합니다. 이와 같이 '상품' 카테고리의 이미지 데이터셋을 학습시키면, 스마트 스토어 등에서 자동 결제 또는 상품 자동 분류 등에 활용할 수 있지 않을까 싶습니다.

 

또한, 유적건조물 데이터셋과 랜드마크 데이터셋을 이용하면 관광 분야에서도 활용이 가능할 수 있을 것 같은데요, 해당 이미지와 메타 데이터를 학습시켜 관광을 도와주는 AI 관광 서비스를 만들 수 있습니다. 이러한 서비스가 구현된다면 가이드가 필요하지 않고 국적 관계없이 누구나 쉽게 관광을 할 수 있지 않을까 싶습니다. 또한 해당 지역에 가지 않아도 VR/AR 기술을 이용한 가상 환경에서 해당 랜드마크를 방문 및 관광할 수 있는 서비스를 구현하여 가상 체험이나 교육 등으로 활용할 수 있지 않을까 싶네요-!

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr/

 

 오늘 리뷰한 '한국형 사물 이미지' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '국토환경' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '국토환경' 카테고리에 있는 데이터였는데요, 국토환경 카테고리는 관광, 산림, 환경, 토지 등과 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 우리나라에 환경에서 구축된 데이터들로 이루어져 있기 때문에 우리나라에서 상용화하기 위한 서비스 개발에 활용하기에 매우 적합한 데이터이기도 하답니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지, 데이터를 어떻게 활용하면 좋을지 살펴볼 수 있답니다.

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '한국형 사물 이미지' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 '국토환경' 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D