본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(국토환경) - 관광 지식베이스 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#29 AIHUB(음성/자연어) - 관광 지식베이스 데이터

 

 

 

 

 4차 산업혁명 시대 속에서 각 국가 및 기업들은 인공지능 기술개발을 위한 기계학습 데이터 구축 등 관련 인프라 구축을 활발하게 진행 중인데요, 특히 많은 이미지 학습데이터를 기반으로 한 이미지 인식 기술을 지속적으로 연구 및 개발하고 있다고 합니다. 이러한 흐름에 발맞춰, 국내에서도 기계학습에 필요한 다양한 패턴의 고품질 이미지 데이터 확보를 위해 다양한 영역에서의 이미지 데이터를 구축하고 있다고 합니다.

 

이와 관련해서 AIHUB에서는 '관광산업'과 관련하여 국내 관광 및 인공지능 산업의 글로벌 경재력 강화를 위해 '관광 지식베이스' 데이터를 제공하고 있습니다. 이 데이터는 식당 주변 전경(간판, 입간판, 매장전경), 메뉴판, 표지판 사진을 포함한 150만 장 이상의 데이터 등이 구축되어 있는 데이터인데요, 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

 

관광 지식베이스 데이터

 

(1) 데이터 정보

  • 제공기관 : (주)포티투마루
  • 데이터 개수 : 194.8만 개
  • 데이터 형식 : json, jpg
  • 데이터 구성 : 직접 촬영 및 크롤링을 통해 얻은 이미지 원천데이터와 관광 메타데이터 활용 및 어노테이션, 라벨링 작업을 통한 메타데이터를 결합하여 지식베이스로 변환/구축
  • 다운로드 : https://aihub.or.kr/aidata/128

 

'관광 지식베이스' 데이터는 Multi(한국어 기반의 다국어 이미지 데이터), Real(실생활에서 직접 볼 수 있는 이미지), Hot(인기 POI 중심의 이미지)을 포인트로 해서, 식당 주변의 전경(간판, 입간판, 매장전경), 메뉴판, 표지판 사진 150만 장과, 한국 표지판 인식 벤치마크 데이터셋으로 이루어져 있습니다.

 

해당 이미지 데이터는 직접 촬영하거나 크롤링을 통행 얻은 이미지로, 어노테이션, 라벨링 작업을 통해 메타데이터를 결합하여 해당 지식베이스로 변환 및 구축했다고 합니다.

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 관광 지식베이스 데이터를 다운받으면, 크게 한국 관광 POI 이미지와 한국 표지판 인식 벤치마크 데이터셋으로 나누어져 있는데요, 각각 자세히 살펴보도록 하겠습니다.

 

 

#한국 관광 POI 데이터셋

 

 한국 관광 POI 데이터셋은 다양한 각도와 여러 조건에서 찍은 식당 주변의 전경과 간판, 식당 메뉴, 식당 내부 사진들, 주요 랜드마크를 포함하고 있는 이미지인데요, 이미지 또는 다국어가 포함된 메타데이터로 구성되어 있다고 합니다. 

 

 

위 이미지들은 다운받은 데이터에서 직접촬영된 메뉴판 이미지인데요, 다양한 형태의 메뉴판 이미지를 확인할 수 있습니다.

 

 

한편, 위 이미지들은 식당 주변 전경 및 간판에 대한 이미지로, 한 식당에 대해 다양한 각도에서 촬영되었음을 살펴볼 수 있습니다.

 

 

#한국 표지판 인식 벤치마크 데이터셋

 

 한편, 표지판 인식 벤치마크 데이터셋은 다양한 각도와 조건에서 찍은 도로 표지판, 도로명 안내판, 길안내 표지판 등 각종 표지판으로 구성되어 있으며, 마찬가지로 이미지와 다국어가 포함된 메타데이터로 구성되어 있다고 합니다.

 

 

위 이미지가 해당 데이터 중 하나인데요, '이태원 세계 음식 특화거리'에 대한 표지판을 여러 각도로 촬영한 이미지입니다. 현재 동일한 표지판에 대해 4개의 이미지만 보여드렸지만, 전체 데이터를 확인하면 각각 다른 각도로 촬영한 이미지가 62개나 있답니다!

 

 

(3) 데이터 활용

 한국 관광 POI 데이터셋과 표지판 인식 벤치마크 데이터셋이 무려 194만 장 구축되어 있는 '관광 지식베이스' 데이터를 살펴보았는데요, 어떻게 이 데이터를 활용할 수 있을까요?

 

관광 산업과 연관 지어 해당 이미지 데이터셋을 AI 기반의 시각 분야 기술과 접목시킨다면 이미지 인식, 다국어 번역, 추천 서비스 등 다양한 방면으로 활용시킬 수 있습니다. 예를 들어, 해당 음식점과 관련된 이미지를 학습시킨 후, 매장 전경이나 간판 등을 촬영한 이미지를 입력시키면 학습된 정보를 바탕으로 하여 메뉴를 추천해주거나, 음식 주문 서비스로 연결 지을 수 있지 않을까 싶습니다. 또는 장소를 특정할 수 있는 정보가 담긴 표지판 등을 촬영하여 입력하면, 학습된 메타 정보를 이용하여 주변 맛집이나 조건에 맞는 음식점을 추천해주는 서비스를 개발해도 좋을 것 같습니다! 

 

또한 번역과 관련된 서비스도 활용 가능할 수 있는데요, 외국에서 온 관광객들을 위해 해당 간판이나 메뉴판, 표지판 등을 촬영하면 다른 언어로 번역해주는 서비스도 개발할 수 있지 않을까 싶습니다! 이러한 서비스가 있다면 한글을 모르는 외국인에게 유용한 서비스가 될 수 있지 않을까 싶습니다.

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr

 

 오늘 리뷰한 '관광 지식베이스' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '국토환경' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '국토환경' 카테고리에 있는 데이터였는데요, 국토환경 카테고리는 관광, 산림, 환경, 토지 등과 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 우리나라에 환경에서 구축된 데이터들로 이루어져 있기 때문에 우리나라에서 상용화하기 위한 서비스 개발에 활용하기에 매우 적합한 데이터이기도 하답니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지, 데이터를 어떻게 활용하면 좋을지 살펴볼 수 있답니다.

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '관광 지식베이스' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 '국토환경' 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D