본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(비전) - 상품 이미지 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#20 AIHUB(비전) - 상품 이미지 데이터

 

 

 

 

편의점이나 슈퍼, 또는 물류창고에서 상품이나 물건을 식별하기 위해선 그 겉에 포장지나 용기, 바코드 등을 통해 물건을 식별하곤 하는데요, 사람이 직접 육안으로 확인하거나 바코드를 찍어야 한다는 특징을 갖고 있습니다. 하지만 만약 상품의 이미지만으로 자동으로 해당 상품을 식별할 수 있는 서비스가 개발된다면 어떻게 될까요~? 아마 무인스토어 등에서 유용하게 쓰일 수 있으며, 사람의 주관적인 판단을 뛰어넘어 정확한 판단을 할 수 있게 될 것 같습니다.

 

이와 관련해서 인공지능 빅데이터 플랫폼인 <AIHUB>에서는 '상품 이미지' 데이터를 제공하고 있는데요, 이 상품 이미지 데이터는 소상공인의 자도오하 매장 구축 등을 위해 활용 가치가 높은 10,000종 이상의 상품에 대해 데이터를 구축하여 다양한 상품 분류 서비스 개발에 활용될 목적으로 구축되었다고 합니다. 그럼  이번 데이터 리뷰기에서는 이 데이터가 어떻게 구성되어 있는지 리뷰해보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

상품 이미지 데이터

 

(1) 데이터 정보

  • 제공기관 : 롯데정보통신(구축)/에이모(가공)
  • 데이터 개수 : 14만 개
  • 데이터 형식 : jpg, xml
  • 다운로드 : https://aihub.or.kr/aidata/34145

 

상품 이미지 데이터는 이미지 분류 기술의 학습에 활용하는 이미지 및 라벨 쌍으로 14개 대분류의 약 10,000 종 이상의 상품 데이터셋으로 구성되어 있는데요, 각 이미지는 다양한 각도별로 고품질로 촬영되었다고 합니다. 특히, vision AI 모델로 만들 수 있는 어마어마한 양의 빅데이터라고 합니다.

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 데이터의 일부분인 샘플 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 

 

 

먼저, 데이터를 다운받으면 위와 같이 14개의 폴더가 있는데요, 여기서 과자 폴더에 들어가 1,693개의 품목 중 한 품목을 선택해보도록 하겠습니다.

 

 

한 품목의 폴더를 들어가면 동일한 이름으로 jpg, xml, meta_xml 파일이 있는데요, 각 형식에 따라 데이터를 살펴보도록 하겠습니다.

 

 

# jpg 파일

 

 

jpg 파일만 모아놓고 보면 위와 같이 여러 방면에서 찍은 상품의 이미지가 144개가 있는데요, 구체적으로 수량, 각도, 밝기 등 모든 이미지마다 다 다르게 이루어져 있습니다. 해당 데이터의 설명에 따르면, 각 상품마다 3개 높이(0도, 30도, 60도)에 따른 단수상품, 복수상품 이미지로 이루어져 있다고 합니다. 정말 하나의 상품에 대해 인공지능을 학습시키기에 충분한 양의 이미지라고 볼 수 있습니다.

 

 

 

실제 이미지 파일 원본인데요, 선명하게 잘 촬영된 것을 확인할 수 있습니다.

 

 

# xml 파일

반면, 동일 폴더에 xml 파일이 각 이미지마다 2개씩 있는데요, 파일명에 'meta'가 들어간 xml은 해당 이미지에 대한 설명과 수치가 포함되어 있는 파일이고, 일반 xml 파일은 수치만 들어가 있는 xml 데이터입니다.

 

그렇다면 meta xml 파일이 어떻게 되어있는지 살펴보겠습니다.

 

<comp_cd>
  1292
  <identifier>
    <identifier>10094_0_m_1.jpg</identifier>
    <copyright>LOTTE Data Communication Company</copyright>
  </identifier>
  <div_cd>
    01
    <item_cd>12920100001</item_cd>
    <item_no>10094</item_no>
    <div_l>과자</div_l>
    <div_m>스낵</div_m>
    <div_s>옥수수스낵</div_s>
    <div_n>옥수수스낵</div_n>
    <comp_nm>크라운제과</comp_nm>
    <img_prod_nm>크라운)콘초66G</img_prod_nm>
    <volume>66G</volume>
    <barcd>8801111180993</barcd>
    <width>18</width>
    <length>23</length>
    <height />
    <nutrition_info>{"1회제공량":"30","총내용량(g)":"66","총내용량(mL)":"0","에너지(㎉)":"47.47","단백질(g)":"0.6","지방(g)":"2.45","탄수화물(g)":"5.75","총당류(g)":"3","총 식이섬유(g)":"0","칼슘(㎎)":"0","철(㎍)":"0,"마그네슘(㎎)":"카페인(㎎)":"0"0","칼륨(㎎)":"0,"나트륨(㎎)":"5.94","비타민":"0","콜레스테롤(㎎)":"0","총 지방산(g)":"0",}</nutrition_info>
  </div_cd>
  <annotation>
    <folder>/119.상품 이미지 데이터/01.데이터/1.Training/원천데이터/과자/10094_크라운)콘초66G/</folder>
    <filename>10094_0_m_1.jpg</filename>
    <path>/119.상품 이미지 데이터/01.데이터/1.Training/원천데이터/과자/10094_크라운)콘초66G/10094_0_m_1.jpg</path>
.
.
.
(중략)
.
.
.
  </object>
 </annotation>
</comp_cd>

 

xml 데이터는 해당 이미지에 대해 정보가 들어가 있는 xml 형식의 데이터로, 각 항목은 제조사 코드, 분류 코드로 시작해 상품코드, 대분류, 중분류, 소분류, 상품명, 용기, 용량, 가로, 세로, 높이 등 39개의 항목이 담겨 있답니다. 이미지도 구체적으로 구축되어 있을 뿐만 아니라 해당 상품에 대한 정보도 구체적으로 담겨져 있는 것을 확인할 수 있습니다.

 

 

(3) 데이터 활용

 

 

그렇다면 이 상품 이미지 데이터를 어떻게 분석하고 활용할 수 있을까요?

우선, 이 데이터의 장점으로는 한 상품에 대해 다양한 이미지가 있다는 것과, 그 품목의 개수가 각각 10000개로 엄청난 양의 데이터가 있다는 것입니다. 따라서 각 상품들에 대해서 이미지 분류 학습을 시킨다면 새로운 상품 이미지에 대해서도 어떠한 상품인지 예측을 할 수 있을 겁니다. 이미지 분류 학습에는 CNN, RNN, VGG, Inception 등 다양한 알고리즘을 사용할 수 있습니다.

 

또한 보통 상품 이미지 분류 분석을 할 때 지금까지 케글이나 다른 플랫폼에서 외국의 상품 이미지를 이용하여 분석을 할 수밖에 없었기 때문에 실제 우리나라에서 상용화를 시킬 수 없었습니다. 하지만 이 데이터는 현재 우리나라에서 많이 거래되고 있는 상품들이라는 점을 이용해서, 정확도 높게 분류를 하는 모델을 구축한다면 실제 시중에서 상용화할 수 있지 않을까 싶네요-! 

 

이처럼 10,000종에 해당하는 상품 이미지와 라벨링 데이터를 이용하여 소상공인들이 활용할 수 있는 다양한 탐지, 인지, 정보, 유사상품 제공 서비스가 구축되길 기대해봅니다 :D

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr

 

 오늘 리뷰한 '상품 이미지' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '비전' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '비전' 카테고리에 있는 데이터였는데요, 비전 카테고리는 말 그대로 시각적인 요소가 포함되어 있는 이미지, 비디오 데이터 등을 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 한국어, 한국인, 한국건물, 한국음식 등 서양보다는 우리나라에 맞춰져 있는 데이터들이 있기 때문에 상당히 활용하기에 적합한 데이터이기도 합니다. 

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '상품 이미지' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 '비전' 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D