본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(안전) - 자동차 차종/연식/번호판 인식용 영상 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#43 AIHUB(안전) - 자동차 차종/연식/번호판 인식용 영상 데이터

 

 

 

 

 자동차 번호판 인식, 속도 측정 등 차량과 관련하여 AI 기술이 많이 개발되어 있는데요, 교통 안전을 위한 AI 영상 데이터는 여전히 부족하다고 합니다. 현존하는 자동차 데이터셋은 실제로 구현해야 할 AI 교통 서비스에 맞지 않거나, 일부 AI 교통 서비스의 경우는 학습용 데이터가 전혀 존재하지 않기 때문이라고 합니다. 또한 차량 관련 AI 데이터의 부족뿐만 아니라 AI 경쟁력 강화를 위해서 실수요 기반의 AI 데이터 구축이 필요하다고 합니다.

 

따라서 AIHUB 플랫폼에서는 '자동차 차종/연식/번호판 인식용 영상' 데이터를 제공하고 있는데요, 이 데이터는 부천시 내 CCTV 및 별도로 설치한 카메라로부터 약 2,189 시간의 영상이 구축된 데이터셋이라고 합니다. 그렇다면, 오늘 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

자동차 차종/연식/번호판 인식용 영상

 

(1) 데이터 정보

  • 제공기관 : 라온피플
  • 데이터 개수 : 60만
  • 데이터 형식 : jpg, json
  • 데이터 구성 : 원본 데이터, 차량 이미지, 전체 이미지, 차량정보 데이터, 번호판 이미지, 번호판 데이터
  • 다운로드 : https://aihub.or.kr/aidata/27727

 

'자동차 차종/연식/번호판 인식용 영상' 데이터는 부천시 내에서 촬영된 차량 영상 데이터를 이미지로 추출하여 가공작업이 진행된 데이터입니다. 구축된 데이터로는 차량 바운딩박스 이미지 50만 장과 그에 대한 좌표 및 차종분류 정보가 포함된 JSON 파일 50만 개로 구축되어 있습니다. 또한 번호판 바운딩박스 이미지 10만 장과 그에 대한 좌표 및 번호값이 포함된 JSON 파일 10만 개로 구축되어 있답니다.

 

바운딩박스 이미지, 원본 이미지, 차량정보 데이터, 번호판 이미지, 번호판 데이터(OCR)에 대한 예시와 정보는 아래와 같습니다.

 

https://aihub.or.kr/aidata/27727

 

한편, 위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 그렇다면 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 데이터를 다운로드하면, 원천 데이터와 라벨링 데이터로 나누어져 있는데요, 원천 데이터에는 이미지 데이터가 있고 라벨링 데이터는 이미지 데이터에 대한 정보를 담은 json 파일 형식으로 구축되어 있습니다.

그럼 원천데이터부터 살펴볼까요~?

 

 

#원천 데이터

 

원천 데이터에는 '차종분류 데이터'와 '자동차 번호판 OCR 데이터'로 나누어져 있는데요, 하나씩 살펴보도록 하겠습니다.

 

- 차종 분류 데이터(SUV-기아자동차, 현대자동차)

 

- 차종 분류 데이터(SUV-기아자동차, 현대자동차)

 

 

차종 분류 데이터는 SUV 차량과 세단 차량으로 나누어져 있고, 또 각 폴더에 기아자동차와 현대자동차 이미지로 나누어져 있는데요, 위에 이미지를 보면 알 수 있듯이 각 종류에 따른 차량에 대한 이미지가 구축되어 있음을 확인할 수 있습니다.

 

반면, 자동차 번호판 OCR 데이터는 다음과 같습니다.

 

- 자동차 번호판 OCR 데이터

 

이미지를 확인해보면, 차량의 번호판만 크롭되어 있음을 알 수 있습니다.

 

 

#라벨링 데이터

 

반면 라벨링 데이터는 위에서 살펴본 차량 이미지와 번호판 이미지에 대한 정보가 담긴 텍스트 데이터인데요, 먼저 위에서 살펴본 차종분류 데이터-SUV-기아자동차 이미지에 대한 라벨링 데이터를 살펴보겠습니다.

 

{
 "imagePath":"자유시장_앞_고정1-20200915-075950-001_1015.jpg",
 "car":{
        "bbox":[[1372.292724609375,474.8129577636719 [1577.264892578125,723.7638549804688]],
        "imagePath":"SUV/기아자동차/SUV_니로-1.jpg",
        "attributes":{"brand":"기아자동차",
                        "color":"검은색",
                        "model":"SUV_니로",
                        "year":"2016-2019"}},
  "plate":{
             "bbox":[[1495.2685546875,697.0592041015625],[1538.6600341796875,706.2196044921875]]},
            "id":"000f6a2d-2a03-40e9-8b2b-44e69e3cf9e6",
            "videoName":"자유시장_앞_고정1-20200915-075950-001.mp4",
            "frameNo":1015,
            "weather":"박무,연무"}
}

 

위와 같이 라벨링 데이터는 json 파일 형식으로 이루어진 텍스트 데이터로, 크게 'car' 태그와 'plate' 태그 영역으로 나눌 수 있는데요, 'car' 영역에서는 차량의 bounding box 좌표(bbox), 파일 정보, 차량 제조사, 색상, 모델명, 연식 등의 차량 정보(attributes)를 알 수 있습니다. 그리고 'plate' 영역에서는 해당 차량 번호판의 bounding box 좌표, 원본 비디오 파일 명칭, 날씨 등에 대해 알 수 있습니다.

 

반면, 자동차 번호판 OCR 이미지 데이터에 대한 라벨링 데이터는 아래와 같습니다.

 

{"imagePath":"01가0785.jpg","value":"01가0785","id":"615d8372-90f6-48eb-a14b-26cd7b3448f8"}

 

번호판 이미지 라벨링 데이터의 경우 파일 이름은 번호판으로 지정되어 있으며(ex. 01가0785.json), 그 내용은 위와 같습니다. 데이터를 살펴보면 어떠한 이미지에 대한 데이터인지와 번호판, 데이터 고유키(id)에 대해 간략하게 알 수 있습니다. 따라서 만약 해당 번호판 이미지를 학습시킬 때 이 데이터에서 'value' 태그를 라벨링 값으로 지정하여 학습시키면 되겠죠~?

 

 

(3) 데이터 활용

 그럼 이 '자동차 차종/연식/번호판 인식용 영상' 데이터를 이용하여 어떻게 활용할 수 있을까요?

우선 데이터 구축 목적답게 해당 데이터를 차량 인식 모델의 학습용 데이터로 활용하여, 주차장, 도로, 길가 등에 있는 CCTV로 촬영된 동영상에 적용시켜 차량의 차종, 연식, 번호판을 식별하여, 범죄 및 도난 차량의 추적을 할 수 있는 AI 기술을 구현할 수 있지 않을까 싶습니다. 

 

또한 불법주차 단속이나 고속도로에서의 차량 분포 및 밀집도를 관제하고, 번호판 인식 모델을 통해 주차장 등의 입차/출차 자동화 시스템을 구현해봐도 좋을 것 같습니다. 또한 계절, 장소, 시간 날씨 등 다양한 환경에서 수집한 500시간 이상의 영상을 통해 구축된 차량 이미지라는 점을 이용하여 다양한 영역에서의 교통안전을 위한 AI 기술로 활용해보는 것이 좋을 것 같습니다 :D

 

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr/

 

 오늘 리뷰한 '자동차 차종/연식/번호판 인식용 영상' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '안전' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '안전' 카테고리에 있는 데이터였는데요, 안전 카테고리는 화재, 교통안전문제, 위급상황, 이상행동 등과 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 실제 우리나라에 있는 지역과 한국인, 한국어 음성 등으로 구축된 데이터들로 이루어져 있기 때문에 우리나라에서 상용화하기 위한 서비스 개발에 활용하기에 매우 적합한 데이터이기도 하답니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지, 데이터를 어떻게 활용하면 좋을지 살펴볼 수 있답니다.

 

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '자동차 차종/연식/번호판 인식용 영상' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D