본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(안전) - CCTV 교통 영상 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#39 AIHUB(안전) - 교통문제 해결을 위한 CCTV 교통 영상(고속도로) 데이터

 

 

 

 

 일반도로나 고속도로에서의 교통사고는 끊이지 않고 발생하고 있는데요, 교통사고를 방지하고 교통흐름 등을 분석하기 위해선 더욱더 발전된 기술이 요구될 수 있습니다. 따라서 인공지능이 결합된 기술을 개발하려고 하는 시도가 많은데요, 한 가지 문제가 있다면 인공지능을 학습시킬 도로객체 검출 및 분할용 학습데이터가 국외 도로환경에서 제작된 일부 데이터만 존재한다는 점입니다. 따라서 국내 도로환경의 데이터는 전무하여 우리나라에 맞는 교통흐름 분석 기술개발에 어려움이 있을 수밖에 없다고 합니다.

 

이처럼 AI 교통 서비스를 위한 AI모델이 대규모 영상 데이터를 필요로 함에 따라, 교통안전 AI 경쟁력 강화를 위해 AIHUB 플랫폼에서는 'CCTV 교통 영상(고속도로)' 데이터를 제공하고 있습니다. 이 데이터는 고속도로 CCTV 영상 내 차량 속도와 교통량을 자동으로 측정하는 AI 기술 개발을 위한 인공지능 학습 데이터 구축을 위해 50만 장의 고속도로 이미지 데이터로 구축되어 있습니다. 그렇다면, 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

CCTV 교통 영상(고속도로) 데이터

 

(1) 데이터 정보

  • 제공기관 : (주)라온피플
  • 데이터 개수 : 50만 개
  • 데이터 형식 : jpg, xml
  • 데이터 구성 : 500시간 분량의 1분단위 영상, 총 50만 장 객체검출/분할 모델 학습데이터(객체검출용 : 이미지 및 bbox 어노테이션 파일, 객체분할용 : 이미지 및 segmentation 어노테이션 파일)
  • 다운로드 : https://aihub.or.kr/aidata/30743

 

교통문제 해결을 위한 'CCTV 교통 영상(고속도로)' 데이터는 전국 50개 지점의 총 505시간에 달하는 고속도로 영상 데이터를 수집하고, 1분단위의 이미지 데이터 50만 장을 정제하여 가공(어노테이션)된 데이터입니다. 

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 그렇다면 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 데이터를 다운로드하면, 크게 바운딩박스(Bounding Box) 데이터와 폴리곤 세그멘테이션(Polygon Segmentation) 데이터로 나누어져 있는데요, 바운딩박스란 검출 객체의 영역을 box 한 것을 말하며, 폴리곤 세그멘테이션은 해당 객체의 구체적인 영역을 표시하는 것을 말합니다. 아래 이미지를 보면 쉽게 이해할 수 있답니다.

 

bounding box & polygon segmentation

 

그럼 먼저, 바운딩박스 데이터부터 살펴보도록 하겠습니다!

 

 

- Bounding box data

 

바운딩박스 데이터에는 약 30만 장의 이미지 데이터와 xml 형식의 어노테이션 파일이 있는데요, 먼저 아래와 같은 이미지로 구축되어 있습니다.

 

 

이미지 데이터를 보면 고속도로 속 차량의 모습을 확인할 수 있습니다.

 

반면, xml 형식의 어노테이션 데이터에는 위 이미지에 있는 차량에 대한 바운딩박스 데이터가 있는데요, 아래 텍스트는 어노테이션 데이터의 일부분입니다.

 

<image id="0" name="Suwon_CH02_20200722_1600_WED_9m_RH_highway_TW5_rainy_FHD_001.png" width="1920" height="1080">
    <box label="truck" occluded="0" xtl="1319.87" ytl="563.83" xbr="1374.72" ybr="612.74" z_order="8">
    </box>
    <box label="truck" occluded="0" xtl="1008.60" ytl="881.27" xbr="1115.49" ybr="992.86" z_order="1">
    </box>
    <box label="truck" occluded="0" xtl="1072.18" ytl="598.56" xbr="1154.57" ybr="698.62" z_order="3">
    </box>
    <box label="truck" occluded="0" xtl="1204.05" ytl="669.26" xbr="1268.76" ybr="725.27" z_order="2">
    </box>
    <box label="car" occluded="0" xtl="1176.07" ytl="608.52" xbr="1215.77" ybr="644.03" z_order="7">
    </box>
    <box label="car" occluded="0" xtl="1216.32" ytl="791.96" xbr="1297.89" ybr="885.28" z_order="5">
    </box>
    <box label="car" occluded="0" xtl="1013.47" ytl="715.47" xbr="1075.36" ybr="773.03" z_order="6">
    </box>
    <box label="truck" occluded="0" xtl="1331.74" ytl="552.42" xbr="1407.14" ybr="597.67" z_order="9">
    </box>
    <box label="car" occluded="0" xtl="1482.90" ytl="907.90" xbr="1638.89" ybr="1034.77" z_order="4">
    </box>
  </image>

 

데이터를 확인해보면, 상단에는 어느 이미지데이터 파일에 대한 정보인지를 알 수 있고, 그 밑으로는 해당 이미지 속에서 검출된 차량의 바운딩 박스 좌표를 알 수 있습니다. 이 좌표들을 이미지 속에 구현시키면 아래와 같이 차량 객체를 검출할 수 있답니다.

 

 

어노테이션 데이터에는 이뿐만 아니라 객체가 차, 트럭 또는 버스인지 객체 정보를 담고 있고, 이미지 데이터의 해상도 등 이미지 정보를 알 수 있습니다.

 

 

- Polygon Segmentation

 

반면, 폴리곤 세그멘테이션 데이터의 이미지는 20만 장으로 구축되어 있는데요, 해당 이미지도 바운딩박스 데이터 이미지와 비슷하답니다.

 

 

그리고 아래 텍스트는 어노테이션 데이터의 일부분입니다.

 

<image id="0" name="Suwon_CH02_20200721_1700_TUE_9m_RH_highway_TW5_sunny_FHD_001.png" width="1920" height="1080"> <polygon label="bus" occluded="0" points="1045.20,676.47;1043.65,597.11;1049.52,544.59;1055.07,519.12;1057.70,515.88;1057.04,511.32;1060.94,508.36;1066.81,508.69;1140.58,503.80;1211.99,503.80;1217.21,505.59;1219.09,506.25;1240.56,517.24;1268.70,531.95;1270.63,534.62;1271.71,536.55;1271.85,539.23;1272.04,544.07;1275.89,545.20;1278.76,545.95;1286.65,549.75;1288.76,551.82;1293.09,559.76;1298.35,575.36;1301.22,583.53;1305.54,582.97;1311.41,582.97;1313.48,584.85;1314.04,589.03;1314.61,605.05;1318.74,607.36;1319.87,612.24;1321.23,634.70;1320.24,643.39;1318.74,645.65;1309.06,646.31;1306.52,646.78;1306.95,718.24;1306.71,761.51;1306.71,763.39;1305.77,766.07;1304.69,768.60;1303.89,771.09;1302.62,772.97;1300.42,774.24;1297.60,775.04;1295.25,775.04;1292.57,775.04;1289.89,775.04;1288.48,775.04;1287.92,783.64;1287.92,784.63;1287.87,785.66;1287.54,786.60;1287.17,787.54;1286.65,788.48;1285.90,789.23;1285.38,790.26;1284.63,791.02;1283.83,791.53;1282.75,791.86;1281.81,792.14;1280.73,792.28;1279.41,792.33;1278.43,792.47;1277.30,792.66;1276.03,792.75;1275.14,792.66;1273.87,792.52;1273.02,792.43;1271.66,792.24;1271.24,792.14;1269.27,791.86;1268.51,791.72;1267.29,791.53;1266.26,791.16;1265.37,790.64;1264.61,789.94;1263.91,789.00;1263.44,788.01;1263.02,786.79;1262.69,785.75;1262.45,784.96;1262.08,777.48;1262.08,775.70;1225.90,776.73;1133.95,777.06;1121.88,777.06;1113.56,761.56;1109.76,754.27;1104.31,745.91;1099.89,742.34;1096.32,740.46;1092.51,740.51;1065.36,739.43;1060.14,739.05;1059.95,738.58;1059.76,738.07;1059.62,737.55;1059.39,736.98;1059.11,736.42;1059.01,735.90;1058.97,735.57;1056.90,726.08;1056.33,720.82;1056.29,720.21;1056.15,719.41;1056.05,718.80;1055.91,717.77;1055.96,717.20;1056.15,716.59;1056.19,715.56;1056.24,714.86;1055.96,713.54;1056.01,712.93;1056.24,712.22;1056.43,711.52;1056.62,711.33;1049.29,701.98;1047.45,693.43" z_order="8"> </polygon>

 

바운딩박스의 어노테이션 데이터와는 다르게 폴리곤 세그멘테이션 데이터에는 수많은 좌표로 이루어져 있는데요, 그 이유는 바운딩박스처럼 4개의 좌표만 필요한 것이 아니라 객체의 구체적인 폴리곤 영역을 나타내야 하기 때문에 좌표가 많은 것입니다. 실제 위 좌표는 차량 1대에 대한 좌표로, 이미지에 여러 차량에 대해 폴리곤 세그멘테이션을 적용시키면 아래와 같이 객체를 검출할 수 있습니다.

 

 

 

(3) 데이터 활용

 그렇다면 바운딩박스, 폴리곤 세그멘테이션 데이터가 포함된 50만 장의 고속도로 영상 이미지 데이터를 어떻게 활용할 수 있을까요? 우선 구축 목적답게 고속도로 CCTV 영상 내 차량 속도와 교통량을 자동으로 측정하는 AI 기반의 영상VDS 솔루션 개발에 활용될 수 있을 거라 예상합니다. 구축된 이미지를 학습시킨다면 속도에 따른 교통량을 분석할 수 있겠죠.

 

또는 고속도로 교통량을 자동으로 측정하거나, 교통흐름을 분석하여 교통 정보를 수집하는 프로그램을 구현시킬 수 있지 않을까 싶은데요, 이러한 정보나 교통흐름을 누구나 모니터링할 수 있는 서비스를 만든다면 좀 더 교통문제 해결에 이바지할 수 있지 않을까 싶습니다-!

 

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr/

 

 오늘 리뷰한 '교통문제 해결을 위한 CCTV 교통 영상(고속도로)' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '안전' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '안전' 카테고리에 있는 데이터였는데요, 안전 카테고리는 화재, 교통안전문제, 위급상황, 이상행동 등과 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 실제 우리나라에 있는 지역과 한국인, 한국어 음성 등으로 구축된 데이터들로 이루어져 있기 때문에 우리나라에서 상용화하기 위한 서비스 개발에 활용하기에 매우 적합한 데이터이기도 하답니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지, 데이터를 어떻게 활용하면 좋을지 살펴볼 수 있답니다.

 

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '교통문제 해결을 위한 CCTV 교통 영상(고속도로)' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D