본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] 서울특별시 빅데이터 캠퍼스(3) - 서울시 대기 환경정보 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#59 서울특별시 빅데이터 캠퍼스(3) - 서울시 대기 환경정보 데이터

 

 

 

 

 봄이나 겨울에 발생하는 미세먼지로 인해 가끔씩 야외 활동이 어려운 날들이 있는데요, 이러한 미세먼지는 풍속 감소나 대기 정체 등 기상 영향으로 인한 고농도 미세먼지와 대기오염물질 배출로 인한 초미세먼지의 영향이 크다고 합니다. 이처럼 미세먼지는 대기환경 상태와 밀접한 관련이 있다고 볼 수 있는데요, 

 

이와 관련하여 서울특별시 빅데이터 캠퍼스에서는 '서울시 대기 환경정보 데이터'를 제공하고 있습니다. 이 데이터는 서울시 25개 자치구의 대기환경정보 측정수치를 수집한 데이터라고 합니다. 그럼 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

서울시 대기 환경정보 데이터

 

(1) 데이터 정보

  • 제공기관 : 서울시
  • 데이터 범위(시간) : 2008.01 ~ 2020.12
  • 데이터 형식 : csv
  • 데이터 칼럼 : 측정날짜, 측정소 행정코드, 대기환경등급, 통합대기환경지수, 지수결정물질, 이산화질소 농도 및 지수, 오존 농도 및 지수, 일산화탄소 농도 및 지수, 아황산가스 농도 및 지수, 미세먼지 농도 및 지수, 권역코드, 권역명, 측정소명 등
  • 다운로드 : https://bigdata.seoul.go.kr/data/selectSampleData.do?r_id=P213&sample_data_seq=42&tab_type=&file_id=&sch_text=&sch_order=U&currentPage=3

 

'서울시 대기 환경정보' 데이터는 앞서 말했듯이, 서울시 25개 자치구의 대기환경정보 측정수치를 합산하여 평균낸 값으로, 매시간 갱신되는 정보로 통합대기환경 지수와 등급, 지수결정 물질 및 미세먼지(PM-10), 오존, 이산화질소, 일산화탄소, 아황산가스 측정값을 평균값으로 나타낸 데이터입니다.

 

한편, 다운로드 링크로 들어가면 해당 데이터에 대한 페이지가 나오는데요, 서울특별시 빅데이터 캠퍼스에 있는 데이터는 모두 빅데이터 캠퍼스 방문 후 캠퍼스에서 제공하는 원본 데이터셋을 접속하여 이용하실 수 있습니다. 하지만 샘플 데이터를 미리 다운로드해서 데이터를 살펴볼 수 있는데요, 해당 데이터의 샘플 데이터를 다운로드하여 리뷰해보도록 하겠습니다!

 

 

(2) 데이터 리뷰

 샘플 데이터를 다운받으면, 아래와 같이 csv 파일이 있는데요, 데이터의 일부는 다음과 같습니다.

 

 

위 데이터를 살펴보면, 첫행에 칼럼명이 있고, 그 밑으로 데이터가 있는 것을 확인할 수 있습니다. 또한 여러 칼럼으로 데이터가 구축된 것을 살펴볼 수 있는데요, 주요 칼럼으로 측정날짜, 대기환경 등급, 통합대기환경지수, 이산화질수/오존/일산화탄소/아황산가스의 지수와 농도 그리고 미세먼지의 농도와 지수 등이 있습니다.

 

한편, 위에서 보이는 데이터는 모두 도봉구에서 측정된 2017년 9월 10일의 24시간 대기환경 정보로(측정날짜 참고), 각 데이터는 1시간마다 측정된 값들입니다. 따라서 시간의 흐름에 따른 대기환경 영향요소의 변화를 살펴볼 수 있답니다.

 

 

위에 데이터를 보면, 오전 12시(2번째 행)에는 대기환경 등급이 '좋음'으로 통합 대기환경지수가 47로 낮은 편인데요, 오전 11시(13번째 행)부터 통합 대기환경지수가 크게 변하면서 대기환경 등급이 보통으로 낮아진 것을 살펴볼 수 있습니다. 또한 오전 11시 데이터에 지수결정물질은 O3으로 되어 있는데요, 오존 농도를 확인해보면 1시간 전보다 훨씬 오존 농도와 지수가 증가된 것을 확인할 수 있습니다.

 

 

(3) 데이터 활용

 그렇다면 '서울시 대기 환경정보' 데이터를 이용하여 어떻게 분석 및 활용할 수 있을까요?

원 위 데이터에는 서울시 내에 각 측정소별로, 24시간 마다의 대기환경 정보가 구축되어 있는데요, 지역별로, 시간대별로, 대기환경지수/대기환경등급별로 데이터를 분석할 수 있지 않을까 싶습니다.

 

예를 들어, 같은 시간대에 각 지역별로 대기환경지수가 어떠한지, 동일한 측정소에서 해당 지역의 대기환경지수가 시간의 흐름에 따라 어떠한 변화를 이루고 있는지, 이산화질소, 오존, 아황산가스, 미세먼지의 농도 및 지수 변화가 대기환경지수/대기환경등급에 어떠한 영향을 미치는지 분석할 수 있지 않을까 싶습니다. 이러한 분석들을 통해 의미있는 결과가 도출된다면 이를 통해 대기환경 정보를 예측할 수 있는 AI 모델 제시 또는 청정한 대기환경을 위한 오염물질 배출 제한 등 대책방안 마련 등이 가능하지 않을까 싶습니다-!

 

 

 

 

# 서울특별시 빅데이터 캠퍼스

 

 

 오늘 리뷰한 '서울시 대기 환경정보' 데이터는 <서울특별시 빅데이터 캠퍼스>에서 다운로드 받은 데이터로, 서울특별시 빅데이터 캠퍼스는 서울특별시와 관련된 데이터를 수집하여 개방 및 공유하는 플랫폼입니다. 데이터 종류로는 캠퍼스 내 폐쇄 정보통신망에서 데이터 열람이 가능하도록 원천 기관의 동의를 취득한 공공 데이터와, 제3권리자의 동의를 취득한 민간 데이터로 이루어져 있습니다.

 

 

 한편 서울특별시 빅데이터 캠퍼스에는 수집된 데이터를 체계적으로 관리하고 제공하기 위해 빅데이터캠퍼스에서 제공하고 있는 분석 환경과 데이터는 이용 신청 후 방문 시 이용이 가능하답니다. 또한 빅데이터 캠퍼스 방문 후 캠퍼스에서 제공하는 원본 데이터셋을 접속 및 이용하는 방법은 원본파일서버, 원본DB서버, 하둡파일시스템(DB) 등의 3가지 방법이 있으며, 캠퍼스 내에서 제한 없이 사용할 수 있답니다. 그밖에도 아래와 같이 카테고리 및 제공 형식 검색을 통해 원하는 데이터를 쉽게 찾을 수 있답니다.

 

 

이렇게 오늘 데이터 리뷰기에서는 서울특별시 빅데이터 캠퍼스의 '서울시 대기 환경정보' 데이터를 리뷰해보았는데요, 다음 리뷰기에서는 다른 지역의 빅데이터 플랫폼에 있는 데이터에 대해 리뷰하도록 하겠습니다. 이전 데이터 리뷰기에서는 AIHUB, 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물, 경기지역 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D