본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] 소방안전 빅데이터 플랫폼 (3) 화재 사례 키워드 중요도 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#6 소방안전 빅데이터 플랫폼 (3) 화재 사례 키워드 중요도 데이터

 

 

 

 

 여러분들은 '화재' 하면 떠오르는 단어가 무엇인가요? 또는 화재와 많이 관련되어 있는 키워드는 무엇일까요~?

소방안전 빅데이터 플랫폼에서는 소방 안전과 관련하여 다양한 데이터를 제공하는데요, 그중 한 데이터에서는 화재사례와 관련하여 키워드와 키워드의 중요도를 정리한 내용을 담고 있습니다.

 

따라서 이번 데이터 리뷰기에서는 해당 데이터를 읽어보고, 이러한 데이터를 어떻게 생성되었는지, 또는 어떻게 활용하면 좋을지 생각해보려고 하는데요, 다른 데이터와 접목시켜 어떻게 활용할지 생각해보도록 하겠습니다!

 

 

 

 

화재사례 목록 검색어 자료 데이터

 

 

(1) 화재사례 목록검색어 자료

 

 

 위 링크로 들어가면 소방안전 빅데이터 플랫폼에서 '화재사례 목록검색어 자료' 데이터를 다운받을 수 있는 웹페이지가 열리는데요, 로그인을 하신 뒤 '구매하기' 버튼을 통해 다운로드(무료) 받을 수 있습니다!

 

데이터는 csv 파일로 이루어져 있는데요, 한번 데이터를 열어보도록 하겠습니다!

 

데이터 일부분 preview

 

데이터는 위와 같이 칼럼이 나와있는 첫 행과 1,692개의 데이터로 이루어져 있는데요, 처음엔 첫 행을 보고 칼럼이 무슨 칼럼인지 당황스러울 수 있습니다. 하지만 데이터를 다운로드한 페이지에 가면 '데이터 컬럼 정보'라고 각 컬럼이 무슨 컬림인지 아래와 같이 나와있답니다!

 

데이터를 설명하는 데이터를 메타데이터라고 하기도 하는데요, 바로 이런 정보도 메타데이터가 될 수 있습니다! 그렇다면 이 컬럼 정의서에 따라 데이터 파일의 첫 칼럼명을 바꿔주도록 하겠습니다.

 

 

 

첫 행의 칼럼명을 바궈주니 훨씬 더 데이터를 읽기 쉬워졌네요! 이제 데이터를 읽어보도록 하겠습니다.

데이터를 보면, 키워드별로 키워드의 중요도가 나와있는데요, 최대값이 1000, 최솟값이 1000인 것으로 보아, 화재와 가장 밀접한 단어가 있는 키워드일수록 1000에 가깝고, 덜 연관될수록 100에 가까운 점수를 갖는 것 같아 보입니다.

 

한편, 키워드를 보면, '정도', '손실', '재산피', '금액' 그리고 14번째 행에 '그렇' 키워드까지, 화재와는 관련 없어 보이는 키워드도 있는 것 같아 보이는데요, 아무래도 화재와 관련된 단순 키워드가 아닌, 화재 사례에 대해 기록한 내용을 분석하여 키워드를 정리한 것 같아 보입니다. 따라서 자주 사용되는 관용어 등 문법적인 단어들도 포함이 된 것 같습니다. 하지만 이러한 키워드는 중요도 점수가 낮은 것으로 보아, 크게 신경 쓸 키워드는 아닌 것 같아 보입니다.

 

이제 이 데이터를 좀 더 이해하기 쉽게, '키워드 중요도' 칼럼을 기준으로 내림차순 정렬을 통해 데이터를 다시 읽어보도록 하겠습니다.

 

 

'키워드 중요도' 칼럼을 내림차순으로 정렬하니, 중요도가 1000인 키워드가 많네요! 중요도가 1000인 키워드를 보면 주로 화재가 발생한 장소가 많이 나옵니다.

 

 

반면, 중요도가 가장 낮은 키워드 20개를 보면, 화재와는 크게 특정되지 않는 키워드인 것 같아 보입니다.

 

 

대략적으로 데이터를 읽어보았는데요, 그렇다면 이 데이터를 갖고 어떻게 활용할 수 있을까요?

지난 데이터 리뷰기 '소방안전 빅데이터 플랫폼_(1)화재' 에서 한 데이터를 읽어보았는데요, 아래와 같은 데이터였습니다.

 

 

(2) 화재사례 상세정보 자료

 

 

데이터를 보면, 수치로 가득한 일반 데이터와는 다르게 상세한 내용이 설명되어 있는 것을 볼 수 있는데요, 각 화재 사건에 대한 발화지점, 화재확산, 화재시 상황, 피해정보, 목격자 진술 등에 대한 내용이 상세하게 설명되어 있습니다.

 

좀 더 자세하게 볼까요~?

 

 

[내용] 칼럼에 들어가 있는 한 데이터 내용인데요, 위 데이터의 경우 화재가 점화된 곳과 시간별로 화재로 인해 발생된 상황, 파견된 소방차량, 살수 상황, 병원이송 등에 대해 상세하게 설명되어 있습니다. 

 

이렇게 이 데이터는 글로 정리가 되어있는데요, 아마 앞에서 읽은 '화재사례 목록 검색어 자료' 데이터가 이러한 자료를 기반으로 자연어 처리를 통해, 빈도에 따른 중요도로 키워드가 정리가 되지 않았을까 싶습니다.

 

따라서 이러한 데이터를 이용하여, 자연어 처리, 기계번역 모델 등을 다시 분석한다면, 키워드와 중요도를 좀더 보완한 데이터를 구축할 수 있지 않을까 싶습니다. 또한 반대로, 키워드와 키워드에 따른 중요도 데이터를 이용하여, 높은 중요도를 갖는 키워드가 많이 나오는 장소나 건물 등을 위험 지수에 따라 분류 및 정리하여 새로운 데이터를 만들어 보는 것도 좋은 활용방안이 될 것 같습니다!

 

 

 

 

#소방안전 빅데이터 플랫폼

 

 

이번 데이터 리뷰기에서 소개한 데이터를 다운로드 받은 '소방안전 빅데이터 플랫폼'은 한국소방안전원에서 구축한 플랫폼인데요, 국민의 안전과 소방산업의 혁신을 지원하는 데이터를 개방/공유/유통/거래 기반 플랫폼으로 소방 안전 정보 빅데이터 허브를 구축하여 소방산업 업체, 종사자, 관·연·학계 및 대국민에게 양질의 특화된 소방안전 및 소방산업분야 빅데이터 서비스를 제공하는 목적으로 구축된 플랫폼입니다.

 

 

소방안전 빅데이터 플랫폼에는 소방안전정보부터 국민 생활안전정보, 재난예방 대응정보, 연구분석정보에 대한 데이터를 오픈하고 있는데요, 총 734건의 데이터를 다운로드 받아서 데이터분석에 사용할 수 있습니다.

 

 

또한 아래와 같이 카테고리별 검색을 통해 필요한 데이터를 쉽게 찾을 수 있답니다.

 

 

 

이렇게 오늘은 소방안전 빅데이터 플랫폼에 대한 소개와 '화재사례 목록 검색어 자료' 데이터를 읽어보고, 데이터 활용 방안까지 생각해보았는데요, 다음 리뷰기에서도 다른 분야의 플랫폼에서 데이터를 가져오도록 하겠습니다!

이전 글에서는 소방안전 빅데이터 플랫폼을 비롯한 다른 플랫폼에서 가져온 데이터 리뷰기들이 있으니 궁금하시면 참조하시기 바랍니다! 혹시나 특정 분야나 궁금한 데이터가 있다면 댓글로 남겨주시면 참조해 데이터 리뷰를 하도록 하겠습니다! 감사합니다 :D