본문 바로가기

데이터

[데이터 리뷰] 디지털산업혁신 플랫폼(2) - 유저 인터넷 키워드 정보 데이터 (쿠팡, 네이버 등) 데이터 리뷰 : 데이터 대신 읽어드립니다! #8 디지털산업혁신 플랫폼(2) - 유저 인터넷 키워드 정보 데이터 (쿠팡, 지마켓, 11번가, 옥션 등) 작년, 발병한 코로나19에 대해서 미리 이를 예측한 곳이 있었는데요, 스마트 체온계 기기를 판매하는 의료기기업체 '킨사 헬스'였습니다. 판매하는 스마트 체온계 기기는 인터넷과 연동되는 기기였는데요, 스마트 체온계로 발혈 환자가 급증한 지역을 실시간으로 찾았고, 그곳은 코로나 바이러스 확진 환자가 발생한 지역이었다고 합니다. 실제로도 킨사의 발열 환자 분포도는 우한 코로나 환자 발생지와 일치했다고 합니다. 이처럼 이 사건은 개개인이 이용한 인터넷 정보들이 모여 하나의 큰 흐름을 발견한 사례인데요, 그만큼 각 유저들의 인터넷 정보는 하나의 중요한 데이터가 될 .. 더보기
[데이터 리뷰] 디지털산업혁신 플랫폼(1) - 에너지/정보통신/바이오/화학 기술 동향 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #7 디지털산업혁신 플랫폼(1) - 에너지/정보통신/바이오/화학 기술 동향 데이터 점점 빠르게 변화하는 시대에서 기술의 발전 또한 빠르게 진행되고 있는데요, 이러한 흐름에 발맞추기 위해선 어떠한 기술이 떠오르는지, 어떠한 기술에 연구를 많이 하고 있는지 아는 것이 중요합니다. 이와 관련해서 에서는 산업혁신과 관련된 다양한 데이터를 제공하는데요, 그중에서 에너지/정보통신/바이오/화학 기술 동향 데이터를 제공하고 있습니다. 따라서 이번 데이터 리뷰기에서는 에너지/정보통신/바이오/화학 기술 동향 데이터 중에서 '바이오 기술 동향 데이터'를 읽어보고, 분석할 수 있는 방안이나 어떻게 활용하면 좋을지 생각해보도록 하겠습니다! 바이오 기술 동향 데이터 (1) 데이터 정보 .. 더보기
[데이터 리뷰] 소방안전 빅데이터 플랫폼 (2) 지역별 특수건물 화재 데이터 리뷰 : 데이터 대신 읽어드립니다! #5 소방안전 빅데이터 플랫폼 (2) 지역별 특수건물 화재 모든 건물은 건물이 안전한지 점검받고, 안전 등급을 매겨 건물을 안전하게 관리하도록 하는데요, 여러 항목들을 통해 건물의 위험도를 측정하게 됩니다. 이와 관련해서 '소방안전 빅데이터 플랫폼'에서는 여러 항목에 따라 지역별로 특수건물의 위험도를 측정한 데이터가 있는데요, 이번 데이터 리뷰기에서 '특수건물 지역별 위험도 현황'이라는 데이터를 읽어보도록 하겠습니다. 또한, 특정 지역에서 '특수건물 화재사고 피해'와 관련된 데이터를 함께 읽어보려고 하는데요, 두 데이터에 공통적으로 들어가 있는 '지역' 칼럼을 이용하여 특수건물의 화재 등 위험을 방지할 수 있는 분석 방안을 생각해보도록 하겠습니다! 지역별 특수건.. 더보기
[데이터 리뷰] 소방안전 빅데이터 플랫폼 (1) 화재 신고 데이터 데이터 리뷰 : 데이러 대신 읽어드립니다! #4 소방안전 빅데이터 플랫폼 (1) 화재 신고 데이터 종종 화재 또는 재난으로 집과 재산을 잃어 피해를 입는 경우가 있는데요, 만약 사전에 화재 및 재난으로부터 위험한 건물을 관리하고 보수한다면 큰 피해를 막을 수 있습니다. 따라서 기존의 화재 사례, 화재 신고를 형태를 분석한다면 어느 건물이 위험한지 추측할 수 있는데요, 분석을 위해선 화재 사건과 관련된 데이터가 필요하답니다. 화재와 관련된 데이터는 '소방안전 빅데이터 플랫폼'이라는 사이트에서 찾을 수 있는데요, 이번 데이터 리뷰기에서는 '소방안전 빅데이터 플랫폼'에서 제공하는 화재 신고 및 화재 사례 데이터를 읽어보고, 데이터 분석 방안을 함께 생각해보도록 하겠습니다. 추가로 뒤에는 소방안전 빅데이터 플랫.. 더보기
[데이터 리뷰] 스마트 치안 분야 공공 데이터 (3)몰래카메라 촬영 융합데이터 데이터 리뷰 : 데이터 대신 체험해드립니다! #3 스마트 치안 빅데이터 플랫폼_몰래카메라 촬영 융합데이터 요즘 카메라를 이용 및 설치하여 몰래 촬영을 하고, 해당 영상을 인터넷에 업로드하는 등, 몰카 관련 범죄에 따른 피해가 계속 발생되고 있는데요, 피해를 막고, 사전 범죄 예방을 위해선 범죄 발생과 관련한 영향요소 분석이 중요할 수 있습니다. 따라서 이번 데이터 리뷰기에서는 '스마트 치안 빅데이터 플랫폼'에서 제공하는 카메라 이용 촬영 범죄와 관련된 통계 데이터 2건을 읽어보고, 몰카 범죄 발생과 영향 요소 간의 상관관계를 찾는 데이터 분석 방안을 함께 생각해보도록 하겠습니다! 카메라 이용 촬영 범죄 데이터 이번 데이터 리뷰기에서 읽을 데이터는 총 2개로, 2019년 1월 1일부터 12월 31일까지 전.. 더보기
[데이터 리뷰] 스마트 치안 분야 공공 데이터 (2)가정폭력 영향요소 융합데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #2 스마트 치안 빅데이터 플랫폼_가정폭력 영향요소 융합데이터 지난 데이터 리뷰기에서는 '스마트 치안 빅데이터 플랫폼'에서 제공하는 "사건사고가 발생한 지역에 대한 상권규모, 유동인구, 활동인구, 거주인구, 날씨정보 데이터"를 읽어보고, 사회 안전 및 스마트 치안과 관련된 인공지능 서비스와 데이터 분석에 활용할 수 있는 방안까지 생각해보았습니다. 이번 데이터 리뷰기에서도 스마트 치안 빅데이터 플랫폼에서 다른 데이터를 읽어보고자 하는데요, 특히 '가정폭력'에 영향을 미치는 요소가 담긴 데이터를 읽어보려고 합니다. 어떠한 요소들이 가정폭력 사건이 발생하는 데에 영향을 미치는지 데이터를 읽어보고, 해당 데이터를 분석하여 어떻게 활용하면 좋을지도 생각해 보도록 하겠습니.. 더보기
[데이터 리뷰] 스마트 치안 분야 공공 데이터 (1)사건사고지역 데이터 리뷰 : 데이터 대신 읽어드립니다! #1 스마트 치안 인공지능 서비스 개발 및 데이터분석을 위한 데이터_"스마트 치안 빅데이터 플랫폼" 요즘 뉴스를 보면, 사회에선 각종 범죄가 발생하고, 상상을 초월한 범죄 수단과 형태를 보며, 과연 우리가 앞으로 안전을 보장받을 수 있을까 라는 생각이 들게 하는데요, 이에 대해 범죄를 예방하고 범죄율을 줄이기 위한 데이터 분석 및 인공지능을 결합한 안전 프로그램 개발이 중요시되고 있습니다. 하지만 관련 데이터나 의미가 있는 데이터가 없다면 서비스 개발 및 데이터 분석이 어려울 수 있는데요, 이번 데이터 리뷰기에서는 치안 등 안전과 관련된 서비스 프로그램 개발 및 데이터 분석에 활용할 만한 데이터로 어떤 게 있는지 살펴보고자 합니다. 또한 해당 데이터가 어떻게 이.. 더보기
[머신러닝] 데이터(레이블)를 벡터로 변환하는 방법 (파이썬 코드) 다중 분류 문제를 해결하기 위한 학습 모델을 만들 때, 학습에 사용할 데이터를 준비하는 단계에서 데이터를 벡터로 변환하는 과정을 거쳐야 하는데요, 아래와 같이 데이터를 벡터로 만들어주는 함수를 만들어서 사용할 수 있습니다. import numpy as np def vectorize_sequences(sequences, dimension=10000): results = np.zeros((len(sequences), dimension)) for i, sequence in enumerate(sequences): results[i, sequence] = 1. return results 만약, train_data = [1, 42, 323, 34,66, 85]라는 정수 인코딩이 된 데이터가 있다고 가정할 때, 이 .. 더보기
[머신러닝] MinMaxScaler : 0~1 스케일로 정규화 하기 (파이썬 코드) MinMaxScaler는 스케일을 조정하는 정규화 함수로, 모든 데이터가 0과 1 사이의 값을 갖도록 해주는 함수입니다. 따라서 최댓값은 1로, 최솟값은 0으로 데이터의 범위를 조정해줍니다. 한편, MinMaxScaler 함수는 파이썬에서 다음과 같이 입력하여 사용할 수 있습니다. from sklearn.preprocessing import MinMaxScaler minmax_scaler = MinMaxScaler() minmax_scaled = minmax_scaler.fit_transform(X_train) #x_train라는 데이터 입력 먼저 필요한 라이브러리인 MinMaxScaler를 import 해주고, 두 번째 줄 ~ 세 번째 줄 코드처럼 정규화를 하는 함수에 정규화를 할 데이터(X_train.. 더보기
[머신러닝] 사이킷런(Scikit-learn) 데이터의 특성 / 클래스 별 데이터 개수 / 크기 확인하기 사이킷런(Scikit-learn) 라이브러리는 의사결정 트리, 분류, 회귀 등의 알고리즘에 사용하기 적합한 함수 및 데이터를 제공하는 라이브러리로, 이번 글에서는 사이킷런에서 제공하는 데이터를 불러와 데이터의 특성, 클래스 별 데이터의 개수, 크기를 확인하는 방법에 대해서 살펴보도록 하겠습니다. 1. 데이터 불러오기 - iris_data 먼저, 사용할 사이킷런 데이터를 불러와야 하는데요, 그중 대표적인 iris_data 를 불러오도록 하겠습니다. from sklearn.datasets import load_iris iris = load_iris() 데이터를 불러와 iris 라는 변수에 저장해주었습니다. 2. 데이터의 특성 살펴보기 그 다음에, 데이터에 어떠한 특성(keys)이 있는지 살펴보려면 .keys.. 더보기