본문 바로가기

방법

[데이터 리뷰] 라이프로그 플랫폼(3) - 1형 당뇨 혈당 측정 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #15 라이프로그 플랫폼(3) - 1형 당뇨 혈당 측정 데이터 당뇨병 중에서도 '1형 당뇨'라는 것이 있는데요, 1형 당뇨란 사람의 혈액 속에 포도당이 너무 많아져 소변으로 당이 나오는 당뇨를 말합니다. 이러한 1형 당뇨병은 자가면역질환으로 인슐린이 매우 부족한 병이라고 합니다. 따라서 인슐린이 몸에서 생산될 수 있도록 하는 치료가 많이 이루어지기도 하는데요, 이와 관련해서 에서는 1형 당뇨와 관련된 데이터들을 제공하고 있습니다. 그중에서 이번 데이터 리뷰기에서는 '1형 당뇨 혈당 측정 데이터'를 리뷰해보려고 하는데요, 해당 데이터를 읽어보고, 어떻게 분석 및 활용할 수 있을지 생각해보도록 하겠습니다! 1형 당뇨 혈당 측정 데이터 (1) 데이터 정보 제공기관 :.. 더보기
[데이터 리뷰] 해양수산 플랫폼(3) - 전세계 표층수온 연평균 아노말리 데이터 셋 데이터 리뷰 : 데이터 대신 읽어드립니다! #12 해양수산 플랫폼(3) - 전세계 표층수온 연평균 아노말리 데이터 셋 '표층수온'은 해수면의 온도로, 위도와 계절에 따라 달라지는데요, 이러한 표층수온은 지구온난화의 지표가 되기도 한답니다. 반면 '아노말리'란 특정 지역에서 특정 요소의 평균값으로 변화하는 차이값을 말하는데요, 표층수온의 아노말리란 장기간의 표층수온 평균값으로부터 변화하는 차이값을 말합니다! 이러한 아노말리 값은 여러 지역들 간의 원격효과에서 매우 중요한 요소이기도 하답니다. 이와 관련해서 에서는 '전세계 표층수온 연평균 아노말리 데이터 셋'을 제공하고 있는데요, 이번 데이터 리뷰기에서 이 데이터를 함께 읽어보고, 어떻게 분석하고 활용할 수 있을지 생각해보도록 하겠습니다! 전세계 표층수온 .. 더보기
[데이터 리뷰] 해양수산 플랫폼(2) - 어업별 어선 조업 위치, 어획량, 조업 정보 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #11 해양수산 플랫폼(2) - 어업별 어선 조업 위치, 어획량, 조업 정보 데이터 우리나라 동해, 서해, 남해에서는 참 많은 어업 활동이 이루어지고 있고, 다양한 어선 조업 등을 통해 어획 및 생산활동이 이루어지고 있습니다. 이와 관련해서 에서는 어업과 관련한 데이터를 제공하고 있는데요, 그중에서도 어업별 어선 조업의 위치, 어획량 정보, 조업 정보에 대한 데이터가 있답니다. 따라서 이번 데이터 리뷰기에서는 해양수산 플랫폼의 '어업별 어선 조업 위치', '어업별 어획량 정보', '어업별 조업 정보' 데이터를 함께 읽어보고, 어떻게 분석하고 활용할 수 있을지 생각해보도록 하겠습니다~! 1. 어업별 어선 조업 위치 데이터 (1) 데이터 정보 제공기관 : 전자어구빅.. 더보기
[데이터 리뷰] 해양수산 플랫폼(1) - 수산물 수입평균단가 데이터 (+판매유통 데이터) 데이터 리뷰 : 데이터 대신 읽어드립니다! #10 해양수산 플랫폼(1) - 수산물 수입평균단가 데이터 (+판매유통 데이터) 현재 우리나라에서는 여러 나라로부터 많은 수산물을 수입하고 있는데요, 우리가 먹는 수산물의 상당량이 수입산에 해당된답니다. 이에 대해 에서는 수산물과 관련하여 다양한 데이터를 제공하는데요, 그중 "수산물 수입평균단가 데이터"가 있습니다. 수산물 수입 평균단가 데이터는 2016년~2020년까지 수입된 수산물의 종류, 수입국, 가격 등의 정보가 담긴 데이터를 제공하고 있답니다. 따라서 이번 데이터 리뷰기에서는 이 수산물 수입 평균단가 데이터와 추가로 판매유통 데이터를 함께 읽어보고, 어떻게 분석 및 활용할 수 있을지 생각해보도록 하겠습니다! 수산물 수입 평균단가 데이터 (1) 데이터 정.. 더보기
[데이터 리뷰] 디지털산업혁신 플랫폼(3) - M&A 인수/매도 기업 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #9 디지털산업혁신 플랫폼(3) - M&A 인수/매도 기업 데이터 M&A란 둘 이상의 여러 기업이 통합된다는 뜻의 'Merger'와 기업이나 개인이 다른 기업이나 자산, 지분 등을 인수하여 지배권을 취득한다는 'Acquisition'이 결합된 용어인데요, 이는 인수기업이 매도기업의 경영권을 얻기 위해 진행되는 인수합병 거래를 말합니다. 기업은 이러한 M&A를 통해 사업을 확장시켜 경영/경제적으로 효율성을 높인다고 합니다. 따라서 이러한 M&A가 진행되는 기업들 또는 사례를 분석하는 것도 큰 의미가 있을 수 있는데요, 이번 데이터 리뷰기에서는 에서 제공하는 M&A 인수 기업 데이터와 매도 기업 데이터를 읽어보고, 어떻게 활용하면 좋을지 생각해보도록 하겠습니다~ M.. 더보기
Overfitting 해결하기 【1】Deep Learning 시작하기_규제화라는 게 있다 Overfitting 해결하기 Input feature 수 = 파라미터의 수 = 가중치의 수 = 미지수의 개수-1 (bias) Train data의 양 = (가중치를 풀) 방정식의 수 상대적으로, 방정식 보다 미지수가 많으면 오버피팅이 발생! 작성자 홍다혜 ghdek11@gmail.com / 이원재 ondslee0808@gmail.com 더보기
[머신러닝] CNN 층에 dropout(드롭아웃) 추가하기 (텐서플로) Dropout(드롭아웃)은 랜덤으로 선택한 node만 학습시키고, 일부 node는 버리는 것을 말하는데요, 한 번의 학습 후 다음 학습 때 이 과정을 반복합니다. Dropout을 사용하면 은닉층이 많은 neural network에서 오버피팅 문제를 방지할 수 있다는 장점을 가지는데요, 텐서플로를 이용하여 만든 CNN 층에 드롭아웃 층을 추가하는 코드에 대해서 살펴보겠습니다. model = models.Sequential() model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), act.. 더보기
[머신러닝] 데이터프레임 : Null 값이 있는 행 확인하고, 삭제하는 방법 머신러닝 학습을 하기 전 데이터 전처리를 할 때, 데이터프레임 상에서 Null 값이 있는 행이 있는지 확인하고, 또 존재한다면 삭제하고 싶을 때, 코드를 어떻게 작성해야 하는지 아래 코드를 보면서 살펴보도록 하겠습니다. 1. Null 값 확인하기 먼저, 다음과 같이 Null 값이 있는 데이터프레임이 있다고 가정해보겠습니다. # itempricecount 0water1000.01.0 1milk2000.0NaN 2coffee3000.02.0 3adeNaN1.0 4latte5000.03.0 5tea6000.02.0 위 데이터프레임을 보면 각각 1행과 3행에 NaN 으로 Null 값이 있는 것을 확인할 수 있는데요, 이 데이터프레임의 데이터는 매우 작아서 어디에 Null 값이 있는지 바로 알 수 있지만, 데이터.. 더보기
[자연어처리] 패딩(Padding) : 0을 뒤에 채우는 방법 (파이썬) 지난 글에서는 파이썬에서 패딩을 구현하는 기본적인 방법에 대해서 알아보았는데요, pad_sequences() 함수를 이용하여 패딩을 구현했습니다. 아래 코드처럼 pad_sequenes()를 이용하여 코드를 입력하면 기본적인 패딩이 되는데요, import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer sentences = [['place', 'tree'], ['tree', 'nice', 'green'], ['nice', 'sky', 'and', 'tree'], ['bird', 'tree']] tokenizer= Tokenizer() tokenizer.fit_on_texts(sentences) encoded = tokenizer... 더보기
[자연어처리] 파이썬 코드로 패딩(Padding) 구현하기 - pad_sequences 패딩(Padding)이란, 데이터에 특정한 값을 채워서 데이터의 크기를 일괄적으로 조정하는 것을 말하는데요, 이때 특정한 값이 0이라면 이를 제로 패딩이라고 합니다. 한편, 케라스에서 패딩을 하기 위한 함수 'pad_sequences()'를 제공하는데요, 정수 인코딩이 된 값을 입력하면 패딩된 값으로 반환해줍니다. 한번 코드를 보면서 살펴보도록 하겠습니다. 1. 정수 인코딩하기 정수 인코딩을 하는 방법은 이전 글에서 자세하게 살펴보았는데요, 이에 대해서는 이전 글을 참고하시고, 바로 코드를 작성해보겠습니다. import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer sentences = [['place', 'tree'], ['.. 더보기