본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(농축수산) - 동의보감 약초 이미지 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #34 AIHUB(농축수산) - 동의보감 약초 이미지 데이터 산에서는 다양한 약초가 자라고, 그 효능과 기능에 따라 상품성이 알려지면서 약초를 캐는 사람들이 많아졌는데요, 종종 부정확한 정보로 약초가 아닌 독초를 오용해 중독사고가 발생한 사례들을 찾아볼 수 있습니다. 이러한 경우, 민간에서 채취 및 복용하는 약초는 전적으로 개인의 책임으로 돌아가게 됩니다. 따라서 정확하게 분별하여 약초를 캐는 것이 중요한데요, 아무래도 비슷하게 생긴 풀들 사이에서 원하는 약초를 찾는 일은 전문가가 아니라면 어려울 수 있습니다. 따라서, 이와 관련해서 AIHUB에서는 생활 속 자연 약초의 안전 이용 기준 및 정확한 판별에 대한 도움을 제공하고자 '동의보감 약초 이미지' 데이터를 .. 더보기
[데이터 리뷰] AIHUB(국토환경) - 열화상 카메라 이미지 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #33 AIHUB(국토환경) - 열화상 카메라 이미지 데이터 산업단지 내에서의 화재 발생으로 인한 인명 피해나 재산 피해 사건은 끊이지 않는데요, 기존에 화재 경보 시스템이 있더라도 더욱더 정확하게 화재를 미연에 방지할 수 있는 시스템이 구축되어야 합니다. 따라서 머신러닝 및 딥러닝으로 학습된 인공지능을 활용한 화재 방지 시스템에 대한 연구가 계속 진행되고 있는데요, 학습을 위해서는 아무래도 여러 이미지 데이터에 대한 수집이 필요할 수 있습니다. 이와 관련해서 AIHUB에서는 '열화상 카메라 이미지' 데이터를 제공하고 있는데요, 열화상을 통해 주요 객체의 이상 상황을 감지하는 열화상 영상(이미지) AI 데이터로, 산업단지 내 각종 재난과 안전사고를 감지하는 모델.. 더보기
[데이터 리뷰] AIHUB(국토환경) - 토지 피복지도 항공위성 이미지 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #32 AIHUB(국토환경) - 토지 피복지도 항공위성 이미지 데이터 토지 피복지도란 아래와 같이 특정한 지리 특성만을 선택적으로 표현한 지도(주제도)로, 지구표면 지형지물의 형태를 일정한 과학적 기준에 따라 분류해 동질의 특성을 지닌 구역을 같은 색으로 나타낸 지도를 말합니다. 토지 피복지도와 관련해서 AIHUB에서는 항공사진과 위성영상으로부터 토지피복을 분석할 수 있는 AI학습데이터셋을 구축하고자 '토지 피복지도 항공위성 이미지 데이터(강원, 충청, 수도권)'를 제공하고 있습니다. 지금 현재 오픈소스 기반의 딥러닝 기술들이 개발됨으로써 하드웨어 인프라와 알고리즘이 급속도로 발전하고 있는데요, 이에 반해 토지피복 분류 관련 데이터는 매우 부족하다고 합니다. 따.. 더보기
[데이터 리뷰] AIHUB(국토환경) - 한국형 사물 이미지 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #31 AIHUB(국토환경) - 한국형 사물 이미지 데이터 4차 산업 혁명 시대가 도래함으로써 인공지능 사물 이미지 인식 기술은 점점 업그레이드되고 있는데요, 이러한 기술은 자율주행, 스마트시티 및 제조 등 다양한 산업분야에서 활용 가능한 기술입니다. 하지만 이러한 기술을 만들려면 학습 데이터가 많이 필요한데요, 대부분의 데이터가 해외에서 구축된 데이터이기 때문에 아무리 학습을 시켜도 한국에서 상용화가 어려울 수밖에 없습니다. 따라서 한국에서 활용할 수 있는 사물 이미지 인식 기술을 발전시키기 위해서는 국내 특성에 맞는 AI 학습 데이터가 필요합니다. 이와 관련해서 AIHUB에서는 국내 장소와 상품에 대한 인공지능 기반의 시각지능 기술 개발 및 서비스 강화 목적.. 더보기
[데이터 리뷰] AIHUB(국토환경) - 생활 폐기물 이미지 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #30 AIHUB(국토환경) - 생활 폐기물 이미지 데이터 환경오염으로 지구 온난화가 발생하고, 각종 지역에서 예상치 못한 기후 변화와 자연재해 등이 발생하는 사례들을 볼 수 있는데요, 환경오염의 주범 중 하나는 바로 생활 폐기물입니다. 생활 속에서 발생되는 다양한 폐기물을 환경 친화적으로 처리하기 위한 방법 중 하나는 바로 분리수거를 하는 것인데요, 개인이 분리수거만 잘해도 30~40%의 폐기물을 재활용할 수 있다고 합니다. 하지만 많은 분들이 각종 생활폐기물에 대해 분리수거 기준을 잘 몰라 잘못 분리수거 하는 일도 있곤 하는데요, 이와 관련해서 AIHUB에서는 폐기물 자원 관리와 효율화를 위해 인공지능 기반 생활 폐기물 탐지 및 분류를 위한 '생활 폐기물 이.. 더보기
[데이터 리뷰] AIHUB(국토환경) - 관광 지식베이스 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #29 AIHUB(음성/자연어) - 관광 지식베이스 데이터 4차 산업혁명 시대 속에서 각 국가 및 기업들은 인공지능 기술개발을 위한 기계학습 데이터 구축 등 관련 인프라 구축을 활발하게 진행 중인데요, 특히 많은 이미지 학습데이터를 기반으로 한 이미지 인식 기술을 지속적으로 연구 및 개발하고 있다고 합니다. 이러한 흐름에 발맞춰, 국내에서도 기계학습에 필요한 다양한 패턴의 고품질 이미지 데이터 확보를 위해 다양한 영역에서의 이미지 데이터를 구축하고 있다고 합니다. 이와 관련해서 AIHUB에서는 '관광산업'과 관련하여 국내 관광 및 인공지능 산업의 글로벌 경재력 강화를 위해 '관광 지식베이스' 데이터를 제공하고 있습니다. 이 데이터는 식당 주변 전경(간판, 입간판.. 더보기
[데이터 리뷰] AIHUB(음성/자연어) - 공공행정문서 OCR 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #28 AIHUB(음성/자연어) - 공공행정문서 OCR 데이터 대부분의 공공기관이나 공기업 등에서는 1년에 몇 만 건의 공공행정문서를 처리하는데요, 눈으로 일일이 보고 처리하는 데에 많은 시간과 불필요한 인력이 낭비되고 있습니다. 따라서, 이러한 공공행정문서들을 자동으로 인식하여 처리할 수 있는 기술 및 시스템은 필요시 되고 있답니다. 하지만 공공행정문서마다 그 형태나 포맷이 제각각이고, 인쇄체뿐만 아니라 손으로 작성된 문서도 있으며, 스캔된 문서 이미지를 이용한다는 점에서 해상도도 제각각일 수 있어서 특화된 기술, 높은 정확도의 기술이 요구됩니다. 이에 대해 이를 만족시킬 수 있는 기술 중 하나는 바로 OCR이라는 것인데요, OCR(Optical Charact.. 더보기
[데이터 리뷰] AIHUB(음성/자연어) - 한국어 SNS 대화 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #27 AIHUB(음성/자연어) - 한국어 SNS 대화 데이터 코로나19의 영향으로 언택트 시대가 되면서 점점 온라인상의 대화가 증가하고, 비대면 회의, 상담, 업무 등이 증가하게 되었습니다. 이렇게 의사소통이 대화 음성이나 텍스트로 이루어짐에 따라 관련 대화 데이터도 급속도로 증가하게 되었는데요, 이러한 데이터의 활용성을 높이기 위해 적절한 대화 처리 기술의 도입이 요구되고 있다고 합니다. 이와 관련해서 AIHUB에서는 한국어 구어체 텍스트 기반의 자연어처리 AI 기술 개발을 목적으로 한국인의 일상 대화 메신저 채팅 데이터를 구축한 '한국어 SNS 대화' 데이터를 제공하고 있습니다. 따라서 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고,.. 더보기
[데이터 리뷰] AIHUB(음성/자연어) - 논문자료 요약 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #26 AIHUB(음성/자연어) - 논문자료 요약 데이터 한 번쯤 논문을 찾아서 읽어본 경험이 있다면 공감하시겠지만, 논문에 이미지보다 글씨가 빽빽하게 있고, 수준 높은 어려운 내용들이 들어가 있다 보니 조금은 어렵고 딱딱하게 느껴질 수 있습니다. 거기에다 또, 만약 읽어야 할 논문이 많다면 논문 읽는 것에 대해 부담이 될 수도 있습니다. 하지만 만약 논문의 핵심내용을 뽑아 요약을 해주는 인공지능이 있다면 어떠할까요? 분명 많은 시간이 절약될 수 있고, 핵심적인 요약 내용을 먼저 읽고 논문을 읽으면 한층 이해하기 쉬워질 수 있습니다. 이와 관련해서 AIHUB에서는 다양한 주제의 한국어로 이루어진 학술논문이나 특허명세서에서 요약문을 도출해낼 수 있는 인공지능을 훈.. 더보기
[데이터 리뷰] AIHUB(음성/자연어) - 한국어 대화 요약 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #25 AIHUB(음성/자연어) - 한국어 대화 요약 데이터 코로나19의 장기화로 언택트 시대가 됨으로써, 인터넷 또는 sns 메신저를 통해 비대면 의사소통의 수요가 매우 증가했는데요, 이로 인해 온라인 상에 축적되는 의사소통 관련 텍스트 데이터가 엄청난 솓도와 규모로 축적되고 있다고 합니다. 하지만 이렇게 많은 텍스트 데이터를 본문 그대로 사용하여 활용하자면 그 양이 많기 때문에 대화 데이터의 활용성을 높이기 위해서는 대화 요약 기술의 도입이 요구된다고 합니다. 이와 관련해서 AIHUB에서는 뉴스, 기사 등의 문어체에 비해 생략이나 변형이 많고, 대화의 문맥을 고려해야 할 특수성이 있는 대화 요약 기술 개발을 위한 학습 데이터 구축을 목적으로 한 '한국어 대화.. 더보기