본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(비전) - 한국어 글자체 이미지 데이터

 

데이터 리뷰 : 데이터 대신 읽어드립니다!
#23 AIHUB(비전) - 한국어 글자체 이미지 데이터

 

 

 

 차량 번호판 인식 또는 문서를 사진 찍으면 글씨가 자동으로 인식되는 서비스 등을 한 번쯤은 사용해보셨을 수 있는데요, 이러한 기술 모두 인공지능이 글자 이미지를 학습하여 해당 글자를 인식하게 되는 기술입니다. 이러한 기술은 특히 종이문서를 디지털화하여 업무처리를 자동화하거나 시각장애우를 위한 서비스 개발을 위해 많이 연구되고 있다고 합니다.

 

이와 관련해서 인공지능 빅데이터 플랫폼인 <AIHUB>에서는 현대 한글 11172자를 가장 많이 활용하는 폰트 50종을 선정하여 해당 글자체의 이미지와 인공지능 글자 인식을 위한 학습용 데이터 셋인 '한국어 글자체 이미지' 데이터를 제공하고 있습니다. 그렇다면 이번 데이터 리뷰기에서는 이 데이터가 어떻게 구성되어 있는지 리뷰해보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다!

 

 

 

 

 

한국어 글자체 이미지 데이터

 

(1) 데이터 정보

 

'한국어 글자체 이미지' 데이터는 손글씨 이미지 약 300만 장, 인쇄체 이미지 약 300만 장으로 구성되어 있는 데이터로, 한글 자음과 모음, 받침 자음 조합수에 따른 총 11172자에 대한 이미지를 담고 있습니다.

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 데이터의 일부분인 샘플 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

데이터를 다운로드하면 해당 폴더 안에 '손글씨체' 폴더와 '인쇄체' 폴더가 있는데요, 먼저 손글씨체 이미지를 살펴보도록 하겠습니다.

 

 

# 손글씨체 이미지

 

 

위에 3개의 이미지는 손글씨체 데이터인데요, 다양한 단어에 대해 손글씨로 적은 것을 촬영한 이미지 데이터입니다. 이러한 데이터가 약 300만 장이나 있는 것인데요, 손글씨 데이터는 다양성을 확보하기 위해 성별, 연령층 별로 손글씨 작성 인력을 확보한 뒤, 직접 작성한 손글씨를 이미지 파일과 어노테이션 데이터 셋으로 구축하였다고 합니다. 어노테이션 데이터는 json 형식으로 이루어져 있고, 해당 데이터를 확인하면 각 이미지가 어떠한 글자를 담고 있는지 담겨 있답니다.

 

 

# 인쇄체 이미지

 

 

 

그다음에 위 이미지는 인쇄체 이미지 데이터인데요, 마찬가지로 종이에 인쇄된 각 글자를 촬영한 이미지 데이터입니다. 마찬가지로 1개의 json 파일이 포함되어 있어 각 이미지가 어떤 글자인지 알 수 있습니다.

 

 

#Text in the Wild

한편, Text in the Wild(실사 데이터)라고 분류된 이미지 데이터가 있는데요,

 

위와 같이 일상생활 공간에서 쉽게 볼 수 있는 간판, 상표, 교통표지판 등의 한글이 들어있는 이미지 10만 장을 촬영하고, 이미지 내 한글위치(바운딩 박스, 좌표)와 한글 어노테이션 데이터 셋을 구축한 데이터입니다.

 

 

(3) 데이터 활용

 그렇다면 손글씨체, 인쇄체, 실사 이미지 데이터로 이루어진 '한국어 글자체 이미지' 데이터셋을 이용하여 어떻게 활용하면 좋을까요?

 

먼저 기본적으로는 해당 글자 이미지에 대해 인공지능이 학습을 하고, 글자를 정확성 있게 예측 및 판단할 수 있어야 할 것입니다. 이러한 모델이 구축된다면, 앞서 언급했듯이 이미지 문서 처리 또는 종이문서의 디지털화 서비스로 이어질 수 있는데요, 구체적으로 설명하자면 서류나 문서를 자동으로 분류하거나, 자동으로 엑셀 등 프로그램에 데이터가 기입되도록 할 수 있지 않을까 싶습니다. 또한 문서 요약이나 키워드 추출을 통해서 업무처리를 자동화시킬 수도 있지 않을까 싶습니다. 현재 활발하게 사용되는 사업자등록서, 민증, 통장 자동 인식 서비스가 그 한 예가 될 수 있겠죠~?

 

또한 문서 처리 말고도 이미지에 있는 글자를 인식하면 음성 서비스로도 연결할 수 있는데요, 이는 시력이 약한 노인분들 또는 시각장애우를 위한 음성 안내 서비스로도 활용이 가능할 수 있습니다. 이러한 서비스가 개발된다면 한층 더 삶의 질을 높일 수 있는 서비스가 될 수 있지 않을까 싶습니다!

 

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr

 

 오늘 리뷰한 '한국어 글자체 이미지' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '비전' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '비전' 카테고리에 있는 데이터였는데요, 비전 카테고리는 말 그대로 시각적인 요소가 포함되어 있는 이미지, 비디오 데이터 등을 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 한국어, 한국인, 한국건물, 한국음식 등 서양보다는 우리나라에 맞춰져 있는 데이터들이 있기 때문에 상당히 활용하기에 적합한 데이터이기도 합니다. 

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '한국어 글자체 이미지' 데이터를 리뷰해보았는데요, 다음 리뷰기에서는 다른 카테고리인 '음성/자연어' 카테고리의 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D