본문 바로가기

BLOG/데이터 리뷰기

[데이터 리뷰] AIHUB(음성/자연어) - 논문자료 요약 데이터

데이터 리뷰 : 데이터 대신 읽어드립니다!
#26 AIHUB(음성/자연어) - 논문자료 요약 데이터

 

 

 

 

 한 번쯤 논문을 찾아서 읽어본 경험이 있다면 공감하시겠지만, 논문에 이미지보다 글씨가 빽빽하게 있고, 수준 높은 어려운 내용들이 들어가 있다 보니 조금은 어렵고 딱딱하게 느껴질 수 있습니다. 거기에다 또, 만약 읽어야 할 논문이 많다면 논문 읽는 것에 대해 부담이 될 수도 있습니다. 하지만 만약 논문의 핵심내용을 뽑아 요약을 해주는 인공지능이 있다면 어떠할까요? 분명 많은 시간이 절약될 수 있고, 핵심적인 요약 내용을 먼저 읽고 논문을 읽으면 한층 이해하기 쉬워질 수 있습니다.

 

이와 관련해서 AIHUB에서는 다양한 주제의 한국어로 이루어진 학술논문이나 특허명세서에서 요약문을 도출해낼 수 있는 인공지능을 훈련하기 위한 '논문자료 요약' 데이터를 제공하고 있습니다. 그렇다면 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다-!

 

 

 

 

 

 

논문자료 요약 데이터

 

(1) 데이터 정보

  • 제공기관 : 바이브컴퍼니
  • 데이터 개수 : 35만 개
  • 데이터 형식 : json
  • 데이터 구성 : 논문/특허명, 발행/등록일자, 파일명, 발행기관, 저자, 전체원문, 요약문, 섹션요약문 등
  • 다운로드 : https://aihub.or.kr/aidata/30712

 

'논문자료 요약 데이터'는 저작권 문제가 원천적으로 해결된 Open Access 한국어 학술 논문을 수집해, 논문의 전체(초록_abstract)와 섹션(논문 원문 중 섹션 일부_paragraph)에 해당하는 요약문을 작성하여 하나의 데이터셋으로 구축한 데이터입니다. 논문자료뿐만 아니라 특허명세서에 대한 요약 데이터도 제공하고 있는데요, 특허명세서는 전체 요약과 섹션에 해당하는 요약문이 데이터로 구축되어 있습니다.

 

이미지출처 : https://aihub.or.kr/aidata/30712

 

한편, 데이터 구축 과정은 위와 같은데요, 한국연구재단 학술지 인용색인, 특허정보원 키플리스 등에서 18만 건의 학술논문 및 17만 건의 특허 명세서를 수집한 뒤, 요약 작업을 위한 지문을 생성하여 데이터를 정제했다고 합니다. 그리고나서 논문 및 특허 전체 요약을 진행하고, 품질 검수 전담 인력을 통해 직접 검수한 뒤, 데이터셋으로 구축되었다고 합니다.

 

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 논문자료 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

 

 

(2) 데이터 리뷰

 논문자료 요약 데이터는 다양한 분야, 주제, 저자, 날짜를 구축대상으로 하여 특정 분야에 대한 요약 알고리즘의 편향 방지를 했다고 합니다. 또한 각 요약 데이터의 저자, 논문제목, 발행처, 발행기관, 발행일, 분야 등 구체적인 정보를 담고 있다고 합니다.

 

그렇다면 다운로드 받은 데이터를 열어서 첫 번째 데이터를 살펴보도록 하겠는데요, 데이터가 json 형식으로 이루어져 있기 때문에 python과 jupyter notebook을 이용하여 데이터를 열어보도록 하겠습니다.

 

import json

with open('논문요약1.json', 'r', encoding='UTF8') as f :
    json_data = json.load(f)
    
datas = json_data['data']
datas[0]

 

위 코드는 전체 파일을 열어서 첫 번째 요약 데이터를 출력하는 코드인데요, 코드를 실행하면 아래와 같이 출력된답니다.

 

{'doc_type': '논문',
 'doc_id': 'A201007211374',
 'title': '국내 검사실에서의 대변 검경 검사에 대한 내부정도관리 현황',
 'date': '2018',
 'reg_no': 'ART002294415',
 'ipc': '의약학',
 'issued_by': '대한진단검사의학회',
 'author': '권용준 (제1)|||원은정 (교신)|||기승정 (참여)|||김수현 (참여)|||신명근 (참여)|||신종희 (참여)|||서순팔 (참여)',
 'summary_entire': [{'orginal_text': '배경: 현재 대변검경검사에서는 적절한 정도관리물질이 없어 질관리가 미진한 실정이다. 본 연구의 목적은 설사변에서 발견되는 장내 기생충 현황을 알아보고, 대변 검경에 있어 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하고자 하였다. 방법: 본 연구는 대변배양이 의뢰된 검체 중 82건의 설사변을 대상으로 하였다. 현미경적 진단법은 직접도말법과 포르말린-에테르침전법으로 시행하였다. 작은와포자충, 람블편모충, 이질아메바에대해서는 ELISA 키트 (R-Biopharm) 및 xTAG® Gastrointestinal Pathogen Panel (Luminex Corporation) 을 이용하여 검사하였다. 이핵아메바와 블라스토시스티스 호미니스에 대해서는 특이 유전자를 타깃으로 하는 PCR을 수행하였다. 정도관리물질은 음성 대변 검체와 동해긴촌충의 충란을 섞어 제조하였다. 제조된 정도관리물질은 보존제 종류, 보관 온도, 보관 기간에 따라 안정성을 평가하였다. 결과: 총 82건의 설사변에서 현미경법으로는 유의한 기생충을 발견할 수 없었다. 작은와포자충, 람블편모충, 이질아메바에 대한 ELISA 결과, 82건 모두 음성이었다. xTAG® Gastrointestinal Pathogen Panel을 이용한 결과, 작은와포자충 2건과 람블편모충 1건의양성 소견을 보였다. 이핵아메바와 블라스토시스티스 호미니스 유전체에 대한 PCR 검사 결과, 이핵아메바 양성 10건, 블라스토시스티스 호미니스 양성 2건이 관찰되었다. 본 연구에서 제조한 고농도정도관리물질은 3개월 보관 시까지 2가지 보존제 및 보관 온도와무관하게 충란이 관찰되었다. 저농도 정도관리물질의 경우, 14일보관 시까지는 2가지 보존제 및 보관 온도와 무관하게 충란이 관찰되었지만, 3주 이후에는 관찰되지 않았다. 결론: 대변 검경용 정도관리물질의 제조에 있어서 국내 설사환자에서 주로 발견되는 이핵아메바와 블라스토시스티스 호미니스가 포함되는 것이 필요하고, 저농도 물질의 경우 안정성이 떨어질 수있음을 감안하여야 할 것이다.',
   'summary_text': '본 연구에서는 설사변에서 발견되는 장내 기생충 현황과 대변 검경에 있어 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하고자 했다. 검증 결과 82건의 설사변에서 현미경법으로는 유의한 기생충 발견이 없었다. 대변 검경용 정도관리물질의 제조에 있어서는 국내 설사환자에서 주로 발견되는 이핵아메바와 블라스토시스티스 호미니스가 포함되어야 하며 저농도 물질의 경우 안정성이 떨어질 수 있음을 감안하여 제조해야 할 것이다. '}],
 'summary_section': [{'orginal_text': '본 연구의 목적은 국내 임상 검사실에서 대변 검사의 내부정도 관리 현황을 파악하기 위한 것이다. 대변 검경 검사를 시행하고 있는 국내 임상 검사실을 대상으로 하여 대변 검사의 정도관리 수행에 관한 전자우편 설문을 시행하였다. 설문에 응답한 총 39개 기관 중 20개 기관(51.3%)에서 대변 농축법을 통한 검사를 수행한다고 답변하였으며, 28개 기관(71.8%)에서 생리식염수법을 이용한 슬라이드 검경만 하고 있다고 답변하였다. 응답한 기관 중 대부분(74.4%)이 적절한 정도관리 물질을 확보하기 어려워 내부정도관리를 시행하지 못하고 있다고 응답하였다. 오직 4개 기관(10.3%)이 정기적으로 염색약의 반응도를 점검하고 있었다. 적절한 외부정도관리법으로 선호하는 방법으로는 정도관리 슬라이드의 배포(43.6%)가 가장 많았고, 다음으로 정도관리 물질 자체의 배포(30.8%)나 가상 슬라이드(17.9%), 또는 이들의 조합(7.7%) 순이었다. 국내 검사실에서 대변 검경 시 흔하게 관찰되는 기생충은 간흡충(75%), 왜소아메바, 요충, 대장아메바 순이었다. 본 연구를 통해 국내 검사실에서 대변 검경 검사의 내부정도관리가 어려운 것은 표준화된 정도관리 물질과 체계의 부재에서 기인함을 알 수 있었다. 본 연구 결과가 향후 대변 검경 검사의 적절한 정도관리 체계의 구축에 기반이 되리라 기대한다.',
   'summary_text': '본 연구의 목적은 국내 임상 검사실에서 대변 검사의 내부정도 관리 현황을 파악하기 위한 것이다. 국내 임상 검사실을 대상으로 하여 대변 검사의 정도관리 수행에 관한 전자우편 설문을 시행하였다. 본 연구를 통해 국내 검사실에서 대변 검경 검사의 내부정도관리가 어려운 것은 표준화된 정도관리 물질과 체계의 부재에서 기인함을 알 수 있었다.'}]}

 

출력된 결과를 보면, 논문id, 논문제목, 날짜, 분야, 발행기관, 저자에 대해 알 수 있습니다. 반면 마지막 네 줄에 summary_entire는 논문 초록(abstract)의 원문, summary_text는 논문 초록의 요약, summary_section은 섹션 원문, summary_text는 섹션 요약문을 나타낸답니다.

 

논문에는 일반적으로 맨 처음에 초록(abstract)이 있는데요, 초록이란 전체 논문을 요약한 부분으로 각 섹션(도입, 연구내용, 과정, 결과 등)별로 요약된 내용으로 짧게 이루어져 있습니다. 따라서 초록을 읽으면 대충 이 논문이 무슨 연구를 했고 어떠한 결과를 냈는지 알 수 있습니다. 하지만 지금 살펴보는 논문 요약 데이터는 이 초록을 한번 더 요약한 것인데요, 아래 원문과 요약문을 비교해보면 핵심내용을 간추려 잘 요약되었음을 살펴볼 수 있습니다.

 

코드 실행 결과 캡쳐

 

요약문을 아무래도 사람이 요약한 것이기 때문에 연구 목적, 과정, 결과에 대한 내용이 잘 요약되었고, 기존에 있는 단어가 아닌 새로운 단어를 적절히 이용하여 문장들이 잘 합쳐지고 요약된 것 같습니다. 이러한 요약문 데이터셋은 요약 알고리즘의 학습 데이터셋이 되기에 매우 적합할 것 같지 않나요~?

 

반면, 섹션별 원문과 요약문은 아래와 같습니다.

 

코드 실행 결과 캡쳐

 

섹션 요약문의 경우 초록 요약문과는 조금 다른 게 원문에서의 문장을 거의 변형하지 않았다는 것인데요, 핵심적인 문장을 그대로 가져와 요약문을 만든 것 같습니다. 원문과 비교해보면 거의 문장이 똑같다는 것을 확인하실 수 있습니다.

 

그렇다면 두 번째 요약문 데이터도 빠르게 살펴볼까요~?

 

print(datas[1]['title'])
print(datas[1]['date'])
print(datas[1]['ipc'])
print(datas[1]['issued_by'])
print(datas[1]['author'])

#초록
print(datas[1]['summary_entire'][0]['orginal_text'])
print(datas[1]['summary_entire'][0]['summary_text'])

#섹션별
print(datas[1]['summary_section'][0]['orginal_text'])
print(datas[1]['summary_section'][0]['summary_text'])

 

Vibrio 임상 분리주의 균종 동정을 위한 dnaJ 및 16S rDNA의 서열 분석법 비교
2018
의약학
대한진단검사의학회
최인선 (제1)|||문대수 (참여)|||박 건 (참여)|||강성호 (참여)|||김춘미 (참여)|||안영준 (참여)|||김동민 (참여)|||윤나라 (참여)|||임동훈 (참여)|||신

#초록원문
배경: Vibrio 종에는 치명적인 패혈증을 일으키는 균종들도 포함되어 있어서 정확한 균종 동정이 매우 중요하다. 일부 비전형적인표현형을 보이는 균종이 있어 정확한 동정을 위해 적절한 분자 진단법의 도입이 필요하다. 방법: 본 연구에서는 Vibrio 임상 분리주 53주와 표준균주 8주가이용되었다. 분자 진단법으로는 dnaJ 유전자 서열 분석, 16S rDNA 서열 분석, gyrB V. vulnificus?특이적 PCR 서열 분석, gyrB V. navarrensis? 특이적 PCR 서열 분석, V. vulnificus hemolysin 유전자(vvh) PCR (V. vulnificus-특이적 PCR)를 시행하였다. 또한 16S rDNA 와 dnaJ 유전자, gyrB 유전자의 서열분석 결과를 토대로 계통수분석을 실시하였으며 상기 검사 결과를 종합하여 균의 최종 동정명이 결정되었다. 16S rDNA 서열 분석과 dnaJ 유전자 서열 분석 간의 일치율 분석은 카이 제곱 검정을 이용하였다. 결과: 61주의 Vibrio 균주의 최종 균종명 분포를 내림차순으로 배열하면 다음과 같다: V. vulnificus (78.69%), V. parahaemolyticus (6.56%), V. navarrensis (4.92%), V. mimicus (1.64%), V. cholera (1.64%), V. furnissii (1.64%), V. alginolyticus (1.64%), Grimontia hollisae (1.64%). dnaJ 유전자 서열 분석의 정확도는 91.80%였고16S rDNA 서열 분석의 정확도는 86.89%였다. dnaJ 유전자 서열 분석법과 16S rDNA 서열 분석법 간의 일치도는 0.45로서, 중등도의일치도였다. 결론: 본 연구는 dnaJ 유전자 서열 분석법이 서로 밀접히 관련된Vibrio 종 간의 정확한 균 종정에 유용한 방법이라는 것을 보여주었다.

#초록요약

Vibrio 균종의 정확한 동정을 위해 적절한 분자 진단법의 도입이 필요하기에 본고에서는 Vibrio 임상 분리주 53주와 표준균주 8주를 이용하여 서열분석을 실시하였다. 그 결과 dnaJ 유전자 서열 분석법이 Vibrio 종 간의 정확한 균 종정에 유용한 방법이라는 것을 알 수 있었다.

#섹션원문
임상에서 분리된 Vibrio 균종의 동정에 16S rDNA 서열 분석법과 dnaJ 유전자 서열 분석법의 두 가지 분자생물학적 검사법을 적용하여 동정의 정확도를 비교하였을 때 dnaJ 유전자 서열 분석법이 더 높은 정확도를 보였다. 예를 들면 16S rDNA 분석으로는 V.cholerae와 V. mimicus 간에, 그리고 V. alginolyticus와 V. campbelli 간에 잘 구별이 되지 않았지만 dnaJ 유전자 서열 분석법으로는 이들이 잘 감별되어 정확히 동정되었다. 또한 V.parahaemolyticus 4주 중 2주가 16S rDNA 분석으로는 V. alginolyticus/V. campbelli로 잘못 동정되었으나 dnaJ 유전자 서열 분석으로는 4주 모두 정확히 동정되었다. 이러한 결과는 dnaJ 유전자 서열 분석법이 더 분별력이 우수했다고 했던 Nhung 등의 연구에 일치하는 결과였다. 16S rDNA 서열 분석으로 잘 구별되지 않는 세균들을 dnaJ 유전자 서열 분석이 더 잘 구별해내는 이유는 16S rDNA (97.2%)에 비해 dnaJ 유전자의 평균 연쇄상동성(77.9%)이 유의하게 낮아서 dnaJ 유전자의 식별력이 우수한 데 기인한 것으로 설명되고 있다. 16S rDNA 서열 분석법과 dnaJ 유전자 서열 분석법의 균종별 동정률을 비교해보면 임상에서 흔히 동정되어 본 연구의 대부분을 차지하였던 V. vulnificus 균종에 대해서는 16S rDNA가 더 높은 일치도를 보였으나 그 외의 균종군에 대해서는 현격히 낮은 동정률을 보였다. dnaJ 유전자 서열 분석법과 16S rDNA 서열 분석법의 검사결과의 일치도는 0.45로서 중등도의 일치도에 해당하였다. 이러한 결과는 Vibrio 균종 간 연관성을 dnaJ 서열과 16SrDNA 서열에 근거를 두어 각각 분석했을 때 양자의 결과는 어느 정도 일치되어 비교적 연관성이 있었다는 Nhung 등의 결과와 유사한 결과였다.

#섹션요약
임상에서 분리된 Vibrio 균종의 동정에 16S rDNA 서열 분석법과 dnaJ 유전자 서열 분석법의 두 가지 분자생물학적 검사법을 적용하여 동정의 정확도를 비교하였을 때 dnaJ 유전자 서열 분석법이 더 높은 정확도를 보였다. 그 이유는 16S rDNA에 비해 dnaJ 유전자의 평균 연쇄상동성이 유의하게 낮아서 dnaJ 유전자의 식별력이 우수한 데 기인한 것으로 설명되고 있다.

 

두 번째 요약 데이터도 살펴보면, 초록과 섹션에 대한 요약이 잘 된 것을 확인할 수 있습니다. 

다만, 요약문인 초록을 한번 더 요약한다는 점에서 해당 요약문이 논문의 전부를 대표할 수 있다고 하기엔 어려울 것 같은 게 조금 아쉬운 것 같습니다.

 

 

(3) 데이터 활용

 그렇다면 '논문자료 요약' 데이터를 가지고 어떻게 활용할 수 있을까요?

우선, 데이터 구축 목적답게 한글로 이루어진 논문을 요약하는 인공지능을 훈련하기 위한 학습 데이터로 활용할 수 있습니다. 특히 영어가 아닌 한글로 이루어진 데이터셋이라는 점에서 큰 의미가 있는데요, 기존에는 영어로 이루어진 요약 데이터셋만 많고, 한글로 이루어진 요약 데이터셋이 잘 없기 때문입니다. 또한 몇 십만 개의 데이터를 만드려면 요약문을 일일이 만드는 데 많은 시간이 소요되기 때문입니다. 하지만 특허명세서 요약문을 합쳐 약 70만 개의 요약문이 있다는 점에서 학습데이터로 큰 가치가 있다고 생각합니다.

 

이렇게 요약 데이터셋으로 학습된 인공지능이 만들어지면, 새로운 논문 요약뿐만 아니라 특허 요약, 한국형 문서 요약 등에 유용하게 사용되지 않을까 싶습니다. 또한 요약문에서 핵심 키워드를 추출하여, 원하는 키워드의 논문을 검색했을 때 해당 키워드가 담긴 논문을 추천해주는 서비스를 제시할 수 있지 않을까 싶습니다!

 

한편, 요약과 관련된 프로젝트가 현재 블로그에 있는데요, 뉴스 기사 본문을 요약한 것으로, 이 프로젝트에 사용했던 뉴스 기사 데이터를 이 요약 데이터로만 바꾸면 논문요약 알고리즘을 만들 수 있는 것인데요, 완전체 코드가 포함되어 있으니 관심이 있으신 분들은 살펴보시기 바랍니다!

(https://dinolabs.tistory.com/288?category=1203530)

 

[에어] TextRank 로 크롤링한 뉴스 기사 요약 모델 만들기 (파이썬/Colab)

에어 프로젝트 #4 TextRank로 크롤링한 뉴스 기사 요약 모델 만들기 현재 온라인의 주요 플랫폼에서는 여러 분야의 다양한 정보들을 뉴스기사, 포스팅, 영상 등 다양한 형태로 제공하고 있다. 예를

www.dinolabs.ai

 

 

 

 

 

# AIHUB

 

https://aihub.or.kr

 

 오늘 리뷰한 '논문자료 요약' 데이터는 <AIHUB(AI 허브)>에서 다운로드 받은 '음성/자연어' 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

 

 

한편, 오늘 살펴본 데이터는 '음성/자연어' 카테고리에 있는 데이터였는데요, 음성/자연어 카테고리는 음성 파일로 이루어진 데이터나 기계독해 등 텍스트와 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 한국어, 한국인 음성, 한글로 이루어진 텍스트 등 서양보다는 우리나라에 맞춰져 있는 데이터들이 있기 때문에 상당히 활용하기에 적합한 데이터이기도 합니다. 

 

 

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지 살펴볼 수 있답니다.

 

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 '논문자료 요약' 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 '자연어/음성' 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! :D