본문 바로가기

DINOLEARNING

[에어] 'KcELECTRA' 로 악성댓글 분류 모델 만들기 (파이썬/Colab) 에어 프로젝트 #7 KcELECTRA 로 악성댓글 분류 모델 만들기 인터넷에 게시된 댓글을 읽다보면 우리는 수많은 악플을 마주하게 된다. 따라서 많은 기업들은 이를 자동으로 처리하기 위한 여러가지 방법들을 도입해 최대한 욕설이나 혐오표현들을 포함한 악성댓글이 게시되지 않도록 하고 있다. 예를 들어, 필터링을 거쳐 다른 언어로 바꾸거나, 욕설에 대해 ****와 같은 마스킹 처리를 하는 등 다양한 노력을 기울이고 있다. 하지만, 비속어를 사용하지 않고도 특정 성별, 인종을 비하하는 혐오표현을 사용하거나 강한 비난표현을 통해 상대를 모욕하는 등 방법은 다양하다. 때로는 욕설이 아님에도 필터링에 의해 욕설로 인식하는 문제가 발생하기도 한다. 그렇다면 어떤 방식으로 효율적이고 정확하게 악성댓글을 탐지할 수 있을까.. 더보기
[오픈소스 리뷰기] 카카오브레인의 문자생성 트랜스포머 모델 "KoGPT" 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #18 카카오브레인의 문자생성 트랜스포머 모델 "KoGPT" 안녕하세요. 디노랩스입니다! 2021년도 이제 얼마 남지 않았는데 연말 잘 보내고 계신가요? :) 오늘 소개 해 드릴 오픈소스 모델은 GPT라는 모델인데요, 리뷰에 앞서 먼저 KoGPT가 무엇인지 소개 해 드릴게요! GPT는 Generative Pretrained Transformer 의 약자로 말그대로 문자를 생성하는 사전학습된 트랜스포머 모델입니다. Transformer 모델은 2017년 발표된 "Attention Is All You Need" 라는 논문에서 소개된 모델로 발표 이후 NLP 분야의 대표모델로 자리잡았는데요. 2020년 5월 GPT-3 발표 이후 언론에서는 드디어 인공.. 더보기
[오픈소스 리뷰기] Pororo 자연어처리 라이브러리(3)Seq2Seq 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #17 Pororo 자연어처리 라이브러리(3)Seq2Seq 안녕하세요. 디노랩스입니다! 지난 두번의 포스팅에 이어 Pororo 라이브러리를 활용하여 자연어처리와 관련된 다양한 task에 적용하는 방법을 알아보고 있는데요. 오늘은 그 마지막 'Seq2Seq' task에 적용하는 방법을 알려드리려고 합니다! Seq2Seq Seq2Seq 는 말그대로 하나의 문장(sequence)를 입력으로 받아 다른 문장으로 반환하는 task를 말합니다. Seq2Seq 의 가장 대표적인 task로는 문장을 다른 언어로 된 문장으로 반환하는 번역이 있으며, 이외에도 문법오류수정, 문서요약, 질문생성 등 다양한 task가 있습니다. 그럼 Pororo 에서 지원하는 Seq.. 더보기
[오픈소스 리뷰기] Pororo 자연어처리 라이브러리(2)Sequence Tagging 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #16 Pororo 자연어처리 라이브러리(2)Sequence Tagging 안녕하세요. 디노랩스입니다! 지난포스팅에 이어 Pororo 라이브러리를 활용하여 자연어처리와 관련된 다양한 task에 적용하는 방법을 알아보고 있는데요. 오늘은 두번째 'Sequence Tagging' task에 적용하는 방법을 알려드리려고 합니다! Sequence Tagging Sequence Tagging 은 연속된 단어로 이루어진 텍스트를 입력으로 받아 각각의 단어가 문장에서 지니는 역할을 분석하는 task를 말하는데요, 단어가 지니는 역할은 '명사', '동사'와 같은 품사(Part of Speech)가 될 수도 있고 인물, 장소, 시간과 같은 개체명(Named En.. 더보기
[오픈소스 리뷰기] Pororo 자연어처리 라이브러리(1)Text Classification 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #15 Pororo 자연어처리 라이브러리(1)Text Classification 안녕하세요. 디노랩스입니다! 오늘 소개해 드릴 오픈소스는 카카오브레인에서 공개한 자연어처리 오픈 소스입니다! Pororo(Platform Of neuRal mOdels for natuRal language prOcessing)는 카카오브레인에서 공개한 자연어처리 오픈소스로 영어, 한국어, 중국어, 일본어 등 여러가지 언어로 30가지 이상의 자연어 처리 모델이 구현되어 있습니다. Pororo 라이브러리를 활용하면 간단한 코드 몇줄로 이전에 설명드린 KoBART를 활용한 문서요약 뿐만 아니라 개체명 인식, 기계 독해, 기계 번역, 요약, 감정분류 등 다양한 태스크를 손쉽.. 더보기
[오픈소스 리뷰기] 문서 추출 요약 모델 "KoBART_summarization" 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #14 문서 추출 요약 모델 "KoBART_summarization" 안녕하세요. 디노랩스입니다! KoBART는 SKT 에서 공개한 한국어 BART모델로 사전학습된 모델을 누구나 사용할 수 있도록 배포되었습니다. 이를 활용하여 챗봇, 번역, 기사요약 등 다양한 분야에서 finetuning 된 모델이 만들어지고 있고 사전학습된 모델 역시 누구나 간단한 코드 작성을 통해 사용할 수 있습니다. 이번 시간에는 사전학습된 KoBART를 활용햐여 학습된 뉴스 기사 요약 모델을 가져와 사용하는 방법을 알아보겠습니다. https://github.com/SKT-AI/KoBART GitHub - SKT-AI/KoBART: Korean BART Korean BART.. 더보기
[오픈소스 리뷰기] TTS(Text-to-Speech) 음성합성기술 API 이용하기 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #13 TTS(Text-to-Speech) 음성합성기술 API 이용하기 안녕하세요. 디노랩스입니다! 오늘 리뷰해드릴 오픈소스는 바로 TTS라는 기술을 이용해볼건데요. TTS는 Text to Speech의 약자로 한국어로 '음성합성'이라고 하는데요, 말소리의 음파를 기계가 자동으로 만들어 내는 기술입니다. 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이죠! 우리 주변에서도 쉽게 볼 수 있는 음성합성기술! API 함께 사용해 볼까요?ㅎㅎ 01_Google gTTS 가장 먼저 gTTS 모듈을 통해 .. 더보기
[오픈소스 리뷰기] 나만의 텔레그램 챗봇 만들기! 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #12 나만의 텔레그램 챗봇 만들기! 안녕하세요. 디노랩스입니다! 오늘 다뤄볼 오픈소스는 우리 일상생활에도 흔히 볼 수 있는 "챗봇"입니다. 챗봇(Chatbot)은 사용자가 컴퓨터와 대화하듯이 정보를 주고받는 인터페이스로 정보 안내·일정 관리·티켓 예매, 쇼핑 등 다양한 서비스에 이용될 수 있으며, 텔레그램·위챗·카카오톡 등의 다양한 메시지 플랫폼에서 구현할 수 있습니다. 메시지 플랫폼은 대부분 챗봇 인터페이스 구현을 위한 웹 API를 제공하고 있는데 이번 실습에서는 텔레그램을 활용하여 간단한 챗봇을 만들고 몇가지 기본기능에 대해 알아보겠습니다! 활용 파트에서는 공공API를 활용하여 코로나 알림 챗봇을 만들어 보고, 이번 실습을 완료한 뒤 활용파.. 더보기
[오픈소스 리뷰기] 네이버 검색광고 API 이용하기 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #11 네이버 검색광고 API 이용하기 안녕하세요. 디노랩스입니다! 지난 시간에 이어 이번 시간에는 네이버에서 제공하는 검색광고 API 활용법을 알아볼건데요. 데이터랩 API에서 제공했던 통합 검색어 트렌드, 쇼핑인사이트와는 다르게 검색광고 API에서는 키워드도구라는 기능을 제공합니다. 키워드도구를 사용하여 키워드 검색량을 조회할 수 있고 연관키워드들을 추출할 수 있는데, 이를 활용한다면 마케터 혹은 기획자들이 현업에서 요긴하게 사용될 거에요! >_ 도구 > API 사용관리 > 네이버 검색광고 API 서비스 신청 버튼을 눌러 이용신청을 완료해주세요! https://searchad.naver.com/ 네이버 광고 searchad.naver.com .. 더보기
[오픈소스 리뷰기] 네이버 데이터랩(2) - 쇼핑 인사이트 오픈소스 리뷰 : 슬기로운 오픈소스 사용법 리뷰해드립니다! #10 네이버 데이터랩(2) - 쇼핑 인사이트 안녕하세요. 디노랩스입니다! 오늘은 어제에 이어서 네이버 데이터랩 API 기능 중 쇼핑 인사이트! 활용하는 법을 소개해 드리려고 합니다. 쇼핑 인사이트도 마찬가지로 네이버 데이터랩 사이트(LINK)에서 제공하고 있고, 데이터랩 API를 활용하면 직접 데이터를 수집하여 사용 목적에 알맞게 데이터를 가공할 수 있으며 반복 작업이 필요한 경우 조금 더 효율적으로 데이터를 수집할 수 있습니다!! (1)API이용신청 먼저 마찬가지로 API 이용신청을 해야겠죠?ㅎㅎ 통합 검색어 트렌드 API 신청과 동일하게 쇼핑인사이트 API 이용을 위해서는 API 이용 신청을 해야합니다. 아래 링크에 접속하여 로그인한 뒤 애.. 더보기