본문 바로가기

BLOG/웹크롤링

[웹크롤링] 이모티콘, 텍스트나 이미지로 변경해서 크롤링 하는 방법

웹 크롤링을 할 때, 이모티콘의 경우 텍스트로 인식이 되지 않아서 오류가 발생하기도 하는데요, 이러한 경우엔 이모티콘을 다른 글자나 이미지로 변경해서 저장하도록 하는 코드를 작성해야 합니다.

그렇다면 아이콘이나 이모티콘을 글자로 변경하는 코드에 대해서 알아보도록 하겠습니다.

 

 

- 이모티콘, 텍스트나 이미지로 변경하기

먼저 코드부터 보도록 하겠습니다.

 

bmp_map = dict.fromkeys(range0x1000,sys.maxunicode + 1), 0xfffd)

try :
    title = li.find('div',textcontents) 
except AttributeError :
    print(title.replace("\n","")
else :
    title2 = title1.transiate(bmp_map).replace("\n","")  

 

위 코드는 특정 페이지에서 텍스트를 크롤링을 수행하는 코드인데요,

텍스트가 있으면 해당 텍스트를 저장하고, 텍스트가 없어서 AttributeError가 나면 공백으로 입력한 뒤 넘어가고, 이 두 가지 경우가 아닌, 즉 이모티콘이 나오면 이를 문자(공백)으로 넘어간다는 뜻의 코드입니다.

 

첫 번째줄에서 비트맵 이미지에 대한 정의가 되어있는데요, 마지막 줄 코드에서 이러한 비트맵 이미지가 있다면 이를 공백("\n")으로 바꿔서 저장한다는 코드입니다.

 

 

위 코드는 인스타, 페이스북, 댓글 등에 있는 텍스트를 크롤링할 때 많이 사용되는데요,

잘 숙지했다가 적절히 사용하시기 바랍니다!