웹 크롤링을 할 때, 이모티콘의 경우 텍스트로 인식이 되지 않아서 오류가 발생하기도 하는데요, 이러한 경우엔 이모티콘을 다른 글자나 이미지로 변경해서 저장하도록 하는 코드를 작성해야 합니다.
그렇다면 아이콘이나 이모티콘을 글자로 변경하는 코드에 대해서 알아보도록 하겠습니다.
- 이모티콘, 텍스트나 이미지로 변경하기
먼저 코드부터 보도록 하겠습니다.
bmp_map = dict.fromkeys(range0x1000,sys.maxunicode + 1), 0xfffd)
try :
title = li.find('div',textcontents)
except AttributeError :
print(title.replace("\n","")
else :
title2 = title1.transiate(bmp_map).replace("\n","")
위 코드는 특정 페이지에서 텍스트를 크롤링을 수행하는 코드인데요,
텍스트가 있으면 해당 텍스트를 저장하고, 텍스트가 없어서 AttributeError가 나면 공백으로 입력한 뒤 넘어가고, 이 두 가지 경우가 아닌, 즉 이모티콘이 나오면 이를 문자(공백)으로 넘어간다는 뜻의 코드입니다.
첫 번째줄에서 비트맵 이미지에 대한 정의가 되어있는데요, 마지막 줄 코드에서 이러한 비트맵 이미지가 있다면 이를 공백("\n")으로 바꿔서 저장한다는 코드입니다.
위 코드는 인스타, 페이스북, 댓글 등에 있는 텍스트를 크롤링할 때 많이 사용되는데요,
잘 숙지했다가 적절히 사용하시기 바랍니다!
'BLOG > 웹크롤링' 카테고리의 다른 글
[웹크롤링] 크롤링 데이터 저장 - 중복되지 않는 폴더 생성 방법 (현재 날짜 / 시간 사용) (0) | 2021.03.19 |
---|---|
[웹크롤링] 텍스트 크롤링 - '\n' 와 같이 불필요한 텍스트 없애기 (0) | 2021.03.19 |
[웹크롤링] 텍스트 입력 시 글자가 생략되거나 오타가 나는 문제, 해결 방법은? (0) | 2021.03.19 |
[웹크롤링] 크롤링 수행 시간 측정하기 - time (0) | 2021.03.19 |
[웹크롤링] 이미지 크롤링해서 저장하는 방법 - urlib (0) | 2021.03.19 |