글이나 뉴스 기사 등을 크롤링할 때, 텍스트 앞 뒤로 '\n' 라는 문자가 같이 출력되는 것을 종종 볼 수 있는데요, '\n'은 줄 바꿈을 의미하는 문자로, 의미가 없기 때문에 삭제하고 저장하는 것이 좋습니다.
한편, '\n'이라는 문자를 없애기 위해 replace 함수를 사용할 수 있는데요, replace 함수는 특정 문자를 다른 문자 또는 공백으로 대체하는 기능을 한답니다. 따라서 '\n' 라는 글자를 아무 문자가 들어있지 않은 ""(공백) 으로 바꾼다면 해당 문자가 삭제되는 것과 같아지게 됩니다.
replace() 함수는 replace("바꾸기 전 문자", "바꾼 후의 문자") 로 코드를 작성하면 되는데요,
아래와 같이 '\n' 이 포함된 문자열 str1이 있다고 가정할 때, replace를 이용하여 '\n' 문자를 삭제해보겠습니다.
str1 = '\n\n안녕하세요\n\n'
str1 = str1.replace("\n","")
위와 같이 입력한 후, str1을 print() 함수를 이용하여 출력하면 '안녕하세요' 만 출력이 된답니다.
즉, replace() 함수에 의해 '\n' 문자가 없어졌음을 확인할 수 있습니다.
이렇게, 텍스트를 크롤링했을 때, '\n' 문자를 없애주는 방법에 대해 살펴보았는데요,
각자의 크롤링하는 코드와 잘 결합해서 사용하면 좋을 것 같습니다.
'BLOG > 웹크롤링' 카테고리의 다른 글
[웹크롤링] 에러가 나는 경우 try / except 문으로 해결하기 (0) | 2021.03.19 |
---|---|
[웹크롤링] 크롤링 데이터 저장 - 중복되지 않는 폴더 생성 방법 (현재 날짜 / 시간 사용) (0) | 2021.03.19 |
[웹크롤링] 이모티콘, 텍스트나 이미지로 변경해서 크롤링 하는 방법 (0) | 2021.03.19 |
[웹크롤링] 텍스트 입력 시 글자가 생략되거나 오타가 나는 문제, 해결 방법은? (0) | 2021.03.19 |
[웹크롤링] 크롤링 수행 시간 측정하기 - time (0) | 2021.03.19 |