본문 바로가기

BLOG/웹크롤링

[웹크롤링] 텍스트 크롤링 - '\n' 와 같이 불필요한 텍스트 없애기

글이나 뉴스 기사 등을 크롤링할 때, 텍스트 앞 뒤로 '\n' 라는 문자가 같이 출력되는 것을 종종 볼 수 있는데요, '\n'은 줄 바꿈을 의미하는 문자로, 의미가 없기 때문에 삭제하고 저장하는 것이 좋습니다.

 

한편, '\n'이라는 문자를 없애기 위해 replace 함수를 사용할 수 있는데요, replace 함수는 특정 문자를 다른 문자 또는 공백으로 대체하는 기능을 한답니다. 따라서 '\n' 라는 글자를 아무 문자가 들어있지 않은 ""(공백) 으로 바꾼다면 해당 문자가 삭제되는 것과 같아지게 됩니다.

 

replace() 함수는 replace("바꾸기 전 문자", "바꾼 후의 문자") 로 코드를 작성하면 되는데요, 

아래와 같이 '\n' 이 포함된 문자열 str1이 있다고 가정할 때, replace를 이용하여 '\n' 문자를 삭제해보겠습니다.

 

str1 = '\n\n안녕하세요\n\n'
str1 = str1.replace("\n","") 

 

위와 같이 입력한 후, str1을 print() 함수를 이용하여 출력하면 '안녕하세요' 만 출력이 된답니다.

즉, replace() 함수에 의해 '\n' 문자가 없어졌음을 확인할 수 있습니다.

 

 

이렇게, 텍스트를 크롤링했을 때, '\n' 문자를 없애주는 방법에 대해 살펴보았는데요,

각자의 크롤링하는 코드와 잘 결합해서 사용하면 좋을 것 같습니다.