[웹크롤링] 두번씩 크롤링 되는 텍스트, 중복 제거하는 방법 - set()
적절한 태그를 찾아 크롤링을 했는데도, 동일한 텍스트가 두 번씩 추출되는 경우가 있을 수 있는데요, 이러한 경우는 속성 태그에 있는 텍스트가 함께 출력되었을 수 있습니다. 따라서 다시 적절한 태그와 속성값을 이용해 텍스트를 크롤링하는 것이 좋은데요, 이 방법 말고도 set() 함수를 이용하여 쉽게 해결할 수 있습니다. set() 함수는 리스트 안에서 중복된 데이터를 제거해주는 함수로, 만약 두 번씩 텍스트가 크롤링되어서 저장되었다면, set() 함수를 통해 중복된 데이터를 모두 제거할 수 있답니다. 먼저, 다음과 같이 텍스트를 크롤링해서 얻은 리스트가 있다고 가정해보겠습니다. list1 = ['사과', '사과', '딸기', '딸기', '바나나', '바나나', '수박', '수박', '포도', '포도'] 위..
더보기
[웹크롤링] 크롤링해서 얻은 텍스트, 앞 뒤 공백 제거하려면? - strip
크롤링을 하면 주로 텍스트를 추출하게 되는데요, 이때 추출한 텍스트 앞, 뒤로 공백이 같이 추출될 수 있습니다. 이러한 경우 공백을 제거한 뒤 저장하는 것이 나중에 분석 및 처리를 위해서도 좋은데요, 어떻게 하면 앞, 뒤 공백을 제거할 수 있는지 살펴보도록 하겠습니다. - strip() : 문자열 앞 뒤 공백 제거하기 먼저, 다음과 같이 뉴스 기사 제목을 크롤링해서 저장한 리스트가 있다고 가정해보겠습니다. news = [' KBS \'절반 억대연봉\' 사과에…나경원 "수신료인상 반대" ', ' SK하이닉스 성과급 불만에 최태원 "작년 연봉 전부 반납" 선언', " 안철수-금태섭 채널 열렸다…野 '계단식 단일화론' 급물살(종합)" , '與, 법관탄핵안 161명 공동발의…4일 국회통과 유력(종합) ', ' ..
더보기
[데이터분석] matplotlib : 에러바(Errorbar, 오차막대) 그리는 방법
그래프를 보면 오차막대라고도 하는 에러바가 그려진 그래프를 볼 수 있는데요, 이 에러바는 데이터의 편차를 나타냅니다. matplotlib 라이브러리에서도 이 에리바가 그려진 그래프를 그릴 수 있게 함수를 제공하는데요, 어떻게 사용해야 하는지 아래 코드를 보면서 살펴보도록 하겠습니다. - errorbar() : 에러바 그리기 먼저, 간단한 그래프를 그려보도록 하겠습니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 4, 9, 16, 25] plt.plot(x,y) plt.show() 위 코드에서는 그래프를 그리기 위해 plot() 함수를 사용했는데요, 만약 에러바가 나오는 그래프를 그리려면 errorbar() 함수로 변경하고, 추가로 편차가 입..
더보기
[데이터분석] matplotlib : 타이틀(제목) 위치 설정하는 방법 - title
matplotlib 라이브러리는 그래프를 쉽고 간단하게 그릴 수 있도록 기능을 제공하는 라이브러리인데요, 이번 글에서는 그래프에서 타이틀을 설정하고, 위치를 설정하는 방법에 대해서 살펴보도록 하겠습니다. 1. 타이틀 설정하기 우선, 그래프를 그려보도록 하겠습니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 4, 9, 16, 25] plt.plot(x,y) plt.show() 위 그래프는 타이틀이 설정되어 있지 않은 상태인데요, title() 함수를 추가해서 제목을 지정해보겠습니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 4, 9, 16, 25] plt.plot(x,y) pl..
더보기
[데이터분석] matplotlib : 원형 마커로 그래프 나타내기
matplotlib 라이브러리로 그래프를 그릴 때, 특정한 설정이 없다면 선 그래프로 그려지는데요, 그래프를 원형 마커가 표시된 그래프로 나타낼 수 있답니다. 한번 아래 코드를 보면서 살펴보도록 하겠습니다. 먼저, 아래와 같이 기본적인 그래프를 그려보도록 하겠습니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 4, 9, 16, 25] plt.plot(x,y) plt.show() 그래프를 그리는 함수로 plot(x, y) 함수를 사용했는데요, 기본적으로 선 그래프로 나오는 것을 확인할 수 있습니다. 만약, 원형 마커로 찍힌 그래프로 그리고 싶다면 아래 코드처럼 plot() 함수를 plot(x, y, 'bo') 로 변경해서 입력하면 됩니다. i..
더보기