[웹크롤링] 'title', 'src', 'href' 속성에 있는 텍스트 크롤링하기
웹 크롤링을 하다 보면, 'title', 'src', 'href' 속성에 있는 텍스트 또는 url을 크롤링해야 할 수 있는데요, 태그 이름 또는 클래스 이름으로 찾는 방법은 쉽지만 title, src, href과 같은 속성으로 텍스트를 추출하는 방법을 잘 모를 수 있습니다. 따라서 코드를 살펴보면서 크롤링하는 방법에 대해서 알아볼건데요, 예시로 아래 이미지처럼 네이버 뉴스 기사에서 '서울경제'라는 이미지가 있는 태그에서 '서울경제'라는 텍스트를 추출해보겠습니다. 오른쪽 태그를 더 자세히 보면, 라는 상위 태그 아래 태그에 'title'속성에 '서울경제'라는 텍스트가 적혀있는 것을 확인할 수 있습니다. 이제 이 텍스트를 크롤링하는 코드에 대해서 살펴보도록 하겠습니다. url = https://news.na..
더보기
[데이터분석] 여러 리스트로 데이터 프레임 만들고 엑셀(excel)로 저장하기
1. 리스트로 데이터 프레임 만들기 여러 리스트가 있다면 이러한 리스트를 모아서 데이터프레임을 만들 수 있는데요, 아래와 같이 3개의 리스트가 있다고 가정해보겠습니다. item = ['아메리카노', '라떼', '차', '에이드', '쥬스'] price = [3500, 4000, 4500, 5000, 4000] rating = [4.2, 3.4, 4.4, 4.0, 3.9] 그리고나서, 위 리스트로 'cafe' 라는 이름의 데이터프레임을 만들고 출력해보겠습니다. import pandas as pd cafe = pd.DataFrame() cafe['항목'] = item cafe['가격'] = price cafe['별점'] = rating display(cafe) # output : 항목가격별점 0아메리카노35..
더보기