티스토리 뷰
파이썬 크롤링 시 beatifulsoup을 이용하여 크롤링을 하다 보면 headers 정보를 입력해야 하는 경우가 발생한다. 이럴 경우 사용자 에이전트, 즉 User-Agent를 입력하면 해결된다. 그럼 User-Agent 정보를 확인하는 방법을 알아보자
User-Agent 확인 방법
User-Agent 확인 방법은 아래와 같다.
1. 구글 브라우저 상단의 검색창에 chrome://version을 입력하고 검색한다.
2. 검색결과에 나오는 사용자 에이전트 값이 User-Agent 값이다.
User-Agent 적용 예
웹 페이지를 크롤링 할 때 header 정보 입력이 반드시 필요한 것은 아니지만, 필요한 페이지도 있으므로 크롤링 기본 세팅 시 항상 header 정보를 넣고 작업을 하는 것이 편리하겠다. 아래에 네이버 검색창으로 검색한 결과를 크롤링할 때 기본 세팅을 적어 놓았다.
import requests
from bs4 import BeautifulSoup
keyword = input("검색어를 입력하세요")
url = f"https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={keyword}"
header = {"User-Agent" : "크롬버전에서 찾은 값을 입력하세요" }
response = requests.get(url, headers=header)
html = response.text
soup = Beatifulsoup(html, "html,parser)
'코딩,소프트웨어' 카테고리의 다른 글
chatgpt 이용 웹피(webp) 변환기 만들기 (0) | 2023.09.30 |
---|---|
vscode 유용한 extension 설치 (0) | 2023.02.24 |
엑셀 개발도구 설치 방법에 대해 알아보자 (0) | 2021.11.06 |
엑셀 전체 시트에서 단어 찾기와 바꾸기에 대해 알아보자 (0) | 2021.11.06 |
엑셀 소수점 반올림, 버림, 올림과 원단위 절사 방법 (0) | 2021.10.26 |