티스토리 뷰

파이썬 크롤링 시 beatifulsoup을 이용하여 크롤링을 하다 보면 headers 정보를 입력해야 하는 경우가 발생한다. 이럴 경우 사용자 에이전트, 즉 User-Agent를 입력하면 해결된다. 그럼 User-Agent 정보를 확인하는 방법을 알아보자

User-Agent 확인 방법

User-Agent 확인 방법은 아래와 같다.

1. 구글 브라우저 상단의 검색창에 chrome://version을 입력하고 검색한다.

2. 검색결과에 나오는 사용자 에이전트 값이 User-Agent 값이다.

크롬 버전정보가 적혀있는 사진
크롬버전확인 결과

User-Agent 적용 예

웹 페이지를 크롤링 할 때 header 정보 입력이 반드시 필요한 것은 아니지만, 필요한 페이지도 있으므로 크롤링 기본 세팅 시 항상 header 정보를 넣고 작업을 하는 것이 편리하겠다. 아래에 네이버 검색창으로 검색한 결과를 크롤링할 때 기본 세팅을 적어 놓았다.

import requests
from bs4 import BeautifulSoup

keyword = input("검색어를 입력하세요")
url = f"https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={keyword}"
header = {"User-Agent" : "크롬버전에서 찾은 값을 입력하세요" }

response = requests.get(url, headers=header)
html = response.text
soup = Beatifulsoup(html, "html,parser)

 

기본셋팅.txt
0.00MB