정적 크롤링의 이슈들

나의 재물운? 연애운은?

AI가 봐주는 내 사주팔자 - 운세박사

https://aifortunedoctor.com/

정적 크롤링의 이슈들

영리치 0 1,393 2022.10.26 22:09

1. 브라우저로는 접속이 되는데 requests로는 접속이 안돼요

> Header를 확인하세요

import requests as req


res = req.get("https://www.coupang.com/")
print(res.text)


쿠팡 무응답


import requests as req


res = req.get("https://www.coupang.com/", headers={'Accept-Language' : 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7,zh-TW;q=0.6,zh;q=0.5','Accept-Encoding': 'gzip',
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"})
print(res.text)


크롤링 가능함


브라우저처럼 HTTP 요청을 하기


주요 Header

- User-Agent

- Cookie

- Accept

- Referer


2. 쿠키가 어디서 설정되는지 모르겠어요 ㅠ

> request를 확인하거나 브라우저에서 복사해서 쓰세요




3. 매 요청때마다 값이 자꾸 바뀌어서 코드를 짤 수가 없어요 ㅠ

> CSRF, 직접 파싱해서 쓰세요.

CSRF 토큰을 받을 수 있는 사이트에서 먼저 접속해서 토큰 받은 뒤 그 토큰을 가지고 크롤링 해야함.


4. 소스보기를 클릭했는데 원하는 값이 없어요 ㅠㅠ

> xhr 연결을 확인하세요

리액트나 이런 애들 무한스크롤로 데이터 가져오는 것들은 Ajax 등.

웹개발자 도구에서 네트워크 >xhr을 보면 됨.


Comments

나의 재물운? 연애운은?

AI가 봐주는 내 사주팔자 - 운세박사

https://aifortunedoctor.com/

Category
실시간 인기글
등록된 글이 없습니다.
Magazine
훈남/훈녀
 
 
 
상점
Facebook Twitter GooglePlus KakaoStory NaverBand