본문 바로가기

Development/Error

[Error #1] 트위터 웹 크롤링 리미트 우회

각종 개발을 시도할 때 발생하는 오류들을 작성하는 카테고리 입니다. 카테고리에 존재하지 않는 프로그래밍 오류 해결 방법을 찾았을 때 작성하는 공간입니다. 문제 해결능력 향상과 자기개발능력, 정보 능력을 향상시키기 위해 작성하게 되었습니다.

 


 

#1. 오류 발생

   출처 : https://inreason.tistory.com/

 

pandas를 사용한 트위터 크롤링 시 리미트에 의해 오류가 발생합니다. 웹 상태코드 429(Too Many Requests)가 발생하여 크롤링에 제한이 걸리게 되어 정보를 긁어올 수 없게 됩니다. 이는 몇초 정도의 sleep() 함수로 우회가 불가능합니다. 이 때문에 tweepy에서 리미트 해제까지 대기하는 코드를 지원합니다.


 

#2. 문제 해결

   출처 : https://inreason.tistory.com/

 

웹 상태코드 429를 띄우지 않고 제대로 된 정보를 크롤링하기 위해서는 다음의 소스코드로 정상적인 크롤링을 할 수 있습니다.

.api = tweepy.API(auth, wait_on_rate_limit = True)

 

 

 

'Development > Error' 카테고리의 다른 글

[Error #0] 개발 에러 분석 개요  (0) 2019.05.22