Сведения о вопросе

Fedya

22:54, 2nd October, 2020

Теги

Python   Scrapy    

Scrapy — Python

Просмотров: 262   Ответов: 4

При парсинге одного сайта на битрикс через некоторое время происходит возврат «400» ошибки от сервера. Кто-нибудь занимался им и может подсказать как более хитро маскироваться под пользователя?
Интервал между запросами поставил в 2 секунды, а результат всегда один и тот же — 200 элементов и 400 ошибка



  Сведения об ответе

pumpa

07:56, 27th September, 2020

Мне кажется это не от того что сервер палит что вы ходите, можете сделать рэндомный интервал от 2-х до 5-ти секунд чтоб проверить, может быть сервак просто глючит =)


  Сведения об ответе

9090

19:59, 26th September, 2020

Помимо DOWNLOAD_DELAY и USER_AGENT, что я полагаю вы уже меняли, попробуйте уменьшить эти настройки CONCURRENT_ITEMS, CONCURRENT_REQUESTS_PER_SPIDER, CONCURRENT_SPIDERS.


  Сведения об ответе

ЯЯ__4

16:22, 30th September, 2020

Может там ограничение стоит не на кол-во запросов в минуту или секунду, а на кол-во запросов в час, например.


  Сведения об ответе

padenie

05:45, 30th September, 2020

Проблема была в том, что битрикс, как всегда, впереди планеты всей — он хранил в куках историю посещений. И когда накапливалось около 200 элементов — отказывался работать как надо. Итог — выключенные куки и несколько часов времени на анализ всей сложившейся проблемы)


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться