Как правильно настроить скорость парсинга в Screaming Frog SEO Spider (и не только)

Казалось бы тут все просто, но на самом деле есть ряд подводных камней, которые нужно учесть.

Давайте разберем настройку скорости парсинга в Screaming Frog SEO Spider.

Для настройки данного параметра переходим по следующему пути:

«Configuration» -> «Speed» Переходим Configuration - Speed

Появляется окно «Spider Speed Configuration»

Окно Spider Speed Configuration в Sreaming Frog SEO Spider

, где

  • «Max Therads» — количество потоков парсинга

    Чтобы понять, что такое «поток» представьте, что нужно сделать 3 бухгалтерских отчета. Можно сделать сначала 1 отчет, затем 2 отчет и в конце 3 отчет. Это работа в один поток, где в единицу времени делается только одна задача. Но можно сделать сразу одновременно 3 отчета, только для этого потребуется уже 3 бухгалтера 🙂 Эту настройку можно использовать, если требуется сделать быстрый парсинг

  • «Max URI/s» — ограничение скорости парсинга URL в секунду

    Для активации данного параметра необходимо поставить галочку около «Limit URI/s». Если выбран данный параметр, то количество потоков парсинга из поля «Max Therads» не учитывается Настройка Limit URI/s

Какие значения выбрать?

Рекомендации по конкретным значениям потоков или урлов в секунду зависят от конкретного сайта, а также:

  • мощности сервера

    Где то запуск парсинга на определенной скорости будет «ложить» сайт

    Парсинг "ложит" сайт

  • наличия защиты от парсинга

    Ряд сайтов защищается от парсинга, начиная с определенной скорости: Сайт защищается от парсинга

    Мало того, при относительно высокой скорости или даже длительности парсинга можно получить бан по IP со стороны сервера.

Поэтому, универсальной рекомендацией будет устанавливать скорость в 1 url/сек

Рекомендуемые настройки скорости парсинга в Screaming Frog SEO Spider

Это не «положит» сервер и с большой вероятностью позволит избежать защиты от парсинга и последующего бана, что особенно важно, когда нет возможности этот бан снять (например, парсится проект-конкурент).

Если же требуется быстрее, то придется экспериментировать со значениями скорости, пока не будет найдено оптимальное значение, позволяющее получить полный парсинг сайта с максимально возможной скоростью. Здесь могу дать следующие советы:

  • При повышении скорости обязательно сразу отслеживайте коды ответа сервера в парсинге на предмет появления 5хх ошибок и страниц, для которых сервер не дал ответа — если будет избыточное количество таких кодов и статусов, то это явный сигнал того, что скорость завышена. Чтобы посмотреть эти данные нужно перейти на вкладку «Response Codes» и на вкладке «Overview» в правой части экрана посмотреть количество «No Response» и «Server Error (5xx)» по отношению к другим страницам:
    Коды ответов в Screaming Frog SEO Spider
    В примере мы видим, что более 12% страниц не отдали код ответа сервера и более 52% отдали 5хх ошибки — это явно указывает на то, что скорость завышена;

  • Если с установленной скоростью парсинг делается без ошибок, то рекомендую делать дополнительную обзорную проверку кодов ответа сервера раз в 30-60 минут, т.к. по опыту сервер может упасть не сразу или, возможно, будет бан;

  • При возможности лучше обсудить скорость допустимого парсинга с веб-мастером сайта.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *