Обход защиты от парсинга


Парсинг – это процесс автоматического сбора информации в интернете. Может показаться, что получение доступа к данным не будет проблемой даже у автоматизированных инструментов, но это не так. Сегодня мы расскажем, как компании защищают свои сайты от парсинга и как обойти эту защиту.
Самый распространённый способ использования парсера в сфере интернет-коммерции – это ценовой анализ и мониторинг рынка. Не все конкуренты хотят давать вам такую возможность, у них есть множество способов незаметного распознавания ботов и парсеров, но каждую защиту можно обойти.

Механизмы защиты от парсеров

Защита от ботов создана для блокировки их работы на сайте, они могут отличать парсеры от реальных людей несколькими способами, это позволяет смягчать DDOS атаки и мошеннических схем, но в нашем случае мы просто собираем информацию и не хотим причинять никакого вреда.
Суть любой защиты заключается в разделении запросов роботов и реальных людей, в этом разделе мы рассмотрим все способы, которыми можно отследить парсеры на веб-сайтах.

Проверка заголовка

Вместе с запросом на сервер браузер так же отправляет заголовок, который выглядит по-разному для каждого браузера. Например, так выглядит заголовок Chrome. Парсер можно легко распознать, если шаблон заголовка не соответствует обычному браузеру.

Отпечатки TCP/IP

Более сложный способ распознание парсеров – это обнаружение отпечатков TCP/IP. TCP – это один из основных протоколов интернета, отвечающий за транспортировку данных, он так же оставляет множество сопутствующих параметров, например, начальное состояние окна. Если эти значения параметров не будут совпадать, доступ будет ограничен. Например, отправка запроса от имени Chrome с сервера на linux ожидаемый TTL будет отличаться от актуального.

Блокировка IP

Если один IP-адрес будет неоднократно уличён в отправке нечеловеческих запросов, то его могут просто заблокировать. Это ограничение легко обходится при помощи прокси серверов, или других инструментов, изменяющих ваш ip.

Геоблокировка

Некоторые сайты могут блокировать запрос, который исходит из определённого региона. Похожая проблема может возникнуть, если в зависимости от региона меняется контент. Эти сложности так же легко решаются при помощи прокси.

Обнаружение парсера на фронтэнде

Помимо обнаружения парсера на серверной части, его так же могут распознать и во внешнем интерфейсе.

JavaScript

Этот язык программирования вшит в каждый браузер, он позволяет современным сайтам корректно отображаться и функционировать. Если ваш парсер не может корректно рендерить JS, то его будет легко обнаружить. Всё может дойти до того, что сайт может заставлять выполнять ваш парсер простые арифметические операции, просто что бы проверить возможность работы с JS. JavaScript так же можно использовать для AJAX запросов и отложений загрузки. Что бы не быть раскрытым, запросы парсера должны отправляться с обработкой JS. В противном случае кроме блокировки вы рискуете не увидеть часть контента.

Отпечатки браузера

Отпечаток браузера – это комбинация из свойств и атрибутов, создающих его портрет. Он содержит информацию об ОС, устройствах, акселерометре, WebGL, хосте и о многом другом. Если в этом наборе информации будут присутствовать не состыковки, парсер могут заблокировать.

Captcha и Recaptcha

Сейчас происходит постоянная гонка визуальных головоломок и искусственного интеллекта, и если раньше алгоритмы машинного обучения не могли справиться с их решением, то сейчас капчи приходится делать всё более и более сложными. Всё доходит до того, что вместо решения загадок сайты смотрят на поведение пользователей, которое в корне отличается от поведения машины. Движение мыши и щелчки, поиск пути к нужной информации, время, проведённое на странице и начинают показывать капчи только после ряда действий. Поэтому вместо борьбы с капчами, вы просто можете понять, что вызывает их появление.

Запустите парсинг сайтов сейчас!

Получите все сразу: ежедневный мониторинг цен, поддержку 24/7 с личным менеджером и удобные отчеты


Переход к демонстрации

Опишите в двух словах сферу вашей деятельности и укажите ваш E-mail. По желанию расскажите в комментарии любую дополнительную информацию или задайте нам вопросы.

Во время демонстрации вы сможете посмотреть на основные возможности системы по мониторингу и анализу цен. Мы готовы реализовать дополнительные функции, чтобы наша система подходила под ваши задачи.