Откуда брать ссылки для парсинга сайтов?


Для начала парсинга вам нужно задать список ссылок на страницы, на которых находятся интересующая нас информация, соответственно первой задачей будет формирование этого списка.

Способы сбора ссылок

«Пауки» сканеры

Пауки сканеры работают как современные поисковики, заходят на стартовую страницу и находят все ссылки, ведущие на внутренние страницы, затем собирает ссылки уже на них, и продолжает процесс поиска, пока не останется не посещённых страниц. Если правильно настроит процесс, то в него не нужно будет вмешиваться и на выходе вы получите нужный вам список, но на некоторые страницы может не вести ни одной ссылки, или они могут быть неактивными, в таком случае мы можете упустить важные страницы.

Карты сайта

На некоторых сайтах вы можете найти документ по адресу …/sitemap.xml, в котором содержатся данные используемые поисковыми системами для индексации. Благодаря этому файлу мы можете сразу же получить массив ссылок, но администратор может указывать там не все ссылки, и риск упустить важные страницы остаётся, как и в прошлом способе.

Обход разделов

Этот способ работает практически как сканер, только обходит разделы, подразделы, страницы пагинации и собирает ссылки на страницы с товарами. Таким образом в результате обхода разделов вы получаете ссылки на все страницы, которые видны пользователю, но процесс получается трудозатратным, так как требует предварительного анализа сайта, подсчёта товаров в категориях и структуры каталога.

Составление набора шаблонных ссылок

Если ссылки на товары составлены по одному шаблону, например, по порядковому номеру в списке, вы можете просто сгенерировать массив из ссылок даже без парсинга, это быстрый и удобный способ, но при его использовании легко ошибиться и нагенерировать ссылки на несуществующие страницы. К тому же такие шаблонные ссылки встречаются довольно редко, так как считаются плохой практикой в SEO.

Возможные проблемы

Иногда на один товар может быть выделено две страницы, при парсинге важно учитывать это и исключать из процесса дублированные страницы.
Так же иногда бывает сложно отделить друг от друга ссылки на товары и ссылки на разделы, поэтому стоит фильтровать их на этапе парсинга по наполнению страницы.
Подсчитывая ссылки ведущие на другие страницы стоит учитывать, что некоторые из них могут вести на скрытые или несуществующие товары.

Оптимальные метод сбора ссылок

Перед сбором ссылок следует протестировать сайт, так как некоторые способы могут не подойти по разным причинам, от выдачи только части пагинации до множества неактивных ссылок.
На наш взгляд самым эффективным способом будет проход по всем разделам, так как он позволяет собрать наиболее полную картину в любом случае, в случае с остальными методами нужно руководствоваться возможностями сайта.

Переход к демонстрации

Опишите в двух словах сферу вашей деятельности и укажите ваш E-mail. По желанию расскажите в комментарии любую дополнительную информацию или задайте нам вопросы.

Во время демонстрации вы сможете посмотреть на основные возможности системы по мониторингу и анализу цен. Мы готовы реализовать дополнительные нужные вам инструменты, чтобы наша система подходила под ваши задачи.