Друзья, полагаю, вы не раз встречали что-то типа div id=”123abc” при задании границ парсинга. Этот id меняется на разных страницах сайта и прицепиться к нему на первый взгляд невозможно, но это не так.
Задаем границу следующим образом: заместо div id=”123abc” выделяем div id=”123 (если 123 не изменяется) и все дела.
Отсюда должен возникнуть вопрос: что делать с мусором, типа abc”, который будет оставаться в документах. Выход прост – ставим галочку на “парсить с границами”, и включаем функцию преобразования html кода в текст (htm to txt). В этом случае программа полностью спарсит тег div id=”123abc” и потом удалит его (при преобразовании html кода в текст).
Вот и все, спасибо за прочтение.
PS: Если что-то непонятно, задавайте вопросы.
Новости RSS

Рубрики:
Теги:
С вопросами о покупке (или другими организационными), вы можете в любое время обращаться по Телефону +7 983 381 3211 или Телеграм @ContentDownloaderX1 (Сергей Владимирович)
WBApp (дополнение для Content Downloader) - парсинг с выполнением WEB-скриптов, с возможностью имитации кликов по элементам страниц, произведение прокрутки страниц, заполнение текстовых полей и многое другое...
хороший мануальчик) спасибо)