Новости RSS

парсер, спарсить сайт, наполнить интернет-магазин товарами

Как обойтись без регулярных выражений при задании динамически изменяющихся границ парсинга в программе Content Downloader

August 29th, 2010 1 коммент. »

Друзья, полагаю, вы не раз встречали что-то типа div id=”123abc” при задании границ парсинга. Этот id меняется на разных страницах сайта и прицепиться к нему на первый взгляд невозможно, но это не так.

Задаем границу следующим образом: заместо div id=”123abc” выделяем div id=”123 (если 123 не изменяется) и все дела.

Отсюда должен возникнуть вопрос: что делать с мусором, типа abc”, который будет оставаться в документах. Выход прост – ставим галочку на “парсить с границами”, и включаем функцию преобразования html кода в текст (htm to txt). В этом случае программа полностью спарсит тег div id=”123abc” и потом удалит его (при преобразовании html кода в текст).

Вот и все, спасибо за прочтение.

PS: Если что-то непонятно, задавайте вопросы.