1. Парсинг ссылок с символом решетки (#)
Например, есть URL website.ru/goods/#p=3. Обратите внимание на символ # и данные после него. Эти данные при GET или POST запросах никак не учитываются. То есть GET или POST запрос отправляется к адресу website.ru/goods/, а часть #p=3 игнорируется!
PS: В Content Downloader при парсинге WEB документов по умолчанию используются GET запросы. Смена библиотек запросов выполняется в окне настроек HTTP запросов программы (ctrl+h). Используйте библиотеку Clever Internet Suite (CIS) для отправки прямых GET или POST запросов, а WBApp для парсинга WEB документов с использованием WEB браузера (Internet Explorer или Chromium).
Все, что стоит после # учитывается только WEB браузерами. Только WEB браузеры обрабатывают эту часть ссылок и выполняют дальнейшие действия (в зависимости от скриптов на WEB странице).
Варианты решения вопроса парсинга ссылок с символом решетки:
2. Частые ошибки при настройке повторяющихся границ парсинга
а) Циклы повторяющихся границ парсинга выводятся не так, как нужно (либо на отдельные строки CSV, либо в отдельные ячейки строки CSV, либо в одну ячейку).
Для каждой из повторяющихся границ парсинга устанавливается свой разделитель циклов. Разделитель циклов вставляется между значениями циклов повторяющихся границ парсинга при выводе данных в результат парсинга и влияет на его вид.
В качестве разделителя циклов можно использовать любой текст/код. Например:
[CSVCS] – оператор обозначения разделителя ячеек CSV (при таком разделителе циклов данные будут попадать в отдельные ячейки строки товара CSV);
[CSVLB] – оператор обозначения разделителя строк CSV (при таком разделителе циклов данные будут попадать на отдельные строки CSV, также обратите внимание внимание на этот материал: Как выводить определенные данные только в первом цикле повторяющихся границ прсинга);
{br} – оператор обозначения переноса строки (используйте этот разделитель циклов в случаях, когда нужно вывести данные в одну ячейку CSV при этом расположив каждый цикл с новой строки).
Разделитель циклов для каждой из повторяющихся границ парсинга указывается в окне настроек повторяющихся границ парсинга (ctrl+5 либо shift+ctrl+5).