Здравствуйте. Так как у меня очень мало времени, вкратце расскажу суть идеи.
Контент с Контакта надо брать из обсуждений в группах. Для этого ищем нужную группу (поиск по группам), например, про рыбки. Вступаем в эту группу и переходим к настройке парсера.
Для получения ссылок тем обсуждений лучше всего воспользоваться новой функцией “добавить ссылки для парсинга” – “через браузер” (ищем кнопку на главной панели инструментов в виде знака “+”).
Там вы зайдете в нужную группу через встроенный в программу браузер, мышкой выделите нужные ссылки и добавите их в проект.
Готово, ссылки на темы есть, теперь приступим к сбору обсуждений. Так как каждый пост в теме заключен в повторяющиеся теги <div class=”postMessage” и </div>, мы будем использовать ПОВТОРЯЮЩИЕСЯ границы парсинга (новая функция, параметры задаются под основными границами парсинга). Ставим галочки на “использовать повторяющиеся границы” и на “парсить с границами” (чтобы теги див умерли при конвертации в txt и не засоряли нам контент). Так же отмечаем чекбокс “в один файл” (для сохранения всех постов в один файл), переключаемся на “txt” (для сохранения обсуждений в txt виде), снимаем галочку с “загружать картинки” и начинаем парсинг (только не забудьте выставить паузу между запросами в 1100 мс, иначе вас заблочит Контакт).
В этом архиве пример результатов парсинга + проект к программе.
Вот собственно и все, если что не ясно – спрашивайте в комментах или на форуме.
PS: Не забываем про то, что надо логиниться.
Новости RSS


Рубрики:
Теги:
С вопросами о покупке (или другими организационными), вы можете в любое время обращаться по Телефону +7 983 381 3211 или Телеграм @ContentDownloaderX1 (Сергей Владимирович)
WBApp (дополнение для Content Downloader) - парсинг с выполнением WEB-скриптов, с возможностью имитации кликов по элементам страниц, произведение прокрутки страниц, заполнение текстовых полей и многое другое...