Как парсить Контакт программой Content Downloader

Как парсить Контакт программой Content Downloader

Здравствуйте. Так как у меня очень мало времени, вкратце расскажу суть идеи.

Контент с Контакта надо брать из обсуждений в группах. Для этого ищем нужную группу (поиск по группам), например, про рыбки. Вступаем в эту группу и переходим к настройке парсера.

Для получения ссылок тем обсуждений лучше всего воспользоваться новой функцией “добавить ссылки для парсинга” – “через браузер” (ищем кнопку на главной панели инструментов в виде знака “+”).

Там вы зайдете в нужную группу через встроенный в программу браузер, мышкой выделите нужные ссылки и добавите их в проект.

Готово, ссылки на темы есть, теперь приступим к сбору обсуждений. Так как каждый пост в теме заключен в повторяющиеся теги <div class=”postMessage” и </div>, мы будем использовать ПОВТОРЯЮЩИЕСЯ границы парсинга (новая функция, параметры задаются под основными границами парсинга). Ставим галочки на “использовать повторяющиеся границы” и на “парсить с границами” (чтобы теги див умерли при конвертации в txt и не засоряли нам контент). Так же отмечаем чекбокс “в один файл” (для сохранения всех постов в один файл), переключаемся на “txt” (для сохранения обсуждений в txt виде), снимаем галочку с “загружать картинки” и начинаем парсинг (только не забудьте выставить паузу между запросами в 1100 мс, иначе вас заблочит Контакт).

В этом архиве пример результатов парсинга + проект к программе.

Вот собственно и все, если что не ясно – спрашивайте в комментах или на форуме.

PS: Не забываем про то, что надо логиниться.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 3, средний балл: 5.00)
Loading...
Вы можете оставить комментарий, или поставить трэкбек со своего сайта.
Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)