Поисковый бот для парсинга данных с различных сайтов

Используйте макрос шаблона вывода [CRAWLER] для поиска нужных данных на различных сайтах. Он может обходить желаемые страницы сайтов и собирать с них данные.

Просто добавьте следующий код в шаблон вывода, настройте параметры макроса, и парсите данные с любого сайта во вкладке “Контент”

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
[CRAWLER]
 
{STARTURL}SELF{/STARTURL}
 
{CRAWLDEPTH}2{/CRAWLDEPTH}
{MAXIMAL_QUERIES}10{/MAXIMAL_QUERIES}
{QUERIES_PAUSE}1000{/QUERIES_PAUSE}
 
{TARGET_URL_ANCHORS}Контакт|||Связатсья|||Связь{/TARGET_URL_ANCHORS}
{TARGET_PAGE_TITLES}Контакт|||Связаться|||Связь{/TARGET_PAGE_TITLES}
 
{FINISH_RULES}{/FINISH_RULES}
 
{WHAT_TO_FIND}emails,phones,auto_content{/WHAT_TO_FIND}
 
{EXTRACTEMAILS_PARAMS}
 
{EE_MAXIMAL}{/EE_MAXIMAL}
{EE_PRIORITY}{/EE_PRIORITY}
{EE_ALLOW}{/EE_ALLOW}
{EE_DISALLOW}{/EE_DISALLOW}
 
{/EXTRACTEMAILS_PARAMS}
▒В параметре EE_MAXIMAL укажите максимальное число e-mail, в EE_PRIORITY через запятую перечислите подстроки искомых e-mal (в каком порядке их выводить в результат), в EE_ALLOW через запятую перечислите подстроки разрешенных e-mail, в EE_DISALLOW через запятую перечислите подстроки запрещенных e-mail
 
{EXTRACTPHONES_PARAMS}[LENGTH]10-10[/LENGTH][EXCEPTHTMLANDSCRIPTS][ALLOW][/ALLOW]{/EXTRACTPHONES_PARAMS}
 
{CONTACT_SEP},{/CONTACT_SEP}
 
{ADDITIONAL_PARAMETERS}
<!--|proceed_start_url|!-->
<!--|start_from_mainpage|!-->
add_mainpage
allow_subdomains
do_not_add_empty_result
output_result_template_anyway
<!--|can_harvest_non_target_pages|!-->
<!--|do_not_filter_start_url_once|!-->
{/ADDITIONAL_PARAMETERS}
 
{RESULT_TEMPLATE}{URL}[CSVCS]{ANCHOR}[CSVCS]{TITLE}[CSVCS]{EMAILS}[CSVCS]{PHONES}[CSVCS]{AUTO_CONTENT}[CSVCS]{PAGE_HTML}[CSVCS]{PAGE_TEXT}{/RESULT_TEMPLATE}
{RESULTS_SEPARATOR}[CSVLB]{/RESULTS_SEPARATOR}
 
[/CRAWLER]

Для работы данного макроса нужно использовать актуальную версию Content Downloader с типом лицензии ULTIMATE!

Ссылки на сайты можно собирать с выдачи Google по нужным ключевым запросам.

Content Downloader

Примерный результат сбора контактных данных




Скачать файл проекта с примером настройки (размещен на ЯндексДиске)





1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 7, средний балл: 5.00)

Loading...
Автор: admin, 8 August 2020
Рубрики: Парсинг
Tags: , ,
Написать комментарий

Последние статьи

css.php