Content Downloader имеет три типа лицензии (Start, Standard, ULTIMATE). Они различаются максимальным количеством потоков при парсинге контента и максимальным количеством потоков в сканере сайтов (5, 20, 50 соответственно).
Динамические границы парсинга (неограниченное количество + они поддерживают регулярные выражения) можно задавать во всех версиях, кроме Start.
Рекомендации для выбора типа лицензии:
Парсинг в 10-20 потоков является наиболее оптимальным для большинства сайтов в сети. В некоторых случаях для повышения скорости парсинга требуется большее количество потоков.
Случаи, когда использование большего количества потоков бесполезно:
– Бан на сайтах из-за частых GET-запросов;
– Загрузка сети или ядра процессора на 100%;
– Сайт блокирует долю частых запросов.
Примечание: при использовании 10 и более потоков желательно использовать Windows 64-bit.
Результаты тестов Content Downloader с различным количеством потоков:
Тесты производились на различных сайтах с реальными рабочими проектами.
Тактовая частота ядра процессора: 2100 МГц
Скорость интернет-соединения: 8 мегабит/секунда
1) my_mail_ru (парсинг анкет)
Загрузка картинок – нет.
| Количество потоков | Количество загруженных страниц за 60 секунд | Загрузка ядра процессора (%) |
| 5 | 73 | 5-30 |
| 10 | 126 | 10-35 |
| 50 | 177 | 30-55 |
2) sportsdirect_com (парсинг товаров в CSV)
В каждом документе 1-3 картинки по 10-20 kb.
| Количество потоков | Количество загруженных страниц за 60 секунд | Загрузка ядра процессора (%) |
| 5 | 77 | 4-12 |
| 10 | 133 | 5-20 |
| 50 | 179 | 8-50 |
3) rutaobao_com (парсинг товаров в CSV) – очень медленный сайт
В каждом документе по 1 картинке (около 70 kb).
| Количество потоков | Количество загруженных страниц за 60 секунд | Загрузка ядра процессора (%) |
| 5 | 25 | 1-5 |
| 10 | 50 | 5-30 |
| 50 | вылетела капча | 15-30 |
Новости RSS


Рубрики:
С вопросами о покупке (или другими организационными), вы можете в любое время обращаться по Телефону +7 983 381 3211 или Телеграм @ContentDownloaderX1 (Сергей Владимирович)
WBApp (дополнение для Content Downloader) - парсинг с выполнением WEB-скриптов, с возможностью имитации кликов по элементам страниц, произведение прокрутки страниц, заполнение текстовых полей и многое другое...