Сканер сайтов (сбор ссылок)




Предназначение:

Сканер сайтов предназначен для сбора определенных ссылок со всего сайта или с какой-то его части. Программа «ходит» по всем найденным страницам и собирает ссылки, удовлетворяющие заданным фильтрам.


Как вызывется:

Сканер сайтов вызывется нажатием кнопки «сканер сайтов (сбор ссылок с сайта)» на панели инструментов.


Скриншот окна сканера сайтов:

Content Downloader - сканер сайтов



Принцип работы:

Content Downloader - сканер сайтов
Сканер берет первую ссылку из окна «список очереди» (при этом ссылка удаляется из списка очереди), загружает по ней web-документ и ищет в нем все url-адреса (ссылки). Ссылки, которые «пройдут» через фильтры очереди попадают в список очереди. Ссылки, которые «пройдут» через фильтры ссылок (читать про фильтры ссылок), попадают в список найденных ссылок.

Примечание: имеющиеся фильтры очереди работают по такому же принципу, как и фильтры ссылок!

Во время работы сканера, cписок очереди постоянно пополняется новыми найденными ссылками, содержащими в себе урл сайта (в данном случае sbfactory.ru, ссылки на другие сайты не попадут в список очереди). В список очереди могут добавляться ссылки с доменными именами третьего уровня (например, http://forum.sbfactory.ru).

В список очереди и в список ссылок не могут попасть дубли url-адресов!

Сканер сайтов будет продолжать работу, до тех пор, пока не «закончатся» все ссылки в списке очереди.

Как использовать:

Для запуска сканера необходимо ввести стартовый url или добавить ссылки в список очереди. После этого нужно нажать кнопку «начать/продолжить сканирование».

Процесс работы сканера можно как приостановить, так и продолжить в любой момент времени (используйте соответствующие кнопки).

ВНИМАНИЕ!!!: Список очереди (также его дубликат в памяти) и список найденных ссылок очищаются только при перезапуске программы или при нажатии кнопок «очистить список очереди», «очистить список найденных ссылок» (соответственно).

Важно понять и то, что дубликат списка очереди (который содержится в памяти программы) не «теряет» элементы в процессе работы сканера, а постоянно пополняется. Это исключает возможность появления в нем одинаковых ссылок, что в свою очередь позволяет не обрабатывать дважды одну и ту же ссылку.

Очистить список очереди и его невидимый дубликат (в памяти) можно нажатием на кнопку «очистить список очереди».

Если на сайте необходима авторизация, то используйте кнопку «авторизация/cookies» или кнопку «дополнительно» во вкладке «контент».


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 13, средний балл: 5,00)

Загрузка...
Автор: admin, 10 октября 2010
Рубрики: Парсинг
Метки: , , ,
42 комментария к сообщению: “Сканер сайтов (сбор ссылок)”
  1. Konstnantine:

    А как быстро например распарсится сайт на 60 тысяч страниц?

    Отпишите в мыло плиз.

  2. лагает парсер, из 88-и собрал тока 24. Сайт на вп, если интересно — адрес мылом дам

  3. Дабы не навести тень на саму прогу — прога супер! Просто сайт попался «с закаулками» 🙂
    А прогу без сомнения двинул бы на Национальный Продукт!
    Реально доступная логика и восхищающие производительность и функционал.
    Более того — и автор действительно серьезный мужик: и ФАК достойный уважения, и сайт продукта, и обновления, и действительно доступная стоимость для Рунета — вот есть у нас настоящие кодеры!

  4. target:

    Работает ли опция не по стартовой ссылке а по рабочему проекту?
    Т.е. если отработал проект но нужно проверить «донора» на предмет новых страниц, с их «импортом» на основании условий проекта, но с обязательным перечнем новых страниц. Как это сделать?

    • admin:

      Нужно подключить «файл с загруженными элементами» во вкладке «контент».
      Тогда при следующем парсинге загруженные ранее ссылки не будут обрабатываться.

  5. Александр:

    При сборе ссылок для парсинга столкнулся с такой проблемой: если на сайте доноре ссылки содержат в себе пробел, CD при сборе этих ссылок убирает пробелы и получается уже другой url который ведет на страницу ошибок… Как с этим бороться?

  6. Willyam:

    Ребята, час ночи и не могу понять ))
    под проксёй eng нужно отсканировать выдачу гугла также под проксёй в самой проге. Дело в том, что гугл что-то изменил в своих чпу и ссылки совсем непонятные. Убрав все параметры фильтров, прога всё равно виснет и не движется. Подскажите решение!

  7. admin:

    Может прокси «дохлые» или не работают в программе?

  8. Willyam:

    да, на самом деле из-за прокси, ложная тревога ) ещё раз спасибо за софт!

  9. Николай:

    Добрый день.
    Нужно запарсить сайт со следующей структурой:
    http://www.domen.ru/shop/98765/87654.html
    то-есть, после shop идет ровно две вложенности с кодами. В данном случае 98765 и 87654. Первый код: категория, второй: код товара.
    Также на сайте попадаются и другие ссылки на товары. Эти ссылки могут быть вида: http://www.domen.ru/shop/98765/98744/87654.html
    где 98744 — например какая-то характеристика данного товара. Например, диагональ 7 дюймов.
    Нужно парсеру указать, чтобы он брал только ссылки с двумя вложеностями.
    Маску, что-ли.
    Типа: http://www.domen.ru/shop/*/*.html
    Есть такая возможность?
    В справке не нашел.
    Спасибо.

  10. Viktor:

    В ходе сканировании сайта большое число ссылок залетает в «не удалось загрузить». Об этом свидетельствует счетчик таких ссылок. Что это такое, ссылки, которые «не удалось загрузить»? Можно ли объяснить причину того, почему они оказываются незагруженными?

  11. RaWaS:

    как вытащить все папки из сайта в котором они скрыты
    нужно получить все файлы пдф из всех папок http://www.mab.lt/paveldas/*/*/*.pdf
    http://www.mab.lt/paveldas/MAB01/230001/232328-1906-1.pdf

  12. palerm0:

    У меня тоже вопрос по ссылкам которые «не удалось загрузить», раньше все ссылки собирались нормально, а теперь почему то большая их часть не загружается. В чем может быть проблема?

  13. Виталий:

    Если название домена русскими буквами, то не сканирует ничего!. Может есть какое решение?

  14. Денис:

    А можно ли с помощью сканера сайтов, получить ссылки только с текущей (стартовой страницы), чтоб сканер не лез вглубь других страниц?

  15. Павел:

    Можно. Пользуемся вкладкой ссылки.

  16. Анатолий:

    Возможно как то создать список всех внешних ссылок на сайте ?

  17. Игорь:

    Если бы он еще искал и внешние ссылки на сайте, то цены бы ему не было.

  18. гость:

    Если в сканер задать ссылку на файл (C:\content\1.htm), он пытается загрузить адрес http://C:/content/1.htm и файл не загружается. Можете исправить?

    • admin:

      Здравствуйте.
      Тут нечего исправлять.
      Сканер сайтов не предназначен для работы с локальным диском. С локального диска можно парсить во вкладке «ссылки» или «контент».

  19. Alex:

    На некоторых сайтах почему-то сканер сайтов очень выборочно выдирает страницы типа page=№, многие страницы оказываются пропущены. Причём это не зависит от числа потоков, я выставлял 1 поток. Чаще всего почему-то спарсивается page=4, при этом page=2, 3, 5 и т.д. оказываются пропущены.

    Если хотите, могу прислать проект парсинга (куда?)

    • admin:

      Здравствуйте.

      Скорее всего это особенность сайта, или так настроен сканер. Если вы думаете, что это ошибка, пожалуйста, вышлите мне на почту sbfroot@gmail.com КОНКРЕТНЫЙ адрес WEB-страницы на которой сканер не находит той или иной ссылки (с указанием этой ссылки, которую(ые) не находит). Изучением «подозрительных проектов» мы не занимаемся, уж простите =)

      С уважением к вам, Сергей.

  20. Maksim:

    простой вопрос к примеру

    на форуме есть информация с текстом об

    нужной мне допустим инструкции или упоминается тема нужная мне
    в названии программы если быть точным в тексте

    а еще у меня допустим 10 форумов по программированию и там допустим по ключевому слову появляется новая информация и я бы сканировал сайт а лучше 10 по очереди сайтов
    по списку ключевых слов и к вечеру примерно сел бы почитал бы что и кто на эту тему пишет и какие у него алгоритмы и размышления ( всё для обучения быть умнее и не тратить время на тупые кликания по кривым поискам на сайтах в форумах и дебрях )

    ваша программа может это ?
    и мне нужен готовый список ссылок где это (список слов ключевых или или типа ) встречается

    а еще вопрос по тайм ауту и планировщику задачи раз в 3 дня к примеру про сканировать или раз в 1 день

  21. Марат:

    Доброго времени суток!
    Не получается парсить ссылки с avito и с reformagkh.ru. Сканер сайтов запускается и практически сразу останавливается с пустым списком. Связано ли это только с отсутствием у меня IE 11? Или же проблемы с авторизацией? Где посмотреть полноценную инструкцию с описанием как авторизовываться с помощью cookies post или с помощью proxy? заранее благодарю за ответ

    • Nevagno:

      С сайта реформажкх парситься нормально, и с авито также. IE11 лучше поставить. и последнюю версию CD. Попробуете открыть в самом IE страницу сайта, и если не открывает то тогда настройках самого браузера в ствойствах параметры безопастности. А по программе проблема решается так

      Нажмите ctrl+h, включите там Internet Explorer (DOM), ниже «тайм-аут проверки…» измените на 2222
      Пробуйте парсить в 1 поток!!!

      И еще
      Возможные решения:
      1) Вставить нужные для парсинга этого сайта cookies и/или HTTP-заголовки в ctrl+h;
      2) Использовать библиотеку Internet Explorer (DOM) в ctrl+h (но парсить с ней можно максимум в 1-2 потока).

  22. Марат:

    Вопрос 2. Что делать если при задании границ парсинга вышла ошибка «Программе не удалось загрузить WEB-страницу (Socket Error # 0 )»?

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php