Сканер сайтов (сбор ссылок)

Навигация:

Предназначение

Видео об основах

Как вызывается

Принцип работы

Как использовать

Что делать, если сканер на каком-то сайте не находит все желаемые ссылки или не находит ссылки вообще! – КОНЕЧНО ЖЕ, АНАЛИЗИРОВАТЬ ПОЛУЧАЕМЫЙ ИМ ОТ САЙТА КОД!!!

Описание функций поиск-замен для основного загружаемого кода, кода для списка очереди и кода для списка выдачи ссылок

Как сканером сайтов выполнять поиск ссылок только в определенных частях WEB-страниц сайта

Использование режима экономии памяти (для парсинга огромных сайтов с целью поиска огромного количества ссылок, гораздо больше миллиона)


Для возврата к меню навигации используйте клавишу home



Предназначение

Сканер сайтов предназначен для сбора определенных ссылок со всего сайта или с какой-то его части. Программа “ходит” по всем найденным страницам и собирает ссылки, удовлетворяющие заданным фильтрам.




Видео об основах







Как вызывается

Сканер сайтов вызывается нажатием кнопки “сканер сайтов (сбор ссылок с сайта)” на панели инструментов главного окна программы (ctrl+7).


Принцип работы

Content Downloader - сканер сайтов
Content Downloader - сканер сайтов
Сканер берет первую ссылку из окна “список очереди” И УДАЛЯЕТ ЕЕ ИЗ СПИСКА, загружает по ней web-документ и ищет в нем все url-адреса (ссылки). Ссылки, которые “пройдут” через фильтры очереди попадают в список очереди. Ссылки, которые “пройдут” через фильтры ссылок (читать про фильтры ссылок), попадают в список найденных ссылок.

Примечание: имеющиеся фильтры очереди работают по такому же принципу, как и фильтры ссылок!

Во время работы сканера, cписок очереди постоянно пополняется новыми найденными ссылками, содержащими в себе урл сайта (в данном случае sbfactory.ru, ссылки на другие сайты не попадут в список очереди). В список очереди могут добавляться ссылки с доменными именами третьего уровня (например, http://forum.sbfactory.ru).

В список очереди и в список ссылок не могут попасть дубли url-адресов!

Сканер сайтов будет продолжать работу, до тех пор, пока не “закончатся” все ссылки в списке очереди.





Как использовать

Для запуска сканера необходимо ввести стартовый url или добавить ссылки в список очереди. После этого нужно нажать кнопку “начать/продолжить сканирование”.

Процесс работы сканера можно как приостановить, так и продолжить в любой момент времени (используйте соответствующие кнопки).

ВНИМАНИЕ!!!: Список очереди (также его дубликат в памяти) и список найденных ссылок очищаются только при перезапуске программы или при нажатии кнопок “очистить список очереди”, “очистить список найденных ссылок” (соответственно).

Важно понять и то, что дубликат списка очереди (который содержится в памяти программы) не “теряет” элементы в процессе работы сканера, а постоянно пополняется. Это исключает возможность появления в нем одинаковых ссылок, что в свою очередь позволяет не обрабатывать дважды одну и ту же ссылку.

Очистить список очереди и его невидимый дубликат (в памяти) можно нажатием на кнопку “очистить список очереди”.

Если на сайте необходима авторизация, то используйте кнопку “авторизация/cookies” или кнопку “дополнительно” во вкладке “контент”.




Что делать, если сканер на каком-то сайте не находит все желаемые ссылки или не находит ссылки вообще! – КОНЕЧНО ЖЕ, АНАЛИЗИРОВАТЬ ПОЛУЧАЕМЫЙ ИМ ОТ САЙТА КОД!!!

Content Downloader

Content Downloader

Примечание: Некоторые сайты вообще могут не отдавать код или отдавать код не полностью для стандартной библиотеки HTTP-запросов программы (часть контента генерируется/подгружается скриптами WEB-документа в процессе его выполнения). Выбрать/настроить библиотеку HTTP-запросов можно в окне настроек HTTP-запросов программы (ctrl+h).

Если есть проблемы с загрузкой WEB-страниц, выберите библиотеку WIN.

Если какой-то нужный контент не присутствует в коде загружаемого WEB-документа, скорее всего он подгружается/генерируется скриптами. Чтобы парсить с обработкой скриптов, выберите библиотеку Internet Explorer (DOM).




Описание функций поиск-замен для основного загружаемого кода, кода для списка очереди и кода для списка выдачи ссылок


Content Downloader




Как сканером сайтов выполнять поиск ссылок только в определенных частях WEB-страниц сайта






Использование режима экономии памяти (для парсинга огромных сайтов с целью поиска огромного количества ссылок, гораздо больше миллиона)

Программе выделяется около 3,5 ГБ памяти (вне зависимости от количества оперативной памяти компьютера). Количество использования процессом памяти можно смотреть в диспетчере задач системы (ctrl+alt+delete). Если программа будет занимать более 3,5 ГБ памяти, возникнут ошибки.

Для парсинга огромных сайтов и для поиска огромного количества ссылок (гораздо больше, чем миллион) рекомендуется использовать режим работы сканера MemSave

Примечание: При парсинге с активированным режимом MemSave нельзя использовать создание и восстановление бекапа (ctrl+s/ctrl+o). Также не следует приостанавливать и возобновлять работу сканера. Настроили сканер, проверили, как он работает, активировали режим MemSave и запустили его, пусть сканирует до завершения без остановки.

Content Downloader

Content Downloader

Важно понимать: Чтобы максимально эффективно расходовать память в режиме MemSave нужно настроить фильтры очереди таким образом, чтобы сканер проходил только по нужным ссылкам (не уходя на лишние). Так как основную память в этом режиме занимает только копия списка обойденных ссылок (который обязателен и нужен для предотвращения повторного обхода ссылок)!


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 15, средний балл: 5.00)

Loading...
Автор: admin, 10 October 2010
Рубрики: Парсинг
Tags: , , ,
Есть 42 коммент. к сообщению: “Сканер сайтов (сбор ссылок)”
  1. Konstnantine says:

    А как быстро например распарсится сайт на 60 тысяч страниц?

    Отпишите в мыло плиз.

    • admin says:

      Примерно по 10 страниц в секунду (100 минут) (зависит от скорости самого сайта).

  2. Борис says:

    лагает парсер, из 88-и собрал тока 24. Сайт на вп, если интересно – адрес мылом дам

  3. Борис says:

    Дабы не навести тень на саму прогу – прога супер! Просто сайт попался “с закаулками” 🙂
    А прогу без сомнения двинул бы на Национальный Продукт!
    Реально доступная логика и восхищающие производительность и функционал.
    Более того – и автор действительно серьезный мужик: и ФАК достойный уважения, и сайт продукта, и обновления, и действительно доступная стоимость для Рунета – вот есть у нас настоящие кодеры!

  4. target says:

    Работает ли опция не по стартовой ссылке а по рабочему проекту?
    Т.е. если отработал проект но нужно проверить “донора” на предмет новых страниц, с их “импортом” на основании условий проекта, но с обязательным перечнем новых страниц. Как это сделать?

    • admin says:

      Нужно подключить “файл с загруженными элементами” во вкладке “контент”.
      Тогда при следующем парсинге загруженные ранее ссылки не будут обрабатываться.

  5. Александр says:

    При сборе ссылок для парсинга столкнулся с такой проблемой: если на сайте доноре ссылки содержат в себе пробел, CD при сборе этих ссылок убирает пробелы и получается уже другой url который ведет на страницу ошибок… Как с этим бороться?

    • admin says:

      Прошу дать мне ссылку на такую страницу (где есть линки с пробелами).

    • admin says:

      Залил обновленный файл (без выпуска официального обновления).
      Скачайте программу отсюда http://sbfactory.ru/cdfiles (доступ вы получили при покупке ключа)
      В меню – справка – о программе должно быть “27.77 MK III”
      В этой версии ошибка с пробелами в ссылках исправлена, проверяйте!

  6. Willyam says:

    Ребята, час ночи и не могу понять ))
    под проксёй eng нужно отсканировать выдачу гугла также под проксёй в самой проге. Дело в том, что гугл что-то изменил в своих чпу и ссылки совсем непонятные. Убрав все параметры фильтров, прога всё равно виснет и не движется. Подскажите решение!

  7. admin says:

    Может прокси “дохлые” или не работают в программе?

  8. Willyam says:

    да, на самом деле из-за прокси, ложная тревога ) ещё раз спасибо за софт!

  9. Николай says:

    Добрый день.
    Нужно запарсить сайт со следующей структурой:
    http://www.domen.ru/shop/98765/87654.html
    то-есть, после shop идет ровно две вложенности с кодами. В данном случае 98765 и 87654. Первый код: категория, второй: код товара.
    Также на сайте попадаются и другие ссылки на товары. Эти ссылки могут быть вида: http://www.domen.ru/shop/98765/98744/87654.html
    где 98744 – например какая-то характеристика данного товара. Например, диагональ 7 дюймов.
    Нужно парсеру указать, чтобы он брал только ссылки с двумя вложеностями.
    Маску, что-ли.
    Типа: http://www.domen.ru/shop/*/*.html
    Есть такая возможность?
    В справке не нашел.
    Спасибо.

  10. Viktor says:

    В ходе сканировании сайта большое число ссылок залетает в “не удалось загрузить”. Об этом свидетельствует счетчик таких ссылок. Что это такое, ссылки, которые “не удалось загрузить”? Можно ли объяснить причину того, почему они оказываются незагруженными?

    • admin says:

      Либо сайт не ответил на запрос программы, либо в коде попалась битая ссылка (404), либо ошибка 403 и прочие…

  11. RaWaS says:

    как вытащить все папки из сайта в котором они скрыты
    нужно получить все файлы пдф из всех папок http://www.mab.lt/paveldas/*/*/*.pdf
    http://www.mab.lt/paveldas/MAB01/230001/232328-1906-1.pdf

    • admin says:

      Используя регулярные выражения в фильтрах ссылок.
      Задать шаблон для ссылок:
      re:регулярное выражение

  12. palerm0 says:

    У меня тоже вопрос по ссылкам которые “не удалось загрузить”, раньше все ссылки собирались нормально, а теперь почему то большая их часть не загружается. В чем может быть проблема?

    • admin says:

      Может быть вас сайт забанил.
      Переподключите интернет (чтобы сайт вас разбанил) и пробуйте парсить в 1 поток.

  13. Виталий says:

    Если название домена русскими буквами, то не сканирует ничего!. Может есть какое решение?

  14. Денис says:

    А можно ли с помощью сканера сайтов, получить ссылки только с текущей (стартовой страницы), чтоб сканер не лез вглубь других страниц?

  15. Павел says:

    Можно. Пользуемся вкладкой ссылки.

  16. Анатолий says:

    Возможно как то создать список всех внешних ссылок на сайте ?

  17. Игорь says:

    Если бы он еще искал и внешние ссылки на сайте, то цены бы ему не было.

  18. гость says:

    Если в сканер задать ссылку на файл (C:\content\1.htm), он пытается загрузить адрес http://C:/content/1.htm и файл не загружается. Можете исправить?

    • admin says:

      Здравствуйте.
      Тут нечего исправлять.
      Сканер сайтов не предназначен для работы с локальным диском. С локального диска можно парсить во вкладке “ссылки” или “контент”.

  19. Alex says:

    На некоторых сайтах почему-то сканер сайтов очень выборочно выдирает страницы типа page=№, многие страницы оказываются пропущены. Причём это не зависит от числа потоков, я выставлял 1 поток. Чаще всего почему-то спарсивается page=4, при этом page=2, 3, 5 и т.д. оказываются пропущены.

    Если хотите, могу прислать проект парсинга (куда?)

    • admin says:

      Здравствуйте.

      Скорее всего это особенность сайта, или так настроен сканер. Если вы думаете, что это ошибка, пожалуйста, вышлите мне на почту sbfroot@gmail.com КОНКРЕТНЫЙ адрес WEB-страницы на которой сканер не находит той или иной ссылки (с указанием этой ссылки, которую(ые) не находит). Изучением “подозрительных проектов” мы не занимаемся, уж простите =)

      С уважением к вам, Сергей.

  20. Maksim says:

    простой вопрос к примеру

    на форуме есть информация с текстом об

    нужной мне допустим инструкции или упоминается тема нужная мне
    в названии программы если быть точным в тексте

    а еще у меня допустим 10 форумов по программированию и там допустим по ключевому слову появляется новая информация и я бы сканировал сайт а лучше 10 по очереди сайтов
    по списку ключевых слов и к вечеру примерно сел бы почитал бы что и кто на эту тему пишет и какие у него алгоритмы и размышления ( всё для обучения быть умнее и не тратить время на тупые кликания по кривым поискам на сайтах в форумах и дебрях )

    ваша программа может это ?
    и мне нужен готовый список ссылок где это (список слов ключевых или или типа ) встречается

    а еще вопрос по тайм ауту и планировщику задачи раз в 3 дня к примеру про сканировать или раз в 1 день

  21. Марат says:

    Доброго времени суток!
    Не получается парсить ссылки с avito и с reformagkh.ru. Сканер сайтов запускается и практически сразу останавливается с пустым списком. Связано ли это только с отсутствием у меня IE 11? Или же проблемы с авторизацией? Где посмотреть полноценную инструкцию с описанием как авторизовываться с помощью cookies post или с помощью proxy? заранее благодарю за ответ

    • Nevagno says:

      С сайта реформажкх парситься нормально, и с авито также. IE11 лучше поставить. и последнюю версию CD. Попробуете открыть в самом IE страницу сайта, и если не открывает то тогда настройках самого браузера в ствойствах параметры безопастности. А по программе проблема решается так

      Нажмите ctrl+h, включите там Internet Explorer (DOM), ниже “тайм-аут проверки…” измените на 2222
      Пробуйте парсить в 1 поток!!!

      И еще
      Возможные решения:
      1) Вставить нужные для парсинга этого сайта cookies и/или HTTP-заголовки в ctrl+h;
      2) Использовать библиотеку Internet Explorer (DOM) в ctrl+h (но парсить с ней можно максимум в 1-2 потока).

  22. Марат says:

    Вопрос 2. Что делать если при задании границ парсинга вышла ошибка “Программе не удалось загрузить WEB-страницу (Socket Error # 0 )”?

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php