Как и где быстро напарсить много тематических картинок

Как и где быстро напарсить много тематических картинок

Всем привет.

Решил поделиться с вами одной темой: где быстро напарсить сколько угодно много картинок с помощью Content Downloader.

И так, начнем с источника картинок. http://www.flickr.com/ – это буржуйский сайт, где фотографы (профессионалы и любители) уже много лет выкладывают свои фотки. Там просто нереально много картинок.

Для начала работы заюзаем поиск на сайте (search). Будем использовать поисковое слово “fruits”. Итог – 1,142,298 results. Далее переключаемся в режим view: medium (для того, чтобы выдача состояла из картинок побольше – примерно 240*178 пикселей).

Как видно, выдача состоит из огромного количества страниц с картинками (которые мы будем парсить). Для построения списка url этих страниц зададим программе шаблон http://www.flickr.com/search/?page={num}&q=fruits&z=e и укажем диапазон от 1 до 100.

После построения списка урлов, переходим во вкладку контент, ставим галочку на “сохранять картинки в одну папку” и начинаем парсить.

После этого в подпапку images начнут скачиваться нужные нам картинки.

вот результат парсинга первых страниц выдачи
вот файл проекта Content Downloader

Хорошо и то, что можно прямо из парсера менять выдачу картинок. Посмотрите на адрес http://www.flickr.com/search/?page={num}&q=fruits&z=e. Подстрока “&q=fruits” – это и есть наш запрос про фрукты, который можно легко заменить на cars или еще что-нибудь.

Если вдруг будут парситься слишком маленькие картинки (размером менее 240*185), то это значит, что вы задали шаблон для маленьких превьюшек. Для больших превью он имеет подстроку “&z=e” на конце.

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.
Есть 6 коммент. к теме: “Как и где быстро напарсить много тематических картинок”
  1. DeXtR says:

    Крутой софт, раньше я за это платил 🙂

  2. admin says:

    Теперь сами можете продавать картинки ).

  3. DDD says:

    попробовал вашей программой так спарсить картинки, ну на самом деле парсит именно превью, так что всё не так уж и радужно, вот если бы программа скачивала с каждой превью нормальную картинку по ссылке было бы круто, а так, никак честно говоря

  4. Rabinovich says:

    Лихо картинки вытаскивает!
    Только из-за скорости высочайшей доступ банится.

  5. admin says:

    Ставьте 1 поток и паузу между запросами…

  6. Sam says:

    А если парсить не только превью? Возможно?
    Или “&z=e” самый большой вариант картинок?

Написать комментарий к DeXtR

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)