Content Downloader: создаем сайт за 15 минут

content downloader Результат работы программы

Здравствуйте, уважаемые коллеги и просто гости нашего сайта. В этой статье я покажу вам, как можно сделать сайт любой тематики за минимальный промежуток времени и с минимальными трудозатратами. Для этого я буду использовать свою программу для парсинга, обработки и публикации контента – Content Downloader.

Для начала определимся с тематикой. Например, автомобили. Находим сайт донор: погуглив минут 5 я наткнулся на хороший автомобильный сайт с кучей грамотных статей полных картинок – http://kolesa.ru (ребята из команды kolesa.ru могут не беспокоиться: ссылку на вас оставил и потом все ваши материалы удалю с сайта). В качестве CMS я выбрал WordPress.

На сайте было около 4000 статей, но мне хватило и ~300 (150 опубликовал сразу, остальные будут публиковаться раз в два дня по 7 статей).

Так как я имею определенную сноровку в настройке проектов для парсинга, то на эту процедуру у меня ушло минуты 3. Запускаю парсинг (пока я пишу эту статью, у меня на жесткий диск скачивается контент).

Пару слов о настройках парсинга:
Вставка ссылок на первоисточник отключена, картинки сохраняются в одну папку – images, контент сохраняем в html файлы с удалением тегов ссылок.

После завершения парсинга у меня получилось 308 статей и около 1900 файлов картинок.

Далее загружаю картинки на сервер.

Процедуру парсинга я не стал описывать, так как на сайте есть полно видео-материалов на эту тему, а вот процесс обработки и импорта контента я распишу:

Для начала создаем нужную рубрику, у меня – “статьи” и добавим в нее наши спарсенные файлы:

После добавления файлов видим следующее:

Все файлы отображаются в дереве слева, причем те файлы, которые были изменены, маркируются синим квадратиком, а те, которые были сохранены после изменений, – галочкой. Кликая по элементам дерева, мы загружаем в текстовое поле справа содержимое файлов, которое можно там же отредактировать и сохранить. При создании файла импорта в CMS структура дерева учитывается.

Затем, после просмотра пары статей, меня стало смущать то, что почти в половине записей присутствует строка типа “Статья опубликована в журнале “Колеса” за Январь – Февраль 2009″. Никаких проблем нет, зайдем в инструмент “массовая обработка файлов” и удалим все эти строки:

Там же сделаем автопростановку тегов more для WordPress.

Теперь все хорошо, можно публиковать. Скажу сразу следующее: те, кто публикует статьи в вордпресс с использованием ЧПУ, должны изменить все относительные ссылки картинок на абсолютные (эта процедура выполняется в той же массовой обработке файлов, необходимо всего лишь ввести шаблон абсолютной ссылки и нажать на кнопку).

Переходим к созданию файла импорта:

После завершения процедуры получаем следующие файлы, которые готовы для импорта в CMS:

И в итоге получаем 30 страниц симпатичных статей да и к тому же каждые два дня будут публиковаться новые 7 статей без нашего участия.

На этом все, спасибо за внимание.

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.

Есть 6 коммент. к теме: “Content Downloader: создаем сайт за 15 минут”

  1. Zheka says:

    этот пример на какой версии сделан..?
    в версии 1.91 нет вкладки “автопростановка тегов” почему..?

  2. admin says:

    На днях выйдет и эта версия (1.97).

  3. Mat says:

    Отличная программка. Только в последней версии очень не хватает синонимайзера. Будем ждать.

  4. seo-gnom says:

    Выглядит очень привлекательно)) Надеюсь новая версия оправдает ожидания

  5. admin says:

    Простой синонимайзер постараюсь сделать на неделе, а вот полноценный, как Smartrewriter, чтобы выпадали меню с вариантами слов будет гораздо позже…

  6. Василий says:

    Хороший сайт.
    Пользуюсь синонимайзером, хороший.
    Только не понял к чему это все написано.
    Как то начато не понятно с чего и закончено так же.

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)