Порядок выполнения функций при парсинге контента

При парсинге контента все функции выполняются в определенном порядке. Работа одной функции, например: htm to txt, может отразиться на работе следующей (так как функции обрабатывают код документа поочередно и вносят в него изменения).

ВНИМАНИЕ: Информация в этом посте может быть неточной (так как программа обновляется и могут происходить изменения в порядке выполнения функций). Вы всегда можете смотреть АКТУАЛЬНЫЙ порядок выполнения функций и макросов в Content Downloader.

В нижней части окна предпросмотра парсинга контента есть лог выполнения функций, где все выполненные макросы или функции описаны в порядке их выполнения (также вы можете дважды кликать на элементы лога, чтобы посмотреть изменения кода документа).

Функции при парсинге контента в режиме «парсить заданные части документа» выполняются в следующем порядке:

Загрузка кода web-документа из интернета (GET-запросом);
Изменение кодировки сохраняемого документа (полученного кода)(если это требуется);
Функция «поиск-замена для основного кода» (на панели инструментов: «задать границы парсинга» — в открывшейся вкладке кнопка «поиск-замена для основного кода» (справа внизу));
Вычисление контента всех границ парсинга;
Функция поиск-замены для каждой границы парсинга (на панели инструментов: «дополнительные настройки границ парсинга» — в открывшемся окне «функция поиск-замены (что заменить|на что заменить)»);
Удаление пробелов, пустых строк и знаков табуляций в начале и в конце каждой границы парсинга (флажок «удалять пробелы» во вкладке контент);
Функция поиск-замены во вкладке «контент» (флажок «включить поиск-замену»);
Функция «htm to txt» (удаление html-тегов кроме указанных) во вкладке «контент» (флажок «htm to txt»);
Функция перемешивания строк для текста границ парсинга (на панели инструментов: «дополнительные настройки границ парсинга» — в открывшемся окне флажок «перемешивать строки»);
Функция «фильтрация документов по списку ключевиков» для выбранной границы парсинга (на панели инструментов: «задать границы парсинга» — в открывшейся вкладке кнопка «фильтрация документов по списку ключевиков» (справа внизу));
Функция преобразования текста в одну строку при выборе расширения csv включается автоматически (помимо удаления переносов строк из текста границ парсинга удаляются точки с запятой)(для настройки: вкладка «контент» — группа «общее» — графическая кнопка «настроить функцию преобразования текста в одну строку»);
Функция преобразования текста в одну строку для каждой границы парсинга (на панели инструментов: «дополнительные настройки границ парсинга» — в открывшемся окне флажок «в одну строку»)(для настройки: вкладка «контент» — группа «общее» — графическая кнопка «настроить функцию преобразования текста в одну строку»);
Выполнение макроса шаблона вывода FIRST_REPLACE (функция поиск-замены для заданного участка текста документа);
Выполнение макросов шаблона вывода CD_DOCURL! (ссылка загружаемый web-документ) и CD_DOCPATH!;
Выполнение макроса шаблона вывода PHP_SCRIPT_0 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода [INT_ID] (вставка числового ID (увеличивается с каждым документом));
Выполнение макроса шаблона вывода FILE (вставка строк из файла);
Выполнение макроса шаблона вывода GETMORECONTENT (загрузить указанный контент с указанного url-адреса);
Выполнение макроса случайного вывода текста {..|..|..} (для отключения макроса: меню — настройка — настройка макросов);
Выполнение макроса шаблона вывода SHAKESTRINGS (перемешка строк внутри макроса);
Выполнение макроса шаблона вывода TOPRICE (преобразование в формат цены и умножение цены на коэффициент);
Выполнение макроса шаблона вывода STRTOINTID (преобразование любого текста в числа);
Выполнение макроса шаблона вывода GETGOOGLEIMAGE (загрузка Google картинки по заданным ключевым словам);
Выполнение макроса шаблона вывода SYN (замена слов на синонимы);
Выполнение макроса шаблона вывода ONELINE (удаление переносов строк в указанной части текста);
Выполнение макроса шаблона вывода PHP_SCRIPT (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода PHP_SCRIPT_2 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода DELTAGS (удаление указанных тегов в заданной части текста);
Выполнение макроса шаблона вывода HTMTOTXT (удаление всех тегов (в заданной части текста) кроме указанных);
Выполнение макроса шаблона вывода SHORT (создание короткой новости путем обрезания текста);
Выполнение макроса шаблона вывода IMORE (вставка тега more после указанного количества символов или после определенных символов);
Вставка ссылки на источник (вкладка «контент» — кнопка «дополнительно» — флажок «ссылаться на источник»);
Выполнение макроса шаблона вывода IMAGESPATH_ (и удаление строки с этим макросом из текста документа);
Выполнение макроса шаблона вывода DOWNLOADFILENAMES_ (и удаление строки с этим макросом из текста документа);
Выполнение макроса шаблона вывода BEFORE_IMG_REPLACE (функция поиск-замены для заданного участка текста документа);
Выполнение макроса шаблона вывода PHP_SCRIPT_3 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода PHP_SCRIPT_4 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода [EXTRACTEMAILS] (парсинг e-mail адресов из текста);
Выполнение макроса шаблона вывода IMAGESNAMES_ (и удаление строки с этим макросом из текста документа);
Загрузка картинок (из тегов NIMG и img) на диск (и замена ссылок скачиваемых картинок в коде документа на те имена, с какими она сохранились на диск);
Выполнение макроса шаблона вывода DOWNLOADFILE (загрузка указанного файла с интернета на диск);
Выполнение макроса шаблона вывода [TOTRANSLITE];
Выполнение макроса шаблона вывода REPLACE (функция поиск-замены для заданного участка текста документа);
Выполнение макроса шаблона вывода [STRINGSFILTER];
Выполнение макроса шаблона вывода [MUSTBEINLINE] (удаление строки из текста, если не окажется ни одного символа в пределах макроса);
Выполнение макроса шаблона вывода [DEL_NIL_STRINGS];
Выполнение макроса шаблона вывода [DEL_EMPTY_STRINGS];
Выполнение макроса шаблона вывода [ALLSPACESCLEAR];
Выполнение макроса шаблона вывода [MUSTBE];
Выполнение макроса шаблона вывода [WEBASYSTIMG];
Выполнение макроса шаблона вывода PHP_SCRIPT_5 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода DOCSNAMES_ (и удаление строки с этим макросом из текста документа);
Сохранение документа.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 16, средний балл: 4,50)
Загрузка...
Автор: admin, 28 ноября 2011
Рубрики: Парсинг
Метки: , ,

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php