Порядок выполнения функций при парсинге контента

При парсинге контента все функции выполняются в определенном порядке. Работа одной функции, например: htm to txt, может отразиться на работе следующей (так как функции обрабатывают код документа поочередно и вносят в него изменения).

ВНИМАНИЕ: Информация в этом посте может быть неточной (так как программа обновляется и могут происходить изменения в порядке выполнения функций). Вы всегда можете смотреть АКТУАЛЬНЫЙ порядок выполнения функций и макросов в Content Downloader.

В нижней части окна предпросмотра парсинга контента есть лог выполнения функций, где все выполненные макросы или функции описаны в порядке их выполнения (также вы можете дважды кликать на элементы лога, чтобы посмотреть изменения кода документа).

Функции при парсинге контента в режиме “парсить заданные части документа” выполняются в следующем порядке:

Загрузка кода web-документа из интернета (GET-запросом);
Изменение кодировки сохраняемого документа (полученного кода)(если это требуется);
Функция “поиск-замена для основного кода” (на панели инструментов: “задать границы парсинга” – в открывшейся вкладке кнопка “поиск-замена для основного кода” (справа внизу));
Вычисление контента всех границ парсинга;
Функция поиск-замены для каждой границы парсинга (на панели инструментов: “дополнительные настройки границ парсинга” – в открывшемся окне “функция поиск-замены (что заменить|на что заменить)”);
Удаление пробелов, пустых строк и знаков табуляций в начале и в конце каждой границы парсинга (флажок “удалять пробелы” во вкладке контент);
Функция поиск-замены во вкладке “контент” (флажок “включить поиск-замену”);
Функция “htm to txt” (удаление html-тегов кроме указанных) во вкладке “контент” (флажок “htm to txt”);
Функция перемешивания строк для текста границ парсинга (на панели инструментов: “дополнительные настройки границ парсинга” – в открывшемся окне флажок “перемешивать строки”);
Функция “фильтрация документов по списку ключевиков” для выбранной границы парсинга (на панели инструментов: “задать границы парсинга” – в открывшейся вкладке кнопка “фильтрация документов по списку ключевиков” (справа внизу));
Функция преобразования текста в одну строку при выборе расширения csv включается автоматически (помимо удаления переносов строк из текста границ парсинга удаляются точки с запятой)(для настройки: вкладка “контент” – группа “общее” – графическая кнопка “настроить функцию преобразования текста в одну строку”);
Функция преобразования текста в одну строку для каждой границы парсинга (на панели инструментов: “дополнительные настройки границ парсинга” – в открывшемся окне флажок “в одну строку”)(для настройки: вкладка “контент” – группа “общее” – графическая кнопка “настроить функцию преобразования текста в одну строку”);
Выполнение макроса шаблона вывода FIRST_REPLACE (функция поиск-замены для заданного участка текста документа);
Выполнение макросов шаблона вывода CD_DOCURL! (ссылка загружаемый web-документ) и CD_DOCPATH!;
Выполнение макроса шаблона вывода PHP_SCRIPT_0 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода [INT_ID] (вставка числового ID (увеличивается с каждым документом));
Выполнение макроса шаблона вывода FILE (вставка строк из файла);
Выполнение макроса шаблона вывода GETMORECONTENT (загрузить указанный контент с указанного url-адреса);
Выполнение макроса случайного вывода текста {..|..|..} (для отключения макроса: меню – настройка – настройка макросов);
Выполнение макроса шаблона вывода SHAKESTRINGS (перемешка строк внутри макроса);
Выполнение макроса шаблона вывода TOPRICE (преобразование в формат цены и умножение цены на коэффициент);
Выполнение макроса шаблона вывода STRTOINTID (преобразование любого текста в числа);
Выполнение макроса шаблона вывода GETGOOGLEIMAGE (загрузка Google картинки по заданным ключевым словам);
Выполнение макроса шаблона вывода SYN (замена слов на синонимы);
Выполнение макроса шаблона вывода ONELINE (удаление переносов строк в указанной части текста);
Выполнение макроса шаблона вывода PHP_SCRIPT (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода PHP_SCRIPT_2 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода DELTAGS (удаление указанных тегов в заданной части текста);
Выполнение макроса шаблона вывода HTMTOTXT (удаление всех тегов (в заданной части текста) кроме указанных);
Выполнение макроса шаблона вывода SHORT (создание короткой новости путем обрезания текста);
Выполнение макроса шаблона вывода IMORE (вставка тега more после указанного количества символов или после определенных символов);
Вставка ссылки на источник (вкладка “контент” – кнопка “дополнительно” – флажок “ссылаться на источник”);
Выполнение макроса шаблона вывода IMAGESPATH_ (и удаление строки с этим макросом из текста документа);
Выполнение макроса шаблона вывода DOWNLOADFILENAMES_ (и удаление строки с этим макросом из текста документа);
Выполнение макроса шаблона вывода BEFORE_IMG_REPLACE (функция поиск-замены для заданного участка текста документа);
Выполнение макроса шаблона вывода PHP_SCRIPT_3 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода PHP_SCRIPT_4 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода [EXTRACTEMAILS] (парсинг e-mail адресов из текста);
Выполнение макроса шаблона вывода IMAGESNAMES_ (и удаление строки с этим макросом из текста документа);
Загрузка картинок (из тегов NIMG и img) на диск (и замена ссылок скачиваемых картинок в коде документа на те имена, с какими она сохранились на диск);
Выполнение макроса шаблона вывода DOWNLOADFILE (загрузка указанного файла с интернета на диск);
Выполнение макроса шаблона вывода [TOTRANSLITE];
Выполнение макроса шаблона вывода REPLACE (функция поиск-замены для заданного участка текста документа);
Выполнение макроса шаблона вывода [STRINGSFILTER];
Выполнение макроса шаблона вывода [MUSTBEINLINE] (удаление строки из текста, если не окажется ни одного символа в пределах макроса);
Выполнение макроса шаблона вывода [DEL_NIL_STRINGS];
Выполнение макроса шаблона вывода [DEL_EMPTY_STRINGS];
Выполнение макроса шаблона вывода [ALLSPACESCLEAR];
Выполнение макроса шаблона вывода [MUSTBE];
Выполнение макроса шаблона вывода [WEBASYSTIMG];
Выполнение макроса шаблона вывода PHP_SCRIPT_5 (обработка указанных данных php-скриптом);
Выполнение макроса шаблона вывода DOCSNAMES_ (и удаление строки с этим макросом из текста документа);
Сохранение документа.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 19, средний балл: 4.58)
Loading...
Автор: admin, 28 November 2011
Рубрики: Парсинг
Tags: , ,
Написать комментарий

Последние статьи

css.php