ASC (Advanced String Comparsion) — наша собственная технология по сравнению заголовков товаров с целью выявления дублей и сращивания таблиц.
Например, в таблице есть одинаковые товары с отличающимися заголовками.
По сути это одинаковые товары, но по разному написанные (данные взяты с Озон).
Как видно, в таблице много дублей и обычным сравнением строк их удалить не получается.
Для решения задач по удалению дублей в таких таблицах или по склейке таких таблиц создана функция ASC.
Она используется во многих инструментах CSVPRO
В функции сопоставления используются сложные алгоритмы. Также имеются основные настройки необходимые для охвата практически всех случаев написаний заголовков товаров.
Как видно из скриншотов, сейчас можно склеивать таблицы и удалять в них дубли.
Список для настройки замены (удаления) слов легко получать с помощью инструмента измерения частотности слов в столбце.
Сопоставление заголовков товаров осуществляется, как по SKU, SKU+цвет, так и по отдельным словам.
В Content Downloader есть специальный макрос [COMPARETITLES] (клик для ознакомления). С помощью данного макроса можно парсить поисковую выдачу сайта для извлечения нужных товаров.