Удаление неявных дублей по СЯ в Key Collector

При сборе Семантического Ядра (особенно когда идет его расширение) мы собираем запросы с разных источников, как правило мы вытаскиваем из разных баз и сервисов списки ключей, скидываем все найденное в один «котел», далее снимаем по ним частотности, отсеиваем мусор и группируем.

При таком подходе по нашему СЯ обычно собирается очень много так называемых неявных дублей — это поисковые запросы, которые состоят из одних и тех же слов, но при этом некоторые слова у них размещены в разном порядке:

Только в этом примере из 30 ключей оригинальных будет только 11

Держать все 30 шт нет абсолютно ни какого смысла, в разы лучше будет сконцентрировать свое внимания и усилия на уникальных 11 шт, от остальных нужно избавляться.

Как это сделать в Семантическом Ядре, где тысячи запросов?

  1. Закидываем наше СЯ в Key Collector и снимаем точную частотность («!») — именно по ней мы будем среди всех таких неявных дублей находить и оставлять более высокочастотные, а от менее частотных будем избавляться
  2. В Key Collector идем на вкладку «Данные«, выставляем аналогичные скрину настройки и жмем «Выполнить умную групповую отметку» — по сути мы отмечаем те, которые и нужно удалить.
  3. Если у вас эти неявные дубли уже были в собранном, разгруппированном и структурированном СЯ, вы про них поздно вспомнили и только сейчас решили почистить, выгружаем эти отмеченные дубли в Excel, ставим им во второй колонке пометку «дубль» и далее функцией ВПР в Excel подтягиваем эту пометку по СЯ
  4. Далее эти дубли фильтруем/сортируем в отдельный список и удаляем
Ссылка на основную публикацию