Обзор 15 инструментов для кластеризации запросов при составлении семантического ядра
Привет, дорогие друзья! С наступившим Новым Годом вас, надеюсь, вы уже отошли от праздников и настроились на боевой лад. У меня для вас новогодний подарок сегодня — очень крутой практический пост. Пост не мой, но более чем достоин появиться на страницах этого блога.
Обзор составлен крутым чуваком по имени Дмитрий Мирошниченко. Дима живет в Волгограде, работает руководителем проектов в местной веб-студии, которая занимается развитием и продвижением собственных проектов. А еще Дима — кандидат наук, а это вам не хухры-мухры!
Информацию я случайно нашел в Клубе Баблорубов и сразу решил связаться с автором. Предложил опубликовать столь ценную инфу. Оказалось, что Дима, как и я, сторонник «сделать этот мир лучше» и любезно согласился поделиться.
Всё что написано ниже является моей точкой зрения и основано на моём жизненном опыте. Я не претендую на истину в последней инстанции. Если вы видите какие-то процессы иначе и знаете, как можно решить поставленную задачу эффективнее, крайне желательно не сдерживать себя и написать об этом в комментарии.
Итак, задача: составить семантическое ядро для сайта. Что означает слово «семантическое»? Вот что нам сообщает Википедия. Сема́нтика (от др. -греч. σημαντικός — обозначающий) — раздел лингвистики (в частности, семиотики), изучающий смысловое значение единиц языка. То есть нам нужно выделить смысловые направления для структуры сайта.
Как обычно решается эта задача?
- Парсим запросы (вордстат, различные базы, подсказки, сервисы типа спайвордс и семраш, открытые счётчики статистики и другие источники)
- Отсеиваем мусор и проверяем частотность
- Распределяем запросы на группы
- На основе групп делаем структуру сайта и распределяем статьи
Первые два пункта успешно решаем с помощью кейколлектора. Тут особых мук выбора не возникает. Кейколлектор действительно удобный инструмент.
Третья задача самая интересная. Её решение мы и будем рассматривать.
Четвёртая задача решается достаточно тривиально, если третья была качественно реализована.
Исходные данные
Информационный сайт дачной тематики. Раздел «кустарники и деревья». Всего было собрано 562 ключа. Это тренировочный набор данных. Мне было важно сравнить результаты работы разных инструментов.
Для раздела информационного сайта были собраны запросы, убран мусор и расставлена частотность «!» по вордстату больше 30. Нужно их распределить по группам.
Распределять запросы можно вручную и автоматом. Вручную распределяем по смыслу. Тут всё понятно. Для автоматической кластеризации есть много способов. Более подробно рассмотрим для каждого инструмента.
Инструменты, облегчающие ручную кластеризацию запросов
Excel, LibreOffice, OpenOfficeДумаю, тут нет смысла подробно описывать, как работать с этими инструментами.
Достоинства
- высокая точность обработки — руками всё-таки обрабатываем
- универсальность — можно учитывать кучу параметров
- в случае с LibreOffice, OpenOffice — бесплатные
Недостатки
- в случае с Excel — платный
- низкая скорость работы — при работе с большими объёмами данных
- нужно делать бекапы
Достоинства
- аналогично предыдущему пункту
- онлайн сервис — удобный доступ к документу
- не нужно делать бекапы
- бесплатный
Недостатки
- скорость работы всё также низкая
Онлайн сервис. Загружаешь запросы, фильтруешь, выделяешь группы.
Работает быстро. Функционал достаточный (кроме сохранения проектов), хороший интерфейс.
Достоинства
- удобный интерфейс
- быстро работает
- наглядность
- не нужно регистрироваться
- бесплатный
- онлайн сервис
Недостатки
- нельзя сохранять проекты можно, только выгружать уже готовые
- вытекает из предыдущего — если сервис заглючит, то потеряются все наработки
- нельзя загружать частотности
- скорость работы повыше, чем при работе с excel, но всё равно сопоставимая
- для параноиков — непонятно где хранятся ваши данные
Ещё один онлайн сервис. Аналогичен предыдущему. Уже можно сохранять проекты.
Достоинства
- проекты сохраняются
- хороший и понятный интерфейс
- можно загружать частотности
- бесплатный
- онлайн сервис
Недостатки
- скорость работы повыше, чем при работе с excel, но всё равно сопоставимая
- для параноиков — непонятно где хранятся ваши данные
Инструменты для автоматической кластеризации запросов
Группировщик ключевых слов для PPCДесктопная версия со странной логикой поведения. Подробности по ссылке выше (где скачать, можно найти там же).
Краткое описание работы алгоритма кластеризации:
У нас есть некий набор ключевых слов. Перед составлением индекса, скрипт нормализует все словоформы. На следующем этапе скрипт группировки определяет частоты для всего индекса документа и выстраивает рейтинг. Частоты считаются для каждого слова (после нормализации). Если у нас есть «отдых в тунисе» то скрипт считает частоты для «отдых» и «тунис».
На данном этапе – рейтинг слов выстраивается от наиболее частотных к менее частотным. Зачем это нужно? Чтобы создать основные группы. Скажем так, если слово «египет» встречается чаще чем слово «отель» то поисковый запрос (например, [недорогие отели египта]) включающий слово «отель» будет отнесен к группе «египет» а не наоборот.
Рейтинг слов образует названия групп. Ключевые слова «привязываются» к соответствующим группам.
Итак, мы сгруппировали слова, но довольно примитивно. Далее – нам нужна более точная группировка.
Более точная группировка означает, что внутри каждой группы скрипт создаст подгруппы и распределит слова между ними. На данном этапе точно также будет выстраиваться рейтинг слов по частоте. При этом рейтинг будет создаваться только внутри группы, основное слово группы (оно же – название группы) не будет принимать участие в рейтинге. Кроме того, рейтинг слов в группе выстраивается по обратной частотности. Т.е. слово с наименьшей частотностью – первым создаст «свою» подгруппу.
Конечно, создать свои подгруппы могут только те слова, которые встречаются не менее N-раз (задается в настройках скрипта, но обычно это не менее 4-5).
Именно такой подход работает очень эффективно, когда основные группы создаются на основе рейтинга от наиболее частотных слов к наименее частотным, а подгруппы – от наименее частотных к наиболее частотным.
На выходе получаем сгруппированный список.
Достоинства
- пока бесплатный
- быстро работает
Недостатки
- десктопная версия
- как-то криво сохраняется проект
- как там удалить что-нибудь?
- крайне странная логика поведения, откуда в системе слова которых там не было? (видно на скрине)
- алгоритм не учитывает смысла слов, только общий корень — самый существенный недостаток
- заявлено огранивение в 1000 ключей
- нельзя загрузить частотность
- нужно делать бекапы
Онлайн сервис кластеризации запросов на основе выдачи ПС. Точнее кластеризация это только одна из возможностей сервиса. Более подробное описание доступно на сайте.
Кратко об алгоритме работы:
Кластеризация – это автоматическая разбивка ключевых слов на группы. Как работает технология? Вы загружаете список ключевых слов, выбираете тип кластеризации – система анализирует ранжирование поисковых систем и с помощью нашего алгоритма разбивает ключевые слова на группы, которые будут отлично ранжироваться в поисковых системах. На выходе Вы получаете ключевые слова разбитые на группы.
Можно выставить силу группировки. Выставляется видимо в попугаях. На выходе excel файлики с выбранной силой группировки. На первой вкладке кластеры. На второй всё, что осталось без кластеров.
Плата снимается только для сгруппированных запросов (максимальное количество).
Напомню, всего 562 запроса. Сколько запросов сгруппировалось для каждого варианта видно в таблице ниже.
сила группировкизапросов сгруппированосколько групп (кластеров) получилосьпроцент от общего числа запросов3359?64%4308?55%5279?50%
Получаем максимальное число сгруппированных запросов 359. Неплохо для автомата. Сколько это стоило?
Получаем, что кластеризация 359 запросов обошлась в 552,5 рубля или чуть больше 1,5 рублей за зарос (хотя цифра группировки за запрос мне совершенно не интересна, но для общей картины пусть будет). Тут нужно уточнить, что кластером считается более двух запросов. Сколько групп получилось так и не придумал, как посчитать.
Теперь посмотрим что там по качеству.
Выберем тестовую группу по черешне. Вот список исходных запросов:
как правильно обрезать черешню валерий чкалов черешня черешня бычье сердце черешня дерево черешневый сад черешня ипуть обрезка молодой черешни обрезка черешни черешня сорта сорта черешни
Получилось два кластера для силы группировки 4 и 5:
Для силы группировки 3, кластер обрезки немного расширен:
Очевидно, что результат так себе.
Если бы я делал вручную, то кластер по сортам выглядел бы примерно так:
черешня бычье сердце черешня ипуть валерий чкалов черешня черешня сорта сорта черешни
Так что алгоритмы явно нужно допиливать.
Достоинства
- онлайн сервис
- все проекты сохраняются
- при регистрации выдают 3000 рублей на счёт (на момент публикации, по моему уже прикрыли такую халяву)
- худо бедно, но учитывается смысл (а не только общий корень) на основе выдачи поисковиков
Недостатки
- пока в стадии тестирования (на момент публикации уже вроде нет)
- платный
- дорого — хорошо если ядро 500 запросов, а если тысячи и сотни тысяч?
- всё равно нужно доделывать руками, полного автомата не получается
Ещё один онлайн кластеризатор на основе выдачи поисковика.
Как работает (взято с сайта):
Как выглядит внутри:
После автоматической кластеризации появляется окно редактирования, где можно подправить ошибки.
Скачивается excel файлик. На первой вкладке запросы и группы с подробностями.
На второй вкладке только группы.
На третьей вкладке какой-то топ тематики.
Так же можно установить силу группировки. Потестил теже цифры: 3, 4 и 5.
сила группировкизапросов сгруппированосколько групп (кластеров) получилосьпроцент от общего числа запросов3?267?4?278?5?285?
Тут нужно уточнить, что кластер из одного запроса это тоже кластер. И он учитывается. Так что формально получается, что сгруппировалось 100% запросов. А вот сколько получилось групп с запросами 2 и более я тоже не придумал как посчитать.
Так же нужно учитывать, что ценообразование немного другое. Деньги снимаются за все запросы, которые есть в документе. Я купил 600 запросов, что обошлось мне в 288 рублей. Получаем стоимость одного запроса 0,48 копеек. После группировки у меня в системе осталось 38 запросов. В итоге группировка тестовой выборки ключей обошлась в примерно в 270 рублей. Что в два раза ниже, чем в предыдущем сервисе.
Посмотрим, что тут с качеством.
Для всех сил группировки получилось — 4 группы:
валерий чкалов черешня (1/170) валерий чкалов черешня (170) черешня ипуть (5/472) черешня ипуть (159) сорта черешни (134) черешня сорта (92) черешня дерево (44) черешневый сад (43) черешня бычье сердце (1/64) черешня бычье сердце (64) обрезка черешни (3/352) обрезка черешни (226) как правильно обрезать черешню (86) обрезка молодой черешни (40)
Тоже видим, что по смыслу не идеально. Нужно дорабатывать руками.
Достоинства
- онлайн сервис
- все проекты сохраняются
- 50 запросов для теста при регистрации
- худо бедно учитывает смысл
- дешевле, чем предыдущий вариант
Недостатки
- платный
- алгоритм работает не идеально, нужна ручная коррекция
Интересный сервис на мой взгляд. Дизайн сайта: привет консоль.
Что у них заявлено на сайте:
— Собирать семантику для существующих страниц сайта, сразу правильно привязывая запросы к ним. — Расширять существующую структуру сайта. — Предлагать тематическую семантику для новых страниц сайта на основании текущего СЯ. — Создавать семантику для проектируемого сайта. — И просто кластеризовать запросы. Включая тематическое разбиение.
Можно посмотреть доклад разработчика на ТопЭксперте:
Вот что мне ответили разработчики про то, как там всё устроено:
Мы решаем сугубо утилитарную задачу — определить какие запросы могут продвигаться на одной странице.
Отсюда и метод решения — мы собираем выдачу ПС по каждому запросу и кластеризацию проводим на ее основании.
Фактически, нам необходимо решить достаточно простую задачу — раскидать запросы по совпадению URL в выдаче, попутно позаботившись, чтобы в один кластер не попали принципиально разные типы запросов. Типы мы выделяем такие: — Коммерческий/информационный. — «На морду»/"на внутряк". — Однословный/2+ словный. — С маркерами типа контента/без них.
«Маркеры типа контента» — это слова запроса, которые ПС использует для выставления требований к контенту на продвигаемой странице. Например — («отзывы», «видео», «скачать», «фото»).
Поскольку задача определена и набор входных данных довольно прост, то и алгоритм не замысловат. В основном алгоритме системы машинное обучение не используется. Центроиды в текущем алгоритме мы де-факто используем (один из запросов является «центром» кластера, а остальные должны иметь определенную меру схожести с ним). Сейчас используется «жадный» алгоритм их (центров) выделения. Но в этом методе есть определенные недостатки, поэтому в следующей версии алгоритма, которая сейчас внедряется, мы в принципе откажемся от понятия запроса-центра кластера.
Машинное обучение мы тоже используем, но в другом месте — автоматическая генерация запросов-маркеров на основании данных Яндекс.Метрики.
Пока попробовать не удалось. Отправил запрос на тестовый доступ. Сказали у них обновление. Основной функционал стоимостью от 30 000 руб/месяц будет доступен в конце января. Для простых смертных с объёмами поменьше в феврале.
Если всё будет работать, как заявляют, то будет очень круто. Посмотрим.
Достоинства
- хорошие перспективы
- онлайн сервис
Недостатки
- пока нет версии для простых смертных, только месячная подписка
- попробовать так и не удалось
- как есть — дорого
Ещё один онлайн сервис по кластеризации. Заявленный функционал:
Сервис автоматизации SEO работ ● кластеризация запросов ● подбор посадочных страниц ● поиск конкурентов ● помощь в оптимизации контента ● заказ оптимизированных текстов
Мне так и не удалось его заставить работать. Нет никакой справки, никаких подсказок.
Достоинства
- онлайн
Недостатки
- так и понял как с ним работать
- платный
Описание на сайте:
Сервис позволяет автоматически группировать уже собранные запросы. Разбивка запросов на группы производится на основе схожести топ10 Яндекса.
Про особенности алгоритма ничего найти не удалось.
Для моих 562 запросов получилось 305 групп. В группе минимум один запрос. Посмотрим что там с нашей черешней:
17сорта черешни черешня сорта черешня дерево73обрезка молодой черешни обрезка черешни189как правильно обрезать черешню190валерий чкалов черешня200черешня ипуть201черешневый сад202черешня бычье сердце
Видно, что группы 73 и 189 можно было бы и объединить… Ну и в остальном тоже понятно. Кластеризация, мягко говоря, не идеальная.
Достоинства
- онлайн сервис
- бесплатный
Недостатки
- Как это скачать? Нет никаких кнопок, чтобы скачать. Можно только скопировать текст.
- Без регистрации можно работать только с 20-00 до 7-00 по Москве. Зарегистрироваться никак нельзя. Вообще.
- нужна ручная коррекция кластеров
Очередной сервис кластеризации. Особенность в том, что работает не в автоматическом режиме. Это же его и недостаток.
Сервис кластеризации запросов предназначен для быстрой автоматизированной группировки больших списков запросов (ключевых слов для продвижения) в кластеры, которые формируются исходя из выдачи поисковых систем и представлений поисковой системы Яндекс о потребности пользователя.
Запросы из одного кластера необходимо продвигать на 1 страницу.
Отправил бриф. Ответили через два дня. Оказывается, у них заявки в ручном режиме обрабатываются. Пишут, что так больше получают обратной связи. В будущем грозятся сделать всё в автомате.
Сама кластеризация, пишут, длилась меньше минуты. Цитата:
На просчет вашей заявки ушло меньше минуты. Самое большое, что приходилось на данный момент обрабатывать — 55к, расчет шел около 3 часов.
Что пишут про алгоритм работы:
Алгоритм группировки разработан свой. Данные — топ 10 яндекса по каждому запросу. Машинное обучение используем, но для другого функционала, который скоро будет представлен. Есть проблемы с релевантными страницами в отчете. В индекс поисковика не всегда попадает то, что нужно, особенно, если над проектом еще не работал специалист. В результате приходится дополнительно обрабатывать результат руками, при определенном кол-ве запросов это уже грустно. Задача в процессе решения.
Кластеризация моих 562 запросов обошлась мне в 309 рублей. Имеем 60 копеек за запрос. Скидок не давали. Да я и не просил.
191 запрос оказался без групп. Значит сгруппировался 371 запрос или 66%.
Теперь посмотрим что там с качеством:
обрезка черешни как правильно обрезать черешню обрезка молодой черешни сорта черешни черешнЯ сорта черешнЯ дерево валерий чкалов черешнЯ черешнЯ бычье сердце черешневый сад черешнЯ ипуть
Снова сорта остались без кластеров.
Достоинства
- коммуникабельность тех поддержки, ответили на все вопросы
- онлайн сервис
Недостатки
- работает не в автоматическом режиме, человеческий фактор портит впечатление
- платный
- нужна ручная коррекция кластеров
И ещё один сервис. Кластеризует тоже, видимо, по словоформе. Никаких поисковиков.
Что с этим дальше делать я понять не смог. Как мне разбить по кластерам? Как посмотреть какие запросы попали в один кластер? Ну и если разбивка идёт на основе словоформ, то ни о каком объединении по смыслу речи не идёт.
Достоинства
- онлайн сервис
- бесплатный
- не нужно регистрироваться
Недостатки
- странный интерфейс
- алгоритм разбивки на основе словоформ
Почти всем известная программа, кто так или иначе сталкивался со сбором ключей.
Группировка это только маленькая часть того, что она умеет.
Запросы можно сгруппировать по составу фраз, по выдаче поисковиков и в комбинированном режиме. Группировка на основе поиска работает кода собраны данные для KEI. На сбор информации для группировки ушло несколько минут. Сама группировка длилась меньше минуты.
Лучшей группировки удалось добиться со следующими параметрами:
В первом случае сгруппировалось 381 фраза или 68% от общего числа. Во втором случае 403 или 72%, что очень хорошо.
Интересующие нас черешни по сортам (ипуть, бычье сердце. ) тоже и не попали к сортам. Были выделены в отдельные группы. Что, в общем, и не удивительно.
Остальные запросы сгруппировалась более или менее. В итоге имеем 72% экономии времени (остальное доделывать руками).
Достоинства
- понятный интерфейс
- можно подбирать настройки группировки
- куча других возможностей по работе с ключами
- демократичная цена
- отличная тех поддержка
Недостатки
- десктопная версия
- нельзя редактировать получившиеся группы в программе — только в excel
- для работы нужны антигейт, прокси, аккаунты — с онлайн сервисами таких заморочек нет, они берут эти проблемы на себя
- нужна ручная коррекция кластеров
Десктопная программы для кластеризации.
Сложно просто взять и работать. Юзабилити хромает.
Жму нормализовать. Он мне выдаёт сообщение, что нужно сохранить проект. А автоматически нельзя сохранить проект? Зачем мне нажимать на кнопку, если это может сделать компьютер?
Не очевидно, что нажать, чтобы запустить процесс разбивки на группы. Оказывается это «частотный анализ».
Парсинг 562 запросов на стандартных настройках в 7 потоков и на 7 прокси занял примерно 10 минут. Ещё минут 5 заняла нормализация.
После нормализации снова непонятно как группировать нужные мне слова. Информацию нашёл на 27 странице руководства. И на том спасибо.
Ведь это же основной функционал программы. Разбивать слова на группы. Почему самая нужная информация находится так далеко? Ну и полезно было бы сделать что-то вроде quick start. Для контекста и для сайтов раздельно. Я понял, там есть различия в работе.
Доводить дело до конца по кластеризции своих запросов тут не захотелось. Основная проблема в расстановке акцентов в интерфейсе программы.
Чисто для кластеризации использовать смысла нет. Думаю, вся мощь программы должна проявиться при полной работе с ключами. Начиная с очистки запросов от мусора и создания стоп слов.
Достоинства
- есть полноценная демоверсия
Недостатки
- десктопная программа
- для работы нужны антигейт и прокси — с онлайн сервисами таких заморочек нет, они берут эти проблемы на себя
- объединяет на основе словоформ, то есть ни о каких смыслах говорить не приходится
- юзабилити нужно дорабатывать
Ещё один удалённый сервис. В последнее время много пиарится.
Опять же с сервисом нужно работать через посредников. То есть через людей. Никакой тебе автоматики.
Нужно сначала подать бриф, потом подождать пока с тобой свяжутся. Согласовываешь детали. Затем оплата.
За бесплатно делать группировку не захотели, но сделали скидку в 50%. В итоге группировка 562 запросов мне обошлась в 350 рублей (без скидки просили 700). Сгруппировать один запрос вышло 60 копеек (или 1,2 рубля без скидок)
Опять же проблемы с юзабилити на сайте. Кнопка «подать бриф» маленкая, белая и незаметная на белом же фоне. Не удержался, простите.
Как и на основе чего делают кластеризацию, говорить отказались. Известно, только, что на основе выдачи ПС.
Результат работы прислали через несколько часов. Помимо самих кластеров прислали ещё 100500 параметров и файлов. Хотя я не просил. В принципе полезная информация для анализа. Но логично было бы разделить: хочешь просто кластеризацию — одна цена, хочешь ещё ништяков — другая. Так как разным клиентам нужна разная информация.
Посмотрим, какие кластеры получились:
обрезка черешни как правильно обрезать черешню обрезка молодой черешни черешня ипуть сорта черешни черешня сорта черешня бычье сердце валерий чкалов черешня черешня дерево черешневый сад
Это уже гораздо лучше! Отдельные сорта попали-таки в кластер по сортам! Правда, Валерий Чкалов потерялся.
Достоинства
- быстро ответили
- готовы делать скидки
- онлайн сервис
- куча различной доп информации, вплоть до заданий копирайтерам (правда пишут, что задания всё же нужно допиливать индивидуально)
Недостатки
- есть посредник в виде человека
- по алгоритмам сплошная коммерческая тайна
- нужна ручная коррекция кластеров
Итоги
Сводную таблицу по функционалу и стоимости можно посмотреть ниже.
В итоге пока не имеем инструмента, который на полном автомате сгруппирует нужные запросы без ошибок.
Наилучшие результаты показали (судил по сортам черешни) Semparser.ru и Seo-case.com. По стоимости получаем 48 копеек против 1,2 рубля соответственно. Разница почти в три раза. Дополнительная стоимость у Seo-case, я так думаю, за счёт бонусной информации. На следующем месте стоит Кей-Коллектор (так как он почти наверняка есть у человека, который занимается запросами).
Самый основательный подход по кластеризации, на мой взгляд, у ребят из Just-magic.org. Так что как только появится возможность, обязательно потестирую.
На этом мега обзор заканчивается, дорогие друзья! Я уверен, вам понравилось, поэтому прошу вас оставить свое мнение в комментариях, а если вам есть, что добавить, то тем более отписывайтесь.
Дружно скажем Диме большое спасибо, ведь, кто знает, вдруг он однажды составит подобное сравнение каких-нибудь других полезных инструментов, и решит им поделиться :)
До связи друзья!
Вот уже 16 лет я профессионально занимаюсь созданием и продвижением сайтов и 12 лет с удовольствием пишу в любимый блог. Создал заслужившие доверие в seo-сообществе программы FastTrust и ComparseR и известный сервис для проверки траста сайтов CheckTrust.ru.
В 2014 основал веб-студию «АлаичЪ и Ко» в Краснодаре: 1 место в рейтинге агентств интернет-маркетинга (Рейтинг Рунета), 2 место в рейтинге SEO-компаний (CMSmagazine), 12 место в рейтинге известность бренда SEO-компаний в России (SeoNews).
Выступаю на профильных конференциях (All In Top, SEO Conference, SEMPRO, Baltic Digital Days). Веду канал в telegram про seo и бизнес. SEO-специалист года 2019 и 2020 (Sape).