Кластеризация
Кластеризация — это статистический метод служащий для распределения схожих по смыслу поисковых запросов по конкретным тематическим группам. С помощью кластеризации подбираются необходимые поисковые запросы для более четкого формирования контента под каждую тематическую страницу на сайте.
Такая статистическая процедура является многомерной и часто применяется в маркетинге, когда необходимо произвести точный сбор данных тематических поисковых запросов. Разбивая запросы по отдельным тематическим группам, которые включают в себя фразы одинаковые по смыслу.
При написании семантического ядра, так же необходима процедура по кластеризации ключевых слов, фраз и запросов.
Методы кластеризации
Методы кластеризации используются для идентификации групп аналогичных объектов в многовариантных наборах данных, собранных в таких областях, как маркетинг, био-медицинские и геопространственные. Это различные типы методов кластеризации, в том числе:
- Методы разделения
- Иерархическая кластеризация
- Нечеткая кластеризация
- Кластеризация на основе плотности
- Кластеризация на основе моделей
При жесткой кластеризации каждая точка данных назначается ровно одному кластеру. Напротив, при мягкой кластеризации каждая точка данных назначается каждому кластеру с определенной вероятностью. Типичным примером мягкой кластеризации является подгонка параметров модели гауссовой смеси, в которой предполагается, что все точки данных генерируются из смеси конечного числа гауссианов с неизвестными параметрами. Другие популярные модели включают модель смеси Пуассона, смесь многочленов и смесь экспонент. Существует взаимно однозначное соответствие между регулярными экспоненциальными семейными распределениями и расхождениями. В частности, логарифмическая вероятность моделей экспоненциальной смеси семейств может быть выражена через расходимость. В случае жесткой кластеризации, определяется свойство в терминах функции по отношению к некоторому набору запросов. В случае мягкой кластеризации запросы являются параметрами смешанной модели.
Soft clastering — метод кластеризации
«Soft» — кластеризация с простым методом распределения запросов по группам начиная с высокочастотного и заканчивая низкочастотным. Распределение запросов может происходить на основе результатов выдачи на первой странице в поисковой системе. Но не всегда высокочастотные запросы имеют один и тот же смысл со средними и низкочастотными запросами, которые включают в себя различные фразы и слова состоящие в одной группе кластера.
Кластер |
Запрос |
---|---|
|
|
Внимание! При простой кластеризации, поисковый запрос может принадлежать нескольким кластерам.
Все ключевые слова сравниваются с ключевым словом, имеющим наибольшую частотность, и если количество URL в ТОП-10 удовлетворяет заданной точности, то ключевые слова объединяются в группу. Все ключевые слова в группе будут связаны общими URL с ключевым словом, имеющим наибольшую частотность, но могут не иметь общих URL между собой. Названием группы будет ключевое слово с наибольшей частотностью. Данный метод позволяет объединить в группы больше ключевых слов, но не исключает попадания в группы не релевантных ключевых слов. После создания первой группы процесс повторяется на оставшихся ключевых словах, пока не останутся ключевые слова, не имеющие общих URL в ТОП-10 с заданной точностью.
Hard clastering — метод кластеризации
«Hard» — кластеризация с более точным методом распределения запросов по группам. Похож на предыдущий вид кластеризации, но для того, чтобы запрос вошел в одну группу, он должен быть обязательно одинаковым по смыслу и иметь схожий url. Такой метод полезен если стоит задача по сбору запросов для продвижения сайта только по высокочастотным запросам.
Внимание! При точной кластеризации поискового запроса, каждый элемент исходного «data set» принадлежит только одному кластеру.