32
Николай Хиврин, CEO ALTWeb Group Алгоритмы автоматизированного составления и группировки семантических ядер

Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Embed Size (px)

DESCRIPTION

Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Citation preview

Page 1: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Николай Хиврин, CEO ALTWeb Group

Алгоритмы автоматизированного составления и

группировки семантических ядер

Page 2: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

1. Составление базы запросов

2. Составление семантического ядра

3. Группировка семантического ядра

Над чем работаем?

Page 3: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Есть ли смысл в базе запросов

без привязки к регионам?

Page 4: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

1. Страна

2. Федеральный округ, штат и т.п.

3. Область

4. Город

Проблема регионов

Page 5: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

1. В какие вышестоящие регионы входит

2. Количество жителей и проникновение интернета

3. Удаленность от других регионов

4. Область на карте

Что важно знать о регионе

Page 6: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)
Page 7: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)
Page 8: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)
Page 9: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)
Page 10: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)
Page 11: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)
Page 12: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

1. Популярность запроса в поисковых системах

2. Наличие запроса в подсказках

3. Доля геонезависимых результатов

4. Доля коммерческих сайтов

5. Доля спектральных результатов

Что нужно знать по каждому региону

Page 13: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Источники данных

1. Статистика запросов поисковых систем

2. Поисковые подсказки

3. Результаты поиска

4. Счетчики посещаемости на сайтах

5. Данные из популярных плагинов для браузеров

Page 14: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Получение региональных результатов поиска

Яндекс: таблица соответствия LR базе регионов

Google: домен поисковой системы + IP из региона

Page 15: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Количество запросов

1. Яндекс обрабатывает 200 млн запросов в сутки из

которых 25-50% приходится на ботов

2. Более 25% запросов являются уникальными

(набираются менее 1 раза в месяц)

Попадание в базу имеет смысл при статистике не

менее 5 запросов в месяц

Т.е. в измеряемую популярность может попасть

не более 100 млн запросов в сутки

Page 16: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Количество запросов

100 млн запросов * 30 дней = 3 млрд запросов в месяц

Если бы запросы набирались равномерно по 5 раз в месяц,

то их всего было бы 600 млн штук, но есть и популярные

запросы

Для России полная база запросов ~50 млн штук

Англоязычные запросы ~110 млн штук

Page 17: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Случайные запросы (хвост)

Для запросов без статистики можно делать вероятностные

проверки, т.е. проводить тесты на нахождение сайта в

поиске по случайному запросу

Page 18: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Составление семантического ядра

1. Поиск запросов из видимости конкурентов

2. Поиск запросов по маске

3. Статистика поисковых переходов конкурентов (закрытые

данные)

Page 19: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Поиск запросов по всем конкурентам

Page 20: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Размеры семантических ядер

1. Крупнейшие E-Commerce проекты с широким спектром

товаров ~1 млн запросов

2. Крупный портал, большой E-Commerce 50-500к запросов

3. Портал, многопрофильный бизнес 10-50к запросов

4. Сайт в конкурентной нише 1-10к запросов

5. Ниша с низкой конкуренцией 100-1000 запросов

Page 21: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Подходы к кластеризации

1. Руками, по логической структуре сайта и морфологии

2. Автоматически

Page 22: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Автоматическая кластеризация

1. Поиск общих сайтов и страниц по запросам в результатах

поиска

2. Морфологический анализ запросов с учетом IDF (inverse

document frequency) на большой коллекции документов

купить sony vaio svl2413z1r

sony vaio svl2413z1r

купить sony vaio pro 13

Page 23: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Вычислительные сложности

Матрица совместимости пар запросов на 1000000^2 значений

1 2 3 4 … 1000000

1 + - + +

2 -

3

4

1000000

Page 24: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Транзитивность

Если запрос A подходит B, а запрос B подходит запросу C

То подходит ли запрос A к запросу C?

Page 25: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Алгоритм пошаговой кластеризации

1. Последовательно смягчаем критерии кластеризации

1. Последовательно выбираем запросы из семантики

1. Относим запрос к уже существующему кластеру

(запрос совместим со всеми или частью слов из

кластера)

2. Порождаем новый кластер

Page 26: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Есть ли смысл в кластеризации без

последующего мониторинга?

Page 27: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Задачи мониторинга

1. Поиск новых запросов и их кластеризация

2. Многоуровневая кластеризация или фильтрация (пример:

все запросы со словом “купить” или все запросы, по которым

пусть страницы начинается с “/for_home/”)

3. Изменение средневзвешенных значений по кластеру:

позиция, трафик, конверсия

Page 28: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Оценка объема данных

Запросов – 50 000 000

Регионов – 30

Глубина анализа – 100 позиций

Поисковых систем – 2

Частота обновления – 4 суток

===

27 375 млрд элементов в год

Page 29: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Хранение позиций

~30 байт на элемент с учетом индексации

===

821 Tб в год

Но самое сложное – хранение путей релевантных страниц (!)

Page 30: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Есть ли смысл в кластеризации без

автоматизации продвижения?

Page 31: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Есть ли смысл в кластеризации без

интеграции с аналитикой?

Page 32: Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Вопросы

Николай Хиврин

CEO ALTWeb Group

http://www.megaindex.org/khivrin

http://facebook.com/khivrin