Факторы ранжирования Яндекс, Николай Хиврин

Preview:

Citation preview

Николай ХивринГенеральный директор ALTWeb Group

Факторы ранжирования Яндекс

Индекс Яндекса?

•5 дата-центров

•Более 30000 серверов

•Серверы поделены на 400 000 виртуальных машин по 12Gb RAM

•Индекс поделен на 6700 шардов (частей)

•Каждый шард имеет множество копий

В Яндексе один основной поиск и около 100 дополнительных

Примеры дополнительных поисков:

•Поиск из быстрой базы

•Поиск по новостям

•Пересчет курсов валют в подсказках

и т.д.

Результаты всех поисков объединяются

Особенности MatrixNet?

•Машинное обучение

•Формула зависит от тематики и типа запроса

Обработка запроса в основном поиске?

Определение типа запроса:

•Геозависимый или нет

•Коммерческий или нет

•Определение тематики

Выбор соответствующей формулы для MatrixNet

Что такое формула ранжирования или функция релевантности?

Почти всегда это моном, т.е. произведение значений факторов

Rel(document, query) = f1 * f2 * f3* … * fn

Значения факторов должны быть положительны и больше 0. Чем выше значение, тем выше релевантность.

Значимость фактора – нормировка значения. Чем больше, тем более значимый.

Простой пример расчета релевантности

f1 = (количество вхождений слов из запроса + 1)/(количество слов в документе)

f2 = главная страница – 2, внутренняя – 1

Rel1 = [(10 + 1)/200] * [2] = 0,11

Rel2 = [(20+1)/150] * [1] = 0,14

Вторая релевантность больше.

Анализ факторов ранжирования?

1. Типы значений

•Дискретные

•Непрерывные

2. Диапазон значения

При изменении какого-нибудь параметра документа можно увеличить значение одного фактора, но сильно уменьшить значение другого.

Пример: увеличение числи вхождений запроса в документ

Можно увеличить релевантность BM25, но получить очень плохое значение фактора, который отвечает за спамность документа

Группы факторов ранжирования Яндекс

1.Географические

2.Текстовые

3.Коммерческие

4.Внутренние

5.Ссылочные

6.Поведенческие

7.Социальные

8.Пользовательские

9.Прочие

Влияние групп факторов ранжирования Яндекс

Сложность воздействия на группы факторы ранжирования Яндекс

Функция сложности продвижения под Яндекс

Difficult = (Доля географических факторов) * (сложность воздействия) +

+ (Доля текстовых факторов) * (сложность воздействия) +

+ (Доля коммерческих факторов) * (сложность воздействия) + … +

+ (Доля прочих факторов) * (сложность воздействия)

Сложность воздействия на факторы ранжирования Яндекс

Зашумленность факторов ранжирования

•Доля сайтов, которые искусственно влияют на факторы ранжирования

•Сила искусственного воздействия на соответствующие факторы ранжирования

Зашумленность = (Доля сайтов) * (Сила воздействия)

Александр Садовский каждый год на конференции Оптимизация говорит “Ссылкам - нет”

Пример доклада 2010 года

http://www.youtube.com/watch?v=Ca8cEVRbBd0

Смотреть с 5:10.

Прогнозы. Возможные сценарии

•Ссылочное ранжирование не изменится, а Яндекс будет заниматься пиаром его отмены

•Небольшая часть ссылочных факторов на время могут снизить влияние (Пока не будут зашумлены другие группы факторов. От 3 до 9 месяцев)

Как подготовиться ко второму сценарию?

1.Поднять позиции до изменения критериев ранжирования, чтобы заранее нарастить поведенческие. Решение: увеличить массу ссылок

2.Обязательно создать и развивать группы/страницы для сайта во всех социальных сетях (facebook, вконтакте, twitter, google plus и т.д.).

3.Обеспечить необходимые социальные сигналы: https://www.megaindex.org/avtomatizirovannoe_vliyanie_na_sotsialnyie_faktoryi_ranjirovaniya

4.Работать над поведенческими факторами (витальные запросы, CTR, сессии, возвраты на сайт)

Шифрование Referer

Причина – закрыть данные о переходах по поисковым запросам и оставить их в метрике.

Цель – повышение популярности Яндекс Метрика.

Вопросы

Николай ХивринГенеральный директор ALTWeb Grouphttp://www.megaindex.org/u163451

Recommended