Назад к списку

Алгоритм «Палех» и его особенности

В 2016 году, 2 ноября, корпорация Яндекс запустила новый алгоритм «Палех», призванный улучшить понимание поисковой системой пользовательских запросов. За счет внедрения технологии нейронных сетей программа может ориентироваться при выдаче веб-страниц не только на ключевые слова, но и на общий смысл документов, уделяя внимание низкочастотным запросам. Безусловно, нововведение облегчило пользователям поиск в сети, а веб-разработчикам дало толчок для пересмотра своих подходов к созданию и выбору контента.


О названии и сути алгоритма

Яндекс-поиск ежедневно отвечает на миллионы запросов, многие из которых очень популярны и вводятся разными пользователями в одинаковой форме (например, «погода»). Однако есть огромное количество редких и даже уникальных запросов, которые раньше не находили прямого отклика у поисковика.

Разрабатывая «Палех», специалисты Яндекса условно распределили запросы на три категории согласно их распространенности:

  • частые;
  • средние;
  • редкие.

Самым удобным способом для демонстрации этого распределения стало изображение птицы, а именно — сказочной жар-птицы из палехской миниатюры, откуда и название алгоритма. Таким образом, самые популярные запросы поместили в клюв птицы, среднечастотные запросы пришлись на ее туловище, а множественные низкочастотные запросы составили длинный разветвленный хвост.

Именно для оптимизации обработки «хвостовых» запросов был в первую очередь создан алгоритм. Из-за редкости, уникальности таких запросов поисковику ранее было сложно выдать релевантные результаты. Яндекс попросту не понимал, что пользователь имеет в виду, не располагая во многих случаях пользовательской статистикой или не находя на страницах сайтов слова из запроса (хотя сайты могли быть вполне релевантными, а информация просто изложена с использованием других слов). Решением этой проблемы стал «Палех» и нейронные сети в его основе.

Нейросети и машинное обучение

В последние годы для оптимизации работы различных компьютерных программ стали применяться нейронные сети, позволяющие машинам достаточно полноценно анализировать естественную информацию. В первое время речь шла только о распознавании объектов на изображениях, однако аналогичный подход оказался действенным и в случае анализа текстовой информации: запросов, заголовков веб-страниц.

Теперь компьютер способен обучаться находить нужную информацию, используя накопленную статистику, анализируя поведение пользователя, получая положительные и отрицательные примеры. И поскольку любой программе проще работать с числовыми, а не буквенными значениями, в случае Яндекс-поиска документы из базы данных были переведены в числовое пространство. За основу трансформации была взята двухмерная плоскость координат, после чего текстовые запросы, подобно числам, воспринимались поисковой машиной как точки, расположенные в плоскости по отношению сразу к двум осям. В качестве таких точек воспринимаются и заголовки веб-страниц, и чем ближе поисковой запрос оказывается к заголовку, тем оптимальнее будет поисковая выдача по конкретному запросу пользователя. Этот способ обработки запросов разработчики назвали семантическим вектором.

Что нужно учесть разработчикам

Нейронные модели позволили Яндекс-поиску намного точнее сопоставлять пользовательские запросы с релевантными веб-страницами. В будущем машинное обучение максимально приблизит компьютер к способности «понимать» семантику документов и запросов так, как это делает человек. А это сильно подавляет роль еще недавно популярного контента, где основой для продвижения разработчики видели прямые вхождения ключевых слов и плотную оптимизацию.

Что же придется учитывать веб-мастерам для дальнейшей успешной работы с контент-продвижением?

  • заголовки информационных статей следует перепроверять на предмет релевантности;
  • отдавать предпочтение теперь нужно LSI текстам, которые, в отличие от SEO-статей, основаны на технологии скрытого семантического индексирования (как, собственно, и «Палех»);
  • тексты с многочисленными ключевыми словами становятся все менее релевантными.

Для сайтов коммерческой тематики, с другой стороны, мало что поменялось, ведь пользователи зачастую вводят высокочастотные запросы при желании что-либо заказать. А вот различные онлайн-кинотеатры, страницы с музыкой, форумы и прочее перебрались по рейтингам ближе к ТОПу, ведь пользователи нередко ищут фильмы или музыку не по точным названиям. Вывод можно сделать один: контент теперь должен быть рассчитан «на людей», ведь именно интересы пользователя и упрощение его поисковых потребностей легли в основу нового алгоритма «Палех».