«LSI» это не LSI

"Мурманск не зря называют второй Рио-де-Жанейро, третий Пхеньян, четвёртый Сан-Паулу… Ну, принцип вы поняли: число называешь и город."

КВН, сборная Мурманска.

Про LSI в SEO пишут давно и в основном фигню. И фиг бы с ними, временами это даже забавно. Но об этом стали писать уважаемые мною люди. И у меня бомбануло.

Сначала Алексей Трудов, который делает LSI через word2vec. Это напомнило мне древнюю картинку.

А потом Анна Ященко создала длиннющую компиляцию заблуждений на тему. Это меня окончательно вдохновило.

(Повторюсь: и к Анне и к Алексею отношусь с большим уважением как к специалистам.)

Ликбез

Есть такая штука, дистрибутивная семантика. Упрощая, это методы работы с текстом как с числами: складывание, умножение, сравнение слов и т.д. Одна из областей применения этой сферы лингвистики - выявление семантической близости между словами / словосочетаниями / текстами. И там много всего: Bag-of-Words, Text2Vec, Word2Vec, GloVe и т.д. Ну и LSI.

То есть LSI - это один из способов нахождения семантически близких слов. Понимаете? Один из. Бывает LSI, а бывает Word2Vec. Они оба про тематическую близость слов, но это разные алгоритмы. Как это еще проще объяснить? Ну вот BMW - это одна из марок автомобилей. И Audi - это одна из марок автомобилей. Нельзя ставить знак равенства между этими марками лишь потому, что они обе - про автомобили.

Не бывает BMW марки Audi. И не бывает LSI на основе Word2Vec.

И еще: BMW - это не синоним автомобиля. А LSI - не синоним тематических слов.

Яндекс и LSI

В июне 2017 руководитель службы релевантности Яндекса напрямую сказал, что LSI они не используют. Тематически близкие слова используют, а LSI - нет.

По-моему, статей про LSI после этого стало только больше. Видимо, яндексоиды просто скрывают. И лишь самоотверженные seo-lsi-копирайтеры говорят правду.

Странно, что в 2006 не зародился «Pseudo-relevance feedback-копирайтинг». Ведь Яндекс изобрел «lsi» еще тогда!

Цитата из легендарного доклада Яндекса на РОМИП-2006

Метод relevance feedback можно применять и без участия пользователя, если предположить, что наша система достаточно хороша и на первых позициях находит релевантные документы. Тогда мы просто объявляем первые N документов релевантными и повышаем ранг документов, похожих на них
[...]
Для расчета похожести нам нужны какие-то теги – признаки документов, по которым мы будем определять похожесть. [...] Первый набор тегов – автоматическая классификация документов по темам Яндекс.Каталога
[...]
Второй набор тегов использует слова, встречающиеся в документе. Идея метода заключается в том, что некоторые группы слов часто встречаются вместе. Найдя такие группы, мы можем назначить им теги. После этого каждому документу мы можем назначить тег, если в документе встречается много слов из группы этого тега.

В 2006-ом как-то пронесло. А сейчас вот - нет.

Что такое LSI

LSI - это лишь способ индексации текстов. Вот есть инвертированный индекс, а есть латентно-семантический. До кучи еще и размерность векторов слов / текстов уменьшается. Индексатор-архиватор, грубо говоря.

И вся магия происходит именно благодаря "архивации". Похожие слова в этом новом индексе имеют похожие координаты. И похожие тексты имеют похожие координаты. Да, это круто. Но, повторюсь, это не уникальный и не единственный способ получения похожих слов.

Подробно на эту тему писать излишне, ибо есть короткий и понятный текст на эту тему: оригинал, перевод.

Есть еще легенда, что LSI - это способ определения тематики текста. Это не так. Опять же, отсылаю вас к первоисточнику, упомянутым выше, нет там ничего про тематику. Про тематики - это pLSA и LDA, алгоритмы, продолжающие то же направление, но имеющие ряд своих сложностей и особенностей. И топорными методами их в SEO не впихнуть.

Итог

Термин LSI-копирайтинг - также глуп как «обратно-индексный копирайтинг», «wordstat-копирайтинг» или «TF*IDF-копирайтинг». Ну, принцип вы поняли: умный термин и «копирайтинг».

Если вы используете дополнительные тематически (= семантически) близкие слова в тексте - это хорошо и правильно. Но не играет никакой роли, с помощью какого именно алгоритма вы эти дополнительные слова получили. Они остаются лишь тематическими словами.

Да, "текст с использованием семантически близких слов" звучит куда длиннее, чем "lsi-копирайтинг". И не так умно. Но не нужно уродовать понятия, пожалуйста. Не уподобляйтесь секретаршам, которые называют системный блок компьютера "процессором".

Пожалуйста.

Раздел: