"Мурманск не зря называют второй Рио-де-Жанейро, третий Пхеньян, четвёртый Сан-Паулу… Ну, принцип вы поняли: число называешь и город."
КВН, сборная Мурманска.
Про LSI в SEO пишут давно и в основном фигню. И фиг бы с ними, временами это даже забавно. Но об этом стали писать уважаемые мною люди. И у меня бомбануло.
Сначала Алексей Трудов, который делает LSI через word2vec. Это напомнило мне древнюю картинку.
А потом Анна Ященко создала длиннющую компиляцию заблуждений на тему. Это меня окончательно вдохновило.
(Повторюсь: и к Анне и к Алексею отношусь с большим уважением как к специалистам.)
Ликбез
Есть такая штука, дистрибутивная семантика. Упрощая, это методы работы с текстом как с числами: складывание, умножение, сравнение слов и т.д. Одна из областей применения этой сферы лингвистики - выявление семантической близости между словами / словосочетаниями / текстами. И там много всего: Bag-of-Words, Text2Vec, Word2Vec, GloVe и т.д. Ну и LSI.
То есть LSI - это один из способов нахождения семантически близких слов. Понимаете? Один из. Бывает LSI, а бывает Word2Vec. Они оба про тематическую близость слов, но это разные алгоритмы. Как это еще проще объяснить? Ну вот BMW - это одна из марок автомобилей. И Audi - это одна из марок автомобилей. Нельзя ставить знак равенства между этими марками лишь потому, что они обе - про автомобили.
Не бывает BMW марки Audi. И не бывает LSI на основе Word2Vec.
И еще: BMW - это не синоним автомобиля. А LSI - не синоним тематических слов.
Яндекс и LSI
В июне 2017 руководитель службы релевантности Яндекса напрямую сказал, что LSI они не используют. Тематически близкие слова используют, а LSI - нет.
По-моему, статей про LSI после этого стало только больше. Видимо, яндексоиды просто скрывают. И лишь самоотверженные seo-lsi-копирайтеры говорят правду.
Странно, что в 2006 не зародился «Pseudo-relevance feedback-копирайтинг». Ведь Яндекс изобрел «lsi» еще тогда!
Цитата из доклада Яндекса на РОМИП-2006
Метод relevance feedback можно применять и без участия пользователя, если предположить, что наша система достаточно хороша и на первых позициях находит релевантные документы. Тогда мы просто объявляем первые N документов релевантными и повышаем ранг документов, похожих на них
[...]
Для расчета похожести нам нужны какие-то теги – признаки документов, по которым мы будем определять похожесть. [...] Первый набор тегов – автоматическая классификация документов по темам Яндекс.Каталога
[...]
Второй набор тегов использует слова, встречающиеся в документе. Идея метода заключается в том, что некоторые группы слов часто встречаются вместе. Найдя такие группы, мы можем назначить им теги. После этого каждому документу мы можем назначить тег, если в документе встречается много слов из группы этого тега.
В 2006-ом как-то пронесло. А сейчас вот - нет.
Что такое LSI
LSI - это лишь способ индексации текстов. Вот есть инвертированный индекс, а есть латентно-семантический. До кучи еще и размерность векторов слов / текстов уменьшается. Индексатор-архиватор, грубо говоря.
И вся магия происходит именно благодаря "архивации". Похожие слова в этом новом индексе имеют похожие координаты. И похожие тексты имеют похожие координаты. Да, это круто. Но, повторюсь, это не уникальный и не единственный способ получения похожих слов.
Подробно на эту тему писать излишне, ибо есть короткий и понятный текст на эту тему: оригинал, перевод.
Есть еще легенда, что LSI - это способ определения тематики текста. Это не так. Опять же, отсылаю вас к первоисточнику, упомянутым выше, нет там ничего про тематику. Про тематики - это pLSA и LDA, алгоритмы, продолжающие то же направление, но имеющие ряд своих сложностей и особенностей. И топорными методами их в SEO не впихнуть.
Итог
Термин LSI-копирайтинг - также глуп как «обратно-индексный копирайтинг», «wordstat-копирайтинг» или «TF*IDF-копирайтинг». Ну, принцип вы поняли: умный термин и «копирайтинг».
Если вы используете дополнительные тематически (= семантически) близкие слова в тексте - это хорошо и правильно. Но не играет никакой роли, с помощью какого именно алгоритма вы эти дополнительные слова получили. Они остаются лишь тематическими словами.
Да, "текст с использованием семантически близких слов" звучит куда длиннее, чем "lsi-копирайтинг". И не так умно. Но не нужно уродовать понятия, пожалуйста. Не уподобляйтесь секретаршам, которые называют системный блок компьютера "процессором".
Пожалуйста.
UPD
Так считаю не только я: