Синонимайзер капут ! » Не-SEO блог Стальной Груши.
  • Архивы

  • Синонимайзер капут !

    То, что разномастные синонимайзеры не оправдывают оказанного им высокого доверия давно стало для меня очевидным. Я пришёл к этому эмпирическим путём, когда мои говносплоги с треском вылетели из Яндоиндекса невзирая на хитроумные синонимайзеры.

    Я тогда не стал заморачиваться вопросом, как бездушная машина смогла определить синонимизированный текст и просто принял этот факт к сведению, поставив зарубку на память на корпусе ноутбука и подивившись изобретательности лысых, очкастых и тонкоруких (именно так я себе их представляю) программистов Яндекса.

    Совершенно очевидно, что предлагаемые в сети синонимайзеры (некоторые впиндюриваются за деньги наивным жадным "нубам" :) ) совершенно не справляются с той задачей, которая была написана в их техзадании - грести бабло лопатой, являясь "контентмейкером" для сотен сплогов.

    Предвижу возражение, что, мол, всё  зависит от базы. О - это священное понятие "База" ! За базами охотятся, базы умоляют продать, сдать в аренду или подарить. "Хорошая" база является синонимом быстрого успеха и сказочного богатства в ближайшей перспективе.

    Не берусь спорить. Применительно к синонимайзерам это не имеет, по большому счёту, никакого смысла. И не виноваты в этом ни лысые и тонкорукие, пишущие каверзные алгоритмы для поисковых машин, ни даже Джордж Кингсли Зипф - американский лингвист и филолог, впервые изучивший статистические закономерности распределения частоты слов в языке. Позже эти закономерности стали называть "законами Зипфа".

    Никто не виноват - жизнь такая ! Итак, перейдём  от эмпирической части к теоретической. Чтобы не усугублять, рассмотрим основные положения этих законов в упрощённой и практической форме (мне самому так легче :) ).

    Суть законов Зипфа  можно выразить двумя фразами :"В каждом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения. Есть слова, которые встречаются реже, но имеют намного большее смысловое значение." Аллес капут ! (это я уже от себя).

    Лабораторная работа. Подберите синонимы к какому-нибудь слову. С очень большой долей вероятности, сначала Вам на ум будут приходить наиболее часто употребляемые слова. Синоним, который Вы подберёте последним, будет наименее часто употребляем в нормальной речи.

    То есть, в грубом приближении, базы данных синонимайзеров содержат редко или относительно редко употребляемые слова. Поехали дальше.

    "Произведение ранга слова на его частоту есть константа." Что такое "ранг" слова ? Если все слова в языке (или в достаточно большом тексте) упорядочить по мере убывания частоты их использования, то наиболее часто употребляемое слово будет иметь ранг под номером 1.

    Частота слова измеряется в ipm/чмс (instances per million words/частота на миллион словоформ). Слово "человек", к примеру, имеет частоту приблизительно 2500 (в разных источниках несколько разные значения) - то есть встречается в среднем 2500 раз на один миллион слов.

    ZipfТо есть, слово с рангом 2 встречается приблизительно в два раза реже, чем слово с рангом 1. Слово с рангом 3 - в три раза реже первого и т.д. ...

    Из этого следует, что любой естественный текст может быть охарактеризован данной кривой (слева). Я думаю, математикам и программистам не составило никакого труда запихнуть закономерности Зипфа в алгоритмы поисковых машин.

    Теперь совершенно ясно, что присутствие в тексте большого количества слов с низкой частотой/высоким рангом (из базы синонимайзера, например) явно указывает на искусственное происхождение данного текста.

    Понятно, что существую частотные словари для отдельных тематик, но принцип один - если кривая не кривая - текст не естественный, со всеми вытекающими из этого последствиями. Так же  понятно, что чем больше текст - тем точнее его анализ. Как анализируются короткие тексты (те же твиты) - понятия не имею. Пусть голова у бледнолицых и тонкоруких болит.

    Правда недавно появились синонимайзеры, работающие несколько по другому принципу. Они не заменяют тупо слова синонимами из базы, а разбавляют текст различными междометьями, фразеологическими оборотами, предлогами, наречиями, шутками и прибаутками в контексте.

    Продвигаются эти недешёвые синонимайзеры, как стопудовая панацея, в чём я сильно сомневаюсь (см. суть законов Зипфа). Скорее всего, все эти шутки-прибаутки воспринимаются поисковиками, как лингвистический шум и не имеют в их глазах веса. Что-то мне подсказывает, что и перемешивание предложений/абзацев тоже неэффективно :)

    Из всего вышенаписанного  у меня следует один банальный вывод и одна обеспокоенность.
    Банальный вывод : Интересные сайты для людей рулят ! С уникальным контентом. Я имею в виду именно первопонятие "уникальный контент", а не набившее оскомину и полностью дискредитировавшее себя обозначение, находящееся в обиходе в настоящее время.

    Хотя, если вы нарыли заброшенную библиотеку с редкими книгами и выкладываете сканы в своих сплогах - для поисковиков этот контент будет естественным и уникальным... Неплохой вариант. По крайней мере, для живых людей более полезный, чем синонимизированная каша.

    Или нанять штат копирайтеров/журналистов для создания контента. Впрочем, сам факт наличия такого штата вплотную приближает Ваши сплоги к СДЛ.

    Обеспокоенность : С другой стороны - косвенно навязывается некое усреднение и стандартизация текстов в сети. Если Вы воздержитесь от применения длинных и редко употребляемых слов в текстовой составляющей контента (от чего я никак не могу воздержаться) - он с большей долей вероятности будет считаться естественным.

    Надеюсь, алгоритмы поисковых систем умеют отличать оригинальный авторский стиль от продукции синонимайзеров. А то как бы не получилось, как в той пословице :"Войны не  будет, но будет такая борьба за мир, что камня на камне не останется !" :)
    --------------------------------------------------------------------------
    Уведомление для читателей. В ближайшее время собираюсь переехать на новый хостинг, так что несколько дней блог может быть недоступен или глючить. Это мера вынужденная, до скорой встречи !
    --------------------------------------------------------------------------
    Скоро зима. Так что наружное утепление фасадов очень актуально сейчас...
    А можно не утеплять, а свалить на зиму в Эмираты - цены на туры в оаэ.
    А можно наняться морячком в тёплые моря - крюинговое агентство.

    

    15 комментариев на “Синонимайзер капут !”

    1. Дочитал до конца, отсюда вопрос) - а с какого на какой хостинг переезжаете? Если не тайна :) А то я по-прежнему пребываю в творческом поиске. Хотя "мой" Eskhosting меня устраивает, хотелось бы найти что-нибудь новенькое)

    2. steelpear пишет:

      Терентий, да мне просто бежать надо от старого хостера. А то сервис у него стал просто ни в какие ворота. Перееду пока на хост, где мой поэтический блог лежит. Потом посмотрим. Сам пока ещё не определился окончательно... Но кандидатуры есть. В том числе и Eskhosting.

    3. Понял) Кстати, если для какого-никакого сплога нужен хостинг, могу присоветовать http://www.hostmefree.ru/ Бесплатный. Возможно пока. Мой проходной бложик на нём обитал вполне комфортно. Потом я сглупил, перенёс его на платный, и в результате он вовсе окочурился.

    4. Валентин пишет:

      То что синонимайз не рулит это давно понятно. Яндекс дошел до того что уникальный контент не включает в индекс этот славный АГС-17

    5. sbseo пишет:

      Тоже недавно сбежал на mojordomo, купился на то, что 9 лет на рынке, надежность и т.д. Оказалось трафик из 600 хостов ложит им сервер и у меня постоянно отрубали сайт на 10 мин. На запросы в сапорт отвечали что такой трафик ни один хостер не выдержит, покупайте ВДС. Ушел на infobox и всё стало шоколадно, даже трафик в >1000 хостов не нагружает мой лимит более чем на 55%, и при этом я на очень недорогом тарифе, где ограничение на 1.5% от всех ресурсов хостинга. Eskhosting мне тоже кстати рекомендовали, но инфобокс как то больше у всех на устах, остался пока на нем.

    6. steelpear пишет:

      sbseo - спасибо, полезная информация !

    7. Алексей пишет:

      я на мажордомо. Тариф правда тариф мастер, там до 15 процентов нагрузки допустимо, пока живет, но за инфу спасибо, буду пробовать.

    8. Анатолий пишет:

      Даже с неуникальным контентом сайты сидят в топе. Скорее всего у Вас там были ссылки на забаненные ресурсы. Если удалите все подозрительные ссылки есть шанс вернуться в индекс Яши.

    9. Делитант пишет:

      Я выбираю agavu. А с синомайзерами у меня вообще не-пошло. Уж очень корявый текст получается.

    10. steelpear пишет:

      Да что-то про Agavu и не слыхать в последнее время... Надо освежить в памяти...
      А синонимайз фигня, конечно. На меня как-то одна гонконгская компания наехала за то, что я использовал информацию с их сайта. Грозились преследовать... Что они там в этой мешанине смогли идентифицировать - ума не приложу :) Но от греха подальше удалил весь их пережёванный контент. Кино смотрим - знаем какие там у них нравы :) ...

    11. Search Bot пишет:

      Слишком поверхностный вывод. А мои синонимизированные блоги пережили и АГС17, и 30-й их не задел. Хотя я давно к ним руками не прикасаюсь. Может дело в руках? ;)

    12. steelpear пишет:

      Первый закон механики :"Работает ? Не трожь !" :)

    13. Может вылетели из-за платных ссылок? :) в интеренте много копий текстов - и ничего живут.
      По рангу - мало вероятно, получается что текст написанный первоклассником в его блоге не будет индексироваться? Ранг - он общий, а тексты могут относиться к той или иной социальной группе - "крутые" программисты используют в своем сленге "крутые" (идиотские) словечки - такие блоги и чаты тоже не вылетают из индекса.
      Синонимайзеры подставляют наиболее распространенные слова в первую очередь (у одного слова может быть несколько синонимов), так что переработанный тест может иметь больше слов с рангом 1, чем оригинальный.
      Скорее всего поисковики действуют таким образом:
      синонимизируют все тексты, приводя их таким образом к одному виду, а потом сравнивают их между собой.
      Т.е. в любом случае синонимайзеры не спасают :) - придется работать руками и головой...

    14. steelpear пишет:

      Как раз текст, написанный первоклассником, будет прекрасно индексироваться, что мы и наблюдаем :) Поскольку содержит наиболее распространённые слова.
      А для слэнговых словечек программистов существуют специальные словари и алгоритмы, я так думаю...

    15. Алла пишет:

      Для любителей экспериментов: составить текст из программистской тарабарщины и посмотреть, как он будет индексироватться.
      Жаль, я мало "крутых" слов знаю... :)

    Оставить комментарий