Синонимайзер капут !
То, что разномастные синонимайзеры не оправдывают оказанного им высокого доверия давно стало для меня очевидным. Я пришёл к этому эмпирическим путём, когда мои говносплоги с треском вылетели из Яндоиндекса невзирая на хитроумные синонимайзеры.
Я тогда не стал заморачиваться вопросом, как бездушная машина смогла определить синонимизированный текст и просто принял этот факт к сведению, поставив зарубку на память на корпусе ноутбука и подивившись изобретательности лысых, очкастых и тонкоруких (именно так я себе их представляю) программистов Яндекса.
Совершенно очевидно, что предлагаемые в сети синонимайзеры (некоторые впиндюриваются за деньги наивным жадным "нубам"
) совершенно не справляются с той задачей, которая была написана в их техзадании - грести бабло лопатой, являясь "контентмейкером" для сотен сплогов.
Предвижу возражение, что, мол, всё зависит от базы. О - это священное понятие "База" ! За базами охотятся, базы умоляют продать, сдать в аренду или подарить. "Хорошая" база является синонимом быстрого успеха и сказочного богатства в ближайшей перспективе.
Не берусь спорить. Применительно к синонимайзерам это не имеет, по большому счёту, никакого смысла. И не виноваты в этом ни лысые и тонкорукие, пишущие каверзные алгоритмы для поисковых машин, ни даже Джордж Кингсли Зипф - американский лингвист и филолог, впервые изучивший статистические закономерности распределения частоты слов в языке. Позже эти закономерности стали называть "законами Зипфа".
Никто не виноват - жизнь такая ! Итак, перейдём от эмпирической части к теоретической. Чтобы не усугублять, рассмотрим основные положения этих законов в упрощённой и практической форме (мне самому так легче
).
Суть законов Зипфа можно выразить двумя фразами :"В каждом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения. Есть слова, которые встречаются реже, но имеют намного большее смысловое значение." Аллес капут ! (это я уже от себя).
Лабораторная работа. Подберите синонимы к какому-нибудь слову. С очень большой долей вероятности, сначала Вам на ум будут приходить наиболее часто употребляемые слова. Синоним, который Вы подберёте последним, будет наименее часто употребляем в нормальной речи.
То есть, в грубом приближении, базы данных синонимайзеров содержат редко или относительно редко употребляемые слова. Поехали дальше.
"Произведение ранга слова на его частоту есть константа." Что такое "ранг" слова ? Если все слова в языке (или в достаточно большом тексте) упорядочить по мере убывания частоты их использования, то наиболее часто употребляемое слово будет иметь ранг под номером 1.
Частота слова измеряется в ipm/чмс (instances per million words/частота на миллион словоформ). Слово "человек", к примеру, имеет частоту приблизительно 2500 (в разных источниках несколько разные значения) - то есть встречается в среднем 2500 раз на один миллион слов.
То есть, слово с рангом 2 встречается приблизительно в два раза реже, чем слово с рангом 1. Слово с рангом 3 - в три раза реже первого и т.д. ...
Из этого следует, что любой естественный текст может быть охарактеризован данной кривой (слева). Я думаю, математикам и программистам не составило никакого труда запихнуть закономерности Зипфа в алгоритмы поисковых машин.
Теперь совершенно ясно, что присутствие в тексте большого количества слов с низкой частотой/высоким рангом (из базы синонимайзера, например) явно указывает на искусственное происхождение данного текста.
Понятно, что существую частотные словари для отдельных тематик, но принцип один - если кривая не кривая - текст не естественный, со всеми вытекающими из этого последствиями. Так же понятно, что чем больше текст - тем точнее его анализ. Как анализируются короткие тексты (те же твиты) - понятия не имею. Пусть голова у бледнолицых и тонкоруких болит.
Правда недавно появились синонимайзеры, работающие несколько по другому принципу. Они не заменяют тупо слова синонимами из базы, а разбавляют текст различными междометьями, фразеологическими оборотами, предлогами, наречиями, шутками и прибаутками в контексте.
Продвигаются эти недешёвые синонимайзеры, как стопудовая панацея, в чём я сильно сомневаюсь (см. суть законов Зипфа). Скорее всего, все эти шутки-прибаутки воспринимаются поисковиками, как лингвистический шум и не имеют в их глазах веса. Что-то мне подсказывает, что и перемешивание предложений/абзацев тоже неэффективно
Из всего вышенаписанного у меня следует один банальный вывод и одна обеспокоенность.
Банальный вывод : Интересные сайты для людей рулят ! С уникальным контентом. Я имею в виду именно первопонятие "уникальный контент", а не набившее оскомину и полностью дискредитировавшее себя обозначение, находящееся в обиходе в настоящее время.
Хотя, если вы нарыли заброшенную библиотеку с редкими книгами и выкладываете сканы в своих сплогах - для поисковиков этот контент будет естественным и уникальным... Неплохой вариант. По крайней мере, для живых людей более полезный, чем синонимизированная каша.
Или нанять штат копирайтеров/журналистов для создания контента. Впрочем, сам факт наличия такого штата вплотную приближает Ваши сплоги к СДЛ.
Обеспокоенность : С другой стороны - косвенно навязывается некое усреднение и стандартизация текстов в сети. Если Вы воздержитесь от применения длинных и редко употребляемых слов в текстовой составляющей контента (от чего я никак не могу воздержаться) - он с большей долей вероятности будет считаться естественным.
Надеюсь, алгоритмы поисковых систем умеют отличать оригинальный авторский стиль от продукции синонимайзеров. А то как бы не получилось, как в той пословице :"Войны не будет, но будет такая борьба за мир, что камня на камне не останется !" ![]()
--------------------------------------------------------------------------
Уведомление для читателей. В ближайшее время собираюсь переехать на новый хостинг, так что несколько дней блог может быть недоступен или глючить. Это мера вынужденная, до скорой встречи !
--------------------------------------------------------------------------
Скоро зима. Так что наружное утепление фасадов очень актуально сейчас...
А можно не утеплять, а свалить на зиму в Эмираты - цены на туры в оаэ.
А можно наняться морячком в тёплые моря - крюинговое агентство.






Дочитал до конца, отсюда вопрос) - а с какого на какой хостинг переезжаете? Если не тайна
А то я по-прежнему пребываю в творческом поиске. Хотя "мой" Eskhosting меня устраивает, хотелось бы найти что-нибудь новенькое)
Терентий, да мне просто бежать надо от старого хостера. А то сервис у него стал просто ни в какие ворота. Перееду пока на хост, где мой поэтический блог лежит. Потом посмотрим. Сам пока ещё не определился окончательно... Но кандидатуры есть. В том числе и Eskhosting.
Понял) Кстати, если для какого-никакого сплога нужен хостинг, могу присоветовать Бесплатный. Возможно пока. Мой проходной бложик на нём обитал вполне комфортно. Потом я сглупил, перенёс его на платный, и в результате он вовсе окочурился.
То что синонимайз не рулит это давно понятно. Яндекс дошел до того что уникальный контент не включает в индекс этот славный АГС-17
Тоже недавно сбежал на mojordomo, купился на то, что 9 лет на рынке, надежность и т.д. Оказалось трафик из 600 хостов ложит им сервер и у меня постоянно отрубали сайт на 10 мин. На запросы в сапорт отвечали что такой трафик ни один хостер не выдержит, покупайте ВДС. Ушел на infobox и всё стало шоколадно, даже трафик в >1000 хостов не нагружает мой лимит более чем на 55%, и при этом я на очень недорогом тарифе, где ограничение на 1.5% от всех ресурсов хостинга. Eskhosting мне тоже кстати рекомендовали, но инфобокс как то больше у всех на устах, остался пока на нем.
sbseo - спасибо, полезная информация !
я на мажордомо. Тариф правда тариф мастер, там до 15 процентов нагрузки допустимо, пока живет, но за инфу спасибо, буду пробовать.
Даже с неуникальным контентом сайты сидят в топе. Скорее всего у Вас там были ссылки на забаненные ресурсы. Если удалите все подозрительные ссылки есть шанс вернуться в индекс Яши.
Я выбираю agavu. А с синомайзерами у меня вообще не-пошло. Уж очень корявый текст получается.
Да что-то про Agavu и не слыхать в последнее время... Надо освежить в памяти...
Но от греха подальше удалил весь их пережёванный контент. Кино смотрим - знаем какие там у них нравы
...
А синонимайз фигня, конечно. На меня как-то одна гонконгская компания наехала за то, что я использовал информацию с их сайта. Грозились преследовать... Что они там в этой мешанине смогли идентифицировать - ума не приложу
Слишком поверхностный вывод. А мои синонимизированные блоги пережили и АГС17, и 30-й их не задел. Хотя я давно к ним руками не прикасаюсь. Может дело в руках?
Первый закон механики :"Работает ? Не трожь !"
Может вылетели из-за платных ссылок?
в интеренте много копий текстов - и ничего живут.
- придется работать руками и головой...
По рангу - мало вероятно, получается что текст написанный первоклассником в его блоге не будет индексироваться? Ранг - он общий, а тексты могут относиться к той или иной социальной группе - "крутые" программисты используют в своем сленге "крутые" (идиотские) словечки - такие блоги и чаты тоже не вылетают из индекса.
Синонимайзеры подставляют наиболее распространенные слова в первую очередь (у одного слова может быть несколько синонимов), так что переработанный тест может иметь больше слов с рангом 1, чем оригинальный.
Скорее всего поисковики действуют таким образом:
синонимизируют все тексты, приводя их таким образом к одному виду, а потом сравнивают их между собой.
Т.е. в любом случае синонимайзеры не спасают
Как раз текст, написанный первоклассником, будет прекрасно индексироваться, что мы и наблюдаем
Поскольку содержит наиболее распространённые слова.
А для слэнговых словечек программистов существуют специальные словари и алгоритмы, я так думаю...
Для любителей экспериментов: составить текст из программистской тарабарщины и посмотреть, как он будет индексироватться.
Жаль, я мало "крутых" слов знаю...