Синонимайзер капут !
То, что разномастные синонимайзеры не оправдывают оказанного им высокого доверия давно стало для меня очевидным. Я пришёл к этому эмпирическим путём, когда мои говносплоги с треском вылетели из Яндоиндекса невзирая на хитроумные синонимайзеры.
Я тогда не стал заморачиваться вопросом, как бездушная машина смогла определить синонимизированный текст и просто принял этот факт к сведению, поставив зарубку на память на корпусе ноутбука и подивившись изобретательности лысых, очкастых и тонкоруких (именно так я себе их представляю) программистов Яндекса.
Совершенно очевидно, что предлагаемые в сети синонимайзеры (некоторые впиндюриваются за деньги наивным жадным "нубам"
) совершенно не справляются с той задачей, которая была написана в их техзадании - грести бабло лопатой, являясь "контентмейкером" для сотен сплогов.
Предвижу возражение, что, мол, всё зависит от базы. О - это священное понятие "База" ! За базами охотятся, базы умоляют продать, сдать в аренду или подарить. "Хорошая" база является синонимом быстрого успеха и сказочного богатства в ближайшей перспективе.
Не берусь спорить. Применительно к синонимайзерам это не имеет, по большому счёту, никакого смысла. И не виноваты в этом ни лысые и тонкорукие, пишущие каверзные алгоритмы для поисковых машин, ни даже Джордж Кингсли Зипф - американский лингвист и филолог, впервые изучивший статистические закономерности распределения частоты слов в языке. Позже эти закономерности стали называть "законами Зипфа".
Никто не виноват - жизнь такая ! Итак, перейдём от эмпирической части к теоретической. Чтобы не усугублять, рассмотрим основные положения этих законов в упрощённой и практической форме (мне самому так легче
).
Суть законов Зипфа можно выразить двумя фразами :"В каждом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения. Есть слова, которые встречаются реже, но имеют намного большее смысловое значение." Аллес капут ! (это я уже от себя).
Лабораторная работа. Подберите синонимы к какому-нибудь слову. С очень большой долей вероятности, сначала Вам на ум будут приходить наиболее часто употребляемые слова. Синоним, который Вы подберёте последним, будет наименее часто употребляем в нормальной речи.
То есть, в грубом приближении, базы данных синонимайзеров содержат редко или относительно редко употребляемые слова. Поехали дальше.
"Произведение ранга слова на его частоту есть константа." Что такое "ранг" слова ? Если все слова в языке (или в достаточно большом тексте) упорядочить по мере убывания частоты их использования, то наиболее часто употребляемое слово будет иметь ранг под номером 1.
Частота слова измеряется в ipm/чмс (instances per million words/частота на миллион словоформ). Слово "человек", к примеру, имеет частоту приблизительно 2500 (в разных источниках несколько разные значения) - то есть встречается в среднем 2500 раз на один миллион слов.
То есть, слово с рангом 2 встречается приблизительно в два раза реже, чем слово с рангом 1. Слово с рангом 3 - в три раза реже первого и т.д. ...
Из этого следует, что любой естественный текст может быть охарактеризован данной кривой (слева). Я думаю, математикам и программистам не составило никакого труда запихнуть закономерности Зипфа в алгоритмы поисковых машин.
Теперь совершенно ясно, что присутствие в тексте большого количества слов с низкой частотой/высоким рангом (из базы синонимайзера, например) явно указывает на искусственное происхождение данного текста.
Понятно, что существую частотные словари для отдельных тематик, но принцип один - если кривая не кривая - текст не естественный, со всеми вытекающими из этого последствиями. Так же понятно, что чем больше текст - тем точнее его анализ. Как анализируются короткие тексты (те же твиты) - понятия не имею. Пусть голова у бледнолицых и тонкоруких болит.
Правда недавно появились синонимайзеры, работающие несколько по другому принципу. Они не заменяют тупо слова синонимами из базы, а разбавляют текст различными междометьями, фразеологическими оборотами, предлогами, наречиями, шутками и прибаутками в контексте.
Продвигаются эти недешёвые синонимайзеры, как стопудовая панацея, в чём я сильно сомневаюсь (см. суть законов Зипфа). Скорее всего, все эти шутки-прибаутки воспринимаются поисковиками, как лингвистический шум и не имеют в их глазах веса. Что-то мне подсказывает, что и перемешивание предложений/абзацев тоже неэффективно
Из всего вышенаписанного у меня следует один банальный вывод и одна обеспокоенность.
Банальный вывод : Интересные сайты для людей рулят ! С уникальным контентом. Я имею в виду именно первопонятие "уникальный контент", а не набившее оскомину и полностью дискредитировавшее себя обозначение, находящееся в обиходе в настоящее время.
Хотя, если вы нарыли заброшенную библиотеку с редкими книгами и выкладываете сканы в своих сплогах - для поисковиков этот контент будет естественным и уникальным... Неплохой вариант. По крайней мере, для живых людей более полезный, чем синонимизированная каша.
Или нанять штат копирайтеров/журналистов для создания контента. Впрочем, сам факт наличия такого штата вплотную приближает Ваши сплоги к СДЛ.
Обеспокоенность : С другой стороны - косвенно навязывается некое усреднение и стандартизация текстов в сети. Если Вы воздержитесь от применения длинных и редко употребляемых слов в текстовой составляющей контента (от чего я никак не могу воздержаться) - он с большей долей вероятности будет считаться естественным.
Надеюсь, алгоритмы поисковых систем умеют отличать оригинальный авторский стиль от продукции синонимайзеров. А то как бы не получилось, как в той пословице :"Войны не будет, но будет такая борьба за мир, что камня на камне не останется !" ![]()
--------------------------------------------------------------------------
Уведомление для читателей. В ближайшее время собираюсь переехать на новый хостинг, так что несколько дней блог может быть недоступен или глючить. Это мера вынужденная, до скорой встречи !
--------------------------------------------------------------------------
Скоро зима. Так что наружное утепление фасадов очень актуально сейчас...
А можно не утеплять, а свалить на зиму в Эмираты - цены на туры в оаэ.
А можно наняться морячком в тёплые моря - крюинговое агентство.






Однако вчера я совершенно случайно обнаружил, что у моего блога появился новый админ, который явно пытался скрыть своё присутствие. Проверить наличие скрытого пользователя с правами администратора можно и таким способом - зайти на страницу создания записи и посмотреть, сколько авторов претендуют на Ваши проникновенные посты.
(справа) - у Вас появился конкурент. Понятно, что это безобразие надо немедленно пресечь.
выскакивало следующее Error-окно (слева). #1054 - Unknown column 'u.ID' in ' where clause'.
выбираем отредактированную таблицу wp_users и импортируем в базу. Делаем SQL-запрос, проверяем - скрытый админ удалён.