Опрос

Как часто вы меняете место работы?

Я больше 5-ти лет на последнем месте и не собираюсь уходить - 32.4% (83 чел.)
Меняю раз в 3-4 года - 23.8% (61 чел.)
Я частник/фрилансер, меняю работу с новым заказчиком - 7.4% (19 чел.)
Сам не менял, меня сокращали ( - 6.3% (16 чел.)
В моем возрасте менять работу опасно.. - 9.4% (24 чел.)
Я работодатель. Следующий вопрос - 9% (23 чел.)
Другое - 5.9% (15 чел.)
 
 

Юридические лица

Регистрация юридических лиц

Регистрация изменений

Регистрация ИП

Налоги и бухучёт

Отдел кадров

Финансы и Кредиты

Недвижимость и право

Уникализация контента и поиск дубликатов

Занимаясь продвижением сайта, будьте готовы наибольшую часть своего времени и внимания уделять контенту. Если важен результат, этого не избежать, ведь в данном случае альтернатив полностью оригинальному контенту не существует. Однако это не исключает рерайта, ведь зачастую даже самый добросовестный копирайтер, создавая описания для очередного интернет-магазина, не может обойтись без использования информации из официального каталога производителя.

Таким образом, необходимо понять главное: оригинальный и уникальный контент – это не синоним «взятого из головы», а лишь грамотно модифицированная информация, уникальная «по мнению» поисковых систем. А чтобы обеспечить своему сайту стремительный рост позиций посредством качественного контента - придется следовать инструкции.

Составляющие успешного продвижения сайта:

  • Уникальность всего контента, открытого для индексации (с точки зрения поисковиков).
  • Если задача сайта – конверсия посетителей в покупателей, его контент может быть полностью авторским или максимально глубоким рерайтом.
  • На серьезных сайтах, продающих ссылки, уникализация контента может проводиться более грубо: создание большого количества текстов за минимальные деньги.

Расcматривая вопрос уникализации и рерайта информации, все сводится к алгоритмам поисковых систем, распознающим заимствования. Зная, какие модели и алгоритмы они используют, вы сможете сэкономить много сил и средств, особенно, если речь идет о наполнении уникальным контентом тысячи страниц.

 
Поиск дубликатов

На первый взгляд может показаться, что все до смешного просто: поисковая система индексирует все существующие в интернете документы, поэтому нужно только сравнить все эти страницы и выявить дубли. Все действительно так. Однако чтобы сравнить каждый документ в индексе «Яндекса» с каждым другим, возведите в квадрат число 10 727 736 489, и вы получите необходимое число операций, которые вам придется для этого совершить.

Причем полнотекстовое сравнение, естественно, не даст правильных результатов. Конечно, заменив несколько слов, поменяв некоторые буквы, знаки препинания и переставив местами несколько предложений, вы добьетесь того, что сравнение «лоб в лоб» покажет отсутствие совпадений.

Однако если сравнивать небольшие куски текста (к примеру, разбить его на цепочки из 3-6 слов), то число необходимых операций возрастет в колоссальное количество раз. Компьютеров такой производительности в настоящее время просто не существует.

И все-таки проблему сравнения большого количества документов можно считать в значительной степени решенной. Это по-прежнему ресурсоемкая процедура, но она уже под силу современным компьютерам за счет существенного снижения количества проводимых операций. Теперь это возможно, благодаря алгоритмам шинглов.

Шинглы

В переводе с английского «shingle» означает «гонт» – кровельный материал, дощечки которого соединяются в единый лист посредством пазов и выступов. Однако для нас это, прежде всего, алгоритм поиска дубликатов при помощи вычислений и сопоставлений контрольных сумм выборки канонизированных словосочетаний приблизительной длиной 3-10 единиц.

Принцип работы шинглов:

  1. Прежде всего, текст «канонизируется», т.е. приводится к исходным словоформам с исключением стоп-слов (предлоги, союзы, частицы, знаки препинания и т.д.). Так, канонизируя текст «люблю грозу в начале мая, когда весенним первым днем», мы получим «любить гроза начало май». Теоретически возможна также более жесткая канонизация: каждое слово при этом приводится к наиболее частотному синониму. В настоящее время это стало бы действенным способом борьбы с ручным рерайтом и синонимайзерами, которые даже не меняют порядок слов в документах, а лишь заменяют их синонимами.
  2. Канонизированный текст разбивается на цепочки примерной длиной от 3 до 10 слов. При этом разбивка текста может идти как стык в стык, так и внахлест – шаг сдвига может быть различный. Таким образом, любое изменение канонизированного текста, а особенно если оно будет в начале, спровоцирует появление других шинглов.
  3. Для каждого из шинглов вычисляется контрольная сумма. Какой метод в данном случае применяется – не столь важно. Это может быть любая из существующих хэш-функций: к примеру, CRC (cyclic redundancy code). Главное в этом процессе, что последовательности слов преобразуются в последовательности цифр, потому как с ними компьютеру гораздо проще работать.
  4. Создается выборка контрольных сумм шинглов.
  5. Далее, если сравнительный анализ демонстрирует высокий уровень совпадения контрольных сумм, это говорит о том, что данные документы, скорее всего, являются четкими (без изменений) либо нечеткими (с минимальными изменениями) дубликатами.

 

Альтернатива

Разумеется, шинглы – не единственный метод, позволяющий проверить контент на уникальность и естественность. Зачастую используется статистический анализ частотности слов с применением распределения Ципфа, позволяющим искать аномалии и совпадения в документах, прошедших ручную рерайт-обработку.

Таким образом, можно сказать, что в целом  задача распознавания поисковиками дублей контента решена – создание оригинального контента с использованием существующей информации (глубокий рерайт), позволит свести к нулю вероятность применения санкций при ранжировании. Вместе с тем понимание принципов выявления дубликатов позволяет копирайтерам значительно экономить свои усилия, создавая контент для качественных сайтов-доноров.

См. также:

 

1 1 1 1 1 Rating 4.67 (3 Votes)
Понравилась статья? Расскажите о ней своим друзьям