Сравнение текстов на схожесть
Поискал нужный текст или статью и скопировал себе на сайт. Но не все так просто. Думаю вы слышали о том, что лучше делать уникальный контен сайта.
Что может произойти если поисковик Google или Яндекс определит, что ваш текст
"позаимствован" с другого сайта?
Ваш ресурс может не попасть в результаты поиска.
Как же поисковые машины определяют схожесть текстов?
Существует "алгоритм шинглов" (shingles-Шинглы), позволяющий простой проверкой
двух текстов убедиться, что между ними есть связь.
Как работает "алгоритм шингл"?
Разбиение текстов на слова, а затем сравнение полученных матриц. Так что, становиться
не важно если вы просто переставили слова или предложения (если деление идет на 1 слово).
Разбиение текста может быть как по одному слову, так и по несколько, т.e. шингла из нескольких слов.
Данный сервис позволяет сравнить два текста на уникальность после изменений.
Для проверки вам необходим оригинал текста и переделанная (реврайт) копия.
- убираются html вставки такие как <strong>
- символы преобразуются в нижний регистр
- убираются запятые, точки, апострофы, знаки переноса строки, двойные пробелы, слешы.