На первый взгляд, размеры базы поисковика – фактор далеко не критический.
Но на самом деле, значение он имеет достаточно большое. Например, чем больше база Гугла, тем больше растёт его популярность и посещаемость. Основная причина такой закономерности – это редкие запросы, то есть, те, по которым поисковик находит менее 100 документов. Эти запросы составляют из общей массы 30%.
Но рост базы подразумевает под собой возникновение некоторых логических проблем, например, способность быстро реагировать на повторы и мусор и т.д. Копии документов в Интернете могут иметь различное происхождение. К примеру, один и тот же документ, размещённый на одном и том же сервере, может иметь отличия по техническим факторам: разные форматы, кодировки, переменные вставки (текущая дата, реклама и т.д.).
Достаточно многие документы копируются и редактируются в Интернете. Среди методов редактуры наиболее популярны корректура, раскрытие темы, ревизия и т.д. Или же текст может быть намеренно скопирован и изменён. Правда, есть и ещё один класс внешне мало различных документов: форумы, анкеты и т.д.
Если повтор полный, то проблем, можно сказать, не возникает. В данном случае, в индексе сохраняется контрольная сумма текста и все остальные тексты, у которых такая же контрольная сумма, просто игнорируются. Но этот метод совершенно не подходит для того, чтобы выявить отредактированные документы.
Для этого был разработан алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Работает он примерно следующим образом. Для каждых 10 слов текста определяется шингл (контрольная сумма). Десятисловия перекрывают друг друга – это делается в целях, чтобы никакой отрывок текста не пропал. После из всех определённых сумм выбирают те, которые, к примеру, делятся на 15. К особенностям текста выборка не привязана, потому что контрольные суммы имеют равномерное распределение. Если найдено хоть одно идентичное десятисловие по контрольной сумме, то это – верный признак дублирования. Если же таких десятисловий много – скорее всего, вы наткнулись на искомую копию! Ведь один шингл, который совпал, соответствует пятнадцати десятисловиям, которые есть в полной версии текста. Чтобы выявить полный повтор документа, считают ещё одну контрольную сумму – супершингл. В данном случае, полной копией будет считаться только тот документ, где все шинглы полностью совпали.
Таким методом можно находить копии теста, а также источники и т.д. Теперь определять долю плагиата в статье стало очень просто. Но не стоит думать, что данная методика действует только на Западе. Схожий алгоритм выявления нечетких дублей разработан Яндексом.