Материал предоставлен https://it.rfei.ru

Представление о «естественных веб-страницах»

Мы уже знаем, как устроен индекс поисковой системы — об этом рассказывалось в разделе «Как устроены поисковые системы». Если пользователь ввел запрос, например «новости», поисковая система увидит в своем индексе, что слово «новости» было найдено на многих веб-страницах. При этом количество страниц может быть очень большим — тысячи и даже десятки тысяч.

Возникает закономерный вопрос: в каком порядке поисковой системе нужно сортировать (ранжировать) ссылки на найденные страницы, чтобы наверху списка результатов оказались ссылки на страницы, наиболее соответствующие поисковому запросу? Для решения этой задачи поисковые системы учитывают довольно много свойств текста страницы и всего сайта — факторов, которые можно условно разделить на две группы: внутренние и внешние.

К внутренним факторам мы относим те факторы, на которые владелец сайта может влиять самостоятельно. Например, тексты сайта, теги, изображения, ссылки на сайте и т. п. Внешние факторы — это прежде всего ссылки на сайт с других сайтов Сети. Их ставят владельцы этих сайтов, и напрямую повлиять на них нельзя. О способах влияния на внешнюю ссылочную структуру сайта мы расскажем в отдельном разделе.

Какие же внутренние факторы учитывают поисковые системы, ранжируя ссылки на найденные страницы? Главный принцип поисковых систем таков: они стремятся найти и показать вверху списка результатов «естественные веб-страницы», наиболее соответствующие запросу («Яндекс» называет это естественными сетевыми документами). Как говорят разработчики поисковых машин, их интересуют веб-страницы, созданные людьми и для людей (а не для поисковых роботов).

Что же означает слово «естественные»? Разберем это на примере.

Пример

Пусть поисковая система по запросу новости нашла два следующих текстовых документа. В обоих текстах есть слово «новости».


ГЛАВНЫЕ НЕОФИЦИАЛЬНЫЕ НОВОСТИ 2005 ГОДА
Весь год, параллельно с самыми важными событиями, происходит множество любопытных курьезов, которые упоминаются в новостях в последнюю очередь. Однако без них картина уходящего года была бы, наверное, не полной, и уж во всяком случае не такой красочной. Наш сайт предлагает список самых странных новостей года, составленный на основе предпочтений наших читателей.

ГЛАВНЫЕ НОВОСТИ НЕОФИЦИАЛЬНЫЕ НОВОСТИ 2005 НОВОСТИ ГОДА
Весь новости год, параллельно новости с самыми важными событиями, происходит новости множество любопытных новости курьезов, которые упоминаются в новостях в последнюю новости очередь. Однако без новости них картина уходящего года была бы, наверное, не полной, и уж во всяком новости случае не такой красочной. Наш сайт предлагает новости список самых странных новостей года, составленный на основе предпочтений новости наших читателей.

Даже беглый взгляд на эти тексты позволяет увидеть принципиальное отличие: первый текст написан хорошим, гладким языком, а вот второй... какой-то неправильный. Читать его сложно, слово «новости» употребляется в нем не к месту и не в меру. Иными словами, первый текст — естественный, он написан человеком и для человека. Второй — неестественный, люди не смогут легко прочитать его и понять. Очевидно, он составлен кем-то специально для поискового робота.

А теперь вспомним, что нам (поисковой машине) необходимо решить, ссылку на какой из этих документов поставить выше в результатах поиска по запросу новости. В первом тексте слово «новости» встречается два раза, во втором — двенадцать.

Казалось бы, чем чаще в тексте встречается нужное слово, тем более соответствует текст запросу... Следуя такой простой логике, мы должны были бы в результатах поиска первой поставить ссылку на полную белиберду.

К сожалению, поисковая система не умеет понимать тексты, как это делает человек, и выбор из двух, или двух сотен, или двух миллионов текстов, в которых найдено слово из поискового запроса, осуществляется автоматически. Как же поисковая машина может автоматически отличить естественные тексты от неестественных?

На помощь приходят лингвистика и математика. Естественный текст имеет свои качественные и количественные характеристики, которые почти не меняются от текста к тексту. Это средняя длина предложений, средняя длина слов, частоты употребления слов, распределение знаков препинания и т. п. Многие из этих характеристик можно подсчитать автоматически и тем самым оценить степень естественности текста.

Пример

Пример закона Ципфа: второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растет при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Наиболее устойчивы частоты встречаемости слов в тексте. Они лучше всего исследованы, и их труднее всего подделать. Наиболее известным лингвистическим фактом о частотах слов в естественных текстах является закон Ципфа:

Если расположить слова в порядке их частоты употребления в некотором достаточно большом текстовом массиве, то количество вхождений слова будет обратно пропорционально его номеру.

Закон Ципфа применяют для анализа текстов в самых разных отраслях, в том числе даже в криптографии для анализа зашифрованных сообщений, когда нужно понять, имеем ли мы дело хоть и с зашифрованным, но все-таки естественным текстом.

Конечно, частота употребления конкретного слова сильно зависит от тематики рассматриваемых текстов. Но в одной тематике эти частоты довольно устойчивы и подчиняются закону Ципфа.

Зная этот закон и другие принципы поведения слов в тексте, поисковая машина может обнаружить неестественную плотность и расположение некоторых слов и на этом основании сделать заключение о неестественном характере текста. Например, в приведенном примере неестественного текста частота слова «новости» почти в три раза выше, чем ожидаемое для естественных текстов.

Несомненно, что алгоритмы ранжирования реальных поисковых машин намного сложнее и учитывают множество факторов. Но все эти факторы, используемые в качестве значимых параметров для ранжирования, взяты именно из представлений о том, какими должны быть нормальные, естественные, сетевые документы, предназначенные для пользователей.

У читателя может возникнуть естественный вопрос, почему мы так старательно подчеркиваем слово «естественный». Разве в Интернете, кроме обычных текстов веб-страниц, бывают какие-то другие, «неестественные» документы? Откуда они могут появиться, кто и с какой целью их создает? Кому может понадобиться нечитаемый документ, где слово «новости» повторяется через каждые два слова?

К сожалению, неестественных документов, созданных для того, чтобы обмануть поисковики, в Интернете очень много. Вопрос, кто их создает и с какой целью, мы подробно разберем в разделе о поисковом спаме.

А сейчас рассмотрим внутренние факторы, от которых зависит положение сайта в результатах поиска.

Если контент-анализ не дал результатовВнутренние факторы ранжирования