Материал предоставлен https://it.rfei.ru

Полнота и точность

Мы выяснили, что запросы к поисковым машинам могут быть совершенно разных типов и что большинство запросов имеет неявное условие релевантности, которое не присутствует в самом запросе, а находится в уме пользователя. В общем, релевантность, она же качество поиска, — довольно сложная вещь.

Как же оценить качество работы поисковика с запросами? Для этого применяются понятия, традиционные для задач поиска информации, — полнота и точность.

Полнота

Полнота поиска — это мера того, нашел ли поисковик все нужные веб-страницы, которые есть в Сети. Проще всего вычислять полноту в процентах от всех релевантных запросу страниц. Например, если в Интернете есть 100 тысяч страниц, посвященных группе «Ногу свело», а поисковик нашел лишь 65 тысяч из них, «не заметив» остальные по тем или иным причинам, то полнота будет равна 65%.

Заметим, что из данного, вполне жизненного примера видно, что полнота поиска не очень-то интересна обычному пользователю интернет-поисковика.

Ведь в Сети всегда слишком много данных. Все равно невозможно просмотреть ни 100 тысяч страниц, ни 65 тысяч...

А ведь поисковик показывает данные постранично — первые десять найденных страниц, потом еще десять и т. д. Большинство обычных пользователей (до 80%) не заглядывают дальше первой-второй страницы результатов поиска, просматривая только первые 10-20 ссылок. Поэтому не очень важно, сколько релевантных результатов (десять тысяч, сто тысяч или миллион) осталось за пределами первых страниц результатов поиска или вообще не было найдено в Сети. И того, что найдено, за глаза хватит.

Поэтому основным показателем качества работы интернет-поисковика является его точность.

Не полнота, а разнообразие

На самом деле полнота поиска — очень важна, если понимать ее не как требование найти все, а как требование разнообразия «верхней» части выдачи, то есть требование найти и показать все варианты, все типы ответов на запрос.

Например, если по запросу «дизайн» поисковик находит только релевантные документы, целиком посвященные дизайну сайтов, то полнота поиска явно низкая. Желательно, чтобы также были найдены страницы про другие виды дизайна — дизайн квартир, ландшафтный дизайн, полиграфический дизайн и пр. Таким образом, если поисковик находит много, но по одной теме, то пользователь получает однообразную информацию.

Надо заметить, что в 2009-2010 годах поисковики стали обращать больше внимания на качество результатов поиска по таким неоднозначным запросам. Раньше по большинству «коммерческих» запросов было невозможно получить «некоммерческие» страницы вверху списка результатов поиска — первые десятки и даже сотни результатов поиска относились к коммерческой выдаче. Например, по запросу «цветы» вся поисковая выдача была забита страницами с предложениями доставки цветов, причем в основном по Москве. Сегодня ситуация меняется в лучшую для пользователя сторону — поисковая выдача становится более разнообразной.

Точность

Точность — это мера качества выданных результатов. Она вычисляется как количество релевантных страниц в общем объеме того, что выдал нам поисковик.

Если, допустим, по запросу очистители воздуха нам выдано всего 1000 страниц, а на самом деле отношение к очистителям воздуха имеют только 850 из них, то точность поиска будет равна 85%. Ясно, что для поисковика точность важнее всего.

Однако из данного примера видно, что на самом деле нет смысла вычислять точность по всему объему найденных страниц. Гораздо важнее порядок выдачи. А что если все 150 нерелевантных страниц из 1000 окажутся в начале выдачи? Ясно, что средний пользователь, просматривающий две первые страницы результатов поиска (это максимум 20-30 первых результатов), сочтет такую выдачу абсолютно нерелевантной и будет прав.

Таким образом, важно не только обеспечить достаточную точность поиска, то есть релевантность всего объема найденных по запросу страниц, но и правильно расположить релевантные результаты в выдаче, то есть обеспечить правильный порядок, или ранжирование результатов поиска.

Зачем нужно знать тип запросаРанжирование