Материал предоставлен https://it.rfei.ru

Механизм и термины веб-поиска

Поисковая система — онлайн-служба (программно-аппаратный комплекс с веб-интерфейсом), предоставляющий возможность поиска информации в Интернете. Обычно, под поисковой системой понимают веб-сайт, на котором размещен веб-интерфейс системы.

Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и, как правило, являются коммерческой тайной компании-разработчика поисковой системы.

Поисковые системы обычно состоят из 4-х компонент:

  1. Агент (паук, робот), который перемещается по Сети и собирает информацию;
  2. База данных, с помощью которой проиндексированна собираемая пауками информация;
  3. Поисковая машина, реализующая алгоритм поиска заданной информации и выдачу результата;
  4. Внешний интерфейс, который люди используют как инструмент для взаимодействия с поисковой машиной.

Когда пользователь хочет найти в Интернет интересующую его информацию, он посещает страницу поисковой системы и заполняет форму, характеризующую информацию, которая ему необходима (вводит поисковый запрос). Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

Поисковая машина на основании заданного пользователем поискового запроса и хранящегося в базе данных индекса определяет какие страницы наиболее подходят под запрос и выводит ссылки на соответствующие документы. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные (которые больше всего подходят) пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  1. Количество слов запроса в текстовом содержимом документа.
  2. Тэги, в которых эти слова располагаются.
  3. Местоположение искомых слов в документе.
  4. Удельный вес слов в общем количестве слов документа.
  5. Индекс цитирования — количество ссылок на данную страницу с других страниц, зарегистрированных в базе системы.
  6. Время — как долго страница находится в базе поискового сервера.

Поисковая машина выводит ранжированный подобным образом список документов с HTML и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка — некоторые показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе вместе со ссылкой.

Основные термины веб-поиска:

  • Индексация — процесс составления или приписывания указателя (индекса) — служебной структуры данных, необходимой для последующего поиска;
  • Индекс цитирования — принятая в научном мире мера “значимости” трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная;
  • Иллюзия свежести — эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями;
  • Кластеризация документов — одна из задач информационного поиска, целью которой является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов;
  • Поисковая оптимизация (англ. search engine optimization, SEO) — комплекс мер для поднятия позиций сайта в результатах выдачи поисковых систем по определенным запросам пользователей. Обычно, чем выше позиция сайта в результатах поиска, тем больше заинтересованных посетителей переходит на него с поисковых систем;
  • Клоакинг (от анг. cloak — мантия, маска, прикрытие) — прием “чёрной” поисковой оптимизации, заключающийся в том, что информация, выдаваемая пользователю и поисковым роботам на одной и той же странице, различается;
  • Поиск по смыслу — алгоритм информационного поиска, способный находить документы, не содержащие слов запроса;
  • Прямой поиск — поиск непосредственно по тексту документов, без предварительной обработки (без индексирования);
  • Ранжирование — это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу;
  • Релевантность — соответствие документа запросу;
  • Регулярное выражение — способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и так далее. В широком смысле -– язык, позволяющий задавать запросы неограниченной сложности.
Краткая история веб-поискаСовременные поисковые системы