Механизм и термины веб-поиска
Поисковая система — онлайн-служба (программно-аппаратный комплекс с веб-интерфейсом), предоставляющий возможность поиска информации в Интернете. Обычно, под поисковой системой понимают веб-сайт, на котором размещен веб-интерфейс системы.
Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и, как правило, являются коммерческой тайной компании-разработчика поисковой системы.
Поисковые системы обычно состоят из 4-х компонент:
- Агент (паук, робот), который перемещается по Сети и собирает информацию;
- База данных, с помощью которой проиндексированна собираемая пауками информация;
- Поисковая машина, реализующая алгоритм поиска заданной информации и выдачу результата;
- Внешний интерфейс, который люди используют как инструмент для взаимодействия с поисковой машиной.
Когда пользователь хочет найти в Интернет интересующую его информацию, он посещает страницу поисковой системы и заполняет форму, характеризующую информацию, которая ему необходима (вводит поисковый запрос). Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.
Поисковая машина на основании заданного пользователем поискового запроса и хранящегося в базе данных индекса определяет какие страницы наиболее подходят под запрос и выводит ссылки на соответствующие документы. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные (которые больше всего подходят) пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
- Количество слов запроса в текстовом содержимом документа.
- Тэги, в которых эти слова располагаются.
- Местоположение искомых слов в документе.
- Удельный вес слов в общем количестве слов документа.
- Индекс цитирования — количество ссылок на данную страницу с других страниц, зарегистрированных в базе системы.
- Время — как долго страница находится в базе поискового сервера.
Поисковая машина выводит ранжированный подобным образом список документов с HTML и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка — некоторые показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе вместе со ссылкой.
Основные термины веб-поиска:
- Индексация — процесс составления или приписывания указателя (индекса) — служебной структуры данных, необходимой для последующего поиска;
- Индекс цитирования — принятая в научном мире мера “значимости” трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная;
- Иллюзия свежести — эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями;
- Кластеризация документов — одна из задач информационного поиска, целью которой является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов;
- Поисковая оптимизация (англ. search engine optimization, SEO) — комплекс мер для поднятия позиций сайта в результатах выдачи поисковых систем по определенным запросам пользователей. Обычно, чем выше позиция сайта в результатах поиска, тем больше заинтересованных посетителей переходит на него с поисковых систем;
- Клоакинг (от анг. cloak — мантия, маска, прикрытие) — прием “чёрной” поисковой оптимизации, заключающийся в том, что информация, выдаваемая пользователю и поисковым роботам на одной и той же странице, различается;
- Поиск по смыслу — алгоритм информационного поиска, способный находить документы, не содержащие слов запроса;
- Прямой поиск — поиск непосредственно по тексту документов, без предварительной обработки (без индексирования);
- Ранжирование — это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу;
- Релевантность — соответствие документа запросу;
- Регулярное выражение — способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и так далее. В широком смысле -– язык, позволяющий задавать запросы неограниченной сложности.