Поисковая система

Что собой представляет поисковая система

Поисковой системой является сайт с особым интерфейсом системы, который благодаря своему программно-аппаратному комплексу позволяет пользователям найти интересующую их информацию в сети Интернет, введя запрос в поисковой строке.

Комплекс программ поисковой системы — так называемый поисковый движок (другое название — поисковая машина) обеспечивает высокую функциональность поисковика.

Весь этот комплекс особых программ разрабатывается непосредственно компанией поисковой системы и является ее коммерческой тайной.

Виды поисковых систем

Большинство всех поисковиков ищут информацию на ресурсах сети Интернет, но есть поисковые системы, которые могут искать информацию и в новостных группах Usenet, различные товары, представленные интернет магазинами, файлы на серверах, которые обеспечивают обмен файлов по протоколу FTP.

Усовершенствование возможностей поиска является одним из основных направлений современной сети Интернет.

Согласно статистическим данным в шестерку самых популярных поисковых систем в 2021 году входили:

Google 92.5
bing 2.5
Yahoo! 1.8
Baidu 1.1
Yandex 0.5
DuckDuckGo 0.4
Sogou 0.3
Naver 0.1
Shenma 0.09
Ecosia 0.09


 

Структурно поисковые системы состоят из трех элементов:

  • Поискового робота, который путешествует по глобальной сети и собирает нужную информацию
  • Базы данных, в которой хранится собранная роботом информация
  • Интерфейса, с помощью которого пользователи сети взаимодействуют с базой данных

Методика работы поисковых систем

Поисковый механизм, включающий в себя средства поиска и упорядочения найденной информации, используется пользователями для доступа к нужному файлу или документу. Отметим, что поисковые механизмы отличаются друг от друга своими алгоритмами поиска информации.

Например, некоторые из них исследуют ссылки на страницах и затем по ним переходят на другие страницы и так далее; другие игнорируют ссылки, ведущие на анимацию, графику, звуковые файлы и ссылки, указывающие на базу данных типа WAIS.

Поисковая система Infoseek

Индексацию материала в этой системы производит робот, который в своей работе учитывает следующее:

  • Содержание тега title придается роботом максимально большое значение
  • Содержание тегов keywords, description
  • Частоту вхождений ключевого слова в тексте
  • В случае повторения подряд одних и тех же слов материал не индексируется
  • Размер символов в теге keywords не должен превышать 1024 штук, а для тэга description допускается не более 200 символов
  • В случае отсутствия текстового содержания в тегах, робот индексирует первые 200 слов страницы и их использует как описание

Система Infoseek достаточно функциональна с хорошо развитым информационно-поисковым алгоритмом, что дает возможность пользователю не просто указывать термины, но и взвешивать их. Для обозначения обязательного присутствия термина в файле используется символ «+», а символ «-» указывает на то, что термин должен отсутствовать в документе.

Системой также проводится и контекстный поиск, который осуществляет поиск определенной последовательности слов.

Существует возможность потребовать поиск последовательности слов не только во всем тексте, но в одном абзаце или даже в заголовке.

Пользователь в состоянии указать ключевое выражение как одно целое с заданным порядком слов.

Система проводит ранжирование по количеству терминов запроса в документ и по количеству выражений запроса без учета общих слов. Исходя из описания возможностей системы, ее можно причислить к традиционным системам с возможностью оценки терминов при поиске.

Прогосударственная поисковая система

Вскоре, по сообщениям некоторых достоверных источников, в России может появиться прогосударственная поисковая система***, которая будет ставить фильтры на некоторые сайты и в большей степени будет работать на государственные нужды. В настоящий момент идея ожидает одобрения правительства.

*** так и не появилась к 2021 году.

Поисковая система Yahoo

Поисковая система Yahoo является одним из пионеров поиска информации в глобальной сети и сотрудничает со многими производителями технологий поиска информации.

Техника ввода запроса достаточно проста: пользователь вводит свой запрос в поле, причем все слова должны быть разделены пробелом и могут быть соединены союзами AND или OR.

Выдача поисковой системы состоит из подчеркнутых слов запроса, причем степень близости соответствия файла к запросу не указывается.

Поисковый механизм нормализации выражения запроса не производит, и ранжирование выполняется по количеству терминов запроса.

Неплохие результаты поиска система обеспечивает, в случае нахождения в ее базе искомой информации. Таким образом, данную поисковую систему можно отнести к традиционным системам с ограниченными возможностями поиска.

Поисковая система OpenText

Поисковая система OpenText представляет собой информационный коммерческий продукт, поскольку описание ее работы больше похоже на рекламное объявление, чем на практическое руководство к действию.

Расширенный поиск системы позволяет пользователю использовать логические коннекторы, соединяющие не более 3 терминов или выражений.

Существует возможность использования булевых операторов. Поисковая выдача системы содержит информацию степени близости файла к введенному запросу и объем документа.

Благодаря более продвинутому механизму ранжирования систему полностью отнести к традиционным поисковым системам нельзя.

Поисковая система WAIS

Поисковая система WAIS представляет собой одну из наиболее функциональных поисковых систем глобальной сети, в возможности которой не входит только лишь вероятностный поиск и поиск по нечетким множествам.

Пользователь может вводить вложенные булевы операторы в своем запросе, вычислять степень релевантной близости, оценивать термины запроса и текста, проводить коррекцию запроса в соответствии с релевантностью.

Другими преимуществами системы являются применение в поиске усечения терминов, использования распределенных индексов и деление документа на поля

Поисковая система Lycos

В данном поисковике механизм индексации включает в себя следующее:

  • Наивысшим приоритетом пользуется содержимое тега title
  • Учитываются слова в начале страницы
  • Учитывается текст в ссылке
  • Принимается во внимание ссылки на индексируемый сайт со сторонних ресурсов находящихся в базе поисковика и в случае наличия таких ссылок релевантность ресурса возрастает.

Поисковая система предлагает пользователю ввести свой запрос, используя естественный язык, и после введения запроса проводит свой метод поиска.

Введенное выражение анализируется, и из него удаляются так называемые стоп-слова. После проведения нормализации запроса начинается поиск.

Практически мгновенно выдается информация о числе документов на каждое слово запроса и через небольшой промежуток времени ссылки на релевантные документы, причем в списке против каждого документа указывается степень близости к запросу, число слов из запроса, а также приблизительная мера близости, которая колеблется в большую или меньшую сторону от вычисленной величины.

В настоящее время отсутствует возможность введения логических символов в поле ввода, но логику использовать можно.

Система позволяет ввод так называемого расширенного запроса, которым пользуются опытные пользователи.

Этот факт свидетельствует, что Lycos относится к типу поисковой системы с возможностью запроса «Like this» (подобно данному), однако в недалеком будущем ожидается расширение возможностей системы на более изощренные способы поисковых запросов пользователей.

Поисковая система AltaVista

Отличительной особенностью этой поисковой системы является способ ее индексации, которую проводит робот, который в своей работе ориентируется на следующие приоритеты:

  • Ключевые слова и выражения в тегах title и мета-тегах имеют для работа максимальное важное значение
  • Ключевые слова и выражения в начале страницы
  • Содержание ключевых слова и выражений в ALT – ссылках
  • Число вхождений ключевых слова и выражений
  • В случае отсутствия тегов робот учитывает первые 30 слов, которые индексирует и показывает вместо описания (тег description).

Главной особенностью системы является возможность расширенного поиска, в котором возможно использовать логические операторы.

Однако в отличие от многих других поисковых систем AltaVista поддерживает простой оператор NOT. Системой допускается возможность контекстного поиска (оператор NEAR), в котором термины располагаются рядом друг с другом.

Поисковая система, имея в своей базе большой фразеологический словарь, также производит поиск по ключевым словам и выражениям.

Интересной возможностью системы является ее способность производить поиск по имени поля, в котором встречается ключевое слово как то: ссылка, заголовок, название образа и многое другое.

Минусом системы является отсутствие подробного описания ранжирования системой информации, как при обычном поиске, так и при расширенном поиске, однако систему можно уверенно считать системой с расширенным булевым поиском.

В феврале 2003 AltaVista была куплена Overture Services, Inc.[4], которая в июле 2003 была приобретена Yahoo![5]. С мая 2011 AltaVista перешла на поисковую технологию Yahoo!.