Поисковый робот. Поисковый спам

Поисковый робот. Программа, совершающая обход и анализ сайтов с целью индексации их страниц. У ПС Яндекс различают несколько роботов: «быстробот» , осуществляющий ускоренную индексацию часто обновляемых страниц, «робот-склейщик»и т.п.
Поисковый спам. Следствие применений методов продвижения, запрещенных правилами поисковых систем, — например, текстовый контент , механически насыщенный ключевыми словосочетаниями.

Формат файла /robots.txt

Данный файл регламентирует работу поисковых роботов, которые должны проводить индексацию в соответствии с предписаниями этого файла, то есть индексировать те директории и файлы, которые не описаны в robots.txt. Данный файл может не содержать записей или содержать некоторые записи, предназначенные как для разного рода роботов (поля agent_id), так и для всех роботов сразу с указанием, что им запрещено индексировать. Авторы файла указывают строку Product Token поля User-Agent, которая является ответом каждого робота на запрос индексируемого сервера. Например, робот Lycos на такой запрос выдает в качестве ответа поля User-Agent: Lycos_Spider_(Rex)/1.0 libwww/3.1.

В том случае, когда робот не обнаруживает своего описания в файле, он поступает согласно программе. Важным параметром, который следует учитывать при создании файла, является его размер. Так как описываются как все файлы, не подлежащие индексации, так и различное множество типов роботов, то объем файла становится слишком большим. Используются несколько способов сокращения объема файла как то:
• Определение директорий, которые запрещено индексировать и помещение в них файлов, не подлежащих индексации
• Создание сервера с учетом упрощенной записи исключений в файле robots.txt
• Определение одного способа индексирования для всех agent_id
• Указание маски для директорий и файлов

Обновление документов

Из вышесказанного следует, что база данных создаваемая посредством роботов обновляется в автоматическом режиме, но до сих пор не разработано ни одного программного продукта, с помощью которого можно было проследить изменения, происходящие в глобальной сети. Не существует даже механизма простого контроля изменения ссылок (какая ссылка удалена, перемещена или изменена). С помощью протокола HTTP можно определить только время модификации документа с одновременным его запросом.

В случае модификации документа передается только его содержимое, так как ресурс уже был прокэширован. Такую возможность робот предоставляет только в том случае, когда сохраняется отношения итоговых данных – ссылки и показателя времени, но это ведет к усложнению базы данных и практически не используется.

Некачественная реализация роботов

Увеличение нагрузки на глобальную сеть связано также и с некачественным исполнением роботов, особенно это касается недавно исполненных роботов. Кроме проблем правильной обработки роботом протоколов и ссылок существует еще и другие менее заметные проблемы.

Были проведены наблюдения работы нескольких роботов с сервером, которые свидетельствовали, что причиной большинства негативных последствий были плохо реализованные роботы. Наблюдались повторные запросы ресурсов даже в том случае, когда не было никаких сведений о ранее запрашиваемых ссылках (что уже недопустимо) или когда робот не распознал синтаксически одинаковых ссылок с одним и тем же IP адресом, но с разными DNS.

Другие роботы запрашивают типы ресурсов, которые они обработать не в состоянии (например, документы типа GIF и PS) и поэтому игнорируют их.

Исследование ресурсов

Наиболее перспективное применение роботов является их использование при исследовании ресурсов. Очень заманчиво выглядит сама возможность переложить на роботов обработку огромного объема информации. Очевидно, что человек не в состоянии справиться большим объемом информации и существование некоторых роботов, назначение которых является сбор информации в глобальной сети с дальнейшей ее передачей в базу данных, значительно облегчают задачу пользователя. Пользователь с помощью таких роботов в состоянии объединить поиск и просмотр страниц, причем в случае отсутствия нужной ему информации в базе данных, в найденных страницах будут содержаться в достаточном количестве ссылки на ресурсы, которые с большой долей вероятности приведут его к предмету поиска.

Следующим плюсом применения роботов является периодическое обновление базы данных с удалением мертвых ссылок, что практически невозможно при обработке документов в ручном режиме, так как в таком режиме проверка проводится нерегулярно и не может быть полной по определению.

Зазеркаливание

Основной функцией этой операции является поддержка архивов типа FTP. Поддержка архивов FTP осуществляется посредством рекурсивного копирования полного дерева каталогов с дальнейшим запросом тех документов, которые изменились. Такой метод позволяет решить проблему загрузки нескольких серверов, отказов серверов, и дает возможность более быстрого и экономного как локального, так и автономного доступа к архивам. Операцию «зазеркаливание» может осуществить и робот, но на момент написание данной статьи такого функционального робота еще не существовало, хотя были разработаны роботы, которые были в состоянии скопировать какую-то часть дерева, но в их функции не входит запрос на те страницы, которые были изменены.
Следующая трудность, которую должны решить при зазеркаливание роботы заключается в уникальности. Суть проблемы заключается в том, что ссылки в дублированных страницах должны находиться там, где они ссылаются на документы, которые сами в свою очередь были скопированы и также должны быть обновлены, а ссылки на не скопированные страницы должны быть переоформлены в абсолютные ссылки. Использование дублирования архивов FTP ограничивается по соображениям производительности в случае применения серверов предлагающих выборочную модернизацию, которые гарантируют, что кэшированный документ не изменялся и в состоянии с высокой степенью самообслуживаться. В недалеком будущем ожидается, что метод зазеркаливание получит свое дальнейшее рациональное решение.

Проблема включения/исключения документов роботами

Практическая работа роботов ограничена некоторыми типами документов, которые релевантные только для определенного контекста, а также документами временного использования. Кроме этого роботы не в состоянии определить был ли данный ресурс включен в его индекс или нет. Необходимо отметить, что робот запоминают всю информацию тех площадок, где они побывали и уже тем самым понес определенные расходы на поиск и запрос файла, который он определил как файл подлежащий исключению из его базы. Таким образом, можно сделать вывод, что роботы, исключающие большой процент документов являются достаточно затратными.

Для решения этой проблемы были разработаны стандарты, нормирующие исключения ресурсов роботами. Стандарт регламентирует обработку простого текстового файла расположенного в известном месте на сервере (robots.txt) и определяет, какая часть ссылок должна быть проигнорирована роботом, и, таким образом, информирует робота о так называемых «черных дырах» (бесконечных циклов). Стандарт регламентирует работу каждого типа робота, специализирующегося в конкретной области, передавая им определенные для каждого типа робота команды.

Возможные проблемы при использовании поисковых роботов

Комбинированное использование

Обычный робот в состоянии выполнить больше, чем одну задачу, например робот RBSE Spider в состоянии выполнить статистический анализ и ведение базы данных, но использование комбинированных возможностей роботов является достаточно редким явлением.

Работа поисковых роботов связана с большими затратами ресурсов интернета и их деятельность может представлять определенную опасность, причиной которой может быть их высокие требования предъявляемой к глобальной сети.

Поисковые роботы

В настоящее время популярность интернета настолько выросла, что, по сути, он является одним из самых востребованных пользователями источников информации. Давно прошли те времена, когда глобальная сеть состояла всего из нескольких серверов и относительно небольшого количества ресурсов. Очевидно, что при таком огромном количестве публикаций и ресурсов, которыми на сегодняшний день располагает глобальная сеть, осуществлять навигацию в ручном режиме не представляется возможным.

С возникновением этой проблемы стал актуален вопрос серфинга по глобальной паутины в автоматическом режиме. Для осуществления навигации в автоматическом режиме была разработана специальная программа названная web-роботом. Программа осуществляет переходы по ссылкам глобальной сети, запрашивает необходимые документы и демонстрирует запрашиваемый ресурс. Программы получили название или странники или пауки, а иногда их называют червями, но эти имена не совсем соответствуют истине, так как предполагают самостоятельное путешествие программы по глобальной паутине, что не соответствует действительности. В действительности программы запрашивают необходимый документ с различных сегментов глобальной сети с помощью обычных сетевых протоколов.

Методы работы агентов Яндекса, пауки

Методы работы агентов отличны. Например, некоторые агенты проводят индексацию каждого слова в документе, другие индексируют только 100 наиболее важных слов, объем документа, заголовки и подзаголовки, а также количество слов ресурса. Тип созданного индекса определяет как интерпретацию собранной информации, так и природу поиска проводимого в дальнейшем поисковым механизмом.
Менеджеры поисковых систем могут выбирать, какие сайты или типы ресурсов должен посетить и проиндексировать агент. Агенты, перемещаясь по глобальной сети, находят нужную информацию и передают ее базе данных. Пользователям предоставляется возможность вводить информацию прямо в индекс, заполняя форму выбранного раздела,. Эти данные будут переданы в базу данных.
Любой пользователь интернета в поисках необходимой ему информации посещает какой-нибудь поисковик и в поле поиска вводит свой запрос. В целевом запросе пользователя должны присутствовать те параметры, согласно которым агенты индексируют информацию собранную ими в глобальной сети как то: ключевые слова, даты, имена искомых документов и прочее.