Поисковые роботы. Перечень ботов ПС Яндекс, Google, Mail, Rambler…

Сканирование сайтов в широкомасштабной паутине интернетсетей производится узкоспециализированными программами поисковиков, предназначенных исключительно для сбора и хранения информации без какойлибо дальнейшей обработки полученных данных потому как таким направлением занимаются программы альтернативного значения. Сбором сведений занимаются поисковые роботы или боты, пауки такая программа имеет массу названий на русском языке, в английском встречаются наиболее частые варианты, такие как spider, crawler.

Информационные ресурсы интернета взглядом поискового робота.

Возможность видения сайта, так как это видят роботы поисковиков, существует достаточно только воспользоваться функциями, которые предложены в панели для вебмастеров.

К примеру, просмотреть вид собственного ресурса от робота Google можно, если предварительно добавить его в систему поиска, а после воспользоваться функционалом панели вебмастера. А точнее, просмотреть на интернетстраничке:

www.google.com/webmasters/tools/googlebotfetch?hl=ru

Вариант видимости сайта от робота поисковика Яндекс имеется возможность просмотреть, воспользовавшись сохранёнными копиями текстов. Для осуществления такой процедуры необходимо найти требуемую страницу в поисковике Яндекса далее нажать «сохранённая копия», а после «посмотреть текстовую версию».

Существуют целые списки таких роботов, занимающихся сканированием разнообразной информации на сайтах. Роботы ПС специализированы по разным направлениям, они разделены по видам работ: индексации страниц сайта, картинок, новостей, слежению за контекстной рекламой. При определённых знаниях в этом направлении и чётком представлении о работе конкретных пауков существует возможность запрета или допуска определённого spider к ресурсу, что позволит не только уменьшить нагрузку на сервер, но и защитить собственный материал от проникновения во Всемирную паутину.

Роботы, существующие в поисковике от Яндекса.

В ПС Яндекса имеется в наличие около полутора десятка наиболее известных поисковых роботов.

Yandex:
Botоснова в индексации;
Mediaскан мультимедийных данных;
Imagesпросмотр изображений;
Catalogпроверяет материалы в каталоге и снимает с публикации недосягаемые;
Blogsиндексирует блоги, посты и комментарии;
Newsновостная индексация;
Webmasterпоявляется после добавления сайта через AddURL;
Pagecheckerпроверка микрозаметок;
Faviconsиндексатор иконок;
Metrikaпроведение и анализ метрики;
Marketанализ сведений маркета;
Calendarучёт по календарным данным;
YaDirectFetcherпо основам директа.

Поисковые Боты в Гугл.

В ПС Google в разделе помощи был, упомянут единственный поисковый spider, а другие боты были отслежены в логах информационных ресурсов.

Google:
botоснова в индексации;
Nesновостная проверка;
bot Imagesпросмотр изображений;
bot Videoскан видеозаписей;
Mobileпросмотр данных для мобильных устройств;
Mobile AdSenseпросмотр мобильных AdSense;
AdSenseосновной в AdSense;
AdsBotпроверка качественности материала;
MediapartnersGoogleробот AdSense.

Боты других поисковиков

На личных ресурсах также возможно появление ботов от других поисковиков.

Разновидности spider, которые имеются в прочих поисковиках:

РамблерStackRambler
Мэйл.руMail.Ru
Yahoo! — Slurp (или Yahoo! Slurp)
AOLSlurp
MSNMSNBot
LiveMSNBot
AskTeoma
Alexaia_archiver
LycosLycos
AportAport
ВебальтаWebAlta (WebAlta Crawler/2.0)

Помимо пауков, существующих в поисковиках, сканированием также занимаются теневые пауки. Их задача сбор конкретного материала с сайтов для меркантильных целей создателей. Они не только занимаются воровством контента или картинок, но и способны взломать сайты и наполнить его сторонними ссылками. Если подобное наблюдается на собственном ресурсе, то его следует огородить любыми доступными способами, в частности, с содействием файла robots.txt от доступа сторонних spider.

Далее изучим вопрос Как добавить сайт на индексацию поисковикам

Оглавление