Программное обеспечение для анализа файлов веб-журналов для измерения поисковых роботов

Мне нужно проанализировать, как поисковые системы сканируют мой сайт. Есть ли хороший инструмент для этого? Я пробовал AWStats и Sawmill. Но оба они дают мне очень ограниченное представление о ползании. Мне нужно знать информацию, например, сколько уникальных/отличных веб-страниц в разделе моего сайта было просканировано определенным поисковым роботом за определенный период времени.

Google Analytics вообще не отслеживает сканирование из-за своего механизма отслеживания javascript.


person at.    schedule 29.09.2010    source источник


Ответы (1)


При переходе по ссылке на первую страницу вашего сайта основные сканеры поисковых систем сначала запрашивают файл с именем robots.txt, который, конечно же, сообщает поисковому роботу, на каких страницах он находится. разрешено владельцем Сайта для посещения и какие файлы или каталоги запрещены.

Что делать, если у вас нет robots.txt? Почти всегда сканер «интерпретирует» это как отсутствие запретных страниц/каталогов, и он продолжит сканирование всего вашего Сайта. Так зачем включать файл robots.txt, если это то, что вам нужно, т. е. чтобы сканер проиндексировал весь ваш сайт? Потому что, если он есть, Краулер почти всегда будет запрашивать его, чтобы он мог его прочитать — этот запрос, конечно же, отображается в виде строки в файле журнала доступа к вашему серверу, что является довольно надежной подписью для Краулера.

Во-вторых, хороший анализатор журналов доступа к серверу, такой как Webalyzer или Awstats. сравните пользовательский агент и IP-адреса с опубликованными авторитетными списками: IAB (http://www.iab.net/sites/spiders/login.php) и user-agents.org публикуют два списка, которые, по-видимому, наиболее широко используются для этой цели. Первые составляют несколько тысяч долларов в год и выше; последний свободен.

И Webalyzer, и AWStats могут делать то, что вы хотите, хотя я рекомендую AWStats по следующим причинам: он был обновлен относительно недавно (примерно год назад), а последний раз Webalyzer обновлялся более восьми лет назад. Кроме того, в AWStats гораздо более приятные шаблоны отчетов. Преимущество Webalyzer в том, что он намного быстрее.

Вот пример вывода из AWStats (на основе готовой конфигурации), который, вероятно, вам нужен:

альтернативный текст

person doug    schedule 30.09.2010
comment
Спасибо за ваш подробный ответ. Меня больше интересует просто убедиться, что наш сайт полностью просканирован основными поисковыми системами. Для этого мне действительно нужен инструмент, который сообщает мне, сколько уникальных страниц просматривается в областях нашего сайта конкретными поисковыми системами. Может ли вебалайзер сделать это? - person at.; 30.09.2010
comment
извините за поздний ответ - я только что увидел ваш комментарий. Ответ на вопросы в вашем комментарии выше — «да». Я существенно пересмотрел свой ответ в свете вашего комментария — см. мой пересмотренный ответ, в котором показана часть образца отчета Search Engine Spiders из AWStats. - person doug; 26.10.2010