При переходе по ссылке на первую страницу вашего сайта основные сканеры поисковых систем сначала запрашивают файл с именем robots.txt, который, конечно же, сообщает поисковому роботу, на каких страницах он находится. разрешено владельцем Сайта для посещения и какие файлы или каталоги запрещены.
Что делать, если у вас нет robots.txt? Почти всегда сканер «интерпретирует» это как отсутствие запретных страниц/каталогов, и он продолжит сканирование всего вашего Сайта. Так зачем включать файл robots.txt, если это то, что вам нужно, т. е. чтобы сканер проиндексировал весь ваш сайт? Потому что, если он есть, Краулер почти всегда будет запрашивать его, чтобы он мог его прочитать — этот запрос, конечно же, отображается в виде строки в файле журнала доступа к вашему серверу, что является довольно надежной подписью для Краулера.
Во-вторых, хороший анализатор журналов доступа к серверу, такой как Webalyzer или Awstats. сравните пользовательский агент и IP-адреса с опубликованными авторитетными списками: IAB (http://www.iab.net/sites/spiders/login.php) и user-agents.org публикуют два списка, которые, по-видимому, наиболее широко используются для этой цели. Первые составляют несколько тысяч долларов в год и выше; последний свободен.
И Webalyzer, и AWStats могут делать то, что вы хотите, хотя я рекомендую AWStats по следующим причинам: он был обновлен относительно недавно (примерно год назад), а последний раз Webalyzer обновлялся более восьми лет назад. Кроме того, в AWStats гораздо более приятные шаблоны отчетов. Преимущество Webalyzer в том, что он намного быстрее.
Вот пример вывода из AWStats (на основе готовой конфигурации), который, вероятно, вам нужен:

person
doug
schedule
30.09.2010