Моя цель — определить, сколько URL-адресов на HTML-странице недействительны (404, 500, HostNotFound). Итак, в Nutch есть изменение конфигурации, которое мы можем сделать, с помощью которого веб-краулер просматривает неработающие ссылки и индексирует их в solr.
Как только все неработающие и действительные ссылки будут проиндексированы в Solr, я могу просто проверить недействительные URL-адреса и удалить их со своей HTML-страницы.
Любая помощь будет высоко оценена.
Заранее спасибо.