Вопросы по теме 'robots.txt'

Запретить динамический перезаписанный URL htaccess
Как запретить в robots.txt индексацию страниц http://example.net/something,category1.php http://example.net/something,category2.php (...) http://example.net/something,category152.php я пробовал Disallow: /something,*.php Но он...
163 просмотров
schedule 18.12.2023

Как запретить сканирование на исходном сервере и обеспечить правильное распространение файла robots.txt?
Я столкнулся с довольно уникальной проблемой. Если вы занимаетесь масштабированием больших сайтов и работаете с такой компанией, как Akamai, у вас есть исходные серверы, с которыми общается Akamai. Что бы вы ни подавали Akamai, они будут...
2533 просмотров
schedule 29.10.2022

В Jsoup возможно ли получить элементы из списка элементов без его прохождения?
Я новичок в Jsoup, но это отличный инструмент. Я пытаюсь извлечь метатег robots. У меня есть следующий код: Document doc = Jsoup.parse(htmlContent); Elements metatags = doc.select("meta"); Element robots = metatags.attr("name", "robots"); //...
1324 просмотров
schedule 16.11.2023

Отсутствует директива агента пользователя! Найдено Разрешить - что это значит?
Я проверил свой сайт через http://www.frobee.com/robots-txt-check и он вернулся с несколькими ошибками. Вот мой файл robots.txt: User-agent: * Disallow: /admin/ # Allowable Index Allow: /*?p= Allow: /blog/ Allow:...
1094 просмотров
schedule 08.03.2024

Удалить субдомен из google и yahoo
если у меня есть субдомен с именем abc.aaa.com и теперь я перехожу на aaa.com/abc мой администратор сервера помог мне сделать перенаправление с abc.aaa.com на aaa.com/abc поэтому независимо от доступа к какой странице / разделу / файлу в...
150 просмотров
schedule 26.01.2024

django эффективно обслуживает robots.txt
Вот мой текущий метод обслуживания robots.txt url(r'^robots\.txt/$', TemplateView.as_view(template_name='robots.txt', content_type='text/plain')), Я не думаю, что это лучший способ. Я думаю, было...
15269 просмотров
schedule 16.04.2024

Google по-прежнему индексирует уникальные URL-адреса
У меня есть файл robots.txt, настроенный как таковой User-agent: * Disallow: /* Для сайта, который полностью основан на уникальном URL. Что-то вроде https://jsfiddle.net/ , когда вы сохраняете новую скрипку, она дает ей уникальный...
68 просмотров

Поведение robots.txt, когда в директивах Allow: или Disallow: не указан соответствующий шаблон
Я работаю над презентацией о парсинге веб-страниц и пытаюсь объяснить некоторые части файла robots.txt. Учитывая следующий раздел файла robots.txt Википедии , кажется, что IsraBot разрешено очищать / в то время как Mediapartners-Google* нет....
89 просмотров
schedule 12.11.2022

Добавить разрешенные и запрещенные правила URL-адреса в список в java
Я пытаюсь зафиксировать разрешенные и запрещенные правила файла robots.txt в java, используя следующий код: package robotest; public class RoboTest { public static void main(String[] args) { String robo="user-agent:hello user-agent:ppx...
60 просмотров
schedule 04.05.2024