Вопросы по теме 'robots.txt'
Запретить динамический перезаписанный URL htaccess
Как запретить в robots.txt индексацию страниц
http://example.net/something,category1.php
http://example.net/something,category2.php
(...)
http://example.net/something,category152.php
я пробовал
Disallow: /something,*.php
Но он...
163 просмотров
schedule
18.12.2023
Как запретить сканирование на исходном сервере и обеспечить правильное распространение файла robots.txt?
Я столкнулся с довольно уникальной проблемой. Если вы занимаетесь масштабированием больших сайтов и работаете с такой компанией, как Akamai, у вас есть исходные серверы, с которыми общается Akamai. Что бы вы ни подавали Akamai, они будут...
2533 просмотров
schedule
29.10.2022
В Jsoup возможно ли получить элементы из списка элементов без его прохождения?
Я новичок в Jsoup, но это отличный инструмент. Я пытаюсь извлечь метатег robots.
У меня есть следующий код:
Document doc = Jsoup.parse(htmlContent);
Elements metatags = doc.select("meta");
Element robots = metatags.attr("name", "robots"); //...
1324 просмотров
schedule
16.11.2023
Отсутствует директива агента пользователя! Найдено Разрешить - что это значит?
Я проверил свой сайт через http://www.frobee.com/robots-txt-check и он вернулся с несколькими ошибками.
Вот мой файл robots.txt:
User-agent: *
Disallow: /admin/
# Allowable Index
Allow: /*?p=
Allow: /blog/
Allow:...
1094 просмотров
schedule
08.03.2024
Удалить субдомен из google и yahoo
если у меня есть субдомен с именем abc.aaa.com
и теперь я перехожу на aaa.com/abc
мой администратор сервера помог мне сделать перенаправление с abc.aaa.com на aaa.com/abc
поэтому независимо от доступа к какой странице / разделу / файлу в...
150 просмотров
schedule
26.01.2024
django эффективно обслуживает robots.txt
Вот мой текущий метод обслуживания robots.txt
url(r'^robots\.txt/$', TemplateView.as_view(template_name='robots.txt',
content_type='text/plain')),
Я не думаю, что это лучший способ. Я думаю, было...
15269 просмотров
schedule
16.04.2024
Google по-прежнему индексирует уникальные URL-адреса
У меня есть файл robots.txt, настроенный как таковой
User-agent: *
Disallow: /*
Для сайта, который полностью основан на уникальном URL. Что-то вроде https://jsfiddle.net/ , когда вы сохраняете новую скрипку, она дает ей уникальный...
68 просмотров
schedule
13.01.2024
Поведение robots.txt, когда в директивах Allow: или Disallow: не указан соответствующий шаблон
Я работаю над презентацией о парсинге веб-страниц и пытаюсь объяснить некоторые части файла robots.txt.
Учитывая следующий раздел файла robots.txt Википедии , кажется, что IsraBot разрешено очищать / в то время как Mediapartners-Google* нет....
89 просмотров
schedule
12.11.2022
Добавить разрешенные и запрещенные правила URL-адреса в список в java
Я пытаюсь зафиксировать разрешенные и запрещенные правила файла robots.txt в java, используя следующий код:
package robotest;
public class RoboTest {
public static void main(String[] args) {
String robo="user-agent:hello user-agent:ppx...
60 просмотров
schedule
04.05.2024