Публикации по тегам scrapy-spider

Вопросы по теме 'scrapy-spider'

Сейчас я начинаю со Scrapy, и я понял, как брать нужный мне контент со спортивной страницы (имя и команда футболиста), но мне нужно следовать ссылкам в поисках других команд, на каждой странице команды есть ссылка на страницу игроков, структура...

165 просмотров

13.11.2022

Scrapy: концепция правила SgmlLinkExtractor

Подскажите, пожалуйста, как написать правило SgmlLinkExtractor Я запутался и не могу разобраться в документах на английском языке. Я хочу сканировать Интернет с большим количеством страниц И правило таково:...

1408 просмотров

python web-scraping regex scrapy scrapy-spider

25.01.2024

Как предотвратить ошибку twisted.internet.error.ConnectionLost при использовании Scrapy?

Я очищаю некоторые страницы с помощью scrapy и получаю следующую ошибку: twisted.internet.error.ConnectionLost Мой вывод командной строки: 2015-05-04 18:40:32+0800 [cnproxy] INFO: Spider opened 2015-05-04 18:40:32+0800 [cnproxy] INFO:...

7040 просмотров

web-scraping scrapy twisted scrapy-spider

23.12.2023

ОШИБКА Scrapy: ошибка загрузки - не удалось открыть туннель CONNECT

Я написал паука для сканирования https://tecnoblog.net/categoria/review/ , но когда я пусть паук ползет, есть одна ошибка: 2015-05-19 15:13:20+0100 [scrapy] INFO: Scrapy 0.24.5 started (bot: reviews) 2015-05-19 15:13:20+0100 [scrapy] INFO:...

6001 просмотров

scrapy scrapy-spider

25.11.2023

Scrapy 1.0 – получение возвращаемого значения после запуска из скрипта python

Я использую приведенный ниже код для запуска своего сканера из скрипта Python: import scrapy from scrapy.crawler import CrawlerProcess process = CrawlerProcess() process.crawl(MySpider) process.start() # the script will block here until the...

2167 просмотров

python scrapy scrapy-spider

04.07.2022

Не удается получить ответ от возвращенного запроса в Scrapy

Я просто хочу передать URL-адрес другому парсеру. Это не сработало, как показано в документе, поэтому я сократил свой код до минимума, и все равно ничего. Пробовал с yield также # -*- coding: utf-8 -*- import scrapy import cfscrape from...

907 просмотров

python web-scraping web-crawler scrapy scrapy-spider

12.05.2024

Элемент Scrapy не определен

Я пишу сканер, чтобы получить несколько страниц из Yelp. Я определяю элемент Yelp следующим образом: yelpItem.py : import scrapy class YelpItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() link...

2911 просмотров

web-scraping scrapy scrapy-spider

30.04.2024

Scrapy вызывает паука, отличного от указанного в командной строке

(P6Svenv)malikarumi@Tetuoan2:~/Projects/P6/P6Svenv/test2/test2/spiders$ scrapy crawl zomd Traceback (most recent call last): File "/usr/bin/scrapy", line 9, in <module> load_entry_point('Scrapy==1.0.3.post6-g2d688cd', 'console_scripts',...

145 просмотров

scrapy-spider

17.01.2024

Scrapy: обработка ошибок Spider в Windows 7

Я пытаюсь создать паука, чтобы я мог сканировать и очищать контент с других веб-сайтов. Я сделал пример из scrapy, и все работало нормально, однако при реализации моего собственного кода я не смог заставить его работать. Я продолжаю получать...

254 просмотров

python-2.7 scrapy scrapy-spider

05.11.2023

Почему мой скребущий паук ничего не царапает?

Я не знаю, в чем заключаются проблемы, вероятно, очень легко исправить, так как я новичок в scrapy. Спасибо за вашу помощь! Мой паук: from scrapy.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from...

905 просмотров

python python-2.7 web-scraping scrapy scrapy-spider

04.07.2022

Рекурсивное сканирование не работает с Scrapy Spider

Я пытался просканировать заголовки рецептов из пищевой сети и хочу рекурсивно перейти на следующую страницу. Я использую python 3, поэтому некоторые функции в scrapy мне недоступны, но вот что у меня есть: import scrapy from scrapy.http...

497 просмотров

python scrapy scrapy-spider

27.07.2022

Scrapy - очистка данных только с первой страницы, а не со следующей страницы в разбиении на страницы

Ниже приведен код очистки (взятый из одного сообщения в блоге), который отлично работает для удаления данных только с первой страницы. Я добавил «Правило» для извлечения данных со второй страницы, но все же он берет данные только с первой страницы....

872 просмотров

python-2.7 web-crawler scrapy scrapy-spider

16.06.2024

Как добавление аргумента dont_filter = True в scrapy.Request заставляет мой метод синтаксического анализа работать?

Вот простой скрап-паук import scrapy class ExampleSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["https://www.dmoz.org"] start_urls = ('https://www.dmoz.org/') def parse(self,response): yield...

8531 просмотров

web-scraping scrapy scrapy-spider

03.11.2023

Передача URL-адреса ответа Scrapy в Selenium, а затем ответа Selenium обратно в Scrapy

Как передать URL-адрес ответа Scrapy в Selenium, а затем ответ селена обратно в Scrapy У меня есть этот паук Scrapy first.py : # -*- coding: utf-8 -*- import scrapy import re import json class FirstSpider(scrapy.Spider): name = "first"...

568 просмотров

python-3.x selenium selenium-webdriver scrapy scrapy-spider

20.07.2022

Scrapy ползает, но не царапает

Проблема в том, что если я добавлю URL-адрес продукта непосредственно в «start_urls», все будет работать нормально. Но когда страница продукта появляется во время сканирования (все просканированные страницы возвращают «200»), она не очищается .... Я...

772 просмотров

python-3.x python csv scrapy scrapy-spider

09.08.2022

Scrapy - парсинг ссылок по дате

Можно ли очистить ссылки по дате, связанной с ними? Я пытаюсь реализовать ежедневного запускаемого паука, который сохраняет информацию о статьях в базе данных, но я не хочу повторно очищать статьи, которые я уже очищал раньше, то есть вчерашние...

1279 просмотров

python web-crawler scrapy scrapy-spider

24.04.2024

Очень простой проект Scrapy+Splash

Я разрабатываю очень простой проект Scrapy + Splash для сканирования веб-сайтов javascript. Это мой код: splashtest.py: import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider'...

2705 просмотров

python web-scraping scrapy scrapy-splash scrapy-spider

29.03.2024

Запрос Scrapy - обрабатывать одну группу URL-адресов за другой - могу ли я использовать приоритет?

Как заставить scrapy обрабатывать одну группу/список URL-адресов за другой? У меня есть два списка URL-адресов. Мне нужно обработать первый список, включая item pipelines , а затем я могу обработать второй список. Оба должны быть обработаны...

1440 просмотров

python scrapy scrapy-spider

17.09.2022

Как я могу ограничить количество элементов, извлеченных для каждого домена в scrapy?

Я работаю над очисткой элементов с нескольких веб-сайтов (используя для этого scrapy). Элементы, которые я пытаюсь очистить, не всегда четко определены и могут быть в текстах. Поэтому я использую совпадения строк для распознавания элементов. Однако...

2623 просмотров

python scrapy scrapy-spider

09.05.2024

Как использовать прокси для определенного URL-адреса в пауке Scrapy?

Я хочу использовать прокси только для нескольких конкретных доменов. Я проверяю это , это и это . Если я правильно понимаю, установка прокси с помощью промежуточного программного обеспечения установит прокси для всех запросов. Как я могу...

3074 просмотров

python-3.x python scrapy scrapy-spider

23.09.2022

Вопросы по теме 'scrapy-spider'

Похожие вопросы