Вопросы по теме 'scrapy-spider'

Невозможно перейти по ссылкам в Scrapy
Сейчас я начинаю со Scrapy, и я понял, как брать нужный мне контент со спортивной страницы (имя и команда футболиста), но мне нужно следовать ссылкам в поисках других команд, на каждой странице команды есть ссылка на страницу игроков, структура...
165 просмотров

Scrapy: концепция правила SgmlLinkExtractor
Подскажите, пожалуйста, как написать правило SgmlLinkExtractor Я запутался и не могу разобраться в документах на английском языке. Я хочу сканировать Интернет с большим количеством страниц И правило таково:...
1408 просмотров

Как предотвратить ошибку twisted.internet.error.ConnectionLost при использовании Scrapy?
Я очищаю некоторые страницы с помощью scrapy и получаю следующую ошибку: twisted.internet.error.ConnectionLost Мой вывод командной строки: 2015-05-04 18:40:32+0800 [cnproxy] INFO: Spider opened 2015-05-04 18:40:32+0800 [cnproxy] INFO:...
7040 просмотров

ОШИБКА Scrapy: ошибка загрузки - не удалось открыть туннель CONNECT
Я написал паука для сканирования https://tecnoblog.net/categoria/review/ , но когда я пусть паук ползет, есть одна ошибка: 2015-05-19 15:13:20+0100 [scrapy] INFO: Scrapy 0.24.5 started (bot: reviews) 2015-05-19 15:13:20+0100 [scrapy] INFO:...
6001 просмотров
schedule 25.11.2023

Scrapy 1.0 – получение возвращаемого значения после запуска из скрипта python
Я использую приведенный ниже код для запуска своего сканера из скрипта Python: import scrapy from scrapy.crawler import CrawlerProcess process = CrawlerProcess() process.crawl(MySpider) process.start() # the script will block here until the...
2167 просмотров
schedule 04.07.2022

Не удается получить ответ от возвращенного запроса в Scrapy
Я просто хочу передать URL-адрес другому парсеру. Это не сработало, как показано в документе, поэтому я сократил свой код до минимума, и все равно ничего. Пробовал с yield также # -*- coding: utf-8 -*- import scrapy import cfscrape from...
907 просмотров

Элемент Scrapy не определен
Я пишу сканер, чтобы получить несколько страниц из Yelp. Я определяю элемент Yelp следующим образом: yelpItem.py : import scrapy class YelpItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() link...
2911 просмотров
schedule 30.04.2024

Scrapy вызывает паука, отличного от указанного в командной строке
(P6Svenv)malikarumi@Tetuoan2:~/Projects/P6/P6Svenv/test2/test2/spiders$ scrapy crawl zomd Traceback (most recent call last): File "/usr/bin/scrapy", line 9, in <module> load_entry_point('Scrapy==1.0.3.post6-g2d688cd', 'console_scripts',...
145 просмотров
schedule 17.01.2024

Scrapy: обработка ошибок Spider в Windows 7
Я пытаюсь создать паука, чтобы я мог сканировать и очищать контент с других веб-сайтов. Я сделал пример из scrapy, и все работало нормально, однако при реализации моего собственного кода я не смог заставить его работать. Я продолжаю получать...
254 просмотров
schedule 05.11.2023

Почему мой скребущий паук ничего не царапает?
Я не знаю, в чем заключаются проблемы, вероятно, очень легко исправить, так как я новичок в scrapy. Спасибо за вашу помощь! Мой паук: from scrapy.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from...
905 просмотров

Рекурсивное сканирование не работает с Scrapy Spider
Я пытался просканировать заголовки рецептов из пищевой сети и хочу рекурсивно перейти на следующую страницу. Я использую python 3, поэтому некоторые функции в scrapy мне недоступны, но вот что у меня есть: import scrapy from scrapy.http...
497 просмотров
schedule 27.07.2022

Scrapy - очистка данных только с первой страницы, а не со следующей страницы в разбиении на страницы
Ниже приведен код очистки (взятый из одного сообщения в блоге), который отлично работает для удаления данных только с первой страницы. Я добавил «Правило» для извлечения данных со второй страницы, но все же он берет данные только с первой страницы....
872 просмотров

Как добавление аргумента dont_filter = True в scrapy.Request заставляет мой метод синтаксического анализа работать?
Вот простой скрап-паук import scrapy class ExampleSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["https://www.dmoz.org"] start_urls = ('https://www.dmoz.org/') def parse(self,response): yield...
8531 просмотров
schedule 03.11.2023

Передача URL-адреса ответа Scrapy в Selenium, а затем ответа Selenium обратно в Scrapy
Как передать URL-адрес ответа Scrapy в Selenium, а затем ответ селена обратно в Scrapy У меня есть этот паук Scrapy first.py : # -*- coding: utf-8 -*- import scrapy import re import json class FirstSpider(scrapy.Spider): name = "first"...
568 просмотров

Scrapy ползает, но не царапает
Проблема в том, что если я добавлю URL-адрес продукта непосредственно в «start_urls», все будет работать нормально. Но когда страница продукта появляется во время сканирования (все просканированные страницы возвращают «200»), она не очищается .... Я...
772 просмотров
schedule 09.08.2022

Scrapy - парсинг ссылок по дате
Можно ли очистить ссылки по дате, связанной с ними? Я пытаюсь реализовать ежедневного запускаемого паука, который сохраняет информацию о статьях в базе данных, но я не хочу повторно очищать статьи, которые я уже очищал раньше, то есть вчерашние...
1279 просмотров
schedule 24.04.2024

Очень простой проект Scrapy+Splash
Я разрабатываю очень простой проект Scrapy + Splash для сканирования веб-сайтов javascript. Это мой код: splashtest.py: import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider'...
2705 просмотров

Запрос Scrapy - обрабатывать одну группу URL-адресов за другой - могу ли я использовать приоритет?
Как заставить scrapy обрабатывать одну группу/список URL-адресов за другой? У меня есть два списка URL-адресов. Мне нужно обработать первый список, включая item pipelines , а затем я могу обработать второй список. Оба должны быть обработаны...
1440 просмотров
schedule 17.09.2022

Как я могу ограничить количество элементов, извлеченных для каждого домена в scrapy?
Я работаю над очисткой элементов с нескольких веб-сайтов (используя для этого scrapy). Элементы, которые я пытаюсь очистить, не всегда четко определены и могут быть в текстах. Поэтому я использую совпадения строк для распознавания элементов. Однако...
2623 просмотров
schedule 09.05.2024

Как использовать прокси для определенного URL-адреса в пауке Scrapy?
Я хочу использовать прокси только для нескольких конкретных доменов. Я проверяю это , это и это . Если я правильно понимаю, установка прокси с помощью промежуточного программного обеспечения установит прокси для всех запросов. Как я могу...
3074 просмотров
schedule 23.09.2022