Вопросы по теме 'scrapy-spider'
Невозможно перейти по ссылкам в Scrapy
Сейчас я начинаю со Scrapy, и я понял, как брать нужный мне контент со спортивной страницы (имя и команда футболиста), но мне нужно следовать ссылкам в поисках других команд, на каждой странице команды есть ссылка на страницу игроков, структура...
165 просмотров
schedule
13.11.2022
Scrapy: концепция правила SgmlLinkExtractor
Подскажите, пожалуйста, как написать правило SgmlLinkExtractor Я запутался и не могу разобраться в документах на английском языке.
Я хочу сканировать Интернет с большим количеством страниц И правило таково:...
1408 просмотров
schedule
25.01.2024
Как предотвратить ошибку twisted.internet.error.ConnectionLost при использовании Scrapy?
Я очищаю некоторые страницы с помощью scrapy и получаю следующую ошибку:
twisted.internet.error.ConnectionLost
Мой вывод командной строки:
2015-05-04 18:40:32+0800 [cnproxy] INFO: Spider opened
2015-05-04 18:40:32+0800 [cnproxy] INFO:...
7040 просмотров
schedule
23.12.2023
ОШИБКА Scrapy: ошибка загрузки - не удалось открыть туннель CONNECT
Я написал паука для сканирования https://tecnoblog.net/categoria/review/ , но когда я пусть паук ползет, есть одна ошибка:
2015-05-19 15:13:20+0100 [scrapy] INFO: Scrapy 0.24.5 started (bot: reviews)
2015-05-19 15:13:20+0100 [scrapy] INFO:...
6001 просмотров
schedule
25.11.2023
Scrapy 1.0 – получение возвращаемого значения после запуска из скрипта python
Я использую приведенный ниже код для запуска своего сканера из скрипта Python:
import scrapy
from scrapy.crawler import CrawlerProcess
process = CrawlerProcess()
process.crawl(MySpider)
process.start() # the script will block here until the...
2167 просмотров
schedule
04.07.2022
Не удается получить ответ от возвращенного запроса в Scrapy
Я просто хочу передать URL-адрес другому парсеру. Это не сработало, как показано в документе, поэтому я сократил свой код до минимума, и все равно ничего. Пробовал с yield также
# -*- coding: utf-8 -*-
import scrapy
import cfscrape
from...
907 просмотров
schedule
12.05.2024
Элемент Scrapy не определен
Я пишу сканер, чтобы получить несколько страниц из Yelp. Я определяю элемент Yelp следующим образом:
yelpItem.py :
import scrapy
class YelpItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
link...
2911 просмотров
schedule
30.04.2024
Scrapy вызывает паука, отличного от указанного в командной строке
(P6Svenv)malikarumi@Tetuoan2:~/Projects/P6/P6Svenv/test2/test2/spiders$ scrapy crawl zomd
Traceback (most recent call last):
File "/usr/bin/scrapy", line 9, in <module>
load_entry_point('Scrapy==1.0.3.post6-g2d688cd', 'console_scripts',...
145 просмотров
schedule
17.01.2024
Scrapy: обработка ошибок Spider в Windows 7
Я пытаюсь создать паука, чтобы я мог сканировать и очищать контент с других веб-сайтов. Я сделал пример из scrapy, и все работало нормально, однако при реализации моего собственного кода я не смог заставить его работать. Я продолжаю получать...
254 просмотров
schedule
05.11.2023
Почему мой скребущий паук ничего не царапает?
Я не знаю, в чем заключаются проблемы, вероятно, очень легко исправить, так как я новичок в scrapy. Спасибо за вашу помощь!
Мой паук:
from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from...
905 просмотров
schedule
04.07.2022
Рекурсивное сканирование не работает с Scrapy Spider
Я пытался просканировать заголовки рецептов из пищевой сети и хочу рекурсивно перейти на следующую страницу. Я использую python 3, поэтому некоторые функции в scrapy мне недоступны, но вот что у меня есть:
import scrapy
from scrapy.http...
497 просмотров
schedule
27.07.2022
Scrapy - очистка данных только с первой страницы, а не со следующей страницы в разбиении на страницы
Ниже приведен код очистки (взятый из одного сообщения в блоге), который отлично работает для удаления данных только с первой страницы. Я добавил «Правило» для извлечения данных со второй страницы, но все же он берет данные только с первой страницы....
872 просмотров
schedule
16.06.2024
Как добавление аргумента dont_filter = True в scrapy.Request заставляет мой метод синтаксического анализа работать?
Вот простой скрап-паук
import scrapy
class ExampleSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["https://www.dmoz.org"]
start_urls = ('https://www.dmoz.org/')
def parse(self,response):
yield...
8531 просмотров
schedule
03.11.2023
Передача URL-адреса ответа Scrapy в Selenium, а затем ответа Selenium обратно в Scrapy
Как передать URL-адрес ответа Scrapy в Selenium, а затем ответ селена обратно в Scrapy
У меня есть этот паук Scrapy first.py :
# -*- coding: utf-8 -*-
import scrapy
import re
import json
class FirstSpider(scrapy.Spider):
name = "first"...
568 просмотров
schedule
20.07.2022
Scrapy ползает, но не царапает
Проблема в том, что если я добавлю URL-адрес продукта непосредственно в «start_urls», все будет работать нормально. Но когда страница продукта появляется во время сканирования (все просканированные страницы возвращают «200»), она не очищается .... Я...
772 просмотров
schedule
09.08.2022
Scrapy - парсинг ссылок по дате
Можно ли очистить ссылки по дате, связанной с ними? Я пытаюсь реализовать ежедневного запускаемого паука, который сохраняет информацию о статьях в базе данных, но я не хочу повторно очищать статьи, которые я уже очищал раньше, то есть вчерашние...
1279 просмотров
schedule
24.04.2024
Очень простой проект Scrapy+Splash
Я разрабатываю очень простой проект Scrapy + Splash для сканирования веб-сайтов javascript. Это мой код:
splashtest.py:
import scrapy
from scrapy_splash import SplashRequest
class SplashSpider(scrapy.Spider):
name = 'splash_spider'...
2705 просмотров
schedule
29.03.2024
Запрос Scrapy - обрабатывать одну группу URL-адресов за другой - могу ли я использовать приоритет?
Как заставить scrapy обрабатывать одну группу/список URL-адресов за другой? У меня есть два списка URL-адресов. Мне нужно обработать первый список, включая item pipelines , а затем я могу обработать второй список.
Оба должны быть обработаны...
1440 просмотров
schedule
17.09.2022
Как я могу ограничить количество элементов, извлеченных для каждого домена в scrapy?
Я работаю над очисткой элементов с нескольких веб-сайтов (используя для этого scrapy). Элементы, которые я пытаюсь очистить, не всегда четко определены и могут быть в текстах. Поэтому я использую совпадения строк для распознавания элементов. Однако...
2623 просмотров
schedule
09.05.2024
Как использовать прокси для определенного URL-адреса в пауке Scrapy?
Я хочу использовать прокси только для нескольких конкретных доменов. Я проверяю это , это и это . Если я правильно понимаю, установка прокси с помощью промежуточного программного обеспечения установит прокси для всех запросов.
Как я могу...
3074 просмотров
schedule
23.09.2022