Публикации по теме 'scrapy'


Веб-скрейпинг финансовых данных с помощью Scrapy + Yahoo Finance
Часть III: Пагинация Введение: Добро пожаловать в третью и последнюю часть руководства по парсингу yahoo finance / scrapy. Если вы не читали предыдущие части, я рекомендую вам сделать это, щелкнув здесь ( часть-I , часть-II ), поскольку следующий учебник основан на них. На данный момент мы загрузили самую активную страницу акций на Yahoo Finance (URL- https://finance.yahoo.com/most-active/ ) и удалили все акции, которые появляются на странице 1 в файле .csv. В этом руководстве..

Интеграция API Scrapy и AutoExtract
Мы только что выпустили новое промежуточное ПО Scrapy с открытым исходным кодом , которое упрощает интеграцию AutoExtract в существующий паук Scrapy. Если вы еще не слышали об AutoExtract , это инструмент веб-скрейпинга на основе искусственного интеллекта, который автоматически извлекает данные с веб-страниц без необходимости написания кода. Узнайте больше об AutoExtract здесь . Установка В этом проекте используется и. Виртуальная среда настоятельно рекомендуется. $ pip..

Вопросы по теме 'scrapy'

Scrapy Не удалось найти паука Ошибка
Я пытался запустить простого паука с помощью scrapy, но продолжаю получать ошибку: Could not find spider for domain:stackexchange.com когда я запускаю код с выражением scrapy-ctl.py crawl stackexchange.com . Паук выглядит следующим образом:...
2875 просмотров
schedule 18.11.2023

Запуск команд, отличных от django, из подкаталога для проекта Django, размещенного на Heroku?
Я развернул приложение Django на Heroku. Приложение само по себе работает нормально. Я могу запускать такие команды, как heroku run python project/manage.py syncdb и heroku run python project/manage.py shell , и это работает хорошо. В моем...
777 просмотров
schedule 15.12.2023

Запустите несколько пауков Scrapy одновременно, используя scrapyd
Я использую scrapy для проекта, в котором я хочу очистить несколько сайтов (возможно, сотни), и мне нужно написать конкретного паука для каждого сайта. Я могу запланировать одного паука в проекте, развернутом в scrapyd, используя: curl...
7043 просмотров
schedule 20.09.2022

Захват кодов состояния http с помощью паука scrapy
Я новичок в скрапе. Я пишу паука, предназначенного для проверки длинного списка URL-адресов на наличие кодов состояния сервера и, при необходимости, на какие URL-адреса они перенаправляются. Важно, если есть цепочка редиректов, мне нужно знать код...
7870 просмотров
schedule 17.02.2024

Как увеличить скорость загрузки в scrapy?
Я использую scrapy для параллельной загрузки страниц из разных доменов. Мне нужно загрузить сотни тысяч страниц, поэтому важна производительность. К сожалению, когда я профилировал скорость скрапинга, я получаю только пару страниц в секунду....
5152 просмотров
schedule 25.10.2023

Не могу запустить Scrapyd
Когда я хочу запустить scrapyd внутри проекта scrapy. Я получаю сообщение об ошибке: server: error: Scrapyd is not available in this system Я устанавливаю scrapy через исходный пакет, команда scrapy version -v выводит следующие сообщения:...
527 просмотров
schedule 16.05.2024

Скрап-сканирование Несколько XPathSelector на одной странице
Я пытаюсь извлечь данные из разных «таблиц» внутри «Основной таблицы» на той же странице (тот же URL). Поля элементов имеют одинаковую XPath/одинаковую структуру во всех подтаблицах, поэтому проблема, с которой я столкнулся, заключается в том, чтобы...
1947 просмотров
schedule 05.11.2022

Crawlspider ничего не царапает
from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor #scrapy crawl dmoz -o items.json -t json from...
654 просмотров
schedule 06.03.2024

Скрабирование из скрипта всегда блокирует выполнение скрипта после очистки
Я следую этому руководству http://doc.scrapy.org/en/0.16/topics/practices.html#run-scrapy-from-a-script для запуска scrapy из моего скрипта. Вот часть моего скрипта: crawler = Crawler(Settings(settings)) crawler.configure() spider =...
9180 просмотров
schedule 01.08.2022

Отклонить правило Scrapy
Как я могу запретить очистку определенных частей веб-сайта с помощью правил в Scrapy. Я хочу, чтобы Scrapy сканировал ссылки, соответствующие www.example.com/help/nl/, и запрещал все ссылки, соответствующие www.example.com/help/en/ и...
1414 просмотров
schedule 08.03.2024

Запустите scrapy с несколькими пауками, не блокируя процесс
Я пытаюсь запустить scrapy spider в отдельном скрипте, и когда я выполняю этот скрипт в цикле (например, запускаю того же паука с разными параметрами), я получаю ReactorAlreadyRunning . Мой фрагмент: from celery import task from...
2321 просмотров
schedule 30.08.2022

Scrapy: как вручную вставить запрос из обратного вызова события spider_idle?
Я создал паука и связал метод с событием spider_idle. Как добавить запрос вручную? Я не могу просто вернуть элемент из синтаксического анализа — синтаксический анализ в этом случае не выполняется, так как все известные URL-адреса были...
3833 просмотров
schedule 21.08.2022

Поддерживает ли Scrapy JavaScript для веб-сканирования?
Я слышал, что scrapy не поддерживает javascript. Я хотел знать, могу ли я использовать scrapy для обхода ссылок с помощью crawlspider на наш сайт интрасети, на нашем сайте интрасети есть javascript, и я полагаю, что он генерируется, когда вы...
1531 просмотров
schedule 30.06.2022

MySQL не сохраняет данные, которые очищаются
Я сделал небольшой проект, используя Scrapy. Дело в том, что мой скрапер сканирует страницы и парсит данные. Но он не сохраняется в моей базе данных. Я использую MySQL в качестве моей базы данных. Я предполагаю, что есть что-то, что я упускаю в...
342 просмотров

селен с scrapy для динамической страницы
Я пытаюсь очистить информацию о продукте с веб-страницы с помощью scrapy. Моя веб-страница, которую нужно очистить, выглядит так: начинается со страницы product_list с 10 продуктами нажатие на кнопку «Далее» загружает следующие 10 продуктов...
96508 просмотров

Невозможно перейти по ссылкам в Scrapy
Сейчас я начинаю со Scrapy, и я понял, как брать нужный мне контент со спортивной страницы (имя и команда футболиста), но мне нужно следовать ссылкам в поисках других команд, на каждой странице команды есть ссылка на страницу игроков, структура...
165 просмотров

Как использовать PyCharm для отладки проектов Scrapy
Я работаю над Scrapy 0.20 с Python 2.7. Я обнаружил, что в PyCharm есть хороший отладчик Python. Я хочу протестировать на нем своих пауков Scrapy. Кто-нибудь знает, как это сделать, пожалуйста? Что я пробовал Actually I tried to run the spider...
43247 просмотров
schedule 03.07.2022

Проблема с установкой scrapy на ubuntu
Я недавно перешел на Linux и заинтересован в использовании scrapy. jeremy@jeremy-Lenovo-G580:~/Dropbox/projects/scrapy_stuff$ uname -a Linux jeremy-Lenovo-G580 3.5.0-52-generic #79~precise1-Ubuntu SMP Fri Jul 4 21:03:49 UTC 2014 x86_64 x86_64...
6477 просмотров
schedule 04.05.2024

Scrapy: концепция правила SgmlLinkExtractor
Подскажите, пожалуйста, как написать правило SgmlLinkExtractor Я запутался и не могу разобраться в документах на английском языке. Я хочу сканировать Интернет с большим количеством страниц И правило таково:...
1408 просмотров

Извлечение текста/параметра *внутри* тега
У меня есть следующий исходный код, из которого я пытаюсь извлечь нужную информацию: <div id="PaginationBottom" class="pagination"> <a href="#" data-page="2" title="page 2 of 31" >2</a> <a href="#" data-page="3"...
51 просмотров
schedule 28.11.2023