Почему мой скребущий паук ничего не царапает?

Я не знаю, в чем заключаются проблемы, вероятно, очень легко исправить, так как я новичок в scrapy. Спасибо за вашу помощь!

Мой паук:

from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.linkextractors import LinkExtractor
from scrapy.item import Item

class ArticleSpider(CrawlSpider):
    name = "article"
    allowed_domains = ["economist.com"]
    start_urls = ['http://www.economist.com/sections/science-technology']

    rules = [
      Rule(LinkExtractor(restrict_xpaths='//article'), callback='parse_item', follow=True),
    ]

    def parse_item(self, response):
        for sel in response.xpath('//div/article'):
            item = scrapy.Item()
            item ['title'] = sel.xpath('a/text()').extract()
            item ['link'] = sel.xpath('a/@href').extract()
            item ['desc'] = sel.xpath('text()').extract()
            return item

Предметы:

import scrapy

class EconomistItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

Часть журнала:

INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
Crawled (200) <GET http://www.economist.com/sections/science-technology> (referer: None)

Редактировать:

После того, как я добавил изменения, предложенные alexxe, возникла еще одна проблема:

Журнал:

[scrapy] DEBUG: Crawled (200) <GET http://www.economist.com/news/science-and-technology/21688848-stem-cells-are-starting-prove-their-value-medical-treatments-curing-multiple> (referer: http://www.economist.com/sections/science-technology)
2016-02-04 14:05:01 [scrapy] DEBUG: Crawled (200) <GET http://www.economist.com/news/science-and-technology/21689501-beating-go-champion-machine-learning-computer-says-go> (referer: http://www.economist.com/sections/science-technology)
2016-02-04 14:05:02 [scrapy] ERROR: Spider error processing <GET http://www.economist.com/news/science-and-technology/21688848-stem-cells-are-starting-prove-their-value-medical-treatments-curing-multiple> (referer: http://www.economist.com/sections/science-technology)
Traceback (most recent call last):
  File "/usr/local/lib/python2.7/site-packages/scrapy/utils/defer.py", line 102, in iter_errback
    yield next(it)
  File "/usr/local/lib/python2.7/site-packages/scrapy/spidermiddlewares/offsite.py", line 28, in process_spider_output
    for x in result:
  File "/usr/local/lib/python2.7/site-packages/scrapy/spidermiddlewares/referer.py", line 22, in <genexpr>
    return (_set_referer(r) for r in result or ())
  File "/usr/local/lib/python2.7/site-packages/scrapy/spidermiddlewares/urllength.py", line 37, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "/usr/local/lib/python2.7/site-packages/scrapy/spidermiddlewares/depth.py", line 54, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "/usr/local/lib/python2.7/site-packages/scrapy/spiders/crawl.py", line 67, in _parse_response
    cb_res = callback(response, **cb_kwargs) or ()
  File "/Users/FvH/Desktop/Python/projects/economist/economist/spiders/article.py", line 18, in parse_item
    item = scrapy.Item()
NameError: global name 'scrapy' is not defined

Настройки:

BOT_NAME = 'economist'

    SPIDER_MODULES = ['economist.spiders']
    NEWSPIDER_MODULE = 'economist.spiders'
    USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36"

И если я хочу экспортировать данные в CSV-файл, он, очевидно, просто пуст.

Спасибо


person peter    schedule 04.02.2016    source источник


Ответы (2)


parse_item имеет неправильный отступ, должно быть:

class ArticleSpider(CrawlSpider):
    name = "article"
    allowed_domains = ["economist.com"]
    start_urls = ['http://www.economist.com/sections/science-technology']

    rules = [
      Rule(LinkExtractor(allow=r'Items'), callback='parse_item', follow=True),
    ]

    def parse_item(self, response):
        for sel in response.xpath('//div/article'):
            item = scrapy.Item()
            item ['title'] = sel.xpath('a/text()').extract()
            item ['link'] = sel.xpath('a/@href').extract()
            item ['desc'] = sel.xpath('text()').extract()
            return item

Помимо этого нужно исправить две вещи:

  • часть извлечения ссылок должна быть исправлена, чтобы соответствовать ссылкам на статьи:

    Rule(LinkExtractor(restrict_xpaths='//article'), callback='parse_item', follow=True),
    
  • вам нужно указать параметр USER_AGENT, чтобы притворяться настоящий браузер. В противном случае response не содержало бы списка статей:

    USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36"
    
person alecxe    schedule 04.02.2016
comment
Спасибо alecxe, я добавил ваши замечания, но, видимо, я делаю неправильно, так как теперь есть другие ошибки. спасибо - person peter; 04.02.2016
comment
@peter, тебе просто нужно иметь import scrapy внутри самого паука. Или, я думаю, вы хотели инициализировать свой элемент, определенный в элементах вместо scrapy.Item(). - person alecxe; 04.02.2016

Вы импортировали только Item (не весь модуль scrapy):

from scrapy.item import Item

Поэтому вместо использования scrapy.Item здесь:

for sel in response.xpath('//div/article'):
        item = scrapy.Item()
        item ['title'] = sel.xpath('a/text()').extract()

Вы должны использовать только Item:

for sel in response.xpath('//div/article'):
        item = Item()
        item ['title'] = sel.xpath('a/text()').extract()

Или импортируйте свой собственный предмет для его использования. Это должно работать (не забудьте заменить имя_проекта на имя вашего проекта):

from project_name.items import EconomistItem
...
for sel in response.xpath('//div/article'):
        item = EconomistItem()
        item ['title'] = sel.xpath('a/text()').extract()
person Alex K.    schedule 05.02.2016