女子自慰喷潮a片免费观看,国产噜噜噜噜久久久久久久久,国产男女特黄高清免费在线观看

Python Scrapy如何實(shí)現(xiàn)多頁(yè)數(shù)據(jù)爬?。?/h1>

發(fā)布時(shí)間：2020-06-23 11:47:46 來(lái)源：億速云閱讀：632 作者：清晨欄目：開(kāi)發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)Python Scrapy如何實(shí)現(xiàn)多頁(yè)數(shù)據(jù)爬??？，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

1.先指定通用模板

url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
pageNum = 1

2.對(duì)parse方法遞歸處理

parse第一次調(diào)用表示的是用來(lái)解析第一頁(yè)對(duì)應(yīng)頁(yè)面中的數(shù)據(jù)

對(duì)后面的頁(yè)碼的數(shù)據(jù)要進(jìn)行手動(dòng)發(fā)送

if self.pageNum <= 5:
  self.pageNum += 1
  new_url = format(self.url%self.pageNum)
  #手動(dòng)請(qǐng)求(get)的發(fā)送
  yield scrapy.Request(new_url,callback=self.parse)

完整示例

class QiubaiSpider(scrapy.Spider):
  name = 'qiubai'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['https://www.qiushibaike.com/text/']
  
  url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
  pageNum = 1
  #parse第一次調(diào)用表示的是用來(lái)解析第一頁(yè)對(duì)應(yīng)頁(yè)面中的段子內(nèi)容和作者
  def parse(self, response):
    div_list = response.xpath('//*[@id="content-left"]/div')
    all_data = []
    for div in div_list:
      author = div.xpath('./div[1]/a[2]/h3/text()').extract_first()
      
      content = div.xpath('./a[1]/div/span//text()').extract()
      content = ''.join(content)

      # 將解析的數(shù)據(jù)存儲(chǔ)到item對(duì)象
      item = QiubaiproItem()
      item['author'] = author
      item['content'] = content

      # 將item提交給管道
      yield item # item一定是提交給了優(yōu)先級(jí)最高的管道類

    if self.pageNum <= 5:
      self.pageNum += 1
      new_url = format(self.url%self.pageNum)
      #手動(dòng)請(qǐng)求(get)的發(fā)送
      yield scrapy.Request(new_url,callback=self.parse)

關(guān)于Python Scrapy如何實(shí)現(xiàn)多頁(yè)數(shù)據(jù)爬??？就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽