爬蟲(chóng)Crawl Spider模板的用法

發(fā)布時(shí)間：2021-08-16 17:39:32 來(lái)源：億速云閱讀：182 作者：chen 欄目：編程語(yǔ)言

本篇內(nèi)容介紹了“爬蟲(chóng)Crawl Spider模板的用法”的有關(guān)知識(shí)，在實(shí)際案例的操作過(guò)程中，不少人都會(huì)遇到這樣的困境，接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

1.Spider模板

scrapy默認(rèn)創(chuàng)建的spider模板就是basic模板，創(chuàng)建spider文件的命令是：scrapy genspider dribbble dribbble.com，查看spider模板的命令是：scrapy genspider --list；
在項(xiàng)目中明確指明使用crawl生成模板生成spider的命令是：scrapy genspider -t crawl csdn www.csdn.net ；

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider類(lèi)介紹

CrawlSpider是Spider的派生類(lèi)，目的是對(duì)全站信息爬取更加簡(jiǎn)單，爬取那些具有一定規(guī)則網(wǎng)站的常用的爬蟲(chóng)，它基于Spider并有一些獨(dú)特屬性；

3.rules規(guī)則列表

語(yǔ)法：Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)，rules是Rule對(duì)象的集合，用于匹配目標(biāo)網(wǎng)站并排除干擾；
link_extractor：是一個(gè)LinkExtractor對(duì)象，其定義了如何從爬取到的頁(yè)面提取鏈接；
callback：從link_extractor中每獲取到鏈接得到Responses時(shí)，會(huì)調(diào)用參數(shù)所指定的值作為回調(diào)函數(shù)，該回調(diào) 函數(shù)接收一個(gè)response作為其一個(gè)參數(shù)；
cb_kwargs：用于作為**kwargs參數(shù)，傳遞給callback；
follow：是一個(gè)布爾值，指爬取了之后，是否還繼續(xù)從該頁(yè)面提取鏈接，然后繼續(xù)爬下去, 默認(rèn)是False；
process_links：指定spider中哪個(gè)的函數(shù)將會(huì)被調(diào)用，從link_extractor中獲取到鏈接列表時(shí)將會(huì)調(diào)用該函數(shù) 。該方法主要用來(lái)過(guò)濾；
process_request：指定處理函數(shù)，根據(jù)該Rule提取到的每個(gè)Request時(shí)，該函數(shù)將會(huì)被調(diào)用，可以對(duì)Request進(jìn) 行處理，該函數(shù)必須返回Request或者None；

4.LinkExtractors

LinkExtractors 的目的是提取鏈接，每個(gè)LinkExtractor有唯一的公共方法是extract_links()，它接收一個(gè) Response對(duì)象，并返回一個(gè)scrapy.link.Link對(duì)象；
Link Extractors要實(shí)例化一次，并且 extract_links 方法會(huì)根據(jù)不同的 response 調(diào)用多次提取鏈接；

主要參數(shù)：

allow：滿(mǎn)足括號(hào)中”正則表達(dá)式”的值會(huì)被提取，如果為空，則全部匹配；
deny：與這個(gè)正則表達(dá)式(或正則表達(dá)式列表)不匹配的url一定不提??；
allow_domains：會(huì)被提取的連接的；
deny_domains：一定不會(huì)被提取鏈接的domains；
restrict_xpaths：使用xpath表達(dá)式，和allow共同作用過(guò)濾鏈接；

5.爬取CSDN的文章, 且提取URL和文章標(biāo)題

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定鏈接提取的規(guī)律
    rules = (
        # follow:是指爬取了之后，是否還繼續(xù)從該頁(yè)面提取鏈接，然后繼續(xù)爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h2::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

“爬蟲(chóng)Crawl Spider模板的用法”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

向AI問(wèn)一下細(xì)節(jié)

爬蟲(chóng)Crawl Spider模板的用法

1.Spider模板

2.CrawlSpider類(lèi)介紹

3.rules規(guī)則列表

4.LinkExtractors

5.爬取CSDN的文章, 且提取URL和文章標(biāo)題

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽