python的scrapy?requests與response對象怎么用

發(fā)布時(shí)間：2022-05-16 13:53:34 來源：億速云閱讀：196 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹了python的scrapy requests與response對象怎么用的相關(guān)知識，內(nèi)容詳細(xì)易懂，操作簡單快捷，具有一定借鑒價(jià)值，相信大家閱讀完這篇python的scrapy requests與response對象怎么用文章都會有所收獲，下面我們一起來看看吧。

Request 對象

在 scrapy 中 Request 對象代表著請求，即向服務(wù)器發(fā)送數(shù)據(jù)，該對象的構(gòu)造函數(shù)原型如下所示：

def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None, cb_kwargs=None)

其中只有 url為必填參數(shù)，具體說明如下：

callback：頁面解析函數(shù)，當(dāng) Request 請求獲取到 Response 響應(yīng)之后，設(shè)定的函數(shù)會被調(diào)用，默認(rèn)是 self.parse 方法；
method：請求類型，默認(rèn)為 GET，所以使用 Request 是可以發(fā)送 POST 的請求的，F(xiàn)ormRequest 類是 Request 類的子類；
headers：請求頭，字典類型；
body：請求的正文，需要 bytes 類型或 str 類型；
cookies：Cookie 字典，dict 類型；
meta：元數(shù)據(jù)字典，dict 類型，可以給其它組件傳遞信息；
encoding：url和body參數(shù)的編碼，注意不是數(shù)據(jù)響應(yīng)編碼；
priority：請求的優(yōu)先級，默認(rèn)為0，數(shù)值越大，優(yōu)先級越高；
dont_filter：默認(rèn)值為 False，該參數(shù)表示是否重復(fù)請求相同地址；
errback：請求異常時(shí)的回調(diào)函數(shù)。

Response 對象

在 scrapy中，Response對象表示請求響應(yīng)對象，即服務(wù)器返回給爬蟲的數(shù)據(jù)，其構(gòu)造函數(shù)原型如下：

def __init__(self,url,status=200,headers=None,body=b"",
    flags=None, request=None,certificate=None,ip_address=None,protocol=None,
)

與 Request 一致，該方法中僅 url 為必填參數(shù)，不過一般很少用到手動(dòng)創(chuàng)建一個(gè) Response 對象實(shí)例的場景。

Response 類衍生出來一個(gè)子類 TextResponse，然后 TextResponse又衍生出來 HtmlResponse和 XmlResponse。

Response 包括的屬性和方法如下：

屬性清單：

url：響應(yīng)地址；
status：響應(yīng)狀態(tài)碼；
headers：響應(yīng)頭；
encoding：響應(yīng)正文的編碼；
body：響應(yīng)正文，bytes 類型；
text：文本形式的響應(yīng)正文，將 body 進(jìn)行編碼之后的數(shù)據(jù)；
request：獲取請求對象；
meta：元數(shù)據(jù)字典，dict 類型，請求傳遞過來的參數(shù)；
selector：選擇器對象。

方法清單：

xpath()：XPath 選擇器；
css()：CSS 選擇器；
urljoin()：就是 urllib.parse 模塊的 urljoin()；
json()：將響應(yīng)數(shù)據(jù)序列化為 JSON 格式；

關(guān)于 Request 和 Response 類的相關(guān)源碼，可以在 scrapy\http 目錄查看。

ItemPipeline

數(shù)據(jù)管道在 scrapy 中主要對數(shù)據(jù)進(jìn)行處理，在實(shí)際開發(fā)過程中需要注意一個(gè) ItemPipeline，只負(fù)責(zé)一種功能的數(shù)據(jù)處理，當(dāng)然在 scrapy 中你可以創(chuàng)建多個(gè) ItemPipeline。

ItemPipeline的使用場景：

數(shù)據(jù)清洗，例如去重，去除異常數(shù)據(jù)；
數(shù)據(jù)保存方式編寫，例如存儲 Mongodb，MySQL，Redis 數(shù)據(jù)庫。

在編寫ItemPipeline類的時(shí)候，不需要其繼承特定類，只需要實(shí)現(xiàn)固定名稱的方法即可，在之前的博客中已經(jīng)反復(fù)提及，自定義ItemPipeline類需要實(shí)現(xiàn) process_item()、open_spider()，close_spider()方法，其中 process_item()必須實(shí)現(xiàn)。

process_item()返回值是 Item 或者字典，也可以返回一個(gè) DropItem類型的數(shù)據(jù)，此時(shí)該項(xiàng) item 會被忽略，不會被后面的 ItemPipeline處理。

過濾數(shù)據(jù)的邏輯實(shí)現(xiàn)

如果希望在 ItemPipeline實(shí)現(xiàn)過濾數(shù)據(jù)，使用集合即可，發(fā)現(xiàn)集合中已經(jīng)存在數(shù)據(jù)了，拋出 DropItem即可。

LinkExtractor 提取鏈接

scrapy 編寫的爬蟲在提取大量鏈接時(shí)，使用LinkExtractor會更加便捷。使用 from scrapy.linkextractors import LinkExtractor導(dǎo)入 LinkExtractor，該類的構(gòu)造函數(shù)如下所示：

def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(),
        tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None,
        deny_extensions=None,restrict_css=(),strip=True,restrict_text=None,
    )

其中各個(gè)參數(shù)說明如下：

allow：一個(gè)正則表達(dá)式或正則表達(dá)式列表，提取正則表達(dá)式匹配的 url，默認(rèn)全部提取；
deny：與 allow 相反；
allow_domains：字符串或者列表，domain 限制；
deny_domains：與上面相反；
restrict_xpaths：按照 xpath 提??；
restrict_css：安裝 css 選擇器提??；
tags：提取指定標(biāo)簽內(nèi)的鏈接；
attrs：提取指定屬性內(nèi)的鏈接；
process_value：函數(shù)類型，傳入該參數(shù)之后，LinkExtractor 會將其匹配到的所有鏈接，都傳入該函數(shù)進(jìn)行處理。

下面的代碼是提取 Response 對象中的鏈接，需要使用 extract_links() 方法。

def parse(self, response):
    link = LinkExtractor()
    all_links = link.extract_links(response)
    print(all_links)

創(chuàng)建一個(gè)LinkExtractor對象；
使用構(gòu)造器參數(shù)描述提取規(guī)則；
調(diào)用LinkExtractor對象的 extract_links 方法傳入一個(gè)Response對象，返回一個(gè)列表；
使用列表中的任意元素調(diào)用 .url 或者 .text 獲取鏈接和鏈接文本。

爬蟲編碼時(shí)間

本次的目標(biāo)站點(diǎn)是：淘數(shù)據(jù)-行業(yè)報(bào)告

python的scrapy?requests與response對象怎么用

完整代碼編寫如下所示，使用 LinkExtractor 提取頁面超鏈接。

import scrapy
from tao.items import TaoItem
from scrapy.linkextractors import LinkExtractor
class TaoDataSpider(scrapy.Spider):
    name = 'tao_data'
    allowed_domains = ['taosj.com']
    start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)]
    def parse(self, response):
        link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title')
        links = link_extractor.extract_links(response)
        for l in links:
            item = {
                "url": l.url,
                "text": l.text
            }
            yield item

關(guān)于“python的scrapy requests與response對象怎么用”這篇文章的內(nèi)容就介紹到這里，感謝各位的閱讀！相信大家對“python的scrapy requests與response對象怎么用”知識都有一定的了解，大家如果還想學(xué)習(xí)更多知識，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

python的scrapy?requests與response對象怎么用

Request 對象

Response 對象

ItemPipeline

LinkExtractor 提取鏈接

爬蟲編碼時(shí)間

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽