您好,登錄后才能下訂單哦!
這篇文章主要介紹了python的scrapy requests與response對象怎么用的相關(guān)知識,內(nèi)容詳細(xì)易懂,操作簡單快捷,具有一定借鑒價(jià)值,相信大家閱讀完這篇python的scrapy requests與response對象怎么用文章都會有所收獲,下面我們一起來看看吧。
在 scrapy 中 Request 對象代表著請求,即向服務(wù)器發(fā)送數(shù)據(jù),該對象的構(gòu)造函數(shù)原型如下所示:
def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None, cb_kwargs=None)
其中只有 url
為必填參數(shù),具體說明如下:
callback
:頁面解析函數(shù),當(dāng) Request 請求獲取到 Response 響應(yīng)之后,設(shè)定的函數(shù)會被調(diào)用,默認(rèn)是 self.parse
方法;
method
:請求類型,默認(rèn)為 GET,所以使用 Request 是可以發(fā)送 POST 的請求的,F(xiàn)ormRequest 類是 Request 類的子類;
headers
:請求頭,字典類型;
body
:請求的正文,需要 bytes 類型或 str 類型;
cookies
:Cookie 字典,dict 類型;
meta
:元數(shù)據(jù)字典,dict 類型,可以給其它組件傳遞信息;
encoding
:url和body參數(shù)的編碼,注意不是數(shù)據(jù)響應(yīng)編碼;
priority
:請求的優(yōu)先級,默認(rèn)為0,數(shù)值越大,優(yōu)先級越高;
dont_filter
:默認(rèn)值為 False,該參數(shù)表示是否重復(fù)請求相同地址;
errback
:請求異常時(shí)的回調(diào)函數(shù)。
在 scrapy
中,Response
對象表示請求響應(yīng)對象,即服務(wù)器返回給爬蟲的數(shù)據(jù),其構(gòu)造函數(shù)原型如下:
def __init__(self,url,status=200,headers=None,body=b"", flags=None, request=None,certificate=None,ip_address=None,protocol=None, )
與 Request 一致,該方法中僅 url
為必填參數(shù),不過一般很少用到手動(dòng)創(chuàng)建一個(gè) Response 對象實(shí)例的場景。
Response 類衍生出來一個(gè)子類 TextResponse
,然后 TextResponse
又衍生出來 HtmlResponse
和 XmlResponse
。
Response 包括的屬性和方法如下:
屬性清單:
url
:響應(yīng)地址;
status
:響應(yīng)狀態(tài)碼;
headers
:響應(yīng)頭;
encoding
:響應(yīng)正文的編碼;
body
:響應(yīng)正文,bytes 類型;
text
:文本形式的響應(yīng)正文,將 body 進(jìn)行編碼之后的數(shù)據(jù);
request
:獲取請求對象;
meta
:元數(shù)據(jù)字典,dict 類型,請求傳遞過來的參數(shù);
selector
:選擇器對象。
方法清單:
xpath()
:XPath 選擇器;
css()
:CSS 選擇器;
urljoin()
:就是 urllib.parse
模塊的 urljoin()
;
json()
:將響應(yīng)數(shù)據(jù)序列化為 JSON 格式;
關(guān)于 Request 和 Response 類的相關(guān)源碼,可以在 scrapy\http 目錄查看。
數(shù)據(jù)管道在 scrapy 中主要對數(shù)據(jù)進(jìn)行處理,在實(shí)際開發(fā)過程中需要注意一個(gè) ItemPipeline
,只負(fù)責(zé)一種功能的數(shù)據(jù)處理,當(dāng)然在 scrapy 中你可以創(chuàng)建多個(gè) ItemPipeline
。
ItemPipeline的使用場景:
在編寫ItemPipeline
類的時(shí)候,不需要其繼承特定類,只需要實(shí)現(xiàn)固定名稱的方法即可,在之前的博客中已經(jīng)反復(fù)提及,自定義ItemPipeline
類需要實(shí)現(xiàn) process_item()
、open_spider()
,close_spider()
方法,其中 process_item()
必須實(shí)現(xiàn)。
process_item()
返回值是 Item 或者字典,也可以返回一個(gè) DropItem
類型的數(shù)據(jù),此時(shí)該項(xiàng) item 會被忽略,不會被后面的 ItemPipeline
處理。
過濾數(shù)據(jù)的邏輯實(shí)現(xiàn)
如果希望在 ItemPipeline
實(shí)現(xiàn)過濾數(shù)據(jù),使用集合即可,發(fā)現(xiàn)集合中已經(jīng)存在數(shù)據(jù)了,拋出 DropItem
即可。
scrapy 編寫的爬蟲在提取大量鏈接時(shí),使用LinkExtractor
會更加便捷。 使用 from scrapy.linkextractors import LinkExtractor
導(dǎo)入 LinkExtractor
,該類的構(gòu)造函數(shù)如下所示:
def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(), tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None, deny_extensions=None,restrict_css=(),strip=True,restrict_text=None, )
其中各個(gè)參數(shù)說明如下:
allow
:一個(gè)正則表達(dá)式或正則表達(dá)式列表,提取正則表達(dá)式匹配的 url,默認(rèn)全部提取;
deny
:與 allow
相反;
allow_domains
:字符串或者列表,domain 限制;
deny_domains
:與上面相反;
restrict_xpaths
:按照 xpath 提??;
restrict_css
:安裝 css 選擇器提??;
tags
:提取指定標(biāo)簽內(nèi)的鏈接;
attrs
:提取指定屬性內(nèi)的鏈接;
process_value
:函數(shù)類型,傳入該參數(shù)之后,LinkExtractor 會將其匹配到的所有鏈接,都傳入該函數(shù)進(jìn)行處理。
下面的代碼是提取 Response
對象中的鏈接,需要使用 extract_links()
方法。
def parse(self, response): link = LinkExtractor() all_links = link.extract_links(response) print(all_links)
創(chuàng)建一個(gè)LinkExtractor對象;
使用構(gòu)造器參數(shù)描述提取規(guī)則;
調(diào)用LinkExtractor對象的 extract_links
方法傳入一個(gè)Response對象,返回一個(gè)列表;
使用列表中的任意元素調(diào)用 .url
或者 .text
獲取鏈接和鏈接文本。
本次的目標(biāo)站點(diǎn)是:淘數(shù)據(jù)-行業(yè)報(bào)告
完整代碼編寫如下所示,使用 LinkExtractor 提取頁面超鏈接。
import scrapy from tao.items import TaoItem from scrapy.linkextractors import LinkExtractor class TaoDataSpider(scrapy.Spider): name = 'tao_data' allowed_domains = ['taosj.com'] start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)] def parse(self, response): link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title') links = link_extractor.extract_links(response) for l in links: item = { "url": l.url, "text": l.text } yield item
關(guān)于“python的scrapy requests與response對象怎么用”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對“python的scrapy requests與response對象怎么用”知識都有一定的了解,大家如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。