您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“python scrapy框架中Request對(duì)象和Response對(duì)象怎么用”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
Request
對(duì)象主要是用來請(qǐng)求數(shù)據(jù),爬取一頁的數(shù)據(jù)重新發(fā)送一個(gè)請(qǐng)求的時(shí)候調(diào)用,其源碼類的位置如
下圖所示:
這里給出其的源碼,該方法有很多參數(shù):
class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None, cb_kwargs=None): self._encoding = encoding # this one has to be set first self.method = str(method).upper() self._set_url(url) self._set_body(body) if not isinstance(priority, int): raise TypeError(f"Request priority not an integer: {priority!r}") self.priority = priority if callback is not None and not callable(callback): raise TypeError(f'callback must be a callable, got {type(callback).__name__}') if errback is not None and not callable(errback): raise TypeError(f'errback must be a callable, got {type(errback).__name__}') self.callback = callback self.errback = errback self.cookies = cookies or {} self.headers = Headers(headers or {}, encoding=encoding) self.dont_filter = dont_filter self._meta = dict(meta) if meta else None self._cb_kwargs = dict(cb_kwargs) if cb_kwargs else None self.flags = [] if flags is None else list(flags)
這里對(duì)各個(gè)做一個(gè)簡(jiǎn)單的解釋:
url
:這個(gè)request對(duì)象發(fā)送請(qǐng)求的url。
callback
: 在下載器下載相應(yīng)的數(shù)據(jù)后執(zhí)行的回調(diào)函數(shù)。
method
:請(qǐng)求的方法,默認(rèn)為GET方法,可以設(shè)置為其他方法。
headers
:請(qǐng)求頭,對(duì)于一些固定的設(shè)置,放在settings.py
中指定就可以了, 對(duì)于那些非固定的,可以在發(fā)送請(qǐng)求的時(shí)候指定。
body
:請(qǐng)求體,傳入的是請(qǐng)求參數(shù)。
meta
:比較常用。用于在不同的請(qǐng)求之間傳遞數(shù)據(jù)用。
encoding
:編碼。默認(rèn)為utf-8,使用默認(rèn)的就可以了。
dont_filter
: 表示不由調(diào)度器過濾,在執(zhí)行多次重復(fù)的請(qǐng)求的時(shí)候用得比較多。
errback
:在發(fā)生錯(cuò)誤的是有執(zhí)行的函數(shù)。
有時(shí)候我們想要在請(qǐng)求數(shù)據(jù)的時(shí)候發(fā)送post請(qǐng)求,那么這時(shí)候需要使用Request
的子類FormRequest
來實(shí)現(xiàn)。如果想要在爬蟲一開始就發(fā)送POST請(qǐng)求,那么需要在爬蟲類中重寫start_requests(self)
方法,并且不在調(diào)用 start_urls
里的url。
Response
對(duì)象一般是由scrapy
給你自動(dòng)構(gòu)建的,因此開發(fā)者不需要關(guān)心如何創(chuàng)建Response
對(duì)象。而是如何使用它。Response
對(duì)象有很多屬性,可以用來提取數(shù)據(jù)的。
主要有以下屬性:
meta
: 從其他請(qǐng)求傳過來的meta屬性,可以用來保持多個(gè)請(qǐng)求之間的數(shù)據(jù)連接。
encoding
: 返回字符串編碼和解碼的格式。
text
: 將返回來的數(shù)據(jù)作為unicode字符串返回
body
: 將返回來的數(shù)據(jù)作為bytes 字符串返回。
xpath
: xpath
選擇器
css
: css選擇器。
“python scrapy框架中Request對(duì)象和Response對(duì)象怎么用”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。