溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

使用python cookie實(shí)現(xiàn)反爬處理

發(fā)布時(shí)間:2020-11-02 09:16:25 來(lái)源:億速云 閱讀:264 作者:Leah 欄目:開(kāi)發(fā)技術(shù)

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)使用python cookie實(shí)現(xiàn)反爬處理,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

Cookies的處理

作用
保存客戶端的相關(guān)狀態(tài)

在爬蟲中如果遇到了cookie的反爬如何處理?

手動(dòng)處理
    在抓包工具中捕獲cookie,將其封裝在headers中
    應(yīng)用場(chǎng)景:cookie沒(méi)有有效時(shí)長(zhǎng)且不是動(dòng)態(tài)變化

自動(dòng)處理
 使用session機(jī)制
 使用場(chǎng)景:動(dòng)態(tài)變化的cookie
 session對(duì)象:該對(duì)象和requests模塊用法幾乎一致.如果在請(qǐng)求的過(guò)程中產(chǎn)生了cookie,如果該請(qǐng)求使用session發(fā)起的,則cookie會(huì)被自動(dòng)存儲(chǔ)到session中.

案例

爬取雪球網(wǎng)中的新聞資訊數(shù)據(jù):https://xueqiu.com/

#獲取一個(gè)session對(duì)象
import requests
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
session = requests.Session()
main_url = 'https://xueqiu.com' #推測(cè)對(duì)該url發(fā)起請(qǐng)求會(huì)產(chǎn)生cookie
session.get(main_url,headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json'
params = {
  'since_id': '-1',
  'max_id': '20346152',
  'count': '15',
  'category': '-1',
}
page_text = session.get(url,headers=headers,params=params).json()
page_text

上述就是小編為大家分享的使用python cookie實(shí)現(xiàn)反爬處理了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI