溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

python中常見(jiàn)的反爬蟲(chóng)機(jī)制有哪些

發(fā)布時(shí)間:2020-12-01 09:31:29 來(lái)源:億速云 閱讀:221 作者:小新 欄目:編程語(yǔ)言

小編給大家分享一下python中常見(jiàn)的反爬蟲(chóng)機(jī)制有哪些,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

常見(jiàn)的反爬蟲(chóng)機(jī)制有:

  • 分析用戶(hù)請(qǐng)求的headers信息

  • 檢測(cè)用戶(hù)行為,如短時(shí)間內(nèi)同一個(gè)IP頻繁訪(fǎng)問(wèn)

  • 動(dòng)態(tài)加載增加爬蟲(chóng)難度

  • 驗(yàn)證碼反爬蟲(chóng)

  • 信息需要登錄才能顯示

常見(jiàn)的大家可能都見(jiàn)過(guò),那么不常見(jiàn)的呢?

有的網(wǎng)站某些信息是加密的,可能瀏覽器上看到的是這樣,我們復(fù)制出來(lái)看到的又不一樣,這種需要解密;

有的網(wǎng)站會(huì)檢測(cè)用戶(hù)鼠標(biāo)移動(dòng)情況,爬蟲(chóng)肯定是沒(méi)有鼠標(biāo)移動(dòng)的,那么肯定被干掉;

還有就是代理IP,我們都知道網(wǎng)上存在大量代理IP,通過(guò)一些網(wǎng)站我們可以拿到免費(fèi)IP,但是別人網(wǎng)站頁(yè)可以拿到的,別人拿到這些IP后直接BAN掉,所以失效,需使用更高效的ADSL撥號(hào)代理。

常見(jiàn)反爬機(jī)制

1、關(guān)于headers

常見(jiàn)的為瀏覽器加入headers,需要設(shè)置Requests Headers里面的內(nèi)容

其中的每一個(gè)參數(shù)都有自己的作用,面對(duì)不同的網(wǎng)站時(shí)方法也不一樣。

2、關(guān)于代理

簡(jiǎn)單方法就是購(gòu)買(mǎi),免費(fèi)的和收費(fèi)的相比還是差了不少。

3、關(guān)于Cookie

請(qǐng)求會(huì)返回多個(gè)Cookie,我們從其中找到最有效的Cookie,這回極大的提高效率

4、關(guān)于Selenium

Selenium可以完美解決反爬,因?yàn)樗褪且粋€(gè)真實(shí)的瀏覽器在操作,網(wǎng)站沒(méi)理由把它干掉。

但是也要看到Selenium的缺點(diǎn),速度慢、效率低是最主要問(wèn)題。自己寫(xiě)著玩玩可以,但是在真是的應(yīng)用中,Selenium并不常見(jiàn)。

當(dāng)然,你可以使用Selenium+Phantomjs,并對(duì)其進(jìn)行優(yōu)化,速度和別的爬蟲(chóng)還是沒(méi)法比。

看完了這篇文章,相信你對(duì)python中常見(jiàn)的反爬蟲(chóng)機(jī)制有哪些有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI