溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么

發(fā)布時間:2021-12-06 16:00:24 來源:億速云 閱讀:146 作者:柒染 欄目:大數(shù)據(jù)

今天就跟大家聊聊有關(guān)大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

大家在采集數(shù)據(jù)的過程中經(jīng)常會遇到網(wǎng)站反爬的情況,不同網(wǎng)站反爬策略也不盡相同。

今天為大家總結(jié)了我們平時經(jīng)常碰到的幾種反爬策略,以及解決方法。

網(wǎng)站反爬,原理是服務(wù)器通過訪問者請求中夾帶的一些訪問者的信息,來識別訪問者,并對訪問者進(jìn)行限制。

比如服務(wù)器通過請求識別到訪問者IP,對同一個IP訪問頻率做出了限制,那么當(dāng)同一個IP訪問頻率超過限制時,訪問就會出現(xiàn)問題。

ForeSpider數(shù)據(jù)采集引擎根據(jù)網(wǎng)站常見的幾種反爬策略,研發(fā)了對應(yīng)解決的設(shè)置,用戶在使用過程中可以針對不同反爬,進(jìn)行對應(yīng)的設(shè)置,常見的反爬策略及解決方案有以下幾種:


-01-   限制用戶IP訪問頻率

通常表現(xiàn)為:

當(dāng)使用本地IP采集速度高于某頻率時,就會出現(xiàn)采集錯誤,頁面重定向等情況。

當(dāng)訪問者IP信息存儲在cookie中時,會增加爬蟲難度。

解決方案

1.cookie中沒有記錄IP時

需要使用動態(tài)短效代理IP/隧道代理IP,根據(jù)網(wǎng)站限制IP強(qiáng)度,調(diào)整采集速度,購買適量代理IP,在ForeSpider爬蟲IP代理處設(shè)置即可。

大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么  

2.cookie中記錄IP時

需要使用靜態(tài)長效代理IP,根據(jù)網(wǎng)站限制IP強(qiáng)度,調(diào)整采集速度,購買適量代理IP,在ForeSpider數(shù)據(jù)采集系統(tǒng)IP代理處設(shè)置即可。

大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么  


-02-   限制用戶ID訪問頻率

通常表現(xiàn)為:

采集一段時間后,停止采集/采集錯誤,瀏覽器中該頁面顯示不出來(頁面重定向、有驗(yàn)證碼、錯誤頁面等情況),清空瀏覽器瀏覽記錄后,再次打開又可以正常顯示。

遇到這種情況時,可以通過觀察頁面的cookie來確認(rèn)服務(wù)器是否限制用戶ID。

當(dāng)訪問頁面的cookie中有UID或其他ID字符串時,表示服務(wù)器對用戶ID有識別。還有一種對UID加密的情況,這時cookie中有一串加密后的字符串。

解決方案:

使用ForeSpider采集器高級設(shè)置中的多通道采集功能,并設(shè)置最大登錄用戶數(shù),設(shè)置代理IP(使用靜態(tài)長效代理IP),通過模擬多用戶瀏覽網(wǎng)站,來解決網(wǎng)站對ID的限制。

大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么  

大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么  


-03-   IP&ID雙重限定

通常表現(xiàn)為:

采集一段時間后,停止采集/采集錯誤,瀏覽器中該頁面顯示不出來(頁面重定向、有驗(yàn)證碼、錯誤頁面等情況),清空瀏覽器瀏覽記錄后,再次打開又可以正常顯示。

爬蟲設(shè)置為多通道采集后采集一段時間發(fā)現(xiàn)IP被封了。也可通過觀察頁面cookie中是否既有IP又有UID/UID加密的信息,來進(jìn)行判斷。

解決方案:

使用ForeSpider數(shù)據(jù)采集系統(tǒng)高級設(shè)置中的多通道采集功能,同時打開動態(tài)IP鎖定,設(shè)置好代理IP(使用靜態(tài)長效代理IP),并設(shè)置最大登錄用戶數(shù),來解決網(wǎng)站對賬號的限制。如下圖所示:

大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么  

大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么  


-04-   限制用戶賬號訪問頻率

通常表現(xiàn)為:

網(wǎng)站需要登錄,登錄后采集賬號被封。這種情況一般是由于服務(wù)器識別用戶賬號,并限制用戶賬號訪問頻率導(dǎo)致的。

解決方案:

注冊多個賬號,供封號后替換使用。


-05-   用戶賬號&用戶IP雙重限制

通常表現(xiàn)為:

網(wǎng)站需要登錄,登錄后采集賬號被封,IP也被封。使用多通道或者用代理IP采集均無效果。這種情況是由于服務(wù)器對用戶賬號和訪問IP雙重限制導(dǎo)致的。

解決方案:

注冊多個賬號,供封號后替換使用;降低采集速度,使用靜態(tài)長效代理IP進(jìn)行采集。

看完上述內(nèi)容,你們對大數(shù)據(jù)中常見的網(wǎng)站反爬策略與解決方案是什么有進(jìn)一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI