溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

python破解網(wǎng)站反爬蟲的方法有哪些

發(fā)布時(shí)間：2021-06-11 15:27:57 來源：億速云閱讀：130 作者：小新欄目：開發(fā)技術(shù)

小編給大家分享一下python破解網(wǎng)站反爬蟲的方法有哪些，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

常見的反爬蟲機(jī)制有判別身份和IP限制兩種，下面我們將一一來進(jìn)行介紹。

(一) 判別身份

首先我們看一個(gè)例子，看看到底什么時(shí)反爬蟲。
我們還是以豆瓣電影榜top250(https://movie.douban.com/top250) 為例。`

import requests

# 豆瓣電影榜top250的網(wǎng)址
url = 'https://movie.douban.com/top250'
# 請(qǐng)求與網(wǎng)站的連接
res = requests.get(url)
# 打印獲取的文本
print(res.text)

這是段簡單的請(qǐng)求與網(wǎng)站連接并打印獲取數(shù)據(jù)的代碼，我們來看看它的運(yùn)行結(jié)果。

python破解網(wǎng)站反爬蟲的方法有哪些

我們可以發(fā)現(xiàn)我們什么數(shù)據(jù)都沒有獲取到，這就是由于這個(gè)網(wǎng)站有它的身份識(shí)別功能，把我們識(shí)別為了爬蟲，拒絕為我們提供數(shù)據(jù)。不管是瀏覽器還是爬蟲訪問網(wǎng)站時(shí)都會(huì)帶上一些信息用于身份識(shí)別。而這些信息都被存儲(chǔ)在一個(gè)叫請(qǐng)求頭(request headers) 的地方。而這個(gè)請(qǐng)求頭中我們只需要了解其中的一個(gè)叫user-agent(用戶代理) 的就可以了。user-agent里包含了操作系統(tǒng)、瀏覽器類型、版本等信息，通過修改它我們就能成功地偽裝成瀏覽器。
下面我們來看怎么找這個(gè)user-agent吧。

首先得打開瀏覽器，隨便打開一個(gè)網(wǎng)站，再打開開發(fā)者工具。
再點(diǎn)擊network標(biāo)簽，接著點(diǎn)第一個(gè)請(qǐng)求，再找到Request Headers，最后找到user-agent字段。(有時(shí)候可能點(diǎn)擊network標(biāo)簽后是空白得，這時(shí)候刷新下網(wǎng)頁就好啦！)

python破解網(wǎng)站反爬蟲的方法有哪些

找到請(qǐng)求頭后，我們只需要把他放進(jìn)一個(gè)字典里就好啦，具體操作見下面代碼。

import requests

# 復(fù)制剛才獲取得請(qǐng)求頭
headers = {
  'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
# 豆瓣電影榜top250的網(wǎng)址
url = 'https://movie.douban.com/top250'
# 請(qǐng)求與網(wǎng)站的連接
res = requests.get(url, headers=headers)
# 打印獲取的文本
print(res.text)

現(xiàn)在我們?cè)賮砜床糠州敵鼋Y(jié)果。

python破解網(wǎng)站反爬蟲的方法有哪些

我們可以發(fā)現(xiàn)已經(jīng)將該網(wǎng)站的HTML文件全部爬取到了，至此第一種方法就將完成了。下面我們來看第二種方法。

(二) IP限制

IP(Internet Protocol) 全稱互聯(lián)網(wǎng)協(xié)議地址，意思是分配給用戶上網(wǎng)使用的網(wǎng)際協(xié)議的設(shè)備的數(shù)字標(biāo)簽。它就像我們身份證號(hào)一樣，只要知道你的身份證號(hào)就能查出你是哪個(gè)人。
當(dāng)我們爬取大量數(shù)據(jù)時(shí)，如果我們不加以節(jié)制地訪問目標(biāo)網(wǎng)站，會(huì)使網(wǎng)站超負(fù)荷運(yùn)轉(zhuǎn)，一些個(gè)人小網(wǎng)站沒什么反爬蟲措施可能因此癱瘓。而大網(wǎng)站一般會(huì)限制你的訪問頻率，因?yàn)檎Ｈ耸遣粫?huì)在 1s 內(nèi)訪問幾十次甚至上百次網(wǎng)站的。所以，如果你訪問過于頻繁，即使改了 user-agent 偽裝成瀏覽器了，也還是會(huì)被識(shí)別為爬蟲，并限制你的 IP 訪問該網(wǎng)站。
因此，我們常常使用 time.sleep() 來降低訪問的頻率，比如上一篇博客中的爬取整個(gè)網(wǎng)站的代碼，我們每爬取一個(gè)網(wǎng)頁就暫停一秒。

import requests
import time
from bs4 import BeautifulSoup

# 將獲取豆瓣電影數(shù)據(jù)的代碼封裝成函數(shù)
def get_douban_movie(url):
 # 設(shè)置反爬蟲的請(qǐng)求頭
 headers = {
 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
 }

 # 請(qǐng)求網(wǎng)站的連接
 res = requests.get('https://movie.douban.com/top250', headers=headers)
 # 將網(wǎng)站數(shù)據(jù)存到BeautifulSoup對(duì)象中
 soup = BeautifulSoup(res.text,'html.parser')
 # 爬取網(wǎng)站中所有標(biāo)簽為'div'，并且class='pl2'的數(shù)據(jù)存到Tag對(duì)象中
 items = soup.find_all('div', class_='hd')
 for i in items:
  # 再篩選出所有標(biāo)簽為a的數(shù)據(jù)
  tag = i.find('a')
  # 只讀取第一個(gè)class='title'作為電影名
  name = tag.find(class_='title').text
  # 爬取書名對(duì)應(yīng)的網(wǎng)址
  link = tag['href']
  print(name,link)

url = 'https://movie.douban.com/top250?start={}&filter='
# 將所有網(wǎng)址信息存到列表中
urls = [url.format(num*25) for num in range(10)]
for item in urls:
 get_douban_movie(item)
 # 暫停 1 秒防止訪問太快被封
 time.sleep(1)

部分運(yùn)行結(jié)果：

python破解網(wǎng)站反爬蟲的方法有哪些

以上是“python破解網(wǎng)站反爬蟲的方法有哪些”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
正則表達(dá)式匹配閉合HTML標(biāo)簽的示例分析
下一篇新聞：
java中怎么實(shí)現(xiàn)順時(shí)針打印矩陣

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼