溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點(diǎn)擊重新獲取二維碼

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

發(fā)布時間：2021-10-28 17:24:46 來源：億速云閱讀：341 作者：柒染欄目：編程語言

本篇文章為大家展示了Python爬蟲解析網(wǎng)頁的4種方式分別是什么，內(nèi)容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細(xì)介紹希望你能有所收獲。

用Python寫爬蟲工具在現(xiàn)在是一種司空見慣的事情，每個人都希望能夠?qū)懸欢纬绦蛉セヂ?lián)網(wǎng)上扒一點(diǎn)資料下來，用于數(shù)據(jù)分析或者干點(diǎn)別的事情。

我們知道，爬蟲的原理無非是把目標(biāo)網(wǎng)址的內(nèi)容下載下來存儲到內(nèi)存中，這個時候它的內(nèi)容其實(shí)是一堆HTML，然后再對這些HTML內(nèi)容進(jìn)行解析，按照自己的想法提取出想要的數(shù)據(jù)，所以今天我們主要來講四種在Python中解析網(wǎng)頁HTML內(nèi)容的方法，各有千秋，適合在不同的場合下使用。

首先我們隨意找到一個網(wǎng)址，這時我腦子里閃過了豆瓣這個網(wǎng)站。嗯，畢竟是用Python構(gòu)建的網(wǎng)站，那就拿它來做示范吧。

我們找到了豆瓣的Python爬蟲小組主頁，看起來長成下面這樣。

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

讓我們用瀏覽器開發(fā)者工具看看HTML代碼，定位到想要的內(nèi)容上，我們想要把討論組里的帖子標(biāo)題和鏈接都給扒出來。

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

通過分析，我們發(fā)現(xiàn)實(shí)際上我們想要的內(nèi)容在整個HTML代碼的這個區(qū)域里，那我們只需要想辦法把這個區(qū)域內(nèi)的內(nèi)容拿出來就差不多了。

現(xiàn)在開始寫代碼。

1: 正則表達(dá)式大法

正則表達(dá)式通常被用來檢索、替換那些符合某個模式的文本，所以我們可以利用這個原理來提取我們想要的信息。

參考以下代碼。

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

在代碼第6行和第7行，需要手動指定一下header的內(nèi)容，裝作自己這個請求是瀏覽器請求，否則豆瓣會視為我們不是正常請求會返回HTTP 418錯誤。

在第7行我們直接用requests這個庫的get方法進(jìn)行請求，獲取到內(nèi)容后需要進(jìn)行一下編碼格式轉(zhuǎn)換，同樣是因?yàn)槎拱甑捻撁驿秩緳C(jī)制的問題，正常情況下，直接獲取requests content的內(nèi)容即可。

Python模擬瀏覽器發(fā)起請求并解析內(nèi)容代碼:

url = 'https://www.douban.com/group/491607/'headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:71.0) Gecko/20100101 Firefox/71.0"}response = requests.get(url=url,headers=headers).content.decode('utf-8')

正則的好處是編寫麻煩，理解不容易，但是匹配效率很高，不過時至今日有太多現(xiàn)成的HTMl內(nèi)容解析庫之后，我個人不太建議再手動用正則來對內(nèi)容進(jìn)行匹配了，費(fèi)時費(fèi)力。

主要解析代碼:

re_div = r'<table\s+class=\"olt\">[\W|\w]+</table>'pattern = re.compile(re_div)content = re.findall(pattern, str(response))re_link = r'<a .*?>(.*?)</a>'mm = re.findall(re_link, str(content), re.S|re.M)urls=re.findall(r"<a.*?href=.*?<\/a>",  str(content), re.I|re.S|re.M)

2: requests-html

這個庫其實(shí)是我個人最喜歡的庫，作則是編寫requests庫的網(wǎng)紅程序員 Kenneth Reitz，他在requests的基礎(chǔ)上加上了對html內(nèi)容的解析，就變成了requests-html這個庫了。

下面我們來看看范例：

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

我喜歡用requests-html來解析內(nèi)容的原因是因?yàn)樽髡咭罁?jù)幫我高度封裝過了，連請求返回內(nèi)容的編碼格式轉(zhuǎn)換也自動做了，完全可以讓我的代碼邏輯簡單直接，更專注于解析工作本身。

主要解析代碼:

links = response.html.find('table.olt', first=True).find('a')

安裝途徑: pip install requests-html

3: BeautifulSoup

大名鼎鼎的 BeautifulSoup庫，出來有些年頭了，在Pyhton的HTML解析庫里屬于重量級的庫，其實(shí)我評價它的重量是指比較臃腫，大而全。

還是來先看看代碼。

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

soup = BeautifulSoup(response, 'html.parser')links = soup.findAll("table", {"class": "olt"})[0].findAll('a')

BeautifulSoup解析內(nèi)容同樣需要將請求和解析分開，從代碼清晰程度來講還將就，不過在做復(fù)雜的解析時代碼略顯繁瑣，總體來講可以用，看個人喜好吧。

安裝途徑: pip install beautifulsoup4

4: lxml的XPath

lxml這個庫同時支持HTML和XML的解析，支持XPath解析方式，解析效率挺高，不過我們需要熟悉它的一些規(guī)則語法才能使用，例如下圖這些規(guī)則。

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

來看看如何用XPath解析內(nèi)容。

主要解析代碼:

content = doc.xpath("//table[@class='olt']/tr/td/a")

Python爬蟲解析網(wǎng)頁的4種方式分別是什么

如上圖，XPath的解析語法稍顯復(fù)雜，不過熟悉了語法的話也不失為一種優(yōu)秀的解析手段，因?yàn)椤?/p>

安裝途徑: pip install lxml

四種方式總結(jié)

正則表達(dá)式匹配不推薦，因?yàn)橐呀?jīng)有很多現(xiàn)成的庫可以直接用，不需要我們?nèi)ゴ罅慷x正則表達(dá)式，還沒法復(fù)用，在此僅作參考了解。

BeautifulSoup是基于DOM的方式，簡單的說就是會在解析時把整個網(wǎng)頁內(nèi)容加載到DOM樹里，內(nèi)存開銷和耗時都比較高，處理海量內(nèi)容時不建議使用。不過BeautifulSoup不需要結(jié)構(gòu)清晰的網(wǎng)頁內(nèi)容，因?yàn)樗梢灾苯觙ind到我們想要的標(biāo)簽，如果對于一些HTML結(jié)構(gòu)不清晰的網(wǎng)頁，它比較適合。

XPath是基于SAX的機(jī)制來解析，不會像BeautifulSoup去加載整個內(nèi)容到DOM里，而是基于事件驅(qū)動的方式來解析內(nèi)容，更加輕巧。不過XPath要求網(wǎng)頁結(jié)構(gòu)需要清晰，而且開發(fā)難度比DOM解析的方式高一點(diǎn)，推薦在需要解析效率時使用。

requests-html 是比較新的一個庫，高度封裝且源碼清晰，它直接整合了大量解析時繁瑣復(fù)雜的操作，同時支持DOM解析和XPath解析兩種方式，靈活方便，這是我目前用得較多的一個庫。

除了以上介紹到幾種網(wǎng)頁內(nèi)容解析方式之外還有很多解析手段，在此不一一進(jìn)行介紹了。

寫一個爬蟲，最重要的兩點(diǎn)就是如何抓取數(shù)據(jù)，如何解析數(shù)據(jù)，我們要活學(xué)活用，在不同的時候利用最有效的工具去完成我們的目的。

上述內(nèi)容就是Python爬蟲解析網(wǎng)頁的4種方式分別是什么，你們學(xué)到知識或技能了嗎？如果還想學(xué)到更多技能或者豐富自己的知識儲備，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
shell腳本源碼安裝nginx的過程是什么
下一篇新聞：
Mysql數(shù)據(jù)分組排名實(shí)現(xiàn)的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<p id="v1sna"></p>