溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python爬蟲(chóng)基礎(chǔ)之XPath語(yǔ)法與lxml庫(kù)的用法詳解

發(fā)布時(shí)間:2020-10-14 08:58:55 來(lái)源:腳本之家 閱讀:255 作者:qq52o 欄目:開(kāi)發(fā)技術(shù)

前言

本來(lái)打算寫(xiě)的標(biāo)題是XPath語(yǔ)法,但是想了一下Python中的解析庫(kù)lxml,使用的是Xpath語(yǔ)法,同樣也是效率比較高的解析方法,所以就寫(xiě)成了XPath語(yǔ)法和lxml庫(kù)的用法

XPath 即為 XML 路徑語(yǔ)言,它是一種用來(lái)確定 XML(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言的子集)文檔中某部分位置的語(yǔ)言。

XPath 基于 XML 的樹(shù)狀結(jié)構(gòu),提供在數(shù)據(jù)結(jié)構(gòu)樹(shù)中找尋節(jié)點(diǎn)的能力。 XPath 同樣也支持HTML。

XPath 是一門(mén)小型的查詢(xún)語(yǔ)言。

python 中 lxml庫(kù) 使用的是 Xpath 語(yǔ)法,是效率比較高的解析方法。

下面話不多說(shuō)了,來(lái)一起看看詳細(xì)的介紹吧

安裝

為什么要用這個(gè)庫(kù)呢,因?yàn)橐獙?xiě)爬蟲(chóng)啊,利用lxml庫(kù)來(lái)解析 HTML 代碼,同時(shí)lxml也繼承了libxml2的特性自動(dòng)修正HTML代碼,利用pip安裝即可

pip install lxml

XPath語(yǔ)法

XPath是一門(mén)在XML文檔中查找信息的語(yǔ)言,可以用于在XML文檔中通過(guò)元素和屬性進(jìn)行導(dǎo)航

舉個(gè)栗子 😎

我們可以使用XPath提取網(wǎng)站地圖中的所有鏈接,也就是說(shuō)可以使用XPath去找我們HTML中的一些具體的東西

節(jié)點(diǎn)關(guān)系

在XPath中,有七種類(lèi)型的節(jié)點(diǎn):元素、屬性、文本、命名空間、處理指令、注釋以及文檔節(jié)點(diǎn)(或稱(chēng)為根節(jié)點(diǎn))

再舉個(gè)栗子 😎

<urlset>
<url>
<loc>https://qq52o.me</loc>
<lastmod>2018-04-28T19:00:42+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>

第一個(gè):父(Parent)

每個(gè)元素以及屬性都有一個(gè)父

url元素是 loc、lastmod、changefreq以及 priority元素的父

第二個(gè):子(Children)

元素節(jié)點(diǎn)可有零個(gè)、一個(gè)或多個(gè)子

loc、lastmod、changefreq以及 priority元素都是url元素的子

第三個(gè):同胞(Sibling)

擁有相同的父的節(jié)點(diǎn)

loc、lastmod、changefreq以及 priority元素都是url元素的同胞

第四個(gè):先輩(Ancestor)

某節(jié)點(diǎn)的父、父的父,等等

loc元素的先輩是 url元素和 urlset元素

第五個(gè):后代(Descendant)

某個(gè)節(jié)點(diǎn)的子,子的子,等等

urlset的后代是url、loc、lastmod、changefreq以及 priority元素

如果你分不清楚,就按照子元素從上到下的去找元素節(jié)點(diǎn)

選取節(jié)點(diǎn)

XPath使用路徑表達(dá)式在 XML 文檔中選取節(jié)點(diǎn),節(jié)點(diǎn)是通過(guò)沿著路徑或者 step 來(lái)選取的,也就是上面所說(shuō)的按照子元素從上到下去找元素節(jié)點(diǎn)

這些是最有用的路徑表達(dá)式 💡

表達(dá)式 描述
nodename 選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn)
/ 從根節(jié)點(diǎn)選取
// 從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn),而不考慮它們的位置
. 選取當(dāng)前節(jié)點(diǎn)
.. 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)
@ 選取屬性

實(shí)例

路徑表達(dá)式 結(jié)果
urlset 選取urlset元素的所有子節(jié)點(diǎn)
/urlset 選取根元素 urlset
urlset/url 選取屬于urlset的子元素的所有url元素
//url 選取所有url子元素,而不管它們?cè)谖臋n中的位置
urlset//url 選擇屬于urlset元素的后代的所有url元素,而不管它們位于urlset之下的什么位置
//@href 選取名為href的所有屬性

其他XPath語(yǔ)法請(qǐng)參考w3school

XPath實(shí)例測(cè)試

提取本站網(wǎng)站地圖中id屬性為content的的子元素h4的內(nèi)容以及子元素a的href屬性,F(xiàn)12去看代碼找這個(gè)屬性

Python爬蟲(chóng)基礎(chǔ)之XPath語(yǔ)法與lxml庫(kù)的用法詳解

div的id屬性,下面的子元素h4的內(nèi)容,直接利用 text 方法來(lái)獲取元素的內(nèi)容,然后輸出

Python爬蟲(chóng)基礎(chǔ)之XPath語(yǔ)法與lxml庫(kù)的用法詳解

這里的子元素層級(jí)關(guān)系必須按順序?qū)懞?,不然?huì)報(bào)錯(cuò)的

IndexError: list index out of range

這就說(shuō)明你的XPath規(guī)則沒(méi)寫(xiě)好,list是一個(gè)空的,沒(méi)有一個(gè)元素

XPath 是一個(gè)非常好用的解析方法,同時(shí)也是作為爬蟲(chóng)學(xué)習(xí)的基礎(chǔ)

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)億速云的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI