溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python爬蟲(chóng)基礎(chǔ)之XPath語(yǔ)法與lxml庫(kù)的用法詳解

發(fā)布時(shí)間：2020-10-14 08:58:55 來(lái)源：腳本之家閱讀：255 作者：qq52o 欄目：開(kāi)發(fā)技術(shù)

前言

本來(lái)打算寫(xiě)的標(biāo)題是XPath語(yǔ)法，但是想了一下Python中的解析庫(kù)lxml，使用的是Xpath語(yǔ)法，同樣也是效率比較高的解析方法，所以就寫(xiě)成了XPath語(yǔ)法和lxml庫(kù)的用法

XPath 即為 XML 路徑語(yǔ)言，它是一種用來(lái)確定 XML（標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言的子集）文檔中某部分位置的語(yǔ)言。

XPath 基于 XML 的樹(shù)狀結(jié)構(gòu)，提供在數(shù)據(jù)結(jié)構(gòu)樹(shù)中找尋節(jié)點(diǎn)的能力。 XPath 同樣也支持HTML。

XPath 是一門(mén)小型的查詢(xún)語(yǔ)言。

python 中 lxml庫(kù) 使用的是 Xpath 語(yǔ)法，是效率比較高的解析方法。

下面話不多說(shuō)了，來(lái)一起看看詳細(xì)的介紹吧

安裝

為什么要用這個(gè)庫(kù)呢，因?yàn)橐獙?xiě)爬蟲(chóng)啊，利用lxml庫(kù)來(lái)解析 HTML 代碼，同時(shí)lxml也繼承了libxml2的特性自動(dòng)修正HTML代碼，利用pip安裝即可

pip install lxml

XPath語(yǔ)法

XPath是一門(mén)在XML文檔中查找信息的語(yǔ)言，可以用于在XML文檔中通過(guò)元素和屬性進(jìn)行導(dǎo)航

舉個(gè)栗子 😎

我們可以使用XPath提取網(wǎng)站地圖中的所有鏈接，也就是說(shuō)可以使用XPath去找我們HTML中的一些具體的東西

節(jié)點(diǎn)關(guān)系

在XPath中，有七種類(lèi)型的節(jié)點(diǎn)：元素、屬性、文本、命名空間、處理指令、注釋以及文檔節(jié)點(diǎn)（或稱(chēng)為根節(jié)點(diǎn)）

再舉個(gè)栗子 😎

<urlset>
<url>
<loc>https://qq52o.me</loc>
<lastmod>2018-04-28T19:00:42+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>

第一個(gè)：父（Parent）

每個(gè)元素以及屬性都有一個(gè)父

url元素是 loc、lastmod、changefreq以及 priority元素的父

第二個(gè)：子（Children）

元素節(jié)點(diǎn)可有零個(gè)、一個(gè)或多個(gè)子

loc、lastmod、changefreq以及 priority元素都是url元素的子

第三個(gè)：同胞（Sibling）

擁有相同的父的節(jié)點(diǎn)

loc、lastmod、changefreq以及 priority元素都是url元素的同胞

第四個(gè)：先輩（Ancestor）

某節(jié)點(diǎn)的父、父的父，等等

loc元素的先輩是 url元素和 urlset元素

第五個(gè)：后代（Descendant）

某個(gè)節(jié)點(diǎn)的子，子的子，等等

urlset的后代是url、loc、lastmod、changefreq以及 priority元素

如果你分不清楚，就按照子元素從上到下的去找元素節(jié)點(diǎn)

選取節(jié)點(diǎn)

XPath使用路徑表達(dá)式在 XML 文檔中選取節(jié)點(diǎn)，節(jié)點(diǎn)是通過(guò)沿著路徑或者 step 來(lái)選取的，也就是上面所說(shuō)的按照子元素從上到下去找元素節(jié)點(diǎn)

這些是最有用的路徑表達(dá)式 💡

表達(dá)式	描述
nodename	選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn)
/	從根節(jié)點(diǎn)選取
//	從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn)，而不考慮它們的位置
.	選取當(dāng)前節(jié)點(diǎn)
..	選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)
@	選取屬性

實(shí)例

路徑表達(dá)式	結(jié)果
urlset	選取urlset元素的所有子節(jié)點(diǎn)
/urlset	選取根元素 urlset
urlset/url	選取屬于urlset的子元素的所有url元素
//url	選取所有url子元素，而不管它們?cè)谖臋n中的位置
urlset//url	選擇屬于urlset元素的后代的所有url元素，而不管它們位于urlset之下的什么位置
//@href	選取名為href的所有屬性

其他XPath語(yǔ)法請(qǐng)參考w3school

XPath實(shí)例測(cè)試

提取本站網(wǎng)站地圖中id屬性為content的的子元素h4的內(nèi)容以及子元素a的href屬性，F(xiàn)12去看代碼找這個(gè)屬性

Python爬蟲(chóng)基礎(chǔ)之XPath語(yǔ)法與lxml庫(kù)的用法詳解

div的id屬性，下面的子元素h4的內(nèi)容，直接利用 text 方法來(lái)獲取元素的內(nèi)容，然后輸出

Python爬蟲(chóng)基礎(chǔ)之XPath語(yǔ)法與lxml庫(kù)的用法詳解

這里的子元素層級(jí)關(guān)系必須按順序?qū)懞?，不然?huì)報(bào)錯(cuò)的

IndexError: list index out of range

這就說(shuō)明你的XPath規(guī)則沒(méi)寫(xiě)好，list是一個(gè)空的，沒(méi)有一個(gè)元素

XPath 是一個(gè)非常好用的解析方法，同時(shí)也是作為爬蟲(chóng)學(xué)習(xí)的基礎(chǔ)

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，如果有疑問(wèn)大家可以留言交流，謝謝大家對(duì)億速云的支持。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Vue如何實(shí)現(xiàn)響應(yīng)式系統(tǒng)
下一篇新聞：
IOS 長(zhǎng)鏈接與短鏈接之間的轉(zhuǎn)換

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專(zhuān)題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢(xún)

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<strong id="72ni7"><sup id="72ni7"></sup></strong>

<ruby id="72ni7"><wbr id="72ni7"><center id="72ni7"></center></wbr></ruby>

<td id="72ni7"><listing id="72ni7"><var id="72ni7"></var></listing></td>

<td id="72ni7"><listing id="72ni7"><var id="72ni7"></var></listing></td>

<li id="72ni7"></li>