Python怎么使用XPath采集數(shù)據(jù)

發(fā)布時間：2023-04-18 14:59:12 來源：億速云閱讀：92 作者：iii 欄目：開發(fā)技術(shù)

這篇“Python怎么使用XPath采集數(shù)據(jù)”文章的知識點大部分人都不太理解，所以小編給大家總結(jié)了以下內(nèi)容，內(nèi)容詳細(xì)，步驟清晰，具有一定的借鑒價值，希望大家閱讀完這篇文章能有所收獲，下面我們一起來看看這篇“Python怎么使用XPath采集數(shù)據(jù)”文章吧。

lxml

lxml 是 Python 的一個庫，用于解析和呈現(xiàn) XML 和 HTML。它支持多種內(nèi)置和第三方 XML 和 HTML 標(biāo)記，例如 <a>，<img>，<form>，<ul>，<li>，<ol>，<dl>，<dt>，<dd> 等。lxml 還支持使用正則表達(dá)式來解析和呈現(xiàn) XML 和 HTML。

發(fā)送請求

首先，我們要進(jìn)行數(shù)據(jù)來源分析，知道我們的需求是什么？

明確需求:

明確采集網(wǎng)站是什么?
明確采集數(shù)據(jù)是什么?

我們都玩過4399小游戲，我們想獲取游戲名稱和游戲鏈接，并保存下來。首先，我們導(dǎo)入相關(guān)的庫文件。

import csv
import requests
from lxml import etree

接下來，我們可以發(fā)送請求，獲取網(wǎng)頁源代碼，代碼如下。

url = 'https://www.4399.com/flash_fl/2_1.htm'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding

這段代碼是一個 Python 的 requests 模塊的示例代碼，用于從 https://www.4399.com/flash_fl/2_1.htm 這個網(wǎng)站上獲取數(shù)據(jù)并將其轉(zhuǎn)換為 HTML 格式。

首先，我們定義了一個 url 變量，它包含了要從網(wǎng)站上獲取數(shù)據(jù)的 URL。然后，我們使用 headers 字典來設(shè)置請求頭，包括 user-agent 頭部，用于指定瀏覽器的 User-Agent 信息。

接下來，我們使用 requests.get() 函數(shù)來發(fā)送一個 HTTP GET 請求，并將 headers 字典作為請求頭傳遞給它。這個函數(shù)會返回一個 Response 對象，我們可以使用 res.encoding 屬性來獲取請求的編碼方式，并將其設(shè)置為 res.apparent_encoding，以便在輸出 HTML 時使用相同的編碼方式。

最后，我們將請求的編碼方式設(shè)置為瀏覽器的默認(rèn)編碼方式，以便在輸出 HTML 時使用相同的編碼方式。

解析數(shù)據(jù)

接下來，我們用xpath解析數(shù)據(jù)。我們用開發(fā)者工具定位到標(biāo)簽位置。

html_data = etree.HTML(res.text)
lis = html_data.xpath('//*[@class="bre m15"]//ul/li')
for li in lis:
    href = li.xpath('./a/@href')[0]
    title = li.xpath('./a/img/@alt')[0]

接下來，我們使用 html_data.xpath 方法來解析 HTML 文檔中的 ul 和 li 元素，并將它們存儲在 lis 變量中。

最后，我們使用 for 循環(huán)遍歷 lis，并使用 li.xpath 方法來獲取每個 li 元素的 a 元素的 href 和 alt 屬性，并將它們存儲在 href 和 title 變量中。我們運行結(jié)果之后，我們還要對鏈接進(jìn)行拼接。

Python怎么使用XPath采集數(shù)據(jù)

保存數(shù)據(jù)

接下來就是保存數(shù)據(jù)，先寫入頭文件。

f = open('4399小游戲.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['游戲名稱', '游戲網(wǎng)站'])
csv_writer.writeheader()

這段代碼中，我們首先使用 Python 的 open() 函數(shù)打開了一個名為 "4399小游戲.csv" 的文件，文件模式為 a，表示追加模式。

然后，我們使用 Python 的 csv 模塊創(chuàng)建了一個名為 csv_writer 的 DictWriter 對象，并使用 writeheader() 方法來寫入表頭。

最后，我們使用 write() 方法向文件中寫入數(shù)據(jù)，數(shù)據(jù)內(nèi)容為一個字典對象。

這段代碼的作用是將一個字典對象寫入到文件中，其中包含了游戲名稱和游戲網(wǎng)站兩個字段的數(shù)據(jù)。

需要注意的是，在寫入數(shù)據(jù)之前，我們需要使用 csv.DictWriter() 函數(shù)來創(chuàng)建一個 DictWriter 對象，并使用 fieldnames 參數(shù)來指定字段名稱。此外，我們還需要使用 newline='' 參數(shù)來避免在 Windows 系統(tǒng)中出現(xiàn)換行符問題。 '''

dit = {
    '游戲名稱': title,
    '游戲網(wǎng)站': data_url,
}
csv_writer.writerow(dit)

Python怎么使用XPath采集數(shù)據(jù)

以上就是關(guān)于“Python怎么使用XPath采集數(shù)據(jù)”這篇文章的內(nèi)容，相信大家都有了一定的了解，希望小編分享的內(nèi)容對大家有幫助，若想了解更多相關(guān)的知識內(nèi)容，請關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

Python怎么使用XPath采集數(shù)據(jù)

lxml

發(fā)送請求

明確需求:

解析數(shù)據(jù)

保存數(shù)據(jù)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽