溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

使用BeautifulSoup怎么解析html

發(fā)布時(shí)間:2021-07-22 14:03:10 來源:億速云 閱讀:266 作者:Leah 欄目:大數(shù)據(jù)

這篇文章將為大家詳細(xì)講解有關(guān)使用BeautifulSoup怎么解析html,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。

爬蟲抓取的數(shù)據(jù)以html數(shù)據(jù)為主。有時(shí)也是xml數(shù)據(jù),xml數(shù)據(jù)對(duì)標(biāo)簽的解析和html是一樣的道理,兩者都是<tag>來區(qū)分?jǐn)?shù)據(jù)的。這種格式的數(shù)據(jù)結(jié)構(gòu)可以說是一個(gè)頁面一個(gè)樣子,解析起來很麻煩。BeautifulSoup提供了強(qiáng)大的解析功能,可以幫助我們省去不少麻煩。使用之前安裝BeautifulSoup和lxml。

#pip install beautifulsoup4==4.0.1 #指定版本,不指定會(huì)安裝最新版本#pip install lxml==3.3.6           指定版本,不指定會(huì)安裝最新版本進(jìn)入Python命令行試試是否安裝成功>>> import bs4>>> import lxml>>>

沒有報(bào)錯(cuò),說明安裝成功。lxml的版本和發(fā)布時(shí)間可以到下面網(wǎng)站查看

使用BeautifulSoup怎么解析html

首先代碼要引入這個(gè)庫

from bs4 import BeautifulSoup

然后,抓取

try:    r = urllib2.urlopen(request)except urllib2.URLError,e:    print e.code    exit()    r.encoding='utf8'print r.codehtml=r.read() #urlopen獲取的內(nèi)容都在html中mysoup=BeautifulSoup(html, 'lxml') #html的信息都在mysoup中了

假設(shè)我們對(duì)html中的如下部分?jǐn)?shù)據(jù)感興趣

    <data>        <day>20200214</day>        <id>1</id>        <rank>11</rank>        <name>張三</name>    </data>    <data>        <day>20200214</day>        <id>4</id>        <rank>17</rank>        <name>李四貨</name>    </data>

首先要找到tag標(biāo)簽為<data>的數(shù)據(jù),而這類數(shù)據(jù)不止一條,我們以兩條為例。那么需要用到beautifulsoup的find_all函數(shù),返回的結(jié)果應(yīng)該是兩個(gè)<data>數(shù)據(jù)。當(dāng)處理每一個(gè)<data>數(shù)據(jù)時(shí),里面的<id><name>等標(biāo)簽都是唯一的,這時(shí)使用find函數(shù)。

mysoup=BeautifulSoup(html, 'lxml')data_list=mysoup.find_all('data')for data in data_list:#list應(yīng)該有兩個(gè)元素    day = data.find('day').get_text() #get_text是獲取字符串,可以用.string代替    id = data.find('id').get_text()    rank = data.find('rank').get_text()    name = data.find('name').get_text()    #print name  可以print測(cè)試解析結(jié)果

這是beautifulsoup最簡(jiǎn)單的用法,find和find_all不僅可以按照標(biāo)簽的名字定位元素,還可以按照class,style等各種屬性,以及文本內(nèi)容text作為條件來查找你感興趣的內(nèi)容,非常強(qiáng)大。

關(guān)于使用BeautifulSoup怎么解析html就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI