<big id="qufhx"><meter id="qufhx"><mark id="qufhx"></mark></meter></big>

<samp id="qufhx"></samp>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

python爬蟲(chóng)中html轉(zhuǎn)換樹(shù)形結(jié)構(gòu)的示例

發(fā)布時(shí)間：2020-12-01 09:11:32 來(lái)源：億速云閱讀：455 作者：小新欄目：編程語(yǔ)言

這篇文章將為大家詳細(xì)講解有關(guān)python爬蟲(chóng)中html轉(zhuǎn)換樹(shù)形結(jié)構(gòu)的示例，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

BeautifulSoup就是一個(gè)專門用來(lái)從html和xml文檔中提取數(shù)據(jù)的庫(kù)，現(xiàn)在的版本是bs4。除了BeautifulSoup之外，python還具有一些其它的庫(kù)，如HTMLParser等，作用都差不多。解析器結(jié)合正則表達(dá)式，很容易將我們所需要的內(nèi)容提取出來(lái)。

首先安裝BeautifulSoup：

$pip install beautifulsoup4

在python環(huán)境下導(dǎo)入字符串，創(chuàng)建BeautifulSoup對(duì)象：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str, 'lxml', from_encoding='utf-8')

BeautifulSoup可以將復(fù)雜的html文檔轉(zhuǎn)化成樹(shù)形結(jié)構(gòu)，每個(gè)節(jié)點(diǎn)都是pyhton對(duì)象，所有的對(duì)象可以歸納為4種：
Tag
NavigableString
BeautifulSoup
Comment

HtmlParser將要接收一個(gè)字符串，輸出data和新采集到的一些urls。之前寫(xiě)過(guò)的add_new_urls()函數(shù)接受一個(gè)可迭代對(duì)象，所以這里新的urls我們采用集合的形式（也可采用列表的形式）返回，data采用字典的形式存儲(chǔ)并返回。

此外，我們觀察到，詞條內(nèi)容中含有的鏈接為"/item/..."的形式，這并不是一個(gè)完整的url，要在前面加上“https://baike.baidu.com”進(jìn)行補(bǔ)全，利用urlparse模塊可以很方便地完成這個(gè)任務(wù)（當(dāng)然也可以使用拼接字符串的方式）。

下面就是HtmlParser的完整代碼：

'''
-----------------------------------------------------------------
HtmlParser
'''
import re    #正則表達(dá)式模塊
import urlparse    #用來(lái)拼接url
from bs4 import BeautifulSoup
 
class HtmlParser(object):
    def parser(self, page_url, html_cont):
        '''
        解析器主函數(shù)
        parm page_url:一個(gè)url
        parm html_cont:網(wǎng)頁(yè)內(nèi)容，格式為字符串
        return: urls, 數(shù)據(jù)；格式為 set, dict
        '''
        if page_url is None or html_cont is None:
            print "page_url is None"
            return
        #建立bs對(duì)象，使用html.parser進(jìn)行解析
        soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='urf-8')
        print "soup established"
        #接下來(lái)分別調(diào)用兩個(gè)私有函數(shù)返回urls和data
        new_urls = self._get_new_urls(page_url, soup)
        print "new_urls get"
        new_data = self._get_new_data(page_url, soup)
        print "new_data get"
        return new_urls, new_data
 
    def _get_new_urls(self, page_url, soup):
        '''
        從頁(yè)面中抽取指向其他詞條的鏈接
        parm page_url: 當(dāng)前頁(yè)面url
        parm soup: beautifulsoup對(duì)象
        return: 新url的set
        '''
        new_urls = set()
        #根據(jù)正則表達(dá)式規(guī)則對(duì)頁(yè)面內(nèi)的鏈接進(jìn)行篩選，留下想要的鏈接
        links = soup.find_all('a', href=re.compile(r'/item/.+'))
        for link in links:
            #每個(gè)link都是Tag對(duì)象，Tag對(duì)象的操作方法與字典相同
            new_url = link['href']
            #借助urljoin，可以很方便地拼接url
            new_full_url = urlparse.urljoin(page_url, new_url)
            new_urls.add(new_full_url)
        return new_urls
 
    def _get_new_data(self, page_url, soup):
        '''
        提取想要的數(shù)據(jù)
        parm page_url: 當(dāng)前頁(yè)面url
        parm soup: beautifulsoup對(duì)象
        return: dict
        '''
        #聲明字典
        data = {}
        data['url'] = page_url
        data['title'] = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find('h2').get_text()
        data['summary'] = soup.find('div', class_='lemma-summary').get_text()
 
        return data

關(guān)于python爬蟲(chóng)中html轉(zhuǎn)換樹(shù)形結(jié)構(gòu)的示例就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
python爬蟲(chóng)中cookie怎樣操作變量
下一篇新聞：
python爬蟲(chóng)基礎(chǔ)url管理器去重的方法

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<u id="ctafk"></u>