溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python中bs4解析和xpath解析的示例分析

發(fā)布時間:2022-02-28 13:43:11 來源:億速云 閱讀:160 作者:小新 欄目:開發(fā)技術

這篇文章給大家分享的是有關python中bs4解析和xpath解析的示例分析的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。

    bs4解析

    原理:

    1.實例化一個BeautifulSoup對象,并且將頁面源碼數據加載到該對象中

    2.通過調用BeautifulSoup對象中相關的屬性或者方法進行標簽定位和數據提取

    如何實例化BeautifulSoup對象:

    from bs4 import BeautifulSoup

    BeautifulSoup(參數一,參數二)

    參數一為文件描述符,參數二為解析器,一般為’lxml’

    一對象的實例化:

    1.將本地的html文檔中的數據加載到該對象中

    fp = open( './test.html','r',encoding='utf-8')
    soup=BeautifulSoup(fp,'lxml')

    2.將互聯網上獲取的頁面源碼加載到該對象中

    page_text =response.text
    soup=BeatifulSoup(page_text,'lxml')

    soup指初始化的BeautifulSoup對象

    用于數據解析的方法和屬性:

    1.soup.tagName:返回的是文檔中第一次出現的tagName對應的標簽

    2.soup.find():

    (1).find( ‘tagName’):等同于soup.tagName

    (2).屬性定位:soup.find(‘div’,class_/id/或者其他屬性=‘song’)

    定位到< div class=“song”>/< div id=“song”>的標簽下

    class如果沒有加_則代表關鍵字

    3.soup.find_all(&lsquo;tagName&rsquo;):返回符合要求的所有標簽(列表)

    soup對象:
    
    <div class="tang">
        <ul>
            <li><a href="http://www.baidu.com" rel="external nofollow"  title= "ging">清明時節(jié)雨紛紛,路上行人欲斷魂,借問酒家何處有,牧童遙指杏花村</a></1i>
            <li><a href="http://www.163.com" rel="external nofollow"  title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a></1i>
            <li><a href=" http://ww.126.com" rel="external nofollow" alt="qi ">歧王宅里尋常見,崔九堂前幾度聞,正是江南好風景,落花時節(jié)又逢君</a></li>
            <li><a href="http: //www.sina.com" rel="external nofollow"  class="du">杜甫</a></li>
            <li><a href="http://www.dudu.com" rel="external nofollow"  class="du">杜牧</a></li>
            <li><b>杜小月</b></li>
            <li><i>度蜜月</i></li>
            <li><a href="http://ww.hana.com”id=" rel="external nofollow" feng">鳳凰臺上鳳凰游,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a></li>
        </ul>
    </div>

    4.select:

    - select(&lsquo;某種選擇器(id,class,標簽&hellip;選擇器)&rsquo;),返回的是一個列表。

    標簽什么都不加,class前面加. id前面加#

    層級選擇器:

    >表示的是一個層級;空格表示的多個層級

         soup.select( '.tang > ul > li > a') 
         soup.select( '.tang >ul a')
         結果為:[<a href="http://www.baidu.com" title= "ging">清明時節(jié)雨紛紛,路上行人欲斷魂,借問酒家何處有,牧童遙指杏花村</a>,
         <a href="http://www.163.com" title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a>,
         <a href=" http://ww.126.com"alt="qi ">歧王宅里尋常見,崔九堂前幾度聞,正是江南好風景,落花時節(jié)又逢君</a>,
         <a href="http: //www.sina.com" class="du">杜甫</a>,
         <a href="http://www.dudu.com" class="du">杜牧</a>,
        <a href="http://ww.hana.com”id="feng">鳳凰臺上鳳凰游,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a>]

    5.獲取標簽之間的文本數據:

    -soup.a.text/string/get_text()

    -text/get_text():可以獲取某一個標簽中所有的文本內容

    -string:只可以獲取該標簽下面直系的文本內容

    6.獲取標簽中屬性值:

    soup.a[&lsquo;屬性值&rsquo;]

    print(soup.select( '.tang > ul > li > a') [0]['href'])
    結果:
    www.baidu.com

    xpath解析

    最常用且最便捷高效的一種解析方式。通用性。

    xpath解析原理:

    1.實例化一個etree的對象,且需要將被解析的頁面源碼數據加載到該對象中。

    2調用etree對象中的xpath方法結合著xpath表達式實現標簽的定位和內容的捕獲。

    實例化一個etree對象:

    from lxml import etree

    -1.將本地的html文檔中的源碼數據加載到etree對象中:

    etree.parse(filePath)

    -2.可以將從互聯網上獲取的源碼數據加載到該對象中

    etree.HTML( 'page_text')

    xpath( &lsquo;xpath表達式&rsquo;)

    xpath表達式:(返回一個列表)

    -/:表示的是從根節(jié)點開始定位。表示的是一個層級。

    -//:表示的是多個層級??梢员硎緩娜我馕恢瞄_始定位。

    -屬性定位://div[@class=&lsquo;song&rsquo;] tag[@attrname=&lsquo;attrvalue&rsquo;]

    -索引定位://div[@class=&lsquo;song&rsquo;]/p[3]

    索引從1開始的

    取文本:

    • /text()獲取的是標簽中直系的文本內容

    • //text(標簽中非直系的文本內容(所有的文本內容)

    取屬性:

    • /@attrName

    • eg:/img/@src

    • ./表示定位到當前位置(局部解析)

    多個xpath之間用|分割:

    • tree.xpath(&rsquo;//div[@class=&lsquo;song&rsquo;]/p[3] | //div[@class=&lsquo;song&rsquo;]&rsquo;)

    感謝各位的閱讀!關于“python中bs4解析和xpath解析的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

    向AI問一下細節(jié)

    免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

    AI