您好,登錄后才能下訂單哦!
Beautiful Soup 是一個可以從 HTML 或 XML 格式文件中提取數(shù)據(jù)的 Python 庫,他可以將HTML 或 XML 數(shù)據(jù)解析為Python 對象,以方便通過Python代碼進行處理。
Beautiful Soup 的基本功能就是對HTML的標(biāo)簽進行查找及編輯。
Beautiful Soup 將復(fù)雜 HTML 文檔轉(zhuǎn)換成一個復(fù)雜的樹形結(jié)構(gòu),每個節(jié)點都被轉(zhuǎn)換成一個Python 對象,Beautiful Soup將這些對象定義了4 種類型: Tag、NavigableString、BeautifulSoup、Comment 。
對象類型 | 描述 |
---|---|
BeautifulSoup | 文檔的全部內(nèi)容 |
Tag | HTML的標(biāo)簽 |
NavigableString | 標(biāo)簽包含的文字 |
Comment | 是一種特殊的NavigableString類型,當(dāng)標(biāo)簽中的NavigableString 被注釋時,則定義為該類型 |
# Beautiful Soup
pip install bs4
# 解析器
pip install lxml
pip install html5lib
# 初始化
from bs4 import BeautifulSoup
# 方法一,直接打開文件
soup = BeautifulSoup(open("index.html"))
# 方法二,指定數(shù)據(jù)
resp = "<html>data</html>"
soup = BeautifulSoup(resp, 'lxml')
# soup 為 BeautifulSoup 類型對象
print(type(soup))
標(biāo)簽搜索有find_all() 和find() 兩個基本的搜索方法,find_all() 方法會返回所有匹配關(guān)鍵字的標(biāo)簽列表,find()方法則只返回一個匹配結(jié)果。
soup = BeautifulSoup(resp, 'lxml')
# 返回一個標(biāo)簽名為"a"的Tag
soup.find("a")
# 返回所有tag 列表
soup.find_all("a")
## find_all方法可被簡寫
soup("a")
#找出所有以b開頭的標(biāo)簽
for tag in soup.find_all(re.compile("^b")):
print(tag.name)
#找出列表中的所有標(biāo)簽
soup.find_all(["a", "p"])
# 查找標(biāo)簽名為p,class屬性為"title"
soup.find_all("p", "title")
# 查找屬性id為"link2"
soup.find_all(id="link2")
# 查找存在屬性id的
soup.find_all(id=True)
#
soup.find_all(href=re.compile("elsie"), id='link1')
#
soup.find_all(attrs={"data-foo": "value"})
#查找標(biāo)簽文字包含"sisters"
soup.find(string=re.compile("sisters"))
# 獲取指定數(shù)量的結(jié)果
soup.find_all("a", limit=2)
# 自定義匹配方法
def has_class_but_no_id(tag):
return tag.has_attr('class') and not tag.has_attr('id')
soup.find_all(has_class_but_no_id)
# 僅對屬性使用自定義匹配方法
def not_lacie(href):
return href and not re.compile("lacie").search(href)
soup.find_all(href=not_lacie)
# 調(diào)用tag的 find_all() 方法時,Beautiful Soup會檢索當(dāng)前tag的所有子孫節(jié)點,如果只想搜索tag的直接子節(jié)點,可以使用參數(shù) recursive=False
soup.find_all("title", recursive=False)
find_parents() | 所有父輩節(jié)點 |
find_parent() | 第一個父輩節(jié)點 |
find_next_siblings() | 之后的所有兄弟節(jié)點 |
find_next_sibling() | 之后的第一個兄弟節(jié)點 |
find_previous_siblings() | 之前的所有兄弟節(jié)點 |
find_previous_sibling() | 之前的第一個兄弟節(jié)點 |
find_all_next() | 之后的所有元素 |
find_next() | 之后的第一個元素 |
find_all_previous() | 之前的所有元素 |
find_previous() | 之前的第一個元素 |
Beautiful Soup支持大部分的CSS選擇器 http://www.w3.org/TR/CSS2/selector.html, 在 Tag 或 BeautifulSoup 對象的 .select() 方法中傳入字符串參數(shù), 即可使用CSS選擇器的語法找到tag。
html_doc = """
<html>
<head>
<title>The Dormouse's story</title>
</head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">
Once upon a time there were three little sisters; and their names were
<a class="sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a>
and
<a class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.
</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc)
# 所有 a 標(biāo)簽
soup.select("a")
# 逐層查找
soup.select("body a")
soup.select("html head title")
# tag標(biāo)簽下的直接子標(biāo)簽
soup.select("head > title")
soup.select("p > #link1")
# 所有匹配標(biāo)簽之后的兄弟標(biāo)簽
soup.select("#link1 ~ .sister")
# 匹配標(biāo)簽之后的第一個兄弟標(biāo)簽
soup.select("#link1 + .sister")
# 根據(jù)calss類名
soup.select(".sister")
soup.select("[class~=sister]")
# 根據(jù)ID查找
soup.select("#link1")
soup.select("a#link1")
# 根據(jù)多個ID查找
soup.select("#link1,#link2")
# 根據(jù)屬性查找
soup.select('a[href]')
# 根據(jù)屬性值查找
soup.select('a[href^="http://example.com/"]')
soup.select('a[href$="tillie"]')
soup.select('a[href*=".com/el"]')
# 只獲取一個匹配結(jié)果
soup.select(".sister", limit=1)
# 只獲取一個匹配結(jié)果
soup.select_one(".sister")
soup = BeautifulSoup('<p class="body strikeout" id="1">Extremely bold</p><p class="body strikeout" id="2">Extremely bold2</p>')
# 獲取所有的 p標(biāo)簽對象
tags = soup.find_all("p")
# 獲取第一個p標(biāo)簽對象
tag = soup.p
# 輸出標(biāo)簽類型
type(tag)
# 標(biāo)簽名
tag.name
# 標(biāo)簽屬性
tag.attrs
# 標(biāo)簽屬性class 的值
tag['class']
# 標(biāo)簽包含的文字內(nèi)容,對象NavigableString 的內(nèi)容
tag.string
# 返回標(biāo)簽內(nèi)所有的文字內(nèi)容
for string in tag.strings:
print(repr(string))
# 返回標(biāo)簽內(nèi)所有的文字內(nèi)容, 并去掉空行
for string in tag.stripped_strings:
print(repr(string))
# 獲取到tag中包含的所有及包括子孫tag中的NavigableString內(nèi)容,并以Unicode字符串格式輸出
tag.get_text()
## 以"|"分隔
tag.get_text("|")
## 以"|"分隔,不輸出空字符
tag.get_text("|", strip=True)
tag.contents # 返回第一層子節(jié)點的列表
tag.children # 返回第一層子節(jié)點的listiterator 對象
for child in tag.children:
print(child)
tag.descendants # 遞歸返回所有子節(jié)點
for child in tag.descendants:
print(child)
tag.parent # 返回第一層父節(jié)點標(biāo)簽
tag.parents # 遞歸得到元素的所有父輩節(jié)點
for parent in tag.parents:
if parent is None:
print(parent)
else:
print(parent.name)
# 下一個兄弟元素
tag.next_sibling
# 當(dāng)前標(biāo)簽之后的所有兄弟元素
tag.next_siblings
for sibling in tag.next_siblings:
print(repr(sibling))
# 上一個兄弟元素
tag.previous_sibling
# 當(dāng)前標(biāo)簽之前的所有兄弟元素
tag.previous_siblings
for sibling in tag.previous_siblings:
print(repr(sibling))
Beautiful Soup中把每個tag定義為一個“element”,每個“element”,被自上而下的在HTML中排列,可以通過遍歷命令逐個顯示標(biāo)簽
# 當(dāng)前標(biāo)簽的下一個元素
tag.next_element
# 當(dāng)前標(biāo)簽之后的所有元素
for element in tag.next_elements:
print(repr(element))
# 當(dāng)前標(biāo)簽的前一個元素
tag.previous_element
# 當(dāng)前標(biāo)簽之前的所有元素
for element in tag.previous_elements:
print(repr(element))
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
tag.name = "blockquote"
tag['class'] = 'verybold'
tag['id'] = 1
tag.string = "New link text."
print(tag)
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
tag.string = "New link text."
soup = BeautifulSoup("<a>Foo</a>")
tag = soup.a
tag.append("Bar")
tag.contents
# 或者
new_string = NavigableString("Bar")
tag.append(new_string)
print(tag)
注釋是一個特殊的NavigableString 對象,所以同樣可以通過append() 方法進行添加。
from bs4 import Comment
soup = BeautifulSoup("<a>Foo</a>")
new_comment = soup.new_string("Nice to see you.", Comment)
tag.append(new_comment)
print(tag)
添加標(biāo)簽方法有兩種,一種是在指定標(biāo)簽的內(nèi)部添加(append方法),另一種是在指定位置添加(insert、insert_before、insert_after方法)
soup = BeautifulSoup("<b></b>")
tag = soup.b
new_tag = soup.new_tag("a", )
new_tag.string = "Link text."
tag.append(new_tag)
print(tag)
* insert方法,是指在當(dāng)前標(biāo)簽子節(jié)點列表的指定位置插入對象(Tag或NavigableString)
```python
html = '<b><a >I linked to <i>example.com</i></a></b>'
soup = BeautifulSoup(html)
tag = soup.a
tag.contents
tag.insert(1, "but did not endorse ")
tag.contents
html = '<b><a >I linked to <i>example.com</i></a></b>'
soup = BeautifulSoup(html)
tag = soup.new_tag("i")
tag.string = "Don't"
soup.b.insert_before(tag)
soup.b
* wrap() 和 unwrap()可以對指定的tag元素進行包裝或解包,并返回包裝后的結(jié)果。
```python
# 添加包裝
soup = BeautifulSoup("<p>I wish I was bold.</p>")
soup.p.string.wrap(soup.new_tag("b"))
#輸出 <b>I wish I was bold.</b>
soup.p.wrap(soup.new_tag("div"))
#輸出 <div><p><b>I wish I was bold.</b></p></div>
# 拆解包裝
markup = '<a >I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a
a_tag.i.unwrap()
a_tag
#輸出 <a >I linked to example.com</a>
html = '<b><a >I linked to <i>example.com</i></a></b>'
soup = BeautifulSoup(html)
# 清楚當(dāng)前標(biāo)簽的所有子節(jié)點
soup.b.clear()
# 將當(dāng)前標(biāo)簽及所有子節(jié)點從soup 中移除,返回當(dāng)前標(biāo)簽。
b_tag=soup.b.extract()
b_tag
soup
# 將當(dāng)前標(biāo)簽及所有子節(jié)點從soup 中移除,無返回。
soup.b.decompose()
# 將當(dāng)前標(biāo)簽替換為指定的元素
tag=soup.i
new_tag = soup.new_tag("p")
new_tag.string = "Don't"
tag.replace_with(new_tag)
# 格式化輸出
tag.prettify()
tag.prettify("latin-1")
使用Beautiful Soup解析后,文檔都被轉(zhuǎn)換成了Unicode,其使用了“編碼自動檢測”子庫來識別當(dāng)前文檔編碼并轉(zhuǎn)換成Unicode編碼。
soup = BeautifulSoup(html)
soup.original_encoding
# 也可以手動指定文檔的編碼
soup = BeautifulSoup(html, from_encoding="iso-8859-8")
soup.original_encoding
# 為提高“編碼自動檢測”的檢測效率,也可以預(yù)先排除一些編碼
soup = BeautifulSoup(markup, exclude_encodings=["ISO-8859-7"])
Beautiful Soup目前支持, “l(fā)xml”, “html5lib”, 和 “html.parser”
soup=BeautifulSoup("<a><b /></a>")
soup
#輸出: <html><body><a><b></b></a></body></html>
soup=BeautifulSoup("<a></p>", "lxml")
soup
#輸出: <html><body><a></a></body></html>
soup=BeautifulSoup("<a></p>", "html5lib")
soup
#輸出: <html><head></head><body><a><p></p></a></body></html>
soup=BeautifulSoup("<a></p>", "html.parser")
soup
#輸出: <a></a>
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。