溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

urllib和BeautifulSoup爬取維基百科的詞條簡單實(shí)例

發(fā)布時(shí)間:2020-08-19 15:41:58 來源:腳本之家 閱讀:299 作者:powerpoint_2016 欄目:開發(fā)技術(shù)

本文實(shí)例主要實(shí)現(xiàn)的是使用urllib和BeautifulSoup爬取維基百科的詞條,具體如下。

簡潔代碼:

#引入開發(fā)包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#請求URL并把結(jié)果用UTF-8編碼
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#獲取所有以/wiki/開頭的a標(biāo)簽的href屬性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#輸出所有詞條對應(yīng)的名稱和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

運(yùn)行結(jié)果:

urllib和BeautifulSoup爬取維基百科的詞條簡單實(shí)例

總結(jié)

總的來說,Python是簡潔而又強(qiáng)大的,調(diào)用幾個(gè)庫,就能實(shí)現(xiàn)其他語言一大堆代碼才能實(shí)現(xiàn)的功能。

以上就是本文關(guān)于urllib和BeautifulSoup爬取維基百科的詞條簡單實(shí)例的全部內(nèi)容,希望對大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支持!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI