溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)

發(fā)布時(shí)間:2021-09-09 10:42:50 來(lái)源:億速云 閱讀:341 作者:chen 欄目:大數(shù)據(jù)

這篇文章主要介紹“怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)”,在日常操作中,相信很多人在怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!


 

準(zhǔn)備

IDE:PyCharm
庫(kù):requests、lxml

注:
requests:獲取網(wǎng)頁(yè)源代碼
lxml:得到網(wǎng)頁(yè)源代碼中的指定數(shù)據(jù)

 

搭建環(huán)境

這里的搭建環(huán)境,可不是搭建python的開(kāi)發(fā)環(huán)境,這里的搭建環(huán)境是指,我們使用pycharm新建一個(gè)python項(xiàng)目,然后弄好requests和lxml
新建一個(gè)項(xiàng)目:

怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)

 
依賴庫(kù)導(dǎo)入

由于我們使用的是pycharm,所以我們導(dǎo)入這兩個(gè)庫(kù)就會(huì)顯的格外簡(jiǎn)單

import requests
 

這個(gè)時(shí)候,requests會(huì)報(bào)紅線,這時(shí)候,我們將光標(biāo)對(duì)準(zhǔn)requests,按快捷鍵:alt + enter,pycharm會(huì)給出解決之道,這時(shí)候,選擇install package requests,pycharm就會(huì)自動(dòng)為我們安裝了,我們只需要稍等片刻,這個(gè)庫(kù)就安裝好了。lxml的安裝方式同理.

怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)

 

獲取網(wǎng)頁(yè)源代碼

之前我就說(shuō)過(guò),requests可以很方便的讓我們得到網(wǎng)頁(yè)的源代碼
網(wǎng)頁(yè)就拿我的博客地址舉例好了:https://coder-lida.github.io/

獲取源碼:

# 獲取源碼
html = requests.get("https://coder-lida.github.io/")
# 打印源碼
print html.text
 

代碼就是這么簡(jiǎn)單,這個(gè)html.text便是這個(gè)URL的源碼

完整代碼:

import  requests
import lxml

html = requests.get("https://coder-lida.github.io/")
print (html.text)
 


打?。?/p>

怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)

 
獲取指定數(shù)據(jù)

現(xiàn)在我們已經(jīng)得到網(wǎng)頁(yè)源碼了,這時(shí)就需要用到lxml來(lái)來(lái)篩選出我們所需要的信息
這里我就以得到我博客列表為例,可以找到原網(wǎng)頁(yè)通過(guò)F12查看XPath,如圖

怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)

通過(guò)XPath的語(yǔ)法獲得網(wǎng)頁(yè)的內(nèi)容。

查看第一篇文章標(biāo)題

//*[@id="layout-cart"]/div[1]/a/@title
 

// 定位根節(jié)點(diǎn)
/ 往下層尋找
提取文本內(nèi)容:/text()
提取屬性內(nèi)容:/@xxxx

import  requests
from lxml import etree

html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')
print(content)
 

查看所有文章標(biāo)題

//*[@id="layout-cart"]/div/a/@title
 

代碼:

import  requests
from lxml import etree

html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')
print(content)
 

輸出:

[' springboot逆向工程 ', ' 自己實(shí)現(xiàn)一個(gè)簡(jiǎn)單版的HashMap ', ' 開(kāi)發(fā)中常用的 25 個(gè)JavaScript 單行代碼 ', ' shiro 加密登錄 密碼加鹽處理 ', ' Spring Boot構(gòu)建RESTful API與單元測(cè)試  ', ' 記一次jsoup的使用 ']

怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)

到此,關(guān)于“怎么用Python爬取網(wǎng)頁(yè)的數(shù)據(jù)”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI