溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

python爬蟲獲取新浪新聞教學(xué)

發(fā)布時(shí)間:2020-09-16 21:43:05 來源:腳本之家 閱讀:388 作者:wang_yubin92 欄目:開發(fā)技術(shù)

一提到python,大家經(jīng)常會(huì)提到爬蟲,爬蟲近來興起的原因我覺得主要還是因?yàn)榇髷?shù)據(jù)的原因,大數(shù)據(jù)導(dǎo)致了我們的數(shù)據(jù)不在只存在于自己的服務(wù)器,而python語言的簡(jiǎn)便也成了爬蟲工具的首要語言,我們這篇文章來講下爬蟲,爬取新浪新聞

1、

大家知道,爬蟲實(shí)際上就是模擬瀏覽器請(qǐng)求,然后把請(qǐng)求到的數(shù)據(jù),經(jīng)過我們的分析,提取出我們想要的內(nèi)容,這也就是爬蟲的實(shí)現(xiàn)
大家知道,爬蟲實(shí)際上就是模擬瀏覽器請(qǐng)求,然后把請(qǐng)求到的數(shù)據(jù),經(jīng)過我們的分析,提取出我們想要的內(nèi)容,這也就是爬蟲的實(shí)現(xiàn)

2、首先,我們要寫爬蟲,可以借鑒一些工具,我們先從簡(jiǎn)單的入門,首先說到請(qǐng)求,我們就會(huì)想到python中,非常好用的requests,然后說到分析解析就會(huì)用到bs4,然后我們可以直接用pip命令來實(shí)現(xiàn)安裝,假如安裝的是python3,也可以用pip3

python爬蟲獲取新浪新聞教學(xué)

3、安裝好這兩個(gè)類庫(kù)之后,然后我們就可以先請(qǐng)求數(shù)據(jù),查看下新聞的內(nèi)容,這個(gè)時(shí)候我們有可能看到的是亂碼

python爬蟲獲取新浪新聞教學(xué)

4、怎么處理亂碼呢?我們可以拿瀏覽器打開網(wǎng)頁(yè),右鍵查看網(wǎng)頁(yè)源代碼,我們可以看到編碼格式為utf-8

python爬蟲獲取新浪新聞教學(xué)

python爬蟲獲取新浪新聞教學(xué)

5、然后我們?cè)谳敵龅臅r(shí)候添加編碼格式,就可以查看到正確編碼的數(shù)據(jù)了

python爬蟲獲取新浪新聞教學(xué)

6、拿到數(shù)據(jù)之后,我們需要先分析數(shù)據(jù),看我們想要的數(shù)據(jù)在哪里,我們打開瀏覽器,右鍵審查,然后按示例圖操作,就可以看到我們新聞所在的標(biāo)簽,假如是windows系統(tǒng),選擇開發(fā)中工具里面一樣

python爬蟲獲取新浪新聞教學(xué)

python爬蟲獲取新浪新聞教學(xué)

7、我們知道屬于哪個(gè)標(biāo)簽之后,就是用bs4來解析拿到我們想要的數(shù)據(jù)了

python爬蟲獲取新浪新聞教學(xué)

8、我們想要拿到新聞的具體標(biāo)題,時(shí)間,地址,就需要我們?cè)趯?duì)元素進(jìn)行深入的解析,我們還是按之前的方法,找到標(biāo)題所在的標(biāo)簽

python爬蟲獲取新浪新聞教學(xué)

9、然后我們編寫標(biāo)題時(shí)間地址的python程序,就可以爬取出對(duì)應(yīng)的標(biāo)題內(nèi)容,時(shí)間和地址

python爬蟲獲取新浪新聞教學(xué)

10、

簡(jiǎn)單的python爬取新聞就講到這里啦

 總結(jié):以上就是關(guān)于Python爬蟲獲取新浪新聞內(nèi)容的步驟,感謝大家的的閱讀和對(duì)億速云的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI