溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

Python 通過(guò)requests實(shí)現(xiàn)騰訊新聞抓取爬蟲(chóng)的方法

發(fā)布時(shí)間:2020-09-09 08:46:36 來(lái)源:腳本之家 閱讀:208 作者:無(wú)緣浪子黨 欄目:開(kāi)發(fā)技術(shù)

最近也是學(xué)習(xí)了一些爬蟲(chóng)方面的知識(shí)。以我自己的理解,通常我們用瀏覽器查看網(wǎng)頁(yè)時(shí),是通過(guò)瀏覽器向服務(wù)器發(fā)送請(qǐng)求,然后服務(wù)器響應(yīng)以后返回一些代碼數(shù)據(jù),再經(jīng)過(guò)瀏覽器解析后呈現(xiàn)出來(lái)。而爬蟲(chóng)則是通過(guò)程序向服務(wù)器發(fā)送請(qǐng)求,并且將服務(wù)器返回的信息,通過(guò)一些處理后,就能得到我們想要的數(shù)據(jù)了。

以下是前段時(shí)間我用python寫(xiě)的一個(gè)爬取TX新聞標(biāo)題及其網(wǎng)址的一個(gè)簡(jiǎn)單爬蟲(chóng):

首先需要用到python中requests(方便全面的http請(qǐng)求庫(kù))和 BeautifulSoup(html解析庫(kù))。

通過(guò)pip來(lái)安裝這兩個(gè)庫(kù),命令分別是:pip install requests 和 pip install bs4 (如下圖)

Python 通過(guò)requests實(shí)現(xiàn)騰訊新聞抓取爬蟲(chóng)的方法

先放上完整的代碼

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 請(qǐng)求騰訊新聞的URL,獲取其text文本
wbdata = requests.get(url).text
# 對(duì)獲取到的文本進(jìn)行解析
soup = BeautifulSoup(wbdata,'lxml')
# 從解析文件中通過(guò)select選擇器定位指定的元素,返回一個(gè)列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 對(duì)返回的列表進(jìn)行遍歷
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標(biāo)題':title,
    '鏈接':link
  }
  print(data)

首先引入上述兩個(gè)庫(kù)

import requests
from bs4 import BeautifulSoup

然后get請(qǐng)求騰訊新聞網(wǎng)url,返回的字符串實(shí)質(zhì)上就是我們手動(dòng)打開(kāi)這個(gè)網(wǎng)站,然后查看網(wǎng)頁(yè)源代碼所看到的html代碼。

wbdata = requests.get(url).text

我們需要的僅僅是某些特定標(biāo)簽里的內(nèi)容:

Python 通過(guò)requests實(shí)現(xiàn)騰訊新聞抓取爬蟲(chóng)的方法

Python 通過(guò)requests實(shí)現(xiàn)騰訊新聞抓取爬蟲(chóng)的方法

可以看出,每條新聞鏈接、標(biāo)題都在<div class="text">標(biāo)簽的<em class="f14 124">標(biāo)簽下

之后我們將剛剛請(qǐng)求得到的html代碼進(jìn)行處理,這時(shí)候就需要用到BeautifulSoap庫(kù)了

soup = BeautifulSoup(wbdata,'lxml')

這一行的意思是對(duì)獲取的信息進(jìn)行解析處理,也可以將lxml庫(kù)換成html.parser庫(kù),效果是相同的

news_titles = soup.select("div.text > em.f14 > a.linkto")

這一行是利用剛剛經(jīng)過(guò)解析獲取的soup對(duì)象,選擇我們需要的標(biāo)簽,返回值是一個(gè)列表。列表中存放了我們需要的所有標(biāo)簽內(nèi)容。也可以使用BeautifulSoup中的find()方法或findall()方法來(lái)對(duì)標(biāo)簽進(jìn)行選擇。

最后用 for in 對(duì)列表進(jìn)行遍歷,分別取出標(biāo)簽中的內(nèi)容(新聞標(biāo)題)和標(biāo)簽中href的值(新聞網(wǎng)址),存放在data字典中

for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標(biāo)題':title,
    '鏈接':link
  }

data存放的就是所有的新聞標(biāo)題和鏈接了,下圖是部分結(jié)果

Python 通過(guò)requests實(shí)現(xiàn)騰訊新聞抓取爬蟲(chóng)的方法

這樣一個(gè)爬蟲(chóng)就完成了,當(dāng)然這只是一個(gè)最簡(jiǎn)單的爬蟲(chóng)。深入爬蟲(chóng)的話(huà)還有許多模擬瀏覽器行為、安全問(wèn)題、效率優(yōu)化、多線(xiàn)程等等需要考慮,不得不說(shuō)爬蟲(chóng)是一個(gè)很深的坑。

python中爬蟲(chóng)可以通過(guò)各種庫(kù)或者框架來(lái)完成,requests只是比較常用的一種而已。其他語(yǔ)言中也會(huì)有許多爬蟲(chóng)方面的庫(kù),例如php可以使用curl庫(kù)。爬蟲(chóng)的原理都是一樣的,只是用不同語(yǔ)言、不同庫(kù)來(lái)實(shí)現(xiàn)的方法不一樣。

以上這篇Python 通過(guò)requests實(shí)現(xiàn)騰訊新聞抓取爬蟲(chóng)的方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持億速云。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI