<output id="uvf8b"></output>

<thead id="uvf8b"><kbd id="uvf8b"><nav id="uvf8b"></nav></kbd></thead>

<wbr id="uvf8b"></wbr>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python2爬蟲中爬取糗事百科段子的案例分析

發(fā)布時(shí)間：2020-08-06 09:39:49 來源：億速云閱讀：175 作者：小新欄目：編程語言

這篇文章給大家分享的是有關(guān)Python2爬蟲中爬取糗事百科段子的案例分析的內(nèi)容。小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考。一起跟隨小編過來看看吧。

首先，糗事百科大家都聽說過吧？糗友們發(fā)的搞笑的段子一抓一大把，這次我們嘗試一下用爬蟲把他們抓取下來。

本篇目標(biāo)

1.抓取糗事百科熱門段子；
2.過濾帶有圖片的段子；
3.實(shí)現(xiàn)每按一次回車顯示一個(gè)段子的發(fā)布時(shí)間，發(fā)布人，段子內(nèi)容，點(diǎn)贊數(shù)。

糗事百科是不需要登錄的，所以也沒必要用到Cookie，另外糗事百科有的段子是附圖的，我們把圖抓下來圖片不便于顯示，那么我們就嘗試過濾掉有圖的段子吧。

好，現(xiàn)在我們嘗試抓取一下糗事百科的熱門段子吧，每按下一次回車我們顯示一個(gè)段子。

1.確定URL并抓取頁(yè)面代碼

首先我們確定好頁(yè)面的URL是 http://www.qiushibaike.com/hot/page/1，其中最后一個(gè)數(shù)字1代表頁(yè)數(shù)，我們可以傳入不同的值來獲得某一頁(yè)的段子內(nèi)容。

我們初步構(gòu)建如下的代碼來打印頁(yè)面代碼內(nèi)容試試看，先構(gòu)造最基本的頁(yè)面抓取方式，看看會(huì)不會(huì)成功。

# -*- coding:utf-8 -*-
import urllib
import urllib2
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
try:
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

運(yùn)行程序，哦不，它竟然報(bào)錯(cuò)了，真是時(shí)運(yùn)不濟(jì)，命途多舛啊。

line 373, in _read_status
 raise BadStatusLine(line)
httplib.BadStatusLine: ''

好吧，應(yīng)該是headers驗(yàn)證的問題，我們加上一個(gè)headers驗(yàn)證試試看吧，將代碼修改如下：

# -*- coding:utf-8 -*-
import urllib
import urllib2
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

嘿嘿，這次運(yùn)行終于正常了，打印出了第一頁(yè)的HTML代碼，大家可以運(yùn)行下代碼試試看。在這里運(yùn)行結(jié)果太長(zhǎng)就不貼了。

2.提取某一頁(yè)的所有段子

好，獲取了HTML代碼之后，我們開始分析怎樣獲取某一頁(yè)的所有段子。

首先我們審查元素看一下，按瀏覽器的F12，截圖如下：

Python2爬蟲中爬取糗事百科段子的案例分析

我們可以看到，每一個(gè)段子都是<div class=”article block untagged mb15″ id=”…”>…</div>包裹的內(nèi)容。

現(xiàn)在我們想獲取發(fā)布人，發(fā)布日期，段子內(nèi)容，以及點(diǎn)贊的個(gè)數(shù)。不過另外注意的是，段子有些是帶圖片的，如果我們想在控制臺(tái)顯示圖片是不現(xiàn)實(shí)的，所以我們直接把帶有圖片的段子給它剔除掉，只保存僅含文本的段子。

所以我們加入如下正則表達(dá)式來匹配一下，用到的方法是 re.findall 是找尋所有匹配的內(nèi)容。方法的用法詳情可以看前面說的正則表達(dá)式的介紹。

好，我們的正則表達(dá)式匹配語句書寫如下，在原來的基礎(chǔ)上追加如下代碼：

content = response.read().decode('utf-8')
pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
                         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">
                         (.*?)</i>',re.S)
items = re.findall(pattern,content)
for item in items:
    print item[0],item[1],item[2],item[3],item[4]

現(xiàn)在正則表達(dá)式在這里稍作說明

1）.*? 是一個(gè)固定的搭配，.和*代表可以匹配任意無限多個(gè)字符，加上？表示使用非貪婪模式進(jìn)行匹配，也就是我們會(huì)盡可能短地做匹配，以后我們還會(huì)大量用到 .*? 的搭配。

2）(.*?)代表一個(gè)分組，在這個(gè)正則表達(dá)式中我們匹配了五個(gè)分組，在后面的遍歷item中，item[0]就代表第一個(gè)(.*?)所指代的內(nèi)容，item[1]就代表第二個(gè)(.*?)所指代的內(nèi)容，以此類推。

3）re.S 標(biāo)志代表在匹配時(shí)為點(diǎn)任意匹配模式，點(diǎn) . 也可以代表?yè)Q行符。

這樣我們就獲取了發(fā)布人，發(fā)布時(shí)間，發(fā)布內(nèi)容，附加圖片以及點(diǎn)贊數(shù)。

在這里注意一下，我們要獲取的內(nèi)容如果是帶有圖片，直接輸出出來比較繁瑣，所以這里我們只獲取不帶圖片的段子就好了。

所以，在這里我們就需要對(duì)帶圖片的段子進(jìn)行過濾。

我們可以發(fā)現(xiàn)，帶有圖片的段子會(huì)帶有類似下面的代碼，而不帶圖片的則沒有，所以，我們的正則表達(dá)式的item[3]就是獲取了下面的內(nèi)容，如果不帶圖片，item[3]獲取的內(nèi)容便是空。

<div class="thumb">
<a href="/article/112061287?list=hot&amp;s=4794990" target="_blank">
<img src="http://pic.qiushibaike.com/system/pictures/11206/112061287/medium/app112061287.jpg" alt="但他們依然樂觀">
</a>
</div>

所以我們只需要判斷item[3]中是否含有img標(biāo)簽就可以了。

好，我們?cè)侔焉鲜龃a中的for循環(huán)改為下面的樣子

for item in items:
        haveImg = re.search("img",item[3])
        if not haveImg:
            print item[0],item[1],item[2],item[4]

現(xiàn)在，整體的代碼如下：

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
                         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">
                         (.*?)</i>',re.S)
    items = re.findall(pattern,content)
    for item in items:
        haveImg = re.search("img",item[3])
        if not haveImg:
            print item[0],item[1],item[2],item[4]
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

運(yùn)行一下看下效果：

Python2爬蟲中爬取糗事百科段子的案例分析

恩，帶有圖片的段子已經(jīng)被剔除啦。是不是很開森？

3.完善交互，設(shè)計(jì)面向?qū)ο竽Ｊ?/strong>

好啦，現(xiàn)在最核心的部分我們已經(jīng)完成啦，剩下的就是修一下邊邊角角的東西，我們想達(dá)到的目的是：

按下回車，讀取一個(gè)段子，顯示出段子的發(fā)布人，發(fā)布日期，內(nèi)容以及點(diǎn)贊個(gè)數(shù)。

另外我們需要設(shè)計(jì)面向?qū)ο竽Ｊ?，引入類和方法，將代碼做一下優(yōu)化和封裝，最后，我們的代碼如下所示：

__author__ = 'CQC'
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
import thread
import time
#糗事百科爬蟲類
class QSBK:
    #初始化方法，定義一些變量
    def __init__(self):
        self.pageIndex = 1
        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        #初始化headers
        self.headers = { 'User-Agent' : self.user_agent }
        #存放段子的變量，每一個(gè)元素是每一頁(yè)的段子們
        self.stories = []
        #存放程序是否繼續(xù)運(yùn)行的變量
        self.enable = False
    #傳入某一頁(yè)的索引獲得頁(yè)面代碼
    def getPage(self,pageIndex):
        try:
            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)
            #構(gòu)建請(qǐng)求的request
            request = urllib2.Request(url,headers = self.headers)
            #利用urlopen獲取頁(yè)面代碼
            response = urllib2.urlopen(request)
            #將頁(yè)面轉(zhuǎn)化為UTF-8編碼
            pageCode = response.read().decode('utf-8')
            return pageCode
        except urllib2.URLError, e:
            if hasattr(e,"reason"):
                print u"連接糗事百科失敗,錯(cuò)誤原因",e.reason
                return None
    #傳入某一頁(yè)代碼，返回本頁(yè)不帶圖片的段子列表
    def getPageItems(self,pageIndex):
        pageCode = self.getPage(pageIndex)
        if not pageCode:
            print "頁(yè)面加載失敗...."
            return None
        pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
                         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">
                         (.*?)</i>',re.S)
        items = re.findall(pattern,pageCode)
        #用來存儲(chǔ)每頁(yè)的段子們
        pageStories = []
        #遍歷正則表達(dá)式匹配的信息
        for item in items:
            #是否含有圖片
            haveImg = re.search("img",item[3])
            #如果不含有圖片，把它加入list中
            if not haveImg:
                replaceBR = re.compile('<br/>')
                text = re.sub(replaceBR,"\n",item[1])
                #item[0]是一個(gè)段子的發(fā)布者，item[1]是內(nèi)容，item[2]是發(fā)布時(shí)間,item[4]是點(diǎn)贊數(shù)
                pageStories.append([item[0].strip(),text.strip(),item[2].strip(),item[4].strip()])
        return pageStories
    #加載并提取頁(yè)面的內(nèi)容，加入到列表中
    def loadPage(self):
        #如果當(dāng)前未看的頁(yè)數(shù)少于2頁(yè)，則加載新一頁(yè)
        if self.enable == True:
            if len(self.stories) < 2:
                #獲取新一頁(yè)
                pageStories = self.getPageItems(self.pageIndex)
                #將該頁(yè)的段子存放到全局list中
                if pageStories:
                    self.stories.append(pageStories)
                    #獲取完之后頁(yè)碼索引加一，表示下次讀取下一頁(yè)
                    self.pageIndex += 1
    
    #調(diào)用該方法，每次敲回車打印輸出一個(gè)段子
    def getOneStory(self,pageStories,page):
        #遍歷一頁(yè)的段子
        for story in pageStories:
            #等待用戶輸入
            input = raw_input()
            #每當(dāng)輸入回車一次，判斷一下是否要加載新頁(yè)面
            self.loadPage()
            #如果輸入Q則程序結(jié)束
            if input == "Q":
                self.enable = False
                return
            print u"第%d頁(yè)\t發(fā)布人:%s\t發(fā)布時(shí)間:%s\t贊:%s\n%s" %(page,story[0],story[2],story[3],story[1])
    
    #開始方法
    def start(self):
        print u"正在讀取糗事百科,按回車查看新段子，Q退出"
        #使變量為True，程序可以正常運(yùn)行
        self.enable = True
        #先加載一頁(yè)內(nèi)容
        self.loadPage()
        #局部變量，控制當(dāng)前讀到了第幾頁(yè)
        nowPage = 0
        while self.enable:
            if len(self.stories)>0:
                #從全局list中獲取一頁(yè)的段子
                pageStories = self.stories[0]
                #當(dāng)前讀到的頁(yè)數(shù)加一
                nowPage += 1
                #將全局list中第一個(gè)元素刪除，因?yàn)橐呀?jīng)取出
                del self.stories[0]
                #輸出該頁(yè)的段子
                self.getOneStory(pageStories,nowPage)
spider = QSBK()
spider.start()

好啦，大家來測(cè)試一下吧，點(diǎn)一下回車會(huì)輸出一個(gè)段子，包括發(fā)布人，發(fā)布時(shí)間，段子內(nèi)容以及點(diǎn)贊數(shù)，是不是感覺爽爆了！

感謝各位的閱讀！關(guān)于Python2爬蟲中爬取糗事百科段子的案例分析就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

向AI問一下細(xì)節(jié)

推薦閱讀：

Python爬取糗事百科所有段子

如何使用python正則爬取某段子網(wǎng)站前20頁(yè)段子

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

python2 百科糗事

上一篇新聞：
批處理刪除遠(yuǎn)程連接記錄

下一篇新聞：
python表示次方的方法是什么

猜你喜歡

?香港服務(wù)器部署內(nèi)容采集業(yè)務(wù)的好處有哪些

電商平臺(tái)選擇美國(guó)服務(wù)器有哪些好處

搭建游戲服務(wù)端該如何選擇韓國(guó)服務(wù)器

美國(guó)服務(wù)器租用需要了解哪些問題

代購(gòu)網(wǎng)站選擇日本服務(wù)器的注意事項(xiàng)有哪些

怎么檢測(cè)美國(guó)服務(wù)器是否為cn2線路

韓國(guó)服務(wù)器速度慢的原因有哪些

使用美國(guó)服務(wù)器有哪些優(yōu)勢(shì)

租用美國(guó)服務(wù)器搭建視頻網(wǎng)站的注意事項(xiàng)有哪些

選擇香港服務(wù)器配置需要注意哪些方面

最新資訊

PHP日志記錄如何避免Log4j類似漏洞

PHP日志管理策略調(diào)整防范Log4j風(fēng)險(xiǎn)

Log4j事件對(duì)PHP日志安全的影響分析

PHP日志系統(tǒng)如何預(yù)防遠(yuǎn)程代碼執(zhí)行

PHP日志處理Log4j之外的安心之選

Log4j漏洞后PHP日志審計(jì)要點(diǎn)

PHP日志管理新方向：后Log4j時(shí)代

PHP項(xiàng)目如何確保日志安全非Log4j

PHP日志記錄策略調(diào)整應(yīng)對(duì)Log4j

Log4j漏洞啟示：PHP日志安全加固

相關(guān)推薦

python爬蟲爬取微博評(píng)論案例詳解

Python3爬蟲實(shí)戰(zhàn)中爬取小豬短租租房信息的案例分析

Python2爬蟲中爬取百度貼吧帖子的案例

Python項(xiàng)目實(shí)戰(zhàn):爬取糗事百科最熱門的內(nèi)涵搞笑段子

爬蟲及繞過網(wǎng)站反爬取機(jī)制的案例分析

Python爬蟲中獲取百科段子的案例

python爬蟲中如何爬取新聞

Python怎么批量爬取糗事百科短視頻

WeiboUserScrapy類爬蟲爬取爬蟲的示例分析

爬蟲中如何爬取網(wǎng)頁(yè)上的數(shù)據(jù)

相關(guān)標(biāo)簽

copyright pyqt4 pymongo python學(xué)習(xí)路線 python編程快速上手 python3.x spyder3 python序列 ipynb python包 python字符串 python 函數(shù) pyqt python庫(kù) python元組跟老韓學(xué)python pycharm激活 pywinauto pycharm安裝 pymssql

AI
助
手

產(chǎn)品服務(wù)

云服務(wù)器

高防服務(wù)器

高防IP

裸金屬服務(wù)器

機(jī)柜租用

SSL證書

高防CDN

彈性IP

地區(qū)劃分

中國(guó)香港服務(wù)器

美國(guó)服務(wù)器

德國(guó)服務(wù)器

日本服務(wù)器

韓國(guó)服務(wù)器

新加坡服務(wù)器

專題活動(dòng)

控制臺(tái)

應(yīng)用市場(chǎng)

最新活動(dòng)

九馬智能直播

幫助支持

幫助中心

網(wǎng)站備案

法律條款

全國(guó)服務(wù)

安全漏洞

主題地圖

關(guān)于我們

關(guān)于億速云

客戶案例

新聞資訊

資訊地圖

問答地圖

聯(lián)系我們

人才招聘

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

Copyright ? Yisu Cloud Ltd. All Rights Reserved. 2018 版權(quán)所有

廣州億速云計(jì)算有限公司粵ICP備17096448號(hào)-1 粵公網(wǎng)安備 44010402001142號(hào)增值電信業(yè)務(wù)經(jīng)營(yíng)許可證編號(hào)：B1-20181529

感谢您访问我们的网站，您可能还对以下资源感兴趣：
被侍卫玩的丫鬟高h