溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python解釋為什么百度已死

發(fā)布時(shí)間：2020-09-21 09:45:07 來源：億速云閱讀：169 作者：Leah 欄目：編程語言

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)Python解釋為什么百度已死，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

Python3爬蟲百度一下，坑死你？

一、寫在前面

這個(gè)標(biāo)題是借用的路人甲大佬的一篇文章的標(biāo)題（百度一下，坑死你），而且這次的爬蟲也是看了這篇文章后才寫出來的，感興趣的可以先看下這篇文章。

前段時(shí)間有篇文章《搜索引擎百度已死》引起了很多討論，而百度對(duì)此的回復(fù)是：百家號(hào)的內(nèi)容在百度搜索結(jié)果中不超過10%。但是這個(gè)10%是第一頁的10%還是所有數(shù)據(jù)的10%，我們不得而知，但是由于很多人都只會(huì)看第一頁的內(nèi)容，而如果這第一頁里有十分之一的內(nèi)容都來自于百家號(hào)，那搜索體驗(yàn)恐怕不怎么好吧？然后我這次寫的爬蟲就是把百度上面的熱搜事件都搜索一下，然后把搜索結(jié)果的第一頁上的標(biāo)題鏈接提取出來，最后對(duì)這些鏈接進(jìn)行一些簡單的分析，看看百家號(hào)的內(nèi)容占比能有多少。

二、具體步驟

1.頁面分析

首先打開網(wǎng)頁查看百度的熱點(diǎn)事件，頁面如下：

Python解釋為什么百度已死

這次我主要對(duì)今日熱點(diǎn)、娛樂熱點(diǎn)、體育熱點(diǎn)進(jìn)行了爬取，每個(gè)熱點(diǎn)下面有50條熱點(diǎn)事件，然后對(duì)每個(gè)事件進(jìn)行搜索，比如第一條--馬云的福字：

Python解釋為什么百度已死

可以看到搜索結(jié)果的第一頁上有很多標(biāo)題，然后對(duì)這些標(biāo)題的鏈接進(jìn)行爬取，再保存到一個(gè)txt文件里，最后對(duì)這些數(shù)據(jù)進(jìn)行分析。

2.主要代碼

（1）獲取真實(shí)鏈接

這些搜索結(jié)果頁面上的鏈接都是經(jīng)過加密的，如下圖：

Python解釋為什么百度已死

所以我們爬取得到的鏈接都是http://www.baidu.com/link?url=VfA2jxmqJdYt1U-G0wHjWIXglVEi-WCxpa8aaMCeOzkqK-c5CgYngPiJT6_-kmWE3ePTHCpgYlX5oq9SQDJgEukKCY19o26JlS1pEIgnlupbw0Ss9Ro3gQjYVuJljdxyBPfiDUJhM9ODV_0mKnrUhESJ95Az1OnB6mMScmCXiUi這種，但是我們點(diǎn)進(jìn)去之后就能得到真實(shí)的鏈接https://www.baidu.com/s?tn=news&rtt=1&bsst=1&wd=%E9%A9%AC%E4%BA%91%E7%9A%84%E7%A6%8F%E5%AD%97&cl=2&origin=ps，那我們要怎么得到真實(shí)的鏈接呢？相關(guān)代碼如下：

def get_real_url(self, fake_url):
    # 獲取真實(shí)的鏈接
    try:
        res = requests.get(fake_url, headers=self.headers)
        real_url = res.url
    except Exception as e:
        print(e)

（2）數(shù)據(jù)處理

這里我總共爬取了1051條鏈接，如下圖：

Python解釋為什么百度已死

但是這樣的數(shù)據(jù)是明顯沒有辦法進(jìn)行分析的，所以需要進(jìn)行一下處理，比如將https://baijiahao.baidu.com/s?id=1624053575252859170&wfr=spider&for=pc變成baijiahao.baidu，相關(guān)代碼如下：

href = "https://baijiahao.baidu.com/s?id=1624053575252859170&wfr=spider&for=pc"
match = re.match("(http[s]?://.+?[com,cn,net]/)", href) 
href = match.group()
href = href.replace('cn', 'com').replace('net', 'com')
href = href[href.index(':') + 3:].rstrip('.com/')
print(href)
# baijiahao.baidu

（3）數(shù)據(jù)分析

這里主要使用了matplotlib繪圖幫助我們分析數(shù)據(jù)。首先需要統(tǒng)計(jì)出各個(gè)網(wǎng)站出現(xiàn)的次數(shù)，然后進(jìn)行一個(gè)排序，得到排名前十的網(wǎng)站，結(jié)果如下（前面是網(wǎng)站，后面是出現(xiàn)次數(shù)）：

https://baijiahao.baidu.com/  188
https://www.baidu.com/  114
http://www.sohu.com/  60
https://news.china.com/  29
http://www.guangyuanol.cn/  27
http://image.baidu.com/ 24
http://3g.163.com/  20
https://sports.qq.com/  19
https://www.iqiyi.com/ 17
https://baike.baidu.com/  17

可以看到百家號(hào)出現(xiàn)的次數(shù)是最多的。然后進(jìn)行繪圖分析，這里主要是繪圖的代碼，因?yàn)槭褂玫氖前俜謹(jǐn)?shù)，所以在繪圖的時(shí)候會(huì)稍微麻煩一點(diǎn)：

def plot(self, index_list, value_list):
   b = self.ax.barh(range(len(index_list)), value_list, color='blue', height=0.8)
   # 添加數(shù)據(jù)標(biāo)簽
    for rect in b:
        w = rect.get_width()
        self.ax.text(w, rect.get_y() + rect.get_height() / 2, '{}%'.format(w),
                     ha='left', va='center')
    # 設(shè)置Y軸刻度線標(biāo)簽
    self.ax.set_yticks(range(len(index_list)))
    self.ax.set_yticklabels(index_list)
    # 設(shè)置X軸刻度線
    lst = ["{}%".format(i) for i in range(0, 20, 2)]
    self.ax.set_xticklabels(lst)

    plt.subplots_adjust(left=0.25)
    plt.xlabel("占比")
    plt.ylabel("網(wǎng)站")
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.savefig("bjh.jpg")
    print("已保存為bjh.jpg！")

三、運(yùn)行結(jié)果

由于每個(gè)事件的搜索結(jié)果都是不同的，所以在解析網(wǎng)頁的時(shí)候可能會(huì)出錯(cuò)，然后就是請(qǐng)求頻率太高了會(huì)被ban掉，而且有時(shí)候UA會(huì)被識(shí)別出來然后就被ban掉了，運(yùn)行情況如下圖：

Python解釋為什么百度已死

最后看一下繪制出來的圖片：

Python解釋為什么百度已死

可以看到百家號(hào)的內(nèi)容占比達(dá)到了17%，而排在第二的也是百度自家的產(chǎn)品，內(nèi)容占比也達(dá)到了10%。當(dāng)然了，由于搜索的都是百度上的熱搜事件，所以得到的結(jié)果百度自家的內(nèi)容會(huì)多一點(diǎn)，但是光百家號(hào)的內(nèi)容就占了17%，是不是也太多了點(diǎn)呢？

上述就是小編為大家分享的Python解釋為什么百度已死了，如果剛好有類似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Python的hashlib模塊
下一篇新聞：
網(wǎng)紅編程語言Python將納入高考你怎么看?

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<ul id="mzacw"><kbd id="mzacw"></kbd></ul>