溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

發(fā)布時(shí)間:2021-09-27 13:35:42 來(lái)源:億速云 閱讀:1683 作者:小新 欄目:開發(fā)技術(shù)

這篇文章主要介紹了Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

前情提要

不知道用微信讀書的朋友多不多,這里順便安利一下哈。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

我目前看電子書的話基本都是在用微信讀書,畢竟無(wú)限卡真香。

在微信讀書上,不僅很多正版的Python書籍電子書可以直接看,還可以在閱讀的同時(shí)看別人寫的標(biāo)注。

但是無(wú)限卡對(duì)于小說(shuō)不太友好,只能閱讀開頭的章節(jié),后面的章節(jié)就需要變相付費(fèi)了。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

雖然知道番茄小說(shuō),七貓小說(shuō)這種都能免費(fèi)看,但是實(shí)在不愿意為了一部小說(shuō)再多下一個(gè)軟件。

幸虧微信讀書出了一個(gè)功能——可以自己上傳書籍,支持支持txt、pdf、epub格式。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

這就給了我一個(gè)想法,只需要將小說(shuō)下載到本地,再導(dǎo)入到微信讀書不就成了。

下載小說(shuō)方法賊簡(jiǎn)單,用Python也行,搜搜專門打包好的下載器也成。不過(guò)我記得兩年前剛學(xué)Python時(shí)自己練習(xí)寫過(guò)筆趣閣的爬蟲,這就翻出來(lái)用用。

爬取小說(shuō)

原來(lái)代碼是找到了,但是很尷尬,我爬取的那個(gè)網(wǎng)站404了。

不過(guò)目前筆趣閣遍地都是,也分不清到底誰(shuí)是“正版”的?

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

還有個(gè)比較好的消息,很多家連網(wǎng)頁(yè)模板都是一模一樣,你的爬蟲改改地址就能接著用了,這是妙啊。

于是乎,我又隨便找了一家“筆趣閣”。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

今天我們就以我吃西紅柿近期完結(jié)的滄元圖為例,可以看到在這個(gè)筆趣閣網(wǎng)站里,小說(shuō)滄元圖的網(wǎng)址url是

https://*********/html/2292/

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

同時(shí),《滄元圖》所有的章節(jié)也都羅列在本頁(yè)面。

我覺得先爬取所有的章節(jié)名和對(duì)應(yīng)的url網(wǎng)址,分別保存到列表中。然后再使用requests爬取,并依次寫入txt文檔中。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

網(wǎng)頁(yè)結(jié)構(gòu)并不復(fù)雜,也沒有反爬措施。大概20行代碼即可下載

for i, j in zip(urls, names):
    res_text = requests.get(url, headers=header).text
    zj_html = etree.HTML(res_text)
    texts = zj_html.xpath('//*[@id="content"]/text()')
    texts2 = zj_html.xpath('//*[@id="content"]/*/text()')
    text = '\n'.join(texts).strip()+'\n'.join(texts2).strip()

    with open('novels_n.txt', 'a', encoding='utf8') as f:
        f.write(f'{j} \n {text} \n')
        print(f'{novels_n}/{j},正在下載...')

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

這樣我們就爬取了小說(shuō)《滄元圖》,并將它保存成txt文檔。

通過(guò)\n使得章節(jié)名都與正文分割開。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

白嫖小說(shuō)

下面的步驟就更簡(jiǎn)單了,只需要在微信讀書的網(wǎng)頁(yè)版中,點(diǎn)擊【傳書到手機(jī)】,上傳剛剛爬取生成的《滄元圖》。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

導(dǎo)入成功。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

單擊【立即閱讀】,享受一下勞動(dòng)成果。

整體段落和文字都沒什么問(wèn)題。

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

再看一下章節(jié)目錄,也是按照正常的目錄進(jìn)行排版的。

非常完美!

Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Python如何爬取微信讀書實(shí)現(xiàn)讀書免費(fèi)自由”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI