溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何使用Python實(shí)現(xiàn)ComicReaper漫畫(huà)自動(dòng)爬取腳本

發(fā)布時(shí)間:2021-04-06 10:12:17 來(lái)源:億速云 閱讀:202 作者:小新 欄目:開(kāi)發(fā)技術(shù)

小編給大家分享一下如何使用Python實(shí)現(xiàn)ComicReaper漫畫(huà)自動(dòng)爬取腳本,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

總體流程

如何使用Python實(shí)現(xiàn)ComicReaper漫畫(huà)自動(dòng)爬取腳本

那就開(kāi)始吧

做一些準(zhǔn)備工作

先用字符串存儲(chǔ)兩個(gè)鏈接, 一個(gè)是本次漫畫(huà)網(wǎng)站站點(diǎn)的域名URL, 另一個(gè)是當(dāng)前我們要爬取的漫畫(huà)的主頁(yè)URL

再定義一個(gè) header 字典, 用于存儲(chǔ)我們的 User-Agent 和 Referer Referrer (由于早期HTTP規(guī)范的拼寫(xiě)錯(cuò)誤, 為了保持向后兼容就將錯(cuò)就錯(cuò)了)

首部字段 User-Agent

首部字段 User-Agent 告訴服務(wù)器當(dāng)前創(chuàng)建請(qǐng)求的瀏覽器是什么(有的網(wǎng)站會(huì)針對(duì)不同的瀏覽器提供不同的頁(yè)面, 比如如果是手機(jī)瀏覽器提出的請(qǐng)求, 服務(wù)器就向客戶端提供網(wǎng)站的手機(jī)版頁(yè)面)

比如說(shuō)同樣是請(qǐng)求 GitHub 的主頁(yè), 左邊是使用筆記本電腦上面的瀏覽器請(qǐng)求的頁(yè)面, 右邊是在安卓手機(jī)上請(qǐng)求的頁(yè)面

如何使用Python實(shí)現(xiàn)ComicReaper漫畫(huà)自動(dòng)爬取腳本

首部字段 Referer

首部字段 Referer 告訴服務(wù)器當(dāng)前請(qǐng)求的頁(yè)面是從哪個(gè)Web頁(yè)面發(fā)起的(一般情況下 Referer 字段用于防盜鏈)

有的網(wǎng)站不允許直接訪問(wèn)網(wǎng)站里面的URL, 只能通過(guò)從主頁(yè)點(diǎn)擊某個(gè)鏈接來(lái)進(jìn)行跳轉(zhuǎn), 或者...我們?cè)谡?qǐng)求之前把 User-Agent 字段設(shè)置為主頁(yè)或發(fā)起頁(yè)即可

url_domainame = r'http://www.manhuadb.com'
url_host = r'http://www.manhuadb.com/manhua/2317'
header = {
  'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0',
  'Referer' : ''
  }

獲取章節(jié)目錄

首先我們對(duì)我們接下來(lái)要做的事情做一個(gè)具體流程分析

我們要獲取當(dāng)前漫畫(huà)所有章節(jié)的標(biāo)題與URL(標(biāo)題用于后期存儲(chǔ)時(shí)文件夾的命名, URL用于跳轉(zhuǎn)到當(dāng)前章節(jié)的開(kāi)始頁(yè)面)并且存儲(chǔ)在列表中

如何使用Python實(shí)現(xiàn)ComicReaper漫畫(huà)自動(dòng)爬取腳本

將會(huì)使用到Python的兩個(gè)庫(kù), re 與 urllib

 import re         # 導(dǎo)入正則表達(dá)式
 import urllib.request  # 導(dǎo)入 urllib.request

對(duì)在瀏覽器中按下 [F12] 鍵打開(kāi)開(kāi)發(fā)者工具來(lái)對(duì)漫畫(huà)的章節(jié)頁(yè)面進(jìn)行分析

如何使用Python實(shí)現(xiàn)ComicReaper漫畫(huà)自動(dòng)爬取腳本

我們可以看到頁(yè)面中有很多章節(jié), 也就是章節(jié)跳轉(zhuǎn)鏈接, 每個(gè)鏈接的<a>標(biāo)簽中正好具有我們需要的標(biāo)題和URL, 分別是<a>標(biāo)簽的 title 屬性與 href 屬性, 我們將使用字典來(lái)存儲(chǔ)它

先不慌著前進(jìn), 考慮到整個(gè)HTML中有非常多的鏈接, 那么也就意味著頁(yè)面中具有大量的<a>標(biāo)簽, 如果我們只是單純地從HTML中過(guò)濾出<a>標(biāo)簽, 這樣我們會(huì)得到大量我們并不需要的<a>標(biāo)簽, 這是不明智的, 我們必須只過(guò)濾出章節(jié)跳轉(zhuǎn)鏈接的<a>標(biāo)簽, 仔細(xì)觀察, 發(fā)現(xiàn)章節(jié)跳轉(zhuǎn)鏈接的<a>標(biāo)簽們都具有一個(gè)特點(diǎn), 那就是它們都具有 class 屬性并且屬性值為 "fixed-a-es" , 這就找到了一個(gè)可以定位章節(jié)<a>標(biāo)簽的依據(jù), 把這一點(diǎn)加入到我們的正則表達(dá)式的匹配規(guī)則中去

現(xiàn)在就可以定義一個(gè)正則表達(dá)式匹配字符串了:

pat = r'<a class="fixed-a-es" href="(.*?)" rel="external nofollow" rel="external nofollow" title="(.*?)"'

為什么要這么寫(xiě) :

  • 在Python中, 在字符串常量的開(kāi)頭加一個(gè) 'r' 表示本字符串中的 '\' 字符將不會(huì)用來(lái)作轉(zhuǎn)義字符使用, 保留了它原本的含義, 也就是反斜杠字符

  • 在正則表達(dá)式中, '.' 字符用于匹配任何字符(當(dāng)匹配時(shí)具有 're.S' 標(biāo)志時(shí)此話成立, 否則只能匹配任意但除了 '\n' 以外的字符)

  • 在正則表達(dá)式中, '*' 字符用于描述它左邊的匹配字符的出現(xiàn)次數(shù)為0次或若干次

  • 在正則表達(dá)式中, '(.*?)' 的組合用來(lái)表示一個(gè)貪婪匹配(并且會(huì)被捕捉到)

使用這個(gè)正則表達(dá)式, 就可以匹配到 title 屬性與 href 屬性的屬性值中的雙引號(hào)里面的內(nèi)容了

具體實(shí)現(xiàn)是 chapterIndexReaper 函數(shù), 主要用來(lái)"收割"當(dāng)前漫畫(huà)的所有章節(jié)并存儲(chǔ)為字典列表

代碼如下 :

#獲取一本漫畫(huà)的所有章節(jié)的目錄
def chapterIndexReaper(url_host, header):
  # 定義一個(gè)臨時(shí)字典, 用于臨時(shí)存儲(chǔ)一個(gè)章節(jié)的標(biāo)題與url
  dic_temp = {
    'Title' : '',
    'Url' : ''
    }
  # 章節(jié)字典列表, 存儲(chǔ)當(dāng)前漫畫(huà)的所有章節(jié)字典
  set_dic = []
  # 構(gòu)建Request對(duì)象
  req = urllib.request.Request(url = url_host, headers = header)
  # 讀取所請(qǐng)求的req并用utf-8編碼來(lái)進(jìn)行解碼, 所得到的的字符串賦值給html
  html = urllib.request.urlopen(req).read().decode('utf-8')
  # 爬取漫畫(huà)章節(jié)標(biāo)題與url的正則表達(dá)式
  pat = r'<a class="fixed-a-es" href="(.*?)" rel="external nofollow" rel="external nofollow" title="(.*?)"'
  # 使用pat在html中進(jìn)行進(jìn)行匹配(re.S參數(shù)是為了讓"."除了能夠匹配本身規(guī)定的字符,
  # 另外也能匹配"\n"), 返回一個(gè)結(jié)果列表res
  res = re.findall(pat, html, re.S)
  for i in res:
    dic_temp['Title'] = i[1]
    dic_temp['Url'] = url_head + i[0]
    # 向當(dāng)前的章節(jié)字典列表的后面追加新的章節(jié), 注意, 此處要使用淺拷貝
    # (因?yàn)閐ic_temp是一個(gè)臨時(shí)變量, 需要?jiǎng)?chuàng)建它的副本并追加到set_dic中去,
    # 否則當(dāng)dic_temp刷新時(shí)set_dic中的元素會(huì)相應(yīng)發(fā)生改變)
    set_dic.append(dic_temp.copy())
  return set_dic

看完了這篇文章,相信你對(duì)“如何使用Python實(shí)現(xiàn)ComicReaper漫畫(huà)自動(dòng)爬取腳本”有了一定的了解,如果想了解更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI