您好,登錄后才能下訂單哦!
怎么在Python中使用PyQt5實(shí)現(xiàn)可視化爬蟲工具?很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
Python主要應(yīng)用于:1、Web開發(fā);2、數(shù)據(jù)科學(xué)研究;3、網(wǎng)絡(luò)爬蟲;4、嵌入式應(yīng)用開發(fā);5、游戲開發(fā);6、桌面應(yīng)用開發(fā)。
import urllib.request from urllib import parse from lxml import etree import ssl from PyQt5.QtWidgets import QApplication, QWidget, QLineEdit, QTextEdit, QVBoxLayout, QPushButton, QMessageBox import sys # 取消代理驗(yàn)證 ssl._create_default_https_context = ssl._create_unverified_context class TextEditMeiJu(QWidget): def __init__(self, parent=None): super(TextEditMeiJu, self).__init__(parent) # 定義窗口頭部信息 self.setWindowTitle('美劇天堂') # 定義窗口的初始大小 self.resize(500, 600) # 創(chuàng)建單行文本框 self.textLineEdit = QLineEdit() # 創(chuàng)建一個(gè)按鈕 self.btnButton = QPushButton('確定') # 創(chuàng)建多行文本框 self.textEdit = QTextEdit() # 實(shí)例化垂直布局 layout = QVBoxLayout() # 相關(guān)控件添加到垂直布局中 layout.addWidget(self.textLineEdit) layout.addWidget(self.btnButton) layout.addWidget(self.textEdit) # 設(shè)置布局 self.setLayout(layout) # 將按鈕的點(diǎn)擊信號(hào)與相關(guān)的槽函數(shù)進(jìn)行綁定,點(diǎn)擊即觸發(fā) self.btnButton.clicked.connect(self.buttonClick) # 點(diǎn)擊確認(rèn)按鈕 def buttonClick(self): # 爬取開始前提示一下 start = QMessageBox.information( self, '提示', '是否開始爬取《' + self.textLineEdit.text() + "》", QMessageBox.Ok | QMessageBox.No, QMessageBox.Ok ) # 確定爬取 if start == QMessageBox.Ok: self.page = 1 self.loadSearchPage(self.textLineEdit.text(), self.page) # 取消爬取 else: pass # 加載輸入美劇名稱后的頁面 def loadSearchPage(self, name, page): # 將文本轉(zhuǎn)為 gb2312 編碼格式 name = parse.quote(name.encode('gb2312')) # 請(qǐng)求發(fā)送的 url 地址 url = "https://www.meijutt.com/search/index.asp?page=" + str(page) + "&searchword=" + name + "&searchtype=-1" # 請(qǐng)求報(bào)頭 headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"} # 發(fā)送請(qǐng)求 request = urllib.request.Request(url, headers=headers) # 獲取請(qǐng)求的 html 文檔 html = urllib.request.urlopen(request).read() # 對(duì) html 文檔進(jìn)行解析 text = etree.HTML(html) # xpath 獲取想要的信息 pageTotal = text.xpath('//div[@class="page"]/span[1]/text()') # 判斷搜索內(nèi)容是否有結(jié)果 if pageTotal: self.loadDetailPage(pageTotal, text, headers) # 搜索內(nèi)容無結(jié)果 else: self.infoSearchNull() # 加載點(diǎn)擊搜索頁面點(diǎn)擊的本季頁面 def loadDetailPage(self, pageTotal, text, headers): # 取出搜索的結(jié)果一共多少頁 pageTotal = pageTotal[0].split('/')[1].rstrip("頁") # 獲取每一季的內(nèi)容(劇名和鏈接) node_list = text.xpath('//a[@class="B font_14"]') items = {} items['name'] = self.textLineEdit.text() # 循環(huán)獲取每一季的內(nèi)容 for node in node_list: # 獲取信息 title = node.xpath('@title')[0] link = node.xpath('@href')[0] items["title"] = title # 通過獲取的單季鏈接跳轉(zhuǎn)到本季的詳情頁面 requestDetail = urllib.request.Request("https://www.meijutt.com" + link, headers=headers) htmlDetail = urllib.request.urlopen(requestDetail).read() textDetail = etree.HTML(htmlDetail) node_listDetail = textDetail.xpath('//div[@class="tabs-list current-tab"]//strong//a/@href') self.writeDetailPage(items, node_listDetail) # 爬取完畢提示 if self.page == int(pageTotal): self.infoSearchDone() else: self.infoSearchContinue(pageTotal) # 將數(shù)據(jù)顯示到圖形界面 def writeDetailPage(self, items, node_listDetail): for index, nodeLink in enumerate(node_listDetail): items["link"] = nodeLink # 寫入圖形界面 self.textEdit.append( "<div>" "<font color='black' size='3'>" + items['name'] + "</font>" + "\n" "<font color='red' size='3'>" + items['title'] + "</font>" + "\n" "<font color='orange' size='3'>第" + str(index + 1) + "集</font>" + "\n" "<font color='green' size='3'>下載鏈接:</font>" + "\n" "<font color='blue' size='3'>" + items['link'] + "</font>" "<p></p>" "</div>" ) # 搜索不到結(jié)果的提示信息 def infoSearchNull(self): QMessageBox.information( self, '提示', '搜索結(jié)果不存在,請(qǐng)重新輸入搜索內(nèi)容', QMessageBox.Ok, QMessageBox.Ok ) # 爬取數(shù)據(jù)完畢的提示信息 def infoSearchDone(self): QMessageBox.information( self, '提示', '爬取《' + self.textLineEdit.text() + '》完畢', QMessageBox.Ok, QMessageBox.Ok ) # 多頁情況下是否繼續(xù)爬取的提示信息 def infoSearchContinue(self, pageTotal): end = QMessageBox.information( self, '提示', '爬取第' + str(self.page) + '頁《' + self.textLineEdit.text() + '》完畢,還有' + str(int(pageTotal) - self.page) + '頁,是否繼續(xù)爬取', QMessageBox.Ok | QMessageBox.No, QMessageBox.No ) if end == QMessageBox.Ok: self.page += 1 self.loadSearchPage(self.textLineEdit.text(), self.page) else: pass if __name__ == '__main__': app = QApplication(sys.argv) win = TextEditMeiJu() win.show() sys.exit(app.exec_())
以上是實(shí)現(xiàn)功能的所有代碼,可以運(yùn)行 Python 的小伙伴直接復(fù)制到本地運(yùn)行即可。都說 Python 是做爬蟲最好的工具,寫完之后發(fā)現(xiàn)確實(shí)是這樣。
我們一點(diǎn)點(diǎn)分析代碼:
import urllib.request from urllib import parse from lxml import etree import ssl from PyQt5.QtWidgets import QApplication, QWidget, QLineEdit, QTextEdit, QVBoxLayout, QPushButton, QMessageBox, QLabel import sys
以上為我們引入的所需要的庫,前 4 行是爬取 美劇天堂 官網(wǎng)所需要的庫,后兩個(gè)是實(shí)現(xiàn)圖形化應(yīng)用所需的庫。
我們先來看一下如何爬取網(wǎng)站信息。
由于現(xiàn)在 美劇天堂 使用的是 https 協(xié)議,進(jìn)入頁面需要代理驗(yàn)證,為了不必要的麻煩,我們干脆取消代理驗(yàn)證,所以用到了 ssl 模塊。
然后我們就可以正大光明的進(jìn)入網(wǎng)站了:
令人遺憾的是 url 鏈接為https://www.meijutt.com/search/index.asp,顯然沒有為我們提供任何有用的信息,當(dāng)我們刷新頁面時(shí),如下圖:
當(dāng)我們手動(dòng)輸入 ulr 鏈接https://www.meijutt.com/search/index.asp進(jìn)行搜索時(shí):
很明顯了,當(dāng)我們?cè)谑醉撦斎胂肟吹拿绖〔⑺阉鲿r(shí)網(wǎng)站將我們的請(qǐng)求表單信息隱藏了,并沒有給到 url 鏈接里,但是本人可不想每次都從首頁進(jìn)行搜索再提交表單獲取信息,很不爽,還好本人發(fā)現(xiàn)了一個(gè)更好的方法。如下圖:
在頁面頂部有一個(gè)頁面跳轉(zhuǎn)的按鈕,我們可以選擇跳轉(zhuǎn)的頁碼,當(dāng)選擇跳轉(zhuǎn)頁碼后,頁面變成了如下:
url 鏈接已經(jīng)改變了:https://www.meijutt.com/search/index.asp?page=&searchword=%C8%A8%C1%A6%B5%C4%D3%CE%CF%B7&searchtype=-1
我們?cè)賹?page 中動(dòng)態(tài)添加為page=1,頁面效果不變。
經(jīng)過搜索多個(gè)不同的美劇的多次驗(yàn)證發(fā)現(xiàn)只有 page 和 searchword 這兩個(gè)字段是改變的,其中 page 字段默認(rèn)為 1 ,而其本人搜索了許多季數(shù)很長(zhǎng)的美劇,比如《老友記》、《生活大爆炸》、《邪惡力量》,這些美劇也就一頁,但仍有更長(zhǎng)的美劇,比如《辛普森一家》是兩頁,《法律與秩序》是兩頁,這就要求我們對(duì)頁數(shù)進(jìn)行控制,但是需要特別注意的是如果隨意搜索內(nèi)容,比如在搜索框只搜索了一個(gè) ”i“,整整搜出了219頁,這要扒下來需要很長(zhǎng)的時(shí)間,所以就需要對(duì)其搜索的頁數(shù)進(jìn)行控制。
我們?cè)賮砜匆幌?searchword 字段,將 searchword 字段解碼轉(zhuǎn)成漢字:
沒錯(cuò),正是我們想要的,萬里長(zhǎng)征終于實(shí)現(xiàn)了第一步。
# 加載輸入美劇名稱后的頁面 def loadSearchPage(self, name, page): # 將文本轉(zhuǎn)為 gb2312 編碼格式 name = parse.quote(name.encode('gb2312')) # 請(qǐng)求發(fā)送的 url 地址 url = "https://www.meijutt.com/search/index.asp?page=" + str(page) + "&searchword=" + name + "&searchtype=-1" # 請(qǐng)求報(bào)頭 headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"} # 發(fā)送請(qǐng)求 request = urllib.request.Request(url, headers=headers) # 獲取請(qǐng)求的 html 文檔 html = urllib.request.urlopen(request).read() # 對(duì) html 文檔進(jìn)行解析 text = etree.HTML(html) # xpath 獲取想要的信息 pageTotal = text.xpath('//div[@class="page"]/span[1]/text()') # 判斷搜索內(nèi)容是否有結(jié)果 if pageTotal: self.loadDetailPage(pageTotal, text, headers) # 搜索內(nèi)容無結(jié)果 else: self.infoSearchNull()
接下來我們只需要將輸入的美劇名轉(zhuǎn)化成 url 編碼格式就可以了。如上代碼,通過 urllib 庫對(duì)搜索的網(wǎng)站進(jìn)行操作。
其中我們還需要做判斷,搜索結(jié)果是否存在,比如我們搜索 行尸跑肉,結(jié)果不存在。
當(dāng)搜索結(jié)果存在時(shí):
我們通過谷歌的 xpath 插件對(duì)頁面內(nèi)的 dom 進(jìn)行搜索,發(fā)現(xiàn)我們要選取的 class 類名。
我們根據(jù)獲取到的頁數(shù),找到所有頁面里我們要搜索的信息:
# 加載點(diǎn)擊搜索頁面點(diǎn)擊的本季頁面 def loadDetailPage(self, pageTotal, text, headers): # 取出搜索的結(jié)果一共多少頁 pageTotal = pageTotal[0].split('/')[1].rstrip("頁") # 獲取每一季的內(nèi)容(劇名和鏈接) node_list = text.xpath('//a[@class="B font_14"]') items = {} items['name'] = self.textLineEdit.text() # 循環(huán)獲取每一季的內(nèi)容 for node in node_list: # 獲取信息 title = node.xpath('@title')[0] link = node.xpath('@href')[0] items["title"] = title # 通過獲取的單季鏈接跳轉(zhuǎn)到本季的詳情頁面 requestDetail = urllib.request.Request("https://www.meijutt.com" + link, headers=headers) htmlDetail = urllib.request.urlopen(requestDetail).read() textDetail = etree.HTML(htmlDetail) node_listDetail = textDetail.xpath('//div[@class="tabs-list current-tab"]//strong//a/@href') self.writeDetailPage(items, node_listDetail) # 爬取完畢提示 if self.page == int(pageTotal): self.infoSearchDone() else: self.infoSearchContinue(pageTotal)
我們根據(jù)獲取到的鏈接,再次通過 urllib 庫進(jìn)行頁面訪問,即我們手動(dòng)點(diǎn)擊進(jìn)入其中的一個(gè)頁面,比如 權(quán)利的游戲第一季,再次通過 xpath 獲取到我們所需要的下載鏈接:
至此我們就將所有我們搜索到的 權(quán)力的游戲 的下載鏈接拿到手了,接下來就是寫圖形界面了。
本人選用了 PyQt5 這個(gè)框架,它內(nèi)置了 QT 的操作語法,對(duì)于本人這種小白用起來也很友好。至于如何使用本人也都在代碼上添加了注釋,在這兒做一下簡(jiǎn)單的說明,就不過多解釋了。
from PyQt5.QtWidgets import QApplication, QWidget, QLineEdit, QTextEdit, QVBoxLayout, QPushButton, QMessageBox, QLabel import sys
將獲取的信息寫入搜索結(jié)果內(nèi):
# 將數(shù)據(jù)顯示到圖形界面 def writeDetailPage(self, items, node_listDetail): for index, nodeLink in enumerate(node_listDetail): items["link"] = nodeLink # 寫入圖形界面 self.textEdit.append( "<div>" "<font color='black' size='3'>" + items['name'] + "</font>" + "\n" "<font color='red' size='3'>" + items['title'] + "</font>" + "\n" "<font color='orange' size='3'>第" + str(index + 1) + "集</font>" + "\n" "<font color='green' size='3'>下載鏈接:</font>" + "\n" "<font color='blue' size='3'>" + items['link'] + "</font>" "<p></p>" "</div>" )
因?yàn)榭赡苡卸囗撉闆r,所以我們得做一次判斷,提示一下剩余多少頁,可以選擇繼續(xù)爬取或停止,做到人性化交互。
# 搜索不到結(jié)果的提示信息 def infoSearchNull(self): QMessageBox.information( self, '提示', '搜索結(jié)果不存在,請(qǐng)重新輸入搜索內(nèi)容', QMessageBox.Ok, QMessageBox.Ok ) # 爬取數(shù)據(jù)完畢的提示信息 def infoSearchDone(self): QMessageBox.information( self, '提示', '爬取《' + self.textLineEdit.text() + '》完畢', QMessageBox.Ok, QMessageBox.Ok ) # 多頁情況下是否繼續(xù)爬取的提示信息 def infoSearchContinue(self, pageTotal): end = QMessageBox.information( self, '提示', '爬取第' + str(self.page) + '頁《' + self.textLineEdit.text() + '》完畢,還有' + str(int(pageTotal) - self.page) + '頁,是否繼續(xù)爬取', QMessageBox.Ok | QMessageBox.No, QMessageBox.No ) if end == QMessageBox.Ok: self.page += 1 self.loadSearchPage(self.textLineEdit.text(), self.page) else: pass
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。