您好,登錄后才能下訂單哦!
這篇文章主要介紹了python爬蟲(chóng)中怎么創(chuàng)建任務(wù)進(jìn)程,具有一定借鑒價(jià)值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。
創(chuàng)建任務(wù)進(jìn)程也比較簡(jiǎn)單,只有簡(jiǎn)單的四步:
1. 創(chuàng)建一個(gè)類(lèi)似的QueueManager對(duì)象,使用QueueManager注冊(cè)用于獲取queue的方法名稱(chēng),任務(wù)進(jìn)程只能通過(guò)名稱(chēng)來(lái)在網(wǎng)絡(luò)上獲取queue,所以這里一定要注意服務(wù)端和任務(wù)端的名稱(chēng)要相同。
2. 鏈接服務(wù)器,端口和指令一定要與服務(wù)端相同。
3. 從網(wǎng)絡(luò)上獲取queue,并且將其本地化。
4. 從task對(duì)列中獲取任務(wù),并且把結(jié)果寫(xiě)入result對(duì)列。
import time from multiprocessing.managers import BaseManager # 創(chuàng)建類(lèi)似的QueueManager class QueueManager(BaseManager): pass # 第一步:使用QueueManager注冊(cè)用于獲取Queue的方法名稱(chēng) QueueManager.register('get_task_queue') QueueManager.register('get_result_queue') # 第二步:鏈接到服務(wù)器 server_addr = '127.0.0.1' print('Connect to server %s' %server_addr) # 端口和驗(yàn)證的口令一定要保證相同 m = QueueManager(address = (server_addr, 8001), authkey='jap'.encode('utf-8')) # 從網(wǎng)絡(luò)連接: m.connect() # 第三步:獲取queue的對(duì)象 task = m.get_task_queue() result = m.get_result_queue() # 第四部:從task隊(duì)列中獲取任務(wù),并把結(jié)果寫(xiě)入result隊(duì)列 while(not task.empty()): url = task.get(True, timeout = 5) print("run task download %s" %url) time.sleep(1) # 將結(jié)果寫(xiě)入result隊(duì)列 result.put("%s --->success" %url) print("exit")
詳細(xì)的步驟也寫(xiě)在里面了,當(dāng)然這個(gè)任務(wù)隊(duì)列,我們是可以創(chuàng)建多個(gè)的,每個(gè)任務(wù)進(jìn)程都會(huì)完成自己的事,而不會(huì)干擾其他的任務(wù)進(jìn)程,這也就讓我們的url不會(huì)重復(fù)的去爬取,從而完美的實(shí)現(xiàn)了多個(gè)進(jìn)程來(lái)爬取我們的任務(wù)。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享python爬蟲(chóng)中怎么創(chuàng)建任務(wù)進(jìn)程內(nèi)容對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,遇到問(wèn)題就找億速云,詳細(xì)的解決方法等著你來(lái)學(xué)習(xí)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。