溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

python爬蟲(chóng)中怎么創(chuàng)建任務(wù)進(jìn)程

發(fā)布時(shí)間:2020-11-30 09:35:21 來(lái)源:億速云 閱讀:157 作者:小新 欄目:編程語(yǔ)言

這篇文章主要介紹了python爬蟲(chóng)中怎么創(chuàng)建任務(wù)進(jìn)程,具有一定借鑒價(jià)值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。

創(chuàng)建任務(wù)進(jìn)程也比較簡(jiǎn)單,只有簡(jiǎn)單的四步:

1. 創(chuàng)建一個(gè)類(lèi)似的QueueManager對(duì)象,使用QueueManager注冊(cè)用于獲取queue的方法名稱(chēng),任務(wù)進(jìn)程只能通過(guò)名稱(chēng)來(lái)在網(wǎng)絡(luò)上獲取queue,所以這里一定要注意服務(wù)端和任務(wù)端的名稱(chēng)要相同。

2. 鏈接服務(wù)器,端口和指令一定要與服務(wù)端相同。

3. 從網(wǎng)絡(luò)上獲取queue,并且將其本地化。

4. 從task對(duì)列中獲取任務(wù),并且把結(jié)果寫(xiě)入result對(duì)列。

import time
from multiprocessing.managers import BaseManager
# 創(chuàng)建類(lèi)似的QueueManager
class QueueManager(BaseManager):
    pass
# 第一步:使用QueueManager注冊(cè)用于獲取Queue的方法名稱(chēng)
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')
# 第二步:鏈接到服務(wù)器
server_addr = '127.0.0.1'
print('Connect to server %s' %server_addr)
# 端口和驗(yàn)證的口令一定要保證相同
m = QueueManager(address = (server_addr, 8001), authkey='jap'.encode('utf-8'))
# 從網(wǎng)絡(luò)連接:
m.connect()
# 第三步:獲取queue的對(duì)象
task = m.get_task_queue()
result = m.get_result_queue()
# 第四部:從task隊(duì)列中獲取任務(wù),并把結(jié)果寫(xiě)入result隊(duì)列
while(not task.empty()):
    url = task.get(True, timeout = 5)
    print("run task download %s" %url)
    time.sleep(1)
    # 將結(jié)果寫(xiě)入result隊(duì)列
    result.put("%s --->success" %url)
print("exit")

詳細(xì)的步驟也寫(xiě)在里面了,當(dāng)然這個(gè)任務(wù)隊(duì)列,我們是可以創(chuàng)建多個(gè)的,每個(gè)任務(wù)進(jìn)程都會(huì)完成自己的事,而不會(huì)干擾其他的任務(wù)進(jìn)程,這也就讓我們的url不會(huì)重復(fù)的去爬取,從而完美的實(shí)現(xiàn)了多個(gè)進(jìn)程來(lái)爬取我們的任務(wù)。

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享python爬蟲(chóng)中怎么創(chuàng)建任務(wù)進(jìn)程內(nèi)容對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,遇到問(wèn)題就找億速云,詳細(xì)的解決方法等著你來(lái)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI