您好,登錄后才能下訂單哦!
這篇文章主要介紹“Python異步爬蟲(chóng)實(shí)例代碼分析”的相關(guān)知識(shí),小編通過(guò)實(shí)際案例向大家展示操作過(guò)程,操作方法簡(jiǎn)單快捷,實(shí)用性強(qiáng),希望這篇“Python異步爬蟲(chóng)實(shí)例代碼分析”文章能幫助大家解決問(wèn)題。
默認(rèn)情況下,用get請(qǐng)求時(shí),會(huì)出現(xiàn)阻塞,需要很多時(shí)間來(lái)等待,對(duì)于有很多請(qǐng)求url時(shí),速度就很慢。因?yàn)樾枰粋€(gè)url請(qǐng)求的完成,才能讓下一個(gè)url繼續(xù)訪問(wèn)。一種很自然的想法就是用異步機(jī)制來(lái)提高爬蟲(chóng)速度。通過(guò)構(gòu)建線程池或者進(jìn)程池完成異步爬蟲(chóng),即使用多線程或者多進(jìn)程來(lái)處理多個(gè)請(qǐng)求(在別的進(jìn)程或者線程阻塞時(shí))。
import time
#串形
def getPage(url):
print("開(kāi)始爬取網(wǎng)站",url)
time.sleep(2)#阻塞
print("爬取完成?。?!",url)
urls = ['url1','url2','url3','url4','url5']
beginTime = time.time()#開(kāi)始計(jì)時(shí)
for url in urls:
getPage(url)
endTime= time.time()#結(jié)束計(jì)時(shí)
print("完成時(shí)間%d"%(endTime - beginTime))
下面通過(guò)模擬爬取網(wǎng)站來(lái)完成對(duì)多線程,多進(jìn)程,協(xié)程的理解。
import time
#使用線程池對(duì)象
from multiprocessing.dummy import Pool
def getPage(url):
print("開(kāi)始爬取網(wǎng)站",url)
time.sleep(2)#阻塞
print("爬取完成?。?!",url)
urls = ['url1','url2','url3','url4','url5']
beginTime = time.time()#開(kāi)始計(jì)時(shí)
#準(zhǔn)備開(kāi)啟5個(gè)線程,并示例化對(duì)象
pool = Pool(5)
pool.map(getPage, urls)#urls是可迭代對(duì)象,里面每個(gè)參數(shù)都會(huì)給getPage方法處理
endTime= time.time()#結(jié)束計(jì)時(shí)
print("完成時(shí)間%d"%(endTime - beginTime))
完成時(shí)間只需要2s!!!!!!!!
線程池使用原則:適合處理耗時(shí)并且阻塞的操作
#%%
import time
#使用協(xié)程
import asyncio
async def getPage(url): #定義了一個(gè)協(xié)程對(duì)象,python中函數(shù)也是對(duì)象
print("開(kāi)始爬取網(wǎng)站",url)
time.sleep(2)#阻塞
print("爬取完成?。?!",url)
#async修飾的函數(shù)返回的對(duì)象
c = getPage(11)
#創(chuàng)建事件對(duì)象
loop_event = asyncio.get_event_loop()
#注冊(cè)并啟動(dòng)looP
loop_event.run_until_complete(c)
#task對(duì)象使用,封裝協(xié)程對(duì)象c
'''
loop_event = asyncio.get_event_loop()
task = loop_event.create_task(c)
loop_event.run_until_complete(task)
'''
#Future對(duì)象使用,封裝協(xié)程對(duì)象c 用法和task差不多
'''
loop_event = asyncio.get_event_loop()
task = asyncio.ensure_future(c)
loop_event.run_until_complete(task)
'''
#綁定回調(diào)使用
async def getPage2(url): #定義了一個(gè)協(xié)程對(duì)象,python中函數(shù)也是對(duì)象
print("開(kāi)始爬取網(wǎng)站",url)
time.sleep(2)#阻塞
print("爬取完成!??!",url)
return url
#async修飾的函數(shù)返回的對(duì)象
c2 = getPage2(2)
def callback_func(task):
print(task.result()) #task.result()返回任務(wù)對(duì)象中封裝的協(xié)程對(duì)象對(duì)應(yīng)函數(shù)的返回值
#綁定回調(diào)
loop_event = asyncio.get_event_loop()
task = asyncio.ensure_future(c2)
task.add_done_callback(callback_func) #真正綁定,
loop_event.run_until_complete(task)
import time
#使用多任務(wù)協(xié)程
import asyncio
urls = ['url1','url2','url3','url4','url5']
async def getPage(url): #定義了一個(gè)協(xié)程對(duì)象,python中函數(shù)也是對(duì)象
print("開(kāi)始爬取網(wǎng)站",url)
#在異步協(xié)程中如果出現(xiàn)同步模塊相關(guān)的代碼,那么無(wú)法實(shí)現(xiàn)異步
#time.sleep(2)#阻塞
await asyncio.sleep(2)#遇到阻塞操作必須手動(dòng)掛起
print("爬取完成!??!",url)
return url
beginTime = time.time()
#任務(wù)列表,有多個(gè)任務(wù)
tasks = []
for url in urls:
c = getPage(url)
task = asyncio.ensure_future(c)#創(chuàng)建任務(wù)對(duì)象
tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))#不能直接放task,需要封裝進(jìn)入asyncio,wait()方法中
endTime = time.time()
print("完成時(shí)間%d"%(endTime - beginTime))
此時(shí)不能用time.sleep(2),用了還是10秒
對(duì)于真正爬取過(guò)程中,如在getPage()方法中真正爬取數(shù)據(jù)時(shí),即requests.get(url) ,它是基于同步方式實(shí)現(xiàn)。應(yīng)該使用異步網(wǎng)絡(luò)請(qǐng)求模塊aiohttp
參考下面代碼:
async def getPage(url): #定義了一個(gè)協(xié)程對(duì)象,python中函數(shù)也是對(duì)象
print("開(kāi)始爬取網(wǎng)站",url)
#在異步協(xié)程中如果出現(xiàn)同步模塊相關(guān)的代碼,那么無(wú)法實(shí)現(xiàn)異步
#requests.get(url)#阻塞
async with aiohttp.ClintSession() as session:
async with await session.get(url) as response: #手動(dòng)掛起
page_text = await response.text() #.text()返回字符串,read()返回二進(jìn)制數(shù)據(jù),注意不是content
print("爬取完成?。?!",url)
return page_text
關(guān)于“Python異步爬蟲(chóng)實(shí)例代碼分析”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí),可以關(guān)注億速云行業(yè)資訊頻道,小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。