溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點(diǎn)擊重新獲取二維碼

Python爬蟲過程是怎樣的

發(fā)布時間：2022-01-13 09:05:38 來源：億速云閱讀：166 作者：iii 欄目：編程語言

本文小編為大家詳細(xì)介紹“Python爬蟲過程是怎樣的”，內(nèi)容詳細(xì)，步驟清晰，細(xì)節(jié)處理妥當(dāng)，希望這篇“Python爬蟲過程是怎樣的”文章能幫助大家解決疑惑，下面跟著小編的思路慢慢深入，一起來學(xué)習(xí)新知識吧。

網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。簡單的可以將網(wǎng)絡(luò)爬蟲理解為一個帶有終止條件的while循環(huán)，在條件不觸發(fā)的情況下，爬蟲就不斷的從每個以及獲取的url發(fā)送請求獲取頁面數(shù)據(jù)，然后解析當(dāng)前頁面的url，不斷迭代下去。在crawl工程當(dāng)中，完成這一過程的是crawler類，他并未采用廣度優(yōu)先或是深度優(yōu)先的爬蟲，在當(dāng)前請求失敗的時候就通過python掛起當(dāng)前任務(wù)，然后在之后再進(jìn)行調(diào)度，這可以勉強(qiáng)理解為基于網(wǎng)絡(luò)連通性的A*搜索，其運(yùn)行方式如下所示：

Python爬蟲過程是怎樣的

對一個初始化后的crawler對象，其中存在一個url，一個todo集合，存儲尚未繼續(xù)呢爬蟲操作的url；一個busy集合，保存等待其他爬蟲數(shù)據(jù)的url集合；一個done集合，保存完成頁面爬取的url集合。爬蟲的核心就是這個死循環(huán)，首先爬蟲從todo集合當(dāng)中獲取一個url，然后初始化fetch對象用于獲取頁面上的url，***進(jìn)行任務(wù)調(diào)度執(zhí)行一個url請求任務(wù)。這段流程的代碼如下所示。

@asyncio.coroutine def crawl(self):         """Run the crawler until all finished."""         with (yield from self.termination):             while self.todo or self.busy:                 if self.todo:                     url, max_redirect = self.todo.popitem()                     fetcher = Fetcher(url,                                       crawler=self,                                       max_redirect=max_redirect,                                       max_tries=self.max_tries,                                       )                     self.busy[url] = fetcher                     fetcher.task = asyncio.Task(self.fetch(fetcher))                 else:                     yield from self.termination.wait()         self.t1 = time.time()

一個爬蟲很明顯不會僅僅由一個死循環(huán)構(gòu)成，在crawl外層需要其他模塊支持其操作，包括網(wǎng)絡(luò)連接，url獲取，任務(wù)調(diào)度等任務(wù)，整個crawl工程的調(diào)度框架如下所示：

Python爬蟲過程是怎樣的

在crawl創(chuàng)建初始化時候首先創(chuàng)建一個ConnectionPool：

self.pool = ConnectionPool(max_pool, max_tasks)

其中保留屬性connections和queue，分別保存連接的集合和隊(duì)列，用于后續(xù)調(diào)度；而connection中存儲host和端口號并支持ssl，通過asyncio.open_connection()獲取連接。

self.connections = {} # {(host, port, ssl): [Connection, ...], ...} self.queue = [] # [Connection, ...]

任務(wù)執(zhí)行時crawl方法首先通過loop.run_until_complete(crawler.crawl())加載到event loop當(dāng)中，然后用上述語句構(gòu)建的鏈接池ConnectionPool中保存connection對象，獲取連接對象然后通過fetcher對象的fetch方法進(jìn)行數(shù)據(jù)爬取。對于一個url請求任務(wù)，使用fetcher進(jìn)行處理，調(diào)度則是用asyncio.Task方法進(jìn)行的調(diào)度。其中fetch方法獲取被掛起的generator，交給asyncio.Task執(zhí)行。

通過yield from和asynico.coroutine語句，將這個方法變?yōu)閳?zhí)行過程中的generator，在執(zhí)行fetcher.fetch()方法時候如果被掛起，則通過調(diào)度程序進(jìn)行處理。

fetcher.fetch()方法是網(wǎng)絡(luò)爬蟲的核心方法，負(fù)責(zé)從網(wǎng)絡(luò)上獲取頁面數(shù)據(jù)并將其中的url加載到todo集合當(dāng)中，該方法嘗試獲取頁面數(shù)據(jù)當(dāng)嘗試次數(shù)達(dá)到上限時停止操作，獲取成功的html數(shù)據(jù)和外部鏈接以及重定向鏈接都將被存儲。在url鏈接次數(shù)到達(dá)上限的情況下，將停止這個url的鏈接操作，輸出出錯日志。之后針對頁面的不同狀態(tài)，采取不同的處理方式。

下面的代碼是crawling.py文件從333行開始（crawling.py）到對應(yīng)方法結(jié)束的區(qū)域，通過對頁面status的判斷選擇不同的處理方式。其中通過正則表達(dá)式，獲取頁面上的url信息，這里選擇為href開頭的字符串，核心url提取的代碼在下面：

# Replace href with (?:href|src) to follow image links. self.urls = set(re.findall(r'(?i)href=["\']?([^\s"\'<>]+)',body)) if self.urls:     logger.warn('got %r distinct urls from %r',len(self.urls), self.url)     self.new_urls = set()     for url in self.urls:         url = unescape(url)         url = urllib.parse.urljoin(self.url, url)         url, frag = urllib.parse.urldefrag(url)         if self.crawler.add_url(url):             self.new_urls.add(url)

通過代碼，很明顯就可以看出正則匹配結(jié)果存儲在urls集合當(dāng)中并通過for循環(huán)依次進(jìn)行處理，加入到當(dāng)前fetcher的crawler對象的todo集合當(dāng)中。

在之前分析的基礎(chǔ)上對主文件crawl.py進(jìn)行進(jìn)一步分析，可以得到整體爬蟲的架構(gòu):

Python爬蟲過程是怎樣的

在主文件當(dāng)中首先通過argparse.ArgumentParser進(jìn)行解析，設(shè)置控制臺的數(shù)據(jù)讀取和控制，其中選擇了IOCP作為windows環(huán)境下的event loop對象。主方法，首先通過parse_args返回存儲命令行數(shù)據(jù)的字典，如果沒有root屬性，則給出提示。然后配置日志級別，指示日志的輸出級別，低于***級別的不輸出。

通過入口函數(shù)main方法進(jìn)入程序的時候，首先根據(jù)來自命令行參數(shù)對Crawler進(jìn)行初始化，同時獲取使用asyncio的loop event對象，執(zhí)行run_until_complete方法，會一直執(zhí)行到這個程序結(jié)束運(yùn)行。

除此之外reporting.py用于打印當(dāng)前任務(wù)執(zhí)行情況。其中fetcher_report(fetcher, stats, file=None)打印這個url的工作狀態(tài)，url就是fetcher的url屬性；report(crawler, file=None)打印整個工程所有完成的url工作狀態(tài)。

讀到這里，這篇“Python爬蟲過程是怎樣的”文章已經(jīng)介紹完畢，想要掌握這篇文章的知識點(diǎn)還需要大家自己動手實(shí)踐使用過才能領(lǐng)會，如果想了解更多相關(guān)內(nèi)容的文章，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Tribler過程中遇到的Python問題有哪些
下一篇新聞：
Python邏輯關(guān)系實(shí)例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼