網(wǎng)絡爬蟲以及Scrapy的介紹

發(fā)布時間：2020-08-26 16:49:12 來源：億速云閱讀：120 作者：Leah 欄目：編程語言

網(wǎng)絡爬蟲以及Scrapy的介紹？很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

網(wǎng)絡爬蟲

是指程序可以自動獲取多個頁面中的所有信息。如果使用某種技術（如正則表達式、XPath 等）來提取頁面中所有的鏈接（<a.../> 元素），然后順著這些鏈接遞歸打開對應的頁面，最后提取頁面中的信息，這就是網(wǎng)絡爬蟲。

我們來分析網(wǎng)絡爬蟲具體要做哪些核心工作：

通過網(wǎng)絡向指定的 URL 發(fā)送請求，獲取服務器響應內容。

使用某種技術（如正則表達式、XPath 等）提取頁面中我們感興趣的信息。

高效地識別響應頁面中的鏈接信息，順著這些鏈接遞歸執(zhí)行此處介紹的第 1、2、3 步；使用多線程有效地管理網(wǎng)絡通信交互。

如果直接使用 Python 內置的 urllib 和 re 模塊是否能寫出自己的網(wǎng)絡爬蟲呢？答案是肯定的，只是比較復雜。就像我們要從廣州去韶關，走路可以去嗎？答案是肯定的，只是比較麻煩。

下面繼續(xù)分析網(wǎng)絡爬蟲的核心工作：

向 URL 發(fā)送請求，獲取服務器響應內容。這個核心工作其實是所有網(wǎng)絡爬蟲都需要做的通用工作。一般來說，通用工作應該由爬蟲框架來實現(xiàn)，這樣可以提供更穩(wěn)定的性能，開發(fā)效率更高。

提取頁面中我們感興趣的信息。這個核心工作不是通用的！每個項目感興趣的信息都可能有所不同，但使用正則表達式提取信息是非常低效的，原因是正則表達式的設計初衷主要是處理文本信息，而 HTML 文檔不僅是文本文檔，而且是結構化文檔，因此使用正則表達式來處理 HTML 文檔并不合適。使用 XPath 提取信息的效率要高得多。

識別響應頁面中的鏈接信息。使用正則表達式可以實現(xiàn)這個核心工作，但是效率太低，使用 XPath 會更高效。

多線程管理：這個核心工作是通用的，應該由框架來完成。

現(xiàn)在來回答上面提出的問題，本章有存在的意義嗎？當然有，本章并不介紹使用 urllib、re 模塊這種簡陋的工具來實現(xiàn)正則表達式，而是通過專業(yè)的爬蟲框架 Scrapy 來實現(xiàn)爬蟲。

Scrapy 是一個專業(yè)的、高效的爬蟲框架，它使用專業(yè)的 Twisted 包（基于事件驅動的網(wǎng)絡引擎包）高效地處理網(wǎng)絡通信，使用 lxml（專業(yè)的 XML 處理包）、cssselect 高效地提取 HTML 頁面的有效信息，同時它也提供了有效的線程管理。

一言以蔽之，上面列出的網(wǎng)絡爬蟲的核心工作，Scrapy 全部提供了實現(xiàn)，開發(fā)者只要使用 XPath 或 css 選擇器定義自己感興趣的信息即可。

看完上述內容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注億速云行業(yè)資訊頻道，感謝您對億速云的支持。

向AI問一下細節(jié)

網(wǎng)絡爬蟲以及Scrapy的介紹

猜你喜歡

最新資訊

相關推薦

相關標簽