關于Python中數(shù)據(jù)收集的庫

發(fā)布時間：2020-06-24 15:00:24 來源：億速云閱讀：185 作者：清晨欄目：編程語言

這篇文章主要介紹關于Python中數(shù)據(jù)收集的庫，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

1. Scrapy

要想編寫一個Python網(wǎng)絡爬蟲來從網(wǎng)頁上提取信息，Scrapy可能是大部分人第一個想到的Python庫。

例如，使用者可以提取某城市所有餐廳的評論或是收集網(wǎng)購網(wǎng)站上某一種產(chǎn)品的所有評論。

對于該庫最常見的用法是利用它來識別出現(xiàn)在網(wǎng)站頁面上那些有趣的信息模式，無論這些信息是以URL的形式出現(xiàn)還是以XPath的形式出現(xiàn)。

一旦理清了這些信息的模式，Scrapy就可以協(xié)助使用者自動提取所需信息，并將其整理為表格或JSON格式的數(shù)據(jù)結構。

使用pip即可輕松安裝Scrapy。

2. Selenium

Selenium設計者的初衷是將其打造成一個自動網(wǎng)站測試框架，但開發(fā)者們發(fā)現(xiàn)將其用作網(wǎng)頁數(shù)據(jù)抓取工具的效果更佳。

使用者在感興趣的網(wǎng)站上已經(jīng)進行了交互行為之后，Selenium一般能派上用場。

比如說，使用者可能需要在網(wǎng)站上注冊一個賬戶，登陸自己的賬戶，再點擊幾個按鈕或是鏈接才能找到自己想要的內容。

上述鏈接被定義為JavaScript函數(shù)。在這一情況下，要應用Scrapy或者Beautiful Soup可能都不是很便捷，但使用Selenium就可以輕而易舉地完成這一過程。

但應當注意，Selenium比普通的抓取庫運行速度要慢得多。這是因為Selenium會將Chrome這樣的瀏覽器初始化并模擬瀏覽器代碼定義的所有行為。

因此，在處理URL模式或Xpaths時，最好還是使用Scrapy或者Beautiful Soup，不到萬不得已不要使用Selenium。

3. BeautifulSoup

關于Python中數(shù)據(jù)收集的庫

Beautiful Soup是另一個可以用來收集網(wǎng)站內容的Python庫。業(yè)界普遍認為，學習BeautifulSoup所需時間比學習Scrapy所需時間要短很多。

除此之外，Beautiful Soup更適合應用于規(guī)模相對較小的問題或一次性的任務。

Scrapy要求使用者開發(fā)自己的“爬蟲”并通過命令行進行操作，而使用Beautiful Soup只需將其功能導入計算機中并聯(lián)機使用即可。因此，使用者甚至可以將Beautiful Soup應用于自己的Jupyternotebook。

以上是關于Python中數(shù)據(jù)收集的庫的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業(yè)資訊頻道！

向AI問一下細節(jié)

猜你喜歡