溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

常見的python爬蟲框架有哪些

發(fā)布時間:2020-12-01 10:45:39 來源:億速云 閱讀:207 作者:小新 欄目:編程語言

小編給大家分享一下常見的python爬蟲框架有哪些,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

常見python爬蟲框架:

(1)Scrapy: 很強大的爬蟲框架,可以滿足簡單的頁面爬?。ū热缈梢悦鞔_獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對于稍微復(fù)雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。

(2)Crawley: 高速爬取對應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫,數(shù)據(jù)可以導(dǎo)出為JSON、XML等

(3)Portia: 可視化爬取網(wǎng)頁內(nèi)容

(4)newspaper: 提取新聞、文章以及內(nèi)容分析

(5)python-goose: java寫的文章提取工具

(6)Beautiful Soup: 名氣大,整合了一些常用爬蟲需求。缺點:不能加載JS。

(7)mechanize:優(yōu)點:可以加載JS。缺點:文檔嚴(yán)重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。

(8)selenium: 這是一個調(diào)用瀏覽器的driver,通過這個庫你可以直接調(diào)用瀏覽器完成某些操作,比如輸入驗證碼。

(9)cola: 一個分布式爬蟲框架。項目整體設(shè)計有點糟,模塊間耦合度較高。

看完了這篇文章,相信你對常見的python爬蟲框架有哪些有了一定的了解,想了解更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI