Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)

發(fā)布時(shí)間：2022-01-15 16:32:35 來(lái)源：億速云閱讀：186 作者：iii 欄目：大數(shù)據(jù)

這篇“Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)”文章的知識(shí)點(diǎn)大部分人都不太理解，所以小編給大家總結(jié)了以下內(nèi)容，內(nèi)容詳細(xì)，步驟清晰，具有一定的借鑒價(jià)值，希望大家閱讀完這篇文章能有所收獲，下面我們一起來(lái)看看這篇“Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)”文章吧。

1）JAVA

Java的語(yǔ)法比較規(guī)則，采用嚴(yán)格的面向?qū)ο缶幊谭椒?，同時(shí)有很多大型的開發(fā)框架，比較適合企業(yè)級(jí)應(yīng)用。Java的學(xué)習(xí)曲線較長(zhǎng)，不僅要學(xué)習(xí)語(yǔ)言相關(guān)的特性，還要面向?qū)ο蟮能浖?gòu)造方法，在此之后要學(xué)習(xí)一些框架的使用方法。

（1）用途：Android & IOS 應(yīng)用開發(fā)，視頻游戲開發(fā)，桌面GUIs（即圖形用戶頁(yè)面），軟件開發(fā)，架構(gòu)等。

（2）優(yōu)勢(shì)：面向?qū)ο箝_源、跨平臺(tái)、市場(chǎng)需求旺盛；Android開發(fā)的基石，是Web開發(fā)的主流語(yǔ)言；

（3）缺點(diǎn)：占用大量的內(nèi)存，啟動(dòng)時(shí)間較長(zhǎng)，不直接支持硬件級(jí)別的處理

2）Python

python是動(dòng)態(tài)形的靈活的解釋性語(yǔ)言，從軟件開發(fā)到Web開發(fā)，Python都有在被使用。

因?yàn)樗墙忉屝阅_本語(yǔ)言，適合輕量級(jí)開發(fā)。Python是比較好學(xué)的語(yǔ)言。

（1）用途：爬蟲，Web開發(fā)，視頻游戲開發(fā)，桌面GUIs（即圖形用戶頁(yè)面），軟件開發(fā)，架構(gòu)等。

（2）優(yōu)勢(shì)：動(dòng)態(tài)解釋型、擁有強(qiáng)大的開源類庫(kù)、開發(fā)效率高、開源，靈活，入門低易上手

（3）缺點(diǎn)：運(yùn)行速度低于編譯型語(yǔ)言，在移動(dòng)計(jì)算領(lǐng)域乏力

3）C++

C++更接近于底層，方便直接操作內(nèi)存。C++不僅擁有計(jì)算機(jī)高效運(yùn)行的實(shí)用性特征，同時(shí)還致力于提高大規(guī)模程序的編程質(zhì)量與程序設(shè)計(jì)語(yǔ)言的問題描述能力。C++運(yùn)行效率較高，同時(shí)能夠比較容易地建立大型軟件，適合對(duì)效率要求高的軟件。C++的內(nèi)容非常復(fù)雜，同時(shí)語(yǔ)言經(jīng)過了幾十年的演化，所以學(xué)習(xí)起來(lái)難度較大，開發(fā)效率較低。

1）用途：機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)、大型游戲編程、后臺(tái)服務(wù)、桌面軟件等

2）優(yōu)勢(shì)：運(yùn)行效率高、安全、面向?qū)ο?、?jiǎn)潔、可重用性好等

3）缺點(diǎn)：沒有垃圾回收機(jī)制，可能引起內(nèi)存設(shè)漏；學(xué)習(xí)難度大，開發(fā)效率相對(duì)較低；

通過在GitHub上搜索”爬蟲”，我們可以發(fā)現(xiàn)，目前市面上的開源爬蟲項(xiàng)目，Python占百分八十的份額。

而且目前市面上，具有兩年以上Python爬蟲經(jīng)驗(yàn)的工程師，其工資普遍高于Java和C++爬蟲工程師。

所以，Python才是開發(fā)爬蟲不二的選擇。那么一個(gè)初學(xué)者掌握哪些知識(shí)，就可以使用Python開發(fā)爬蟲呢？

1. 網(wǎng)絡(luò)

urllib -網(wǎng)絡(luò)庫(kù)(stdlib)。

requests -網(wǎng)絡(luò)庫(kù)。

grab – 網(wǎng)絡(luò)庫(kù)（基于pycurl）。

pycurl – 網(wǎng)絡(luò)庫(kù)（綁定libcurl）。

urllib3 – Python HTTP庫(kù)，安全連接池、支持文件post、可用性高。

httplib2 – 網(wǎng)絡(luò)庫(kù)。

RoboBrowser – 一個(gè)簡(jiǎn)單的、極具Python風(fēng)格的Python庫(kù)，無(wú)需獨(dú)立的瀏覽器即可瀏覽網(wǎng)頁(yè)。

MechanicalSoup -一個(gè)與網(wǎng)站自動(dòng)交互Python庫(kù)。

mechanize -有狀態(tài)、可編程的Web瀏覽庫(kù)。

socket – 底層網(wǎng)絡(luò)接口(stdlib)。

2. HTML/XML解析器

lxml – C語(yǔ)言編寫高效HTML/ XML處理庫(kù)。支持XPath。

cssselect – 解析DOM樹和CSS選擇器。

pyquery – 解析DOM樹和jQuery選擇器。

BeautifulSoup – 低效HTML/ XML處理庫(kù)，純Python實(shí)現(xiàn)。

html5lib – 根據(jù)WHATWG規(guī)范生成HTML/ XML文檔的DOM。該規(guī)范被用在現(xiàn)在所有的瀏覽器上。

feedparser – 解析RSS/ATOM feeds。

MarkupSafe – 為XML/HTML/XHTML提供了安全轉(zhuǎn)義的字符串。

3. 瀏覽器自動(dòng)化與仿真

selenium – 自動(dòng)化真正的瀏覽器（Chrome瀏覽器，火狐瀏覽器，Opera瀏覽器，IE瀏覽器）。

Ghost.py – 對(duì)PyQt的webkit的封裝（需要PyQT）。

Spynner – 對(duì)PyQt的webkit的封裝（需要PyQT）。

Splinter – 通用API瀏覽器模擬器（selenium web驅(qū)動(dòng)，Django客戶端，Zope）。

4. 多重處理

threading – Python標(biāo)準(zhǔn)庫(kù)的線程運(yùn)行。對(duì)于I/O密集型任務(wù)很有效。對(duì)于CPU綁定的任務(wù)沒用，因?yàn)閜ython GIL。

multiprocessing – 標(biāo)準(zhǔn)的Python庫(kù)運(yùn)行多進(jìn)程。

celery – 基于分布式消息傳遞的異步任務(wù)隊(duì)列/作業(yè)隊(duì)列。

concurrent-futures – concurrent-futures 模塊為調(diào)用異步執(zhí)行提供了一個(gè)高層次的接口。

5. 異步網(wǎng)絡(luò)編程庫(kù)

asyncio – （在Python 3.4 +版本以上的 Python標(biāo)準(zhǔn)庫(kù)）異步I/O，時(shí)間循環(huán)，協(xié)同程序和任務(wù)。

gevent – 一個(gè)使用greenlet 的基于協(xié)程的Python網(wǎng)絡(luò)庫(kù)。

6. 網(wǎng)頁(yè)內(nèi)容提取

HTML頁(yè)面的文本和元數(shù)據(jù)

newspaper – 用Python進(jìn)行新聞提取、文章提取和內(nèi)容策展。

html2text – 將HTML轉(zhuǎn)為Markdown格式文本。

python-goose – HTML內(nèi)容/文章提取器。

lassie – 人性化的網(wǎng)頁(yè)內(nèi)容檢索工具

了解了以上的知識(shí)點(diǎn)以后，我們獲取網(wǎng)絡(luò)數(shù)據(jù)的方式有哪些呢？

方式1：瀏覽器提交請(qǐng)求--->下載網(wǎng)頁(yè)代碼--->解析成頁(yè)面

方式2：模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁(yè)代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫(kù)或文件中

爬蟲要做的就是方式2。

Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)

1、發(fā)起請(qǐng)求

使用http庫(kù)向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求，即發(fā)送一個(gè)Request

Request包含：請(qǐng)求頭、請(qǐng)求體等

Request模塊缺陷：不能執(zhí)行JS 和CSS 代碼

2、獲取響應(yīng)內(nèi)容

如果服務(wù)器能正常響應(yīng)，則會(huì)得到一個(gè)Response

Response包含：html，json，圖片，視頻等

3、解析內(nèi)容

解析html數(shù)據(jù)：正則表達(dá)式（RE模塊），第三方解析庫(kù)如Beautifulsoup，pyquery等

解析json數(shù)據(jù)：json模塊

解析二進(jìn)制數(shù)據(jù):以wb的方式寫入文件

4、保存數(shù)據(jù)

數(shù)據(jù)庫(kù)（MySQL，Mongdb、Redis）、文件

目前上市面上開源爬蟲項(xiàng)目主要有一下八個(gè):

1.Scrapy

Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。可以應(yīng)用在包括數(shù)據(jù)挖掘，信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中。。用這個(gè)框架可以輕松爬下來(lái)如亞馬遜商品信息之類的數(shù)據(jù)。

2.PySpider

pyspider 是一個(gè)用python實(shí)現(xiàn)的功能強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)，能在瀏覽器界面上進(jìn)行腳本的編寫，功能的調(diào)度和爬取結(jié)果的實(shí)時(shí)查看，后端使用常用的數(shù)據(jù)庫(kù)進(jìn)行爬取結(jié)果的存儲(chǔ)，還能定時(shí)設(shè)置任務(wù)與任務(wù)優(yōu)先級(jí)等。

3.Crawley

Crawley可以高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容，支持關(guān)系和非關(guān)系數(shù)據(jù)庫(kù)，數(shù)據(jù)可以導(dǎo)出為JSON、XML等。

4.Portia

Portia是一個(gè)開源可視化爬蟲工具，可讓您在不需要任何編程知識(shí)的情況下爬取網(wǎng)站！簡(jiǎn)單地注釋您感興趣的頁(yè)面，Portia將創(chuàng)建一個(gè)蜘蛛來(lái)從類似的頁(yè)面提取數(shù)據(jù)。

5.Newspaper

Newspaper可以用來(lái)提取新聞、文章和內(nèi)容分析。使用多線程，支持10多種語(yǔ)言等。

Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)

6.Beautiful Soup

Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù).它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間。

Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)

7.Grab

Grab是一個(gè)用于構(gòu)建Web刮板的Python框架。借助Grab，您可以構(gòu)建各種復(fù)雜的網(wǎng)頁(yè)抓取工具，從簡(jiǎn)單的5行腳本到處理數(shù)百萬(wàn)個(gè)網(wǎng)頁(yè)的復(fù)雜異步網(wǎng)站抓取工具。Grab提供一個(gè)API用于執(zhí)行網(wǎng)絡(luò)請(qǐng)求和處理接收到的內(nèi)容，例如與HTML文檔的DOM樹進(jìn)行交互。

8.Cola

Cola是一個(gè)分布式的爬蟲框架，對(duì)于用戶來(lái)說，只需編寫幾個(gè)特定的函數(shù)，而無(wú)需關(guān)注分布式運(yùn)行的細(xì)節(jié)。任務(wù)會(huì)自動(dòng)分配到多臺(tái)機(jī)器上，整個(gè)過程對(duì)用戶是透明的。

以上就是關(guān)于“Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)”這篇文章的內(nèi)容，相信大家都有了一定的了解，希望小編分享的內(nèi)容對(duì)大家有幫助，若想了解更多相關(guān)的知識(shí)內(nèi)容，請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽