python爬蟲學(xué)習(xí)過(guò)程:

發(fā)布時(shí)間：2020-06-24 19:25:57 來(lái)源：網(wǎng)絡(luò) 閱讀：696 作者：大陌欄目：開(kāi)發(fā)技術(shù)

1.掌握python的基本語(yǔ)法知識(shí)

2.學(xué)會(huì)如何抓取HTML頁(yè)面:

HTTP請(qǐng)求的處理:urlib、urlib2 及requests(reqests對(duì)urllib和urllib2進(jìn)行了封裝

，功能相當(dāng)于二者的和)

處理后的請(qǐng)求可以模擬瀏覽器發(fā)送的請(qǐng)求，獲取瀏覽器的響應(yīng)

3.解析服務(wù)器響應(yīng)的內(nèi)容:

re、xpath、BeautifulSoup4(bs4)、jsonpath、等

給我們需要的數(shù)據(jù)定義一個(gè)匹配規(guī)則，符合這個(gè)規(guī)則的數(shù)據(jù)將會(huì)被匹配

4.如何采集動(dòng)態(tài)HTML、驗(yàn)證碼的處理:

通用的動(dòng)態(tài)頁(yè)面采集：Selenium + PhantomJS(模仿×××面瀏覽器，加載js等頁(yè)面效果)

機(jī)器圖像識(shí)別系統(tǒng):Tesseract(谷歌維護(hù)的一個(gè)庫(kù))可以處理簡(jiǎn)單的驗(yàn)證碼

專業(yè)的打碼平臺(tái)(后臺(tái)有真人進(jìn)行打碼)可以處理復(fù)雜的驗(yàn)證碼

5.Scrapy框架:(Scrapy,Pyspider):

高定制性及高性能(異步網(wǎng)絡(luò)框架 twisted),所以下載數(shù)據(jù)速度非?？?，提供了數(shù)據(jù)存儲(chǔ)

、數(shù)據(jù)下載和提取規(guī)則等組件

6.分布式策略(功能強(qiáng)大,但是成本高)：

scrapy-redis、以Redis數(shù)據(jù)庫(kù)為核心的一套組件，讓scrapy框架支持分布式的功能，主

主要在redis里做請(qǐng)求指紋去重、請(qǐng)求分配、數(shù)據(jù)臨時(shí)存儲(chǔ)

7.爬蟲、反爬蟲、反反爬蟲之間的斗爭(zhēng)

User-Agent、代理、驗(yàn)證碼、動(dòng)態(tài)數(shù)據(jù)加載、加密數(shù)據(jù)(加密方法最終隱藏在網(wǎng)站中的

某個(gè)JS腳本中)

關(guān)于爬蟲和反爬蟲之間的斗爭(zhēng)，最終勝利的一定是我們的爬蟲，因?yàn)橛脩艨梢钥吹降臄?shù)

據(jù)，最后都可以爬到

向AI問(wèn)一下細(xì)節(jié)

猜你喜歡