溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

python爬蟲學(xué)習(xí)過(guò)程:

發(fā)布時(shí)間:2020-06-24 19:25:57 來(lái)源:網(wǎng)絡(luò) 閱讀:696 作者:大陌 欄目:開(kāi)發(fā)技術(shù)

1.掌握python的基本語(yǔ)法知識(shí)


2.學(xué)會(huì)如何抓取HTML頁(yè)面:

HTTP請(qǐng)求的處理:urlib、urlib2 及requests(reqests對(duì)urllib和urllib2進(jìn)行了封裝

,功能相當(dāng)于二者的和)

處理后的請(qǐng)求可以模擬瀏覽器發(fā)送的請(qǐng)求,獲取瀏覽器的響應(yīng)


3.解析服務(wù)器響應(yīng)的內(nèi)容:

re、xpath、BeautifulSoup4(bs4)、jsonpath、等

給我們需要的數(shù)據(jù)定義一個(gè)匹配規(guī)則,符合這個(gè)規(guī)則的數(shù)據(jù)將會(huì)被匹配


4.如何采集動(dòng)態(tài)HTML、驗(yàn)證碼的處理:

通用的動(dòng)態(tài)頁(yè)面采集:Selenium + PhantomJS(模仿×××面瀏覽器,加載js等頁(yè)面效果)

機(jī)器圖像識(shí)別系統(tǒng):Tesseract(谷歌維護(hù)的一個(gè)庫(kù))可以處理簡(jiǎn)單的驗(yàn)證碼

專業(yè)的打碼平臺(tái)(后臺(tái)有真人進(jìn)行打碼)可以處理復(fù)雜的驗(yàn)證碼


5.Scrapy框架:(Scrapy,Pyspider):

高定制性及高性能(異步網(wǎng)絡(luò)框架 twisted),所以下載數(shù)據(jù)速度非???,提供了數(shù)據(jù)存儲(chǔ)

、數(shù)據(jù)下載和提取規(guī)則等組件


6.分布式策略(功能強(qiáng)大,但是成本高):

scrapy-redis、以Redis數(shù)據(jù)庫(kù)為核心的一套組件,讓scrapy框架支持分布式的功能,主

主要在redis里做請(qǐng)求指紋去重、請(qǐng)求分配、數(shù)據(jù)臨時(shí)存儲(chǔ)


7.爬蟲、反爬蟲、反反爬蟲 之間的斗爭(zhēng)

User-Agent、代理、驗(yàn)證碼、動(dòng)態(tài)數(shù)據(jù)加載、加密數(shù)據(jù)(加密方法最終隱藏在網(wǎng)站中的

某個(gè)JS腳本中)

關(guān)于爬蟲和反爬蟲之間的斗爭(zhēng),最終勝利的一定是我們的爬蟲,因?yàn)橛脩艨梢钥吹降臄?shù)

據(jù),最后都可以爬到


向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI