您好,登錄后才能下訂單哦!
1.掌握python的基本語(yǔ)法知識(shí)
2.學(xué)會(huì)如何抓取HTML頁(yè)面:
HTTP請(qǐng)求的處理:urlib、urlib2 及requests(reqests對(duì)urllib和urllib2進(jìn)行了封裝
,功能相當(dāng)于二者的和)
處理后的請(qǐng)求可以模擬瀏覽器發(fā)送的請(qǐng)求,獲取瀏覽器的響應(yīng)
3.解析服務(wù)器響應(yīng)的內(nèi)容:
re、xpath、BeautifulSoup4(bs4)、jsonpath、等
給我們需要的數(shù)據(jù)定義一個(gè)匹配規(guī)則,符合這個(gè)規(guī)則的數(shù)據(jù)將會(huì)被匹配
4.如何采集動(dòng)態(tài)HTML、驗(yàn)證碼的處理:
通用的動(dòng)態(tài)頁(yè)面采集:Selenium + PhantomJS(模仿×××面瀏覽器,加載js等頁(yè)面效果)
機(jī)器圖像識(shí)別系統(tǒng):Tesseract(谷歌維護(hù)的一個(gè)庫(kù))可以處理簡(jiǎn)單的驗(yàn)證碼
專業(yè)的打碼平臺(tái)(后臺(tái)有真人進(jìn)行打碼)可以處理復(fù)雜的驗(yàn)證碼
5.Scrapy框架:(Scrapy,Pyspider):
高定制性及高性能(異步網(wǎng)絡(luò)框架 twisted),所以下載數(shù)據(jù)速度非???,提供了數(shù)據(jù)存儲(chǔ)
、數(shù)據(jù)下載和提取規(guī)則等組件
6.分布式策略(功能強(qiáng)大,但是成本高):
scrapy-redis、以Redis數(shù)據(jù)庫(kù)為核心的一套組件,讓scrapy框架支持分布式的功能,主
主要在redis里做請(qǐng)求指紋去重、請(qǐng)求分配、數(shù)據(jù)臨時(shí)存儲(chǔ)
7.爬蟲、反爬蟲、反反爬蟲 之間的斗爭(zhēng)
User-Agent、代理、驗(yàn)證碼、動(dòng)態(tài)數(shù)據(jù)加載、加密數(shù)據(jù)(加密方法最終隱藏在網(wǎng)站中的
某個(gè)JS腳本中)
關(guān)于爬蟲和反爬蟲之間的斗爭(zhēng),最終勝利的一定是我們的爬蟲,因?yàn)橛脩艨梢钥吹降臄?shù)
據(jù),最后都可以爬到
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。