您好,登錄后才能下訂單哦!
這篇文章主要講解了“如何通過python獲取甲流分布數(shù)據(jù)”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“如何通過python獲取甲流分布數(shù)據(jù)”吧!
1、分析網(wǎng)頁的網(wǎng)絡(luò)數(shù)據(jù),取得請求頭,并用python的requests包進(jìn)行解析和讀取。
2、分析解析出的包,進(jìn)行提取和操作
3、將數(shù)據(jù)提出并存到數(shù)據(jù)庫
思路差不多就是這些,因?yàn)橛蟹磁?,所以在爬取過程中錯了反爬措施,基本的就是解決方案就是User-Agent 用戶代理的添加和代理的使用,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,一般再加上Referer。
User-Agent最好使用真實(shí)庫,代理最好也是高效的,Referer的來源可以偽裝成百度搜索來的。
Mozilla/4.0 (compatible; MSIE 4.0; Windows Me; Trident/4.0; SV1; .NET CLR 1.0.3705; .NET CLR 3.0.04320; msn OptimizedIE8;ZHCN) Mozilla/4.0 (compatible; MSIE 4.0; Windows NT 5.1; Trident/4.0; Maxthon; .NET CLR 3.0.04320; msn OptimizedIE8;ZHCN) Mozilla/4.0 (compatible; MSIE 6.0; Windows CE; PPC; 240x320) Opera 8.65 [zh-cn] Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QIHU 360EE) ; InfoPath.2; .NET CLR 2.0.50727) Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Foxy/2; .NET CLR 2.0.50727; SE 2.x) Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET CLR 2.0.50727; 360SE) 需要其他版本的UA庫,可以找億牛云。 爬蟲如何添加UA: class ProxyMiddleware(object): def process_request(self, request, spider): # 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗(yàn)證信息 proxyUser = "username" proxyPass = "password" request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort) # 添加驗(yàn)證頭 encoded_user_pass = base64ify(proxyUser + ":" + proxyPass) request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass # 設(shè)置IP切換頭(根據(jù)需求) tunnel = random.randint(1,10000) request.headers['Proxy-Tunnel'] = str(tunnel) headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36', 'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'} response = requests.get(url=url, headers=headers)
cookie的獲取
import requests class Crawler(): def getCookie(self): response = requests.get(self.url) cookie_value = '' for key,value in response.cookies.items(): cookie_value += key + '=' + value + ';' self.headers['Cookie'] = cookie_value
感謝各位的閱讀,以上就是“如何通過python獲取甲流分布數(shù)據(jù)”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對如何通過python獲取甲流分布數(shù)據(jù)這一問題有了更深刻的體會,具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。