您好,登錄后才能下訂單哦!
小編給大家分享一下如何使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!
python的數(shù)據(jù)類型:1. 數(shù)字類型,包括int(整型)、long(長整型)和float(浮點(diǎn)型)。2.字符串,分別是str類型和unicode類型。3.布爾型,Python布爾類型也是用于邏輯運(yùn)算,有兩個(gè)值:True(真)和False(假)。4.列表,列表是Python中使用最頻繁的數(shù)據(jù)類型,集合中可以放任何數(shù)據(jù)類型。5. 元組,元組用”()”標(biāo)識(shí),內(nèi)部元素用逗號(hào)隔開。6. 字典,字典是一種鍵值對(duì)的集合。7. 集合,集合是一個(gè)無序的、不重復(fù)的數(shù)據(jù)組合。
python爬蟲支持模塊多、代碼簡(jiǎn)潔、開發(fā)效率高 ,是我們進(jìn)行網(wǎng)絡(luò)爬蟲可以選取的好工具。對(duì)于一個(gè)個(gè)的爬取下載,勢(shì)必會(huì)消耗我們大量的時(shí)間,使用Python爬蟲就可以解決這個(gè)問題,即可以實(shí)現(xiàn)自動(dòng)下載。
一、自動(dòng)下載圖片流程
1、總結(jié)網(wǎng)址規(guī)律,以便根據(jù)網(wǎng)址訪問網(wǎng)頁;
2、根據(jù)網(wǎng)址規(guī)律,循環(huán)爬取并返回網(wǎng)頁;
3、利用正則表達(dá)式提取并返回圖片。
二、使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片步驟
1、導(dǎo)入相關(guān)包
import requests import importlib import urllib import re import os import sys importlib.reload(sys)
2、定義網(wǎng)頁訪問函數(shù)
cookie獲得方式:正常訪問此頁面,鼠標(biāo)右鍵檢查或F12-在Network處查看自己的cookie,由于cookie很長且每個(gè)用戶的cookie不同,故代碼中將cookie省略了,讀者可查看自己瀏覽器的cookie,將其加入代碼中。
def askURL(url): head = { "Accept": "image/webp,image/apng,image/*,*/*;q=0.8", "Accept-Language": "zh-CN,zh;q=0.9", "Connection": "keep-alive", "Cookie": " ", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ 71.0.3578.98 Safari/537.36" } s = quote(url, safe=string.printable) # 中文轉(zhuǎn)utf8字符,否則會(huì)報(bào)ascii錯(cuò) print(s) request = urllib.request.Request(s, headers=head) html = "" try: response = urllib.request.urlopen(request) html = response.read().decode("utf-8") print(html) except urllib.error.URLError as e: if hasattr(e, "code"): print(e.code) if hasattr(e, "reason"): print(e.reason) return html
3、提取圖片并返回
根據(jù)返回的html網(wǎng)頁可以看到,網(wǎng)頁中包含圖片的url共有四種類型,分別是objURL、middleURL、hoverURL和thumbURL,故利用正則表達(dá)式返回四種類型的鏈接并合并。
i = 1 def savePic(url): global i # html = askURL(url) pic_url = re.findall('"objURL":"(.*?)",', html, re.S) # re.S表示讓換行符包含在字符中 pic_url2 = re.findall('"middleURL":"(.*?)",', html, re.S) pic_url3 = re.findall('"hoverURL":"(.*?)",', html, re.S) pic_url4 = re.findall('"thumbURL":"(.*?)",', html, re.S) result = pic_url2 + pic_url + pic_url4 + pic_url3 for item in result: print("已下載" + str(i) + "張圖片") # 定義異??刂? try: pic = requests.get(item, timeout=5) except Exception: print("當(dāng)前圖片無法下載") continue # 保存圖片 string = 'D:/MyData/Python爬蟲/圖片/'+word+"/"+str(i)+".jpg" fp = open(string, 'wb') fp.write(pic.content) fp.close() i += 1
4、定義主函數(shù)
if __name__ == '__main__': # 主程序 word = input("請(qǐng)輸入想要下載的圖片:") # 根據(jù)搜索的關(guān)鍵字判斷存放該類別的文件夾是否存在,不存在則創(chuàng)建 road = "D:/MyData/Python爬蟲/圖片下載器/" + word if not os.path.exists(road): os.mkdir(road) # 根據(jù)輸入的內(nèi)容構(gòu)建url列表,此處只訪問了四頁驗(yàn)證效果 urls = [ 'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=' + word '.format(str(i)) for i in range(0, 40, 10)] for url in urls: print(url) downloadPic(url) print("下載完成!")
看完了這篇文章,相信你對(duì)“如何使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片”有了一定的了解,如果想了解更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。