您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“python如何爬取漂亮的圖片作為壁紙”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
首先,可以查看上瀏覽器上的地址欄,可以看出這個(gè)搜索結(jié)果的網(wǎng)址構(gòu)成還是挺有規(guī)律的,前面是堆糖的首頁網(wǎng)址,?后面是咱們的請(qǐng)求數(shù)據(jù),請(qǐng)求數(shù)據(jù)里面最關(guān)鍵的就是(kw="搜索關(guān)鍵詞"),這是會(huì)根據(jù)咱們搜索內(nèi)容不同而改變的。
接著按鍵盤上的f12調(diào)出開發(fā)者工具,點(diǎn)擊Network,再按f5刷新下網(wǎng)頁進(jìn)行數(shù)據(jù)重新請(qǐng)求,可以看到在Name的下拉框下有許多的請(qǐng)求文件,咱們可以點(diǎn)擊一個(gè)文件進(jìn)行查看下里面請(qǐng)求頭數(shù)據(jù),這是待會(huì)寫爬蟲非常重要的請(qǐng)求頭構(gòu)造數(shù)據(jù)來源。
看不出規(guī)律可以單擊下資源文件,右邊窗口的Request URL行也有這個(gè)url,咱們多點(diǎn)擊幾個(gè)文件進(jìn)行查看,并將里面url地址復(fù)制到文本上查看。
單擊一個(gè)資源文件,再點(diǎn)擊右邊Preview,可以看到這里面有許多數(shù)據(jù),而咱們要的數(shù)據(jù)就是前面的json數(shù)據(jù),黑色三角形是可以點(diǎn)擊的,點(diǎn)擊后會(huì)展開詳細(xì)的數(shù)據(jù)信息。
分析到這里,就可以來寫咱們的代碼,打開pycharm,先導(dǎo)入必要的庫。
from urllib.parse import urlencode import requests import time import os
接著構(gòu)造咱們的請(qǐng)求頭和每一頁的url。
base_url='https://www.duitang.com/napi/blog/list/by_search/?' headers = { 'Host':'www.duitang.com', 'Referer':'https://www.duitang.com/search/?kw=%e7%be%8e%e5%a5%b3&type=feed', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36', 'X-Requested-With':'XMLHttpRequest' }
def get_page(start,count): params={ 'kw':'小姐姐', 'type':'feed', 'include_fields':'top_comments,is_root,source_link,item,buyable,root_id,status,like_count,like_id,sender,album,reply_count,favorite_blog_id', '_type':'', 'start':start, '_':count } url = base_url + urlencode(params) try: response = requests.get(url,headers=headers) if response.status_code == 200: return response.json() else: print("error") except requests.ConnectionError as e: print('Error',e.args)
獲取到圖片url就可以進(jìn)行讀寫操作了。
def parse_page(json): if json: items = json.get('data').get('object_list') for item in items: data = {} data['favorite_count'] = item.get('favorite_count'); item = item.get('photo') data['path']=item.get('path'); ## 獲取圖片url地址 file_path = '{0}/{1}'.format('./'+download_dir, data['path'].split('/')[-1]) ## 將圖片寫入到本地硬盤上 with open(file_path, 'wb') as f: img = requests.get(data['path']) print(img) f.write(img.content) yield data
再寫個(gè)主函數(shù),完成
start_page = 0 ## 從第幾頁開始爬 page_size = 5 ## 要爬多少頁 count = 1597729530322 ## 第1頁請(qǐng)求數(shù)據(jù)中下劃線的取值 download_dir = "downlode_img">
“python如何爬取漂亮的圖片作為壁紙”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。