您好,登錄后才能下訂單哦!
本篇內(nèi)容主要講解“Python怎么爬取圖片之家”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Python怎么爬取圖片之家”吧!
模擬瀏覽器
請求并獲取網(wǎng)站數(shù)據(jù)
在原始數(shù)據(jù)中提取我們想要的數(shù)據(jù) 數(shù)據(jù)篩選
將篩選完成的數(shù)據(jù)做保存
完成一個爬蟲需要哪些工具
Python3.6
pycharm 專業(yè)版
目標網(wǎng)站
圖片之家
https://www.tupianzj.com/
導(dǎo)入工具
python 自帶的標準庫
import ssl
系統(tǒng)庫 自動創(chuàng)建保存文件夾
import os
下載包
import urllib.request
網(wǎng)絡(luò)庫 第三方包
import requests
網(wǎng)頁選擇器
from bs4 import BeautifulSoup
默認請求https網(wǎng)站不需要證書認證
ssl._create_default_https_context = ssl._create_unverified_context
模擬瀏覽器
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36', }
自動創(chuàng)建文件夾
if not os.path.exists('./插畫素材/'): os.mkdir('./插畫素材/') else: pass
請求操作
url = 'https://www.tupianzj.com/meinv/mm/meizitu/' html = requests.get(url, headers=headers).text
對頁面原始數(shù)據(jù)做數(shù)據(jù)提取
soup = BeautifulSoup(html, 'lxml') images_data = soup.find('ul', class_='d1 ico3').find_all_next('li') for image in images_data: image_url = image.find_all('img') for _ in image_url: print(_['src'], _['alt'])
下載
try: urllib.request.urlretrieve(_['src'], './插畫素材/' + _['alt'] + '.jpg') except: pass
到此,相信大家對“Python怎么爬取圖片之家”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學習!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。