您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“如何使用python爬取網(wǎng)站文章將圖片保存到本地并將HTML的src屬性更改到本地”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學習一下“如何使用python爬取網(wǎng)站文章將圖片保存到本地并將HTML的src屬性更改到本地”這篇文章吧。
每次當你爬取一篇文章時,不管是從csdn或者其他網(wǎng)站,基本內(nèi)容都是保存在一個富文本編輯器中,將內(nèi)容提取出來還是一個html,保存之后圖片還在別人的圖片服務(wù)器上。我今天要說的就是將圖片保存之后并將它的src屬性替換成本地的地址。并且以次替換,按照原文章排版順序替換。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018/11/5 15:06
# @Author : jia.zhao
# @Desc :
# @File : img_test.py
# @Software: PyCharm
import urllib.request
import re
def getHtml(url):
# 通過urllib去請求
page = urllib.request.urlopen(url)
# 讀取頁面內(nèi)容
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
# Python3需要加的
html = html.decode('utf-8')
# 找到所有匹配項
imglist = re.findall(imgre, html)
x = 0
# 循環(huán)
for i in range(len(imglist)):
# 保存圖片
# urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x)
# 根據(jù)每個圖片的src的內(nèi)容進行替換
html = re.sub(imglist[i], "G:/pachong/img/%s.jpg" % str(i), html)
x += 1
print(html)
html = getHtml("http://tieba.baidu.com/p/2460150866")
print(getImg(html))
這個demo知識貼吧的一個帖子里的圖片,大家可以依據(jù)自己的需求去更改此代碼。
以上是“如何使用python爬取網(wǎng)站文章將圖片保存到本地并將HTML的src屬性更改到本地”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。