用Python下載一個(gè)網(wǎng)頁(yè)保存為本地的HTML文件實(shí)例

發(fā)布時(shí)間：2020-09-04 12:10:21 來(lái)源：腳本之家閱讀：525 作者：麥克斯韋的妖精欄目：開(kāi)發(fā)技術(shù)

我們可以用Python來(lái)將一個(gè)網(wǎng)頁(yè)保存為本地的HTML文件，這需要用到urllib庫(kù)。

比如我們要下載山東大學(xué)新聞網(wǎng)的一個(gè)頁(yè)面，該網(wǎng)頁(yè)如下：

實(shí)現(xiàn)代碼如下：

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符，比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 寫(xiě)文件用bytes而不是str，所以要轉(zhuǎn)碼
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下載成功")

打開(kāi)相應(yīng)的目錄可以看到這個(gè)網(wǎng)頁(yè)已經(jīng)被下載保存成功了

用Python下載一個(gè)網(wǎng)頁(yè)保存為本地的HTML文件實(shí)例

我們用瀏覽器打開(kāi)這個(gè)網(wǎng)頁(yè)文件如下

用Python下載一個(gè)網(wǎng)頁(yè)保存為本地的HTML文件實(shí)例

由于我們只是下載了網(wǎng)頁(yè)的主要源碼，其中的很多圖片之類(lèi)的文件都不在這里。因此這種方法只適用于提取文字內(nèi)容。

以上這篇用Python下載一個(gè)網(wǎng)頁(yè)保存為本地的HTML文件實(shí)例就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持億速云。

向AI問(wèn)一下細(xì)節(jié)

用Python下載一個(gè)網(wǎng)頁(yè)保存為本地的HTML文件實(shí)例

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽