溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python爬蟲學(xué)習(xí)之獲取指定網(wǎng)頁源碼

發(fā)布時(shí)間:2020-10-17 08:48:18 來源:腳本之家 閱讀:233 作者:羅思洋 欄目:開發(fā)技術(shù)

本文實(shí)例為大家分享了Python獲取指定網(wǎng)頁源碼的具體代碼,供大家參考,具體內(nèi)容如下

1、任務(wù)簡(jiǎn)介

前段時(shí)間一直在學(xué)習(xí)Python基礎(chǔ)知識(shí),故未更新博客,近段時(shí)間學(xué)習(xí)了一些關(guān)于爬蟲的知識(shí),我會(huì)分為多篇博客對(duì)所學(xué)知識(shí)進(jìn)行更新,今天分享的是獲取指定網(wǎng)頁源碼的方法,只有將網(wǎng)頁源碼抓取下來才能從中提取我們需要的數(shù)據(jù)。

2、任務(wù)代碼

Python獲取指定網(wǎng)頁源碼的方法較為簡(jiǎn)單,我在Java中使用了38行代碼才獲取了網(wǎng)頁源碼(大概是學(xué)藝不精),而Python中只用了6行就達(dá)到了效果。

Python中獲取網(wǎng)頁源碼最簡(jiǎn)單的方法就是使用urllib包,具體代碼如下:

import urllib.request    #導(dǎo)入urllib.request庫
b = str(input("請(qǐng)輸入:"))  #提示用戶輸入信息,并強(qiáng)制類型轉(zhuǎn)換為字符串型
a = urllib.request.urlopen(b)#打開指定網(wǎng)址
html = a.read()       #讀取網(wǎng)頁源碼
html = html.decode("utf-8") #解碼為unicode碼
print(html)         #打印網(wǎng)頁源碼

我輸入的網(wǎng)址是我博客主頁的網(wǎng)址https://blog.csdn.net/lsylsy726

運(yùn)行結(jié)果如下:

Python爬蟲學(xué)習(xí)之獲取指定網(wǎng)頁源碼

3、總結(jié)

這篇博客介紹的方法較為簡(jiǎn)單,其實(shí)有的網(wǎng)站會(huì)“反爬蟲”,這時(shí)就需要我們使用User-Agent或者代理,這些東西都會(huì)在后面的博客中進(jìn)行更新,我預(yù)計(jì)在后面博客中更新“讀取CSDN博客訪問量的小程序”和“有道翻譯小程序”及其他更難一些的知識(shí),由于剛開始學(xué)習(xí)爬蟲,水平有限,請(qǐng)大家多多包涵。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持億速云。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI