溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

Python?urllib如何使用

發(fā)布時(shí)間：2022-11-18 10:04:14 來源：億速云閱讀：109 作者：iii 欄目：開發(fā)技術(shù)

本篇內(nèi)容介紹了“Python urllib如何使用”的有關(guān)知識(shí)，在實(shí)際案例的操作過程中，不少人都會(huì)遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

一、簡介

urllib 庫，它是 Python 內(nèi)置的 HTTP 請求庫，不需要額外安裝即可使用，它包含四個(gè)模塊：

`request` 請求模塊，提供最基本的 `HTTP` 請求處理。
`parse` 工具模塊，提供處理 `url` 的很多方法：拆分、解析、合并等等。
`error` 異常處理模塊，如果出現(xiàn)請求錯(cuò)誤，可以捕獲這些錯(cuò)誤，保證程序不會(huì)意外終止。
`robotparser` 模塊，主要用來識(shí)別網(wǎng)站的 `robots.txt` 文件，判斷哪些網(wǎng)站可以爬取，用的比較少。

二、 request 模塊

1、urlopen：打開一個(gè)指定 URL，然后使用 read() 獲取網(wǎng)頁的 HTML 實(shí)體代碼。

# 使用 urllib
import urllib.request

# 1、定義一個(gè) url
url = 'http://www.baidu.com'

# 2、模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(url)

# 3、獲取響應(yīng)數(shù)據(jù)中的頁面源碼（注意：read() 返回的是字節(jié)形式的二進(jìn)制數(shù)據(jù)，返回?cái)?shù)據(jù)會(huì)被 b'xxx' 進(jìn)行包裹）
content = response.read()

# 4、輸出二進(jìn)制數(shù)據(jù) content
print(content)
# 輸出結(jié)果：b'<html>\r\n<head>\r\n\t<script>\r\n\t\tlocation.replace(location.href.replace("https://","http://"));\r\n\t</script>\r\n</head>\r\n<body>\r\n\t<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>\r\n</body>\r\n</html>'

# 5、將二進(jìn)制數(shù)據(jù)轉(zhuǎn)成字符串，這里需要網(wǎng)頁對應(yīng)的編碼格式（例如：<meta http-equiv="Content-Type" content="text/html;charset=utf-8">），charset= 的就是編碼格式 utf-8
content = content.decode('utf-8')

# 6、輸出字符串 content
print(content)

2、response：響應(yīng)的數(shù)據(jù)對象 HTTPResponse 類型

# 使用 urllib
import urllib.request

# 1、定義一個(gè) url
url = 'http://www.baidu.com'

# 2、模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(url)

# response 是 http.client.HTTPResponse 類型
print(type(response))

# read 方法是按照一個(gè)字節(jié)一個(gè)字節(jié)的去讀取內(nèi)容
content = response.read()
print(content)

# read 方法可以指定讀取多少個(gè)字節(jié)
content = response.read(50)
print(content)

# 讀取一行
content = response.readline()
print(content)

# 讀取所有行
content = response.readlines()
print(content)

# 獲取狀態(tài)碼
print(response.getcode())

# 獲取訪問的鏈接地址
print(response.geturl())

# 獲取 headers
print(response.getheaders())

3、Request：自定義請求對象

# 使用 urllib
import urllib.request

# url 的組成
# https://www.baidu.com/s?wd=123

# 協(xié)議         主機(jī)               端口號    路徑   參數(shù)   錨點(diǎn)
# http/https   www.baidu.com      80      s     wd     #
# http                            80
# https                           443
# mysql                           3306
# oracle                          1521
# redis                           6379
# mongdb                          27017

# 1、定義一個(gè) https 的 url
url = 'https://www.baidu.com'

# 2、模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(url)

# 3、獲取內(nèi)容字符串
content = response.read().decode('utf-8')

# 4 會(huì)發(fā)現(xiàn)直接這么拿回來的數(shù)據(jù)不完整，這就是反扒的其中一種，代表給到服務(wù)器識(shí)別的信息不完整，比如 header 頭里面的請求信息缺少。
print(content)

# 解決方式：

# 定義 header
headers = {
  # UA 最基本的防爬識(shí)別
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

# 1、定義一個(gè) https 的 url
url = 'https://www.baidu.com'

# 2、定義一個(gè) Request 對象，urlopen 方法并不能直接帶 header。
# 細(xì)節(jié)：為什么這里需要寫 url=url 而有的地方不需要？因?yàn)?nbsp;Request 構(gòu)造方法傳參順序問題 Request(url, data=None, headers={} ...)
request = urllib.request.Request(url=url, headers=headers)

# 3、模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(request)

# 3、獲取內(nèi)容字符串
content = response.read().decode('utf-8')

# 4 輸出
print(content)

4、urlretrieve：下載（例如：圖片、視頻、網(wǎng)頁源碼…）

# 使用 urllib
import urllib.request

# 下載網(wǎng)頁
url = 'http://www.baidu.com'

# 參數(shù)1：頁面地址，參數(shù)2：文件名稱（或路徑與名稱，例如：./test/baidu.html、baidu.html，不指定路徑默認(rèn)當(dāng)前）
urllib.request.urlretrieve(url, 'baidu.html')


# 下載圖片
url = 'https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fpic1.win4000.com%2Fwallpaper%2F8%2F55402f62682e3.jpg&refer=http%3A%2F%2Fpic1.win4000.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=auto?sec=1670904201&t=2dc001fbd959432efe8b8ee0792589ba'

# 參數(shù)1：頁面地址，參數(shù)2：文件名稱（或路徑與名稱，例如：./test/baidu.html、baidu.html，不指定路徑默認(rèn)當(dāng)前）
urllib.request.urlretrieve(url, 'dzm.jpg')

二、 parse 模塊

1、quote：（GET）參數(shù)進(jìn)行 unicode 編碼

quote 會(huì)對參數(shù)進(jìn)行 unicode 編碼，但是得一個(gè)一個(gè)參數(shù)的進(jìn)行轉(zhuǎn)換，在進(jìn)行拼接，在多個(gè)參數(shù)時(shí)使用起來比較麻煩。

# 使用 urllib
import urllib.request

# 定義 header
headers = {
  # UA 最基本的防爬識(shí)別
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

# 1、定義一個(gè) https 的 url

# 這種中文寫法會(huì)報(bào)錯(cuò)，因?yàn)?nbsp;ascii 檢索不到
# url = 'https://www.baidu.com/s?wd=卡爾特斯CSDN'

# 也就是需要 `卡爾特斯CSDN` 變成 unicode 編碼格式，例如這樣：
# url = 'https://www.baidu.com/s?wd=%E5%8D%A1%E5%B0%94%E7%89%B9%E6%96%AFCSDN'

# 準(zhǔn)備基礎(chǔ)地址（不能整個(gè)鏈接去進(jìn)行 quote 轉(zhuǎn)換）(GET)
url = 'https://www.baidu.com/s?wd='

# 通過 urllib.parse.quote() 進(jìn)行轉(zhuǎn)換
wd = urllib.parse.quote('卡爾特斯CSDN')
# print(wd) # %E5%8D%A1%E5%B0%94%E7%89%B9%E6%96%AFCSDN

# 拼接起來
url = url + wd

# 2、定義一個(gè) Request 對象，urlopen 方法并不能直接帶 header。
# 細(xì)節(jié)：為什么這里需要寫 url=url 而有的地方不需要？因?yàn)?nbsp;Request 構(gòu)造方法傳參順序問題 Request(url, data=None, headers={} ...)
request = urllib.request.Request(url=url, headers=headers)

# 3、模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(request)

# 3、獲取內(nèi)容字符串
content = response.read().decode('utf-8')

# 4 輸出
print(content)

2、urlencode：（GET）參數(shù)進(jìn)行 unicode 編碼

urlencode 會(huì)對多個(gè)參數(shù)進(jìn)行 unicode 編碼。

# 使用 urllib
import urllib.request

# 定義 header
headers = {
  # UA 最基本的防爬識(shí)別
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

# 1、定義一個(gè) https 的 url

# 這種中文寫法會(huì)報(bào)錯(cuò)，因?yàn)?nbsp;ascii 檢索不到
# url = 'https://www.baidu.com/s?wd=卡爾特斯CSDN&sex=男'

# 也就是需要 `卡爾特斯CSDN` 與 `男` 變成 unicode 編碼格式，例如這樣：
# url = 'https://www.baidu.com/s?wd=%E5%8D%A1%E5%B0%94%E7%89%B9%E6%96%AFCSDN&sex=%E7%94%B7'

# 準(zhǔn)備基礎(chǔ)地址（不能整個(gè)鏈接去進(jìn)行 quote 轉(zhuǎn)換）(GET)
url = 'https://www.baidu.com/s?'

# 參數(shù)
params = {
  'wd': '卡爾特斯CSDN',
  'sex': '男'
}

# 通過 urllib.parse.urlencode() 進(jìn)行轉(zhuǎn)換（多個(gè)參數(shù)）
str = urllib.parse.urlencode(params)
# print(str) # wd=%E5%8D%A1%E5%B0%94%E7%89%B9%E6%96%AFCSDN&sex=%E7%94%B7

# 通過 urllib.parse.quote() 進(jìn)行轉(zhuǎn)換（單個(gè)參數(shù)）
# wd = urllib.parse.urlencode('卡爾特斯CSDN')
# print(wd) # %E5%8D%A1%E5%B0%94%E7%89%B9%E6%96%AFCSDN

# 拼接起來
url = url + str

# 2、定義一個(gè) Request 對象，urlopen 方法并不能直接帶 header。
# 細(xì)節(jié)：為什么這里需要寫 url=url 而有的地方不需要？因?yàn)?nbsp;Request 構(gòu)造方法傳參順序問題 Request(url, data=None, headers={} ...)
request = urllib.request.Request(url=url, headers=headers)

# 3、模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(request)

# 3、獲取內(nèi)容字符串
content = response.read().decode('utf-8')

# 4 輸出
print(content)

2、urlencode：（POST）參數(shù)進(jìn)行 unicode 編碼，附：Python爬蟲Xpath定位數(shù)據(jù)的兩種方法

# 使用 urllib
import urllib.request
# 使用 json
import json

# 定義 header
headers = {
  # UA 最基本的防爬識(shí)別
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

# 請求地址（POST）
url = 'https://fanyi.baidu.com/sug'

# 參數(shù)
params = {
  'kw': '名稱'
}

# post 請求，參數(shù)不能進(jìn)行拼接，需放到請求對象指定的參數(shù)對象中

# 通過 urllib.parse.urlencode() 進(jìn)行轉(zhuǎn)換（多個(gè)參數(shù)）
# str = urllib.parse.urlencode(params)
# 直接使用轉(zhuǎn)換的參數(shù)字符串會(huì)報(bào)錯(cuò)：POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.
# request = urllib.request.Request(url=url, data=str, headers=headers)

# 上面直接使用參數(shù)字符串會(huì)報(bào)錯(cuò)，是因?yàn)?nbsp;post 請求參數(shù)必須要要進(jìn)行編碼，指定編碼格式
data = urllib.parse.urlencode(params).encode('utf-8')
# 模擬瀏覽器向服務(wù)器發(fā)送請求
request = urllib.request.Request(url=url, data=data, headers=headers)

# 模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(request)

# 獲取內(nèi)容字符串
content = response.read().decode('utf-8')

# 將字符串轉(zhuǎn)成 json
obj = json.loads(content)

# 輸出 json
print(obj)

三、 error 模塊（URLError 與 HTTPError）

1、HTTPError 類是 URLError 類的子類。

2、導(dǎo)入包分別是：urllib.error.URLError、urllib.error.HTTPError。

3、通過 urllib 發(fā)送請求的時(shí)候，有可能發(fā)送失敗，可以通過 try-except 進(jìn)行異常捕獲，異常有兩類：URLError 與 HTTPError 類。

# 使用 urllib
import urllib.request
# 使用 json
import json

# 定義 header
headers = {
  # UA 最基本的防爬識(shí)別
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

# 請求地址（POST）
url = 'https://fanyi.baidu.com/sug'

# 參數(shù)
params = {
  'kw': '名稱'
}

# post 請求，參數(shù)不能進(jìn)行拼接，需放到請求對象指定的參數(shù)對象中

# 通過 urllib.parse.urlencode() 進(jìn)行轉(zhuǎn)換（多個(gè)參數(shù)）
# str = urllib.parse.urlencode(params)
# 直接使用轉(zhuǎn)換的參數(shù)字符串會(huì)報(bào)錯(cuò)：POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.
# request = urllib.request.Request(url=url, data=str, headers=headers)

# 上面直接使用參數(shù)字符串會(huì)報(bào)錯(cuò)，是因?yàn)?nbsp;post 請求參數(shù)必須要要進(jìn)行編碼，指定編碼格式
data = urllib.parse.urlencode(params).encode('utf-8')
# 模擬瀏覽器向服務(wù)器發(fā)送請求
request = urllib.request.Request(url=url, data=data, headers=headers)

# 模擬瀏覽器向服務(wù)器發(fā)送請求
response = urllib.request.urlopen(request)

# 獲取內(nèi)容字符串
content = response.read().decode('utf-8')

# 將字符串轉(zhuǎn)成 json
obj = json.loads(content)

# 輸出 json
print(obj)

“Python urllib如何使用”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
php如何實(shí)現(xiàn)單篇文章瀏覽計(jì)數(shù)
下一篇新聞：
windows谷歌小恐龍如何調(diào)出來

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<samp id="wxprg"><listing id="wxprg"><var id="wxprg"></var></listing></samp>

<strong id="wxprg"><li id="wxprg"></li></strong>