溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

Python3中編碼與解碼之Unicode與bytes的示例分析

發(fā)布時(shí)間：2021-08-26 10:40:42 來源：億速云閱讀：119 作者：小新欄目：開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)Python3中編碼與解碼之Unicode與bytes的示例分析，小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

Python爬蟲，下載一個(gè)網(wǎng)頁，然后把所有內(nèi)容寫入一個(gè)txt文件中，出現(xiàn)錯誤；

TypeError: write() argument must be str, not bytes
AttributeError: 'URLError' object has no attribute 'code'
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte sequence

一看就是編碼問題，不懂，度娘上面這方面講得不多，感覺沒說清楚，自己研究了一晚上，摸出了一點(diǎn)門道。

從頭說起，由于各國語言文字不同，起初要在計(jì)算機(jī)中表示，就有了各種各樣的編碼（例如中文的gb2312）。但是這樣就出現(xiàn)了兼容性的問題，所以就有了Unicode，也就是所謂的萬國碼，python3中字符串類型str就是以Unicode編碼格式編碼，所以我們在Python3 中看到多種語言文字的字符串而不會出現(xiàn)亂碼。

編碼是一種用一種特定的方式對抽象字符（Unicode）轉(zhuǎn)換為二進(jìn)制形式（bytes）進(jìn)行表示，也就是python3中的encode。解碼就是對用特定方式表示的二進(jìn)制數(shù)據(jù)用特定的方式轉(zhuǎn)化為Unicode，也就是decode。

下圖就是編碼的核心：

一、字符的編碼：

Python對于bites類型的數(shù)據(jù)用帶‘b‘前綴的單引號活雙引號表示。

下面關(guān)于字符編碼解碼的代碼很好的解釋了上面的流程圖：

s='你好'
print(s)#輸出結(jié)果：你好
print(type(s))#輸出結(jié)果：<class 'str'>
s=s.encode('UTF-8')
print(s)#輸出結(jié)果：b'\xe4\xbd\xa0\xe5\xa5\xbd'
print(type(s))#輸出結(jié)果：<class 'bytes'>
s=s.decode('UTF-8')
print(s)#輸出結(jié)果：你好
print(type(s))#輸出結(jié)果：<class 'str'>

多說一句，如果你對str類型字符進(jìn)行decode會報(bào)錯，同理，對bytes類型進(jìn)行encode也會報(bào)錯。

二、文件編碼

在python 3 中字符是以Unicode的形式存儲的，當(dāng)然這里所說的存儲是指存儲在計(jì)算機(jī)內(nèi)存當(dāng)中，如果是存儲在硬盤里，Python 3的字符是以bytes形式存儲，也就是說如果要將字符寫入硬盤，就必須對字符進(jìn)行encode。對上面這段話再解釋一下，如果要將str寫入文件，如果以‘w'模式寫入，則要求寫入的內(nèi)容必須是str類型；如果以‘wb'形式寫入，則要求寫入的內(nèi)容必須是bytes類型。文章開頭出現(xiàn)的集中錯誤，就是因?yàn)閷懭肽Ｊ脚c寫入內(nèi)容的數(shù)據(jù)類型不匹配造成的。

s1 = '你好'
#如果是以‘w'的方式寫入，寫入前一定要進(jìn)行encoding，否則會報(bào)錯 
with open('F:\\1.txt','w',encoding='utf-8') as f1:
  f1.write(s1)
s2 = s1.encode("utf-8")#轉(zhuǎn)換為bytes的形式
#這時(shí)候?qū)懭敕绞揭欢ㄒ恰畐b'，且一定不能加encoding參數(shù)
with open('F:\\2.txt','wb') as f2:
  f2.write(s2)

有的人會問，我在系統(tǒng)里面用文本編輯器打開以bytes形式寫入的2.txt文件，發(fā)現(xiàn)里面顯示的是‘你好'，而不是‘b'\xe4\xbd\xa0\xe5\xa5\xbd''，因?yàn)槲谋疚臋n打開2.txt時(shí)，又會對它進(jìn)行decode，然后才給你看到。

三、網(wǎng)頁的編碼

網(wǎng)頁編碼和文件編碼方法差不多，如下urlopen下載下來的網(wǎng)頁read()且用decoding(‘utf-8')解碼，那就必須以‘w'的方式寫入文件。如果只是read()而不用encoding(‘utf-8')進(jìn)行編碼，一定要以‘wb'方式寫入：

以‘w'方式寫入時(shí)：

response= url_open('https://www.jb51.net/article/157034.htm ' ,timeout=5 )
#此處以UTF-8方式進(jìn)行解碼，解碼后的數(shù)據(jù)以unicode的方式存儲在html中
html = response.read().decode('UTF-8')
print(type(html))#輸出結(jié)果：<class 'str'>
#這時(shí)寫入方式一定要加encoding,以encoding
# 即UTF-8的方式對二進(jìn)制數(shù)據(jù)進(jìn)行編碼才能寫入
with open('F:\DownloadAppData\html.txt',"w" , encoding='UTF-8') as f:
  f.write(html)

以‘wb'方式寫入：

response= url_open('https://www.jb51.net/article/157034.htm ' ,timeout=5 )
html = response.read()#此處不需要進(jìn)行解碼，下載下來
print(type(html))#輸出結(jié)果：<class 'bytes'>
with open('F:\DownloadAppData\html.txt',"wb" ) as f:
  f.write(html)

如果要在Python3中，對urlopen下來的網(wǎng)頁進(jìn)行字符搜索，肯定也要進(jìn)行decode，例如使用lxml.etree就必須進(jìn)行decode。

關(guān)于“Python3中編碼與解碼之Unicode與bytes的示例分析”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，使各位可以學(xué)到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Python中最大遞歸深度值的示例分析
下一篇新聞：
Python中反射和單例模式的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<abbr id="72y6q"><legend id="72y6q"><blockquote id="72y6q"></blockquote></legend></abbr>

<div id="72y6q"><big id="72y6q"><noframes id="72y6q">

<var id="72y6q"><xmp id="72y6q"></xmp></var>