Python字符集和字符編碼是什么

發(fā)布時間：2022-05-11 13:38:18 來源：億速云閱讀：102 作者：zzz 欄目：開發(fā)技術(shù)

這篇文章主要介紹“Python字符集和字符編碼是什么”的相關(guān)知識，小編通過實際案例向大家展示操作過程，操作方法簡單快捷，實用性強(qiáng)，希望這篇“Python字符集和字符編碼是什么”文章能幫助大家解決問題。

首先計算機(jī)存儲的基本單位是字節(jié)，由8個比特位組成，由于英文字母算上大小寫只有52個，再加上若干字符，數(shù)量不會超過256個，因此一個字節(jié)完全可以表示。但是隨著計算機(jī)的普及，越來越多的非英文字符出現(xiàn)，導(dǎo)致一個字節(jié)已經(jīng)無法表示了。所以只能曲線救國，對于一個字節(jié)無法表示的字符，使用多個字節(jié)表示

但是這樣會出現(xiàn)兩個問題：

因為每個國家都有自己的字符編碼，所以不支持多國語言，例如中文的編碼不可以包含日文，否則就會造成亂碼；
沒有統(tǒng)一標(biāo)準(zhǔn)，例如中文有GB2312、GBK、GB18030等多個標(biāo)準(zhǔn)；

到這里我們先不繼續(xù)往下深入，我們先來理清楚一些概念。

字符集和字符編碼

估計有很多小伙伴搞不清這兩者的區(qū)別，我們先來解釋一下所謂的字符集和字符編碼是怎么一回事？

字符集：系統(tǒng)支持的所有字符組成的集合，像ASCII、GB2312、Big5、unicode都屬于字符集。只不過不同的字符集所能容納的字符個數(shù)不同，比如ASCII字符集中不包含中文，unicode則可以容納世界上的所有字符；

字符編碼：負(fù)責(zé)將每個字符轉(zhuǎn)換成一個或多個計算機(jī)可以接受的具體數(shù)字，該數(shù)字可以理解為編號，因此字符編碼維護(hù)了字符和編號之間的對應(yīng)關(guān)系。而編碼也分為多種，比如ascii、gbk、utf-8等等，字符編碼不同，那么字符轉(zhuǎn)換之后的編號也不同，當(dāng)然能轉(zhuǎn)化的字符種類也不同。比如ASCII這種字符編碼，它就只能轉(zhuǎn)換ASCII字符。

當(dāng)然，ASCII比較特殊，它既是字符集、也是字符編碼。并且不管采用什么編碼，ASCII字符對應(yīng)的編號永遠(yuǎn)是相同的。

將字符串中的每一個字符轉(zhuǎn)成對應(yīng)的編號，那么得到的就是字節(jié)序列（bytes對象），因為計算機(jī)存儲和網(wǎng)絡(luò)通訊的基本單位都是字節(jié)，所以字符串必須以字節(jié)序列的形式進(jìn)行存儲或傳輸。

因此字符串和字節(jié)序列在某種程度上是很相似的，字符串按照指定的編碼進(jìn)行encode即可得到字節(jié)序列，也就是將每個字符都轉(zhuǎn)成對應(yīng)的編號；字節(jié)序列按照相同的編碼decode即可得到字符串，也就是根據(jù)編號找到對應(yīng)的字符。

比如我們寫了一段文本，然后在存儲的時候必須先進(jìn)行編碼，也就是將每一個字符都轉(zhuǎn)成一個或多個系統(tǒng)可以接受的數(shù)字、即對應(yīng)的編號之后，才可以進(jìn)行存儲。

s = "你好"
# 編碼之后就是一串?dāng)?shù)字
print(s.encode("gbk"))  # b'\xc4\xe3\xba\xc3'

假設(shè)文本中只有你好二字，在存儲的時候采用gbk進(jìn)行編碼，那么在讀取的時候也必須使用gbk進(jìn)行解碼，否則的話就會無法解析而報錯。因為字符編碼不同，字符對應(yīng)的編號也不同。

再比如每個國家都有自己的字符編碼，你在日本的一臺計算機(jī)上寫好的文件拿到中國的計算機(jī)上打開，很有可能出現(xiàn)亂碼。因為字符編碼不同，字符和編號之間的對應(yīng)關(guān)系也不同，采用不同的字符編碼進(jìn)行解析肯定會出問題。

但我們說，對于ASCII字符來說，由于不管采用哪一種編碼，它們得到的編號都是固定的。所以編碼對于ASCII字符來說，沒有任何影響。

s = "abc"
print(s.encode("gbk"))  # b'abc'
print(s.encode("gbk").decode("utf-8"))  # abc

# 但如果是非ASCII字符，就不行了
try:
    s = "你好"
    s.encode("gbk").decode("utf-8")
except UnicodeError as e:
    # 報錯了，無法解析
    print(e)  
    # 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

這里我們再回憶一下bytes對象，我們創(chuàng)建的時候可以采用字面量的方式，比如 b"abc"，但是 b"憨"卻不可以。原因就是憨這個字符不是ASCII字符，那么采用不同的字符編碼，其對應(yīng)的編號是不同的，而這種方式Python又不知道我們使用哪一種編碼，所以不允許這么做，而是需要通過"憨".encode的方式手動指定字符編碼。

但是對于 ASCII 字符而言，不管采用哪一種字符編碼，得到的編號都是一樣的，所以Python針對ASCII字符則允許這種做法，比如b"abc"。并且我們看到，對于漢字來說，在編碼之后會對應(yīng)多個編號，而每個編號占1字節(jié)，因此不同的字符所占的大小可能不同。

關(guān)于“Python字符集和字符編碼是什么”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識，可以關(guān)注億速云行業(yè)資訊頻道，小編每天都會為大家更新不同的知識點。

向AI問一下細(xì)節(jié)

Python字符集和字符編碼是什么

字符集和字符編碼

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽