Python有關(guān)Unicode?UTF-8?GBK編碼問題怎么解決

發(fā)布時(shí)間：2022-08-26 14:56:35 來(lái)源：億速云閱讀：214 作者：iii 欄目：開發(fā)技術(shù)

本文小編為大家詳細(xì)介紹“Python有關(guān)Unicode UTF-8 GBK編碼問題怎么解決”，內(nèi)容詳細(xì)，步驟清晰，細(xì)節(jié)處理妥當(dāng)，希望這篇“Python有關(guān)Unicode UTF-8 GBK編碼問題怎么解決”文章能幫助大家解決疑惑，下面跟著小編的思路慢慢深入，一起來(lái)學(xué)習(xí)新知識(shí)吧。

1.統(tǒng)一碼（Unicode）

Unicode也叫萬(wàn)國(guó)碼、單一碼，是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn)，包括字符集、編碼方案等。對(duì)于世界上所有的語(yǔ)言文字再unicode中都可以查看到。

unicode編碼就是為了統(tǒng)一世界上的編碼，有一個(gè)統(tǒng)一的規(guī)范。但是它還存在一些問題。

Unicode的問題

需要注意的是，Unicode只是一個(gè)符號(hào)集，它只規(guī)定了符號(hào)的二進(jìn)制代碼，卻沒有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲(chǔ)。

比如，漢字“嚴(yán)”的unicode是十六進(jìn)制數(shù)4E25，轉(zhuǎn)換成二進(jìn)制數(shù)足足有15位（100111000100101），也就是說(shuō)這個(gè)符號(hào)的表示至少需要2個(gè)字節(jié)。表示其他更大的符號(hào)，可能需要3個(gè)字節(jié)或者4個(gè)字節(jié)，甚至更多。

這里就有兩個(gè)嚴(yán)重的問題

第一個(gè)：如何才能區(qū)別unicode和ascii？計(jì)算機(jī)怎么知道三個(gè)字節(jié)表示一個(gè)符號(hào)，而不是分別表示三個(gè)符號(hào)呢？
第二個(gè)：我們已經(jīng)知道，英文字母只用一個(gè)字節(jié)表示就夠了，如果unicode統(tǒng)一規(guī)定，每個(gè)符號(hào)用三個(gè)或四個(gè)字節(jié)表示，那么每個(gè)英文字母前都必然有二到三個(gè)字節(jié)是0，這對(duì)于存儲(chǔ)來(lái)說(shuō)是極大的浪費(fèi)，文本文件的大小會(huì)因此大出二三倍，這是無(wú)法接受的。

它們?cè)斐傻慕Y(jié)果是：

出現(xiàn)了unicode的多種存儲(chǔ)方式，也就是說(shuō)有許多種不同的二進(jìn)制格式，可以用來(lái)表示unicode。
unicode在很長(zhǎng)一段時(shí)間內(nèi)無(wú)法推廣，直到互聯(lián)網(wǎng)的出現(xiàn)。

2.UTF-8編碼

互聯(lián)網(wǎng)的普及，強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實(shí)現(xiàn)方式。其他實(shí)現(xiàn)方式還包括UTF-16和UTF-32，不過(guò)在互聯(lián)網(wǎng)上基本不用。重復(fù)一遍，這里的關(guān)系是，UTF-8是Unicode的實(shí)現(xiàn)方式之一。

UTF-8最大的一個(gè)特點(diǎn)，就是它是一種變長(zhǎng)的編碼方式。它可以使用1~4個(gè)字節(jié)表示一個(gè)符號(hào)，根據(jù)不同的符號(hào)而變化字節(jié)長(zhǎng)度。

UTF-8的編碼規(guī)則很簡(jiǎn)單，只有二條：

對(duì)于單字節(jié)的符號(hào)，字節(jié)的第一位設(shè)為0，后面7位為這個(gè)符號(hào)的unicode碼。因此對(duì)于英語(yǔ)字母，UTF-8編碼和ASCII碼是相同的。
對(duì)于n字節(jié)的符號(hào)（n>1），第一個(gè)字節(jié)的前n位都設(shè)為1，第n+1位設(shè)為0，后面字節(jié)的前兩位一律設(shè)為10。剩下的沒有提及的二進(jìn)制位，全部為這個(gè)符號(hào)的unicode碼。

下表總結(jié)了編碼規(guī)則，字母x表示可用編碼的位。
Unicode符號(hào)范圍 | UTF-8編碼方式
(十六進(jìn)制) | （二進(jìn)制）
--------------------±--------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Python代碼舉例：

a = '\u6c49' # 漢的unicode編碼
print(a)
a = '漢'
print("漢字utf8格式：",a.encode('utf8'))
print('漢字unicode格式：',a.encode('unicode_escape'))
print('漢字gbk格式：',a.encode('gbk'))
print('漢字gb2312格式：',a.encode('gb2312'))
# 輸出結(jié)果
漢
漢字utf8格式： b'\xe6\xb1\x89'
漢字unicode格式： b'\\u6c49'
漢字gbk格式： b'\xba\xba'
漢字gb2312格式： b'\xba\xba'

可以看到以上結(jié)果，漢字的漢通過(guò)print打印時(shí)用的是unicode編碼，存儲(chǔ)時(shí)使用utf8,也即是我們保存文件時(shí)常用的編碼

with open('xxx.txt','w',encoding='utf-8') as f:
    f.write(xxx)

打開的時(shí)候也要指定文件編碼

with open(file_path, encoding='utf-8') as f:
    f.read()

當(dāng)使用gbk編碼保存的文件使用utf8打開時(shí)會(huì)報(bào)錯(cuò),使用gbk打開即可

with open(r'gbk.txt','r',encoding='utf8') as f:
    print(f.read())
    
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

讀到這里，這篇“Python有關(guān)Unicode UTF-8 GBK編碼問題怎么解決”文章已經(jīng)介紹完畢，想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì)，如果想了解更多相關(guān)內(nèi)容的文章，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

Python有關(guān)Unicode?UTF-8?GBK編碼問題怎么解決

1.統(tǒng)一碼（Unicode）

2.UTF-8編碼

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽