溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python中出現(xiàn)文本亂碼如何解決

發(fā)布時(shí)間:2021-07-10 15:40:29 來(lái)源:億速云 閱讀:117 作者:Leah 欄目:編程語(yǔ)言

今天就跟大家聊聊有關(guān)Python中出現(xiàn)文本亂碼如何解決,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

在處理utf8文本格式的時(shí)候,由于這些文本是含BOM(byte order mark)的utf8文本,編譯時(shí)產(chǎn)生一個(gè)Error,”UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\ufeff’ in position 0: illegal multibyte sequence”

原來(lái),某些軟件,如notepad,在保存一個(gè)以UTF-8編碼的文件時(shí),會(huì)在文件開(kāi)始的地方插入三個(gè)不可見(jiàn)的字符(0xEF 0xBB 0xBF,即BOM)。 因此我們?cè)谧x取時(shí)需要自己去掉這些字符,Python中的codecs module定義了這個(gè)常量:

查看源代碼打印幫助

import codecs   data = open("Test.txt").read()   if data[:3] == codecs.BOM_UTF8:   datadata = data[3:]   print data.decode("utf-8")

看完上述內(nèi)容,你們對(duì)Python中出現(xiàn)文本亂碼如何解決有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI