您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)Python中出現(xiàn)文本亂碼如何解決,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
在處理utf8文本格式的時(shí)候,由于這些文本是含BOM(byte order mark)的utf8文本,編譯時(shí)產(chǎn)生一個(gè)Error,”UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\ufeff’ in position 0: illegal multibyte sequence”
原來(lái),某些軟件,如notepad,在保存一個(gè)以UTF-8編碼的文件時(shí),會(huì)在文件開(kāi)始的地方插入三個(gè)不可見(jiàn)的字符(0xEF 0xBB 0xBF,即BOM)。 因此我們?cè)谧x取時(shí)需要自己去掉這些字符,Python中的codecs module定義了這個(gè)常量:
查看源代碼打印幫助
import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: datadata = data[3:] print data.decode("utf-8")
看完上述內(nèi)容,你們對(duì)Python中出現(xiàn)文本亂碼如何解決有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。