溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python 2/3下處理cjk編碼的zip文件的方法

發(fā)布時間:2020-08-24 01:19:04 來源:腳本之家 閱讀:232 作者:Robert''s Blog 欄目:開發(fā)技術(shù)

今天項目中遇到了中文編碼的zip文件,處理了蠻長時間,所以記錄下,以免下次踩坑。

Python2下

Python2中讀取zip文件,zipfile.ZipInfo的filename類型是str,基本上類似于python3中的bytes,即可以被decode為unicode。

所以,要處理中文,只需要將文件名按照編碼decode成unicode就好。

import zipfile
fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
  print fileinfo.filename.decode('gb18030')
  # 如果要更加詳細(xì)的區(qū)分bytes/str/unicode的語義
  print bytes(fileinfo.filename).decode('gb18030')

Python3下

Python3中,Language encoding flag (EFS)如果是1,則按照utf8來處理文件編碼,EFS如果為0,則直接按照cp437解碼文件名。這是標(biāo)準(zhǔn)直接規(guī)定的。

但是,很多軟件在制作zip壓縮包的時候,直接使用gb18030或者其他非標(biāo)準(zhǔn)編碼格式來編碼文件名,所以我們還得將文件名反轉(zhuǎn)為bytes,然后再使用對應(yīng)的編碼方式解碼:

fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
  print(fileinfo.filename.encode('cp437').decode('gb18030'))

方法都有了,那直接根據(jù)文件名智能猜測文件編碼,然后解壓就好。但是由于單個文件名太短,chardet的猜測可能不準(zhǔn),所以我們可以直接將所有的文件名連接起來,猜測編碼。

代碼請參考 mczip ,兼容python2和python3。

總結(jié)

以上所述是小編給大家介紹的Python 2/3下處理cjk編碼的zip文件的方法,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對億速云網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI