Python 2/3下處理cjk編碼的zip文件的方法

發(fā)布時間：2020-08-24 01:19:04 來源：腳本之家閱讀：232 作者：Robert''s Blog 欄目：開發(fā)技術(shù)

今天項目中遇到了中文編碼的zip文件，處理了蠻長時間，所以記錄下，以免下次踩坑。

Python2下

Python2中讀取zip文件，zipfile.ZipInfo的filename類型是str，基本上類似于python3中的bytes，即可以被decode為unicode。

所以，要處理中文，只需要將文件名按照編碼decode成unicode就好。

import zipfile
fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
  print fileinfo.filename.decode('gb18030')
  # 如果要更加詳細(xì)的區(qū)分bytes/str/unicode的語義
  print bytes(fileinfo.filename).decode('gb18030')

Python3下

Python3中，Language encoding flag (EFS)如果是1，則按照utf8來處理文件編碼，EFS如果為0，則直接按照cp437解碼文件名。這是標(biāo)準(zhǔn)直接規(guī)定的。

但是，很多軟件在制作zip壓縮包的時候，直接使用gb18030或者其他非標(biāo)準(zhǔn)編碼格式來編碼文件名，所以我們還得將文件名反轉(zhuǎn)為bytes，然后再使用對應(yīng)的編碼方式解碼：

fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
  print(fileinfo.filename.encode('cp437').decode('gb18030'))

方法都有了，那直接根據(jù)文件名智能猜測文件編碼，然后解壓就好。但是由于單個文件名太短，chardet的猜測可能不準(zhǔn)，所以我們可以直接將所有的文件名連接起來，猜測編碼。

代碼請參考 mczip ，兼容python2和python3。

總結(jié)

以上所述是小編給大家介紹的Python 2/3下處理cjk編碼的zip文件的方法,希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復(fù)大家的。在此也非常感謝大家對億速云網(wǎng)站的支持！
如果你覺得本文對你有幫助，歡迎轉(zhuǎn)載，煩請注明出處，謝謝！

向AI問一下細(xì)節(jié)

Python 2/3下處理cjk編碼的zip文件的方法

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽