您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)Python中怎么查找重復文件,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
Python查找重復文件主要思路如下:
1. 查找同命文件
2. 利用了crc32,先檢查出同樣尺寸的文件,再計算crc32,得出相同的文件名列表。
下面是轉(zhuǎn)載的一個Python查找重復文件的代碼,雖然可以滿足要求,但是在查找大量文件時候,速度很慢,我抽空把它調(diào)優(yōu)。
#!/usr/bin/env python #coding=utf-8 import binascii, os filesizes = {} samefiles = [] def filesize(path): if os.path.isdir(path): files = os.listdir(path) for file in files: filesize(path + "/" + file) else: size = os.path.getsize(path) if not filesizes.has_key(size): filesizes[size] = [] filesizes[size].append(path) def filecrc(files): filecrcs = {} for file in files: f = open(file, "r") 23 crc = binascii.crc32(f.read()) 24 f.close() if not filecrcs.has_key(crc): filecrcs[crc] = [] filecrcs[crc].append(file) for filecrclist in filecrcs.values(): if len(filecrclist) > 1: samefiles.append(filecrclist) if __name__ == '__main__': path = r"J:\My Work" filesize(path) for sizesamefilelist in filesizes.values(): if len(sizesamefilelist) > 1: filecrc(sizesamefilelist) for samfile in samefiles: print "****** same file group ******" for file in samefile: print file
看完上述內(nèi)容,你們對Python中怎么查找重復文件有進一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。