溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

使用Python實(shí)現(xiàn)一個快速比較大文件的功能

發(fā)布時(shí)間:2020-11-04 18:03:15 來源:億速云 閱讀:150 作者:Leah 欄目:開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)使用Python實(shí)現(xiàn)一個快速比較大文件的功能,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。

解決方法

利用set()的different(方法)可快速比較,兩個set集合的不同之處,也就是對集合進(jìn)行數(shù)學(xué)運(yùn)算

假設(shè):數(shù)據(jù)1擁有858882條記錄,數(shù)據(jù)2有360029條記錄,快速挑選出數(shù)據(jù)2中而不存在與數(shù)據(jù)1中的數(shù)據(jù)

方法:先將兩個文件中的數(shù)據(jù)讀入兩個list:data1和data2,然后通過:set(data2).difference(set(data1)),獲取data2與data1的差集

下面為一個小的demo,可以看到近百萬級的數(shù)據(jù),比較出差集也就需要1秒左右,效率不是一般的高

import time
t1 = time.time()
data1 = []
for i in open("inDB.txt","r",encoding="utf-8"):
  i = i.strip("\n")
  i = i.lower()
  data1.append(i)
data2 = []
for i in open("data/18年.filename","r",encoding="utf-8"):
  i = i.strip("\n")
  i = i.lower()
  data2.append(i)
newdata = set(data2).difference(set(data1))
t2 = time.time()

print(f"data1 length:\t{len(data1)}")
print(f"data2 length:\t{len(data2)}")
print(f"newdata length:\t{len(newdata)}")
print(f"time use:\t{round(t2 - t1,3)}s")

使用Python實(shí)現(xiàn)一個快速比較大文件的功能

list最多可以存放多少條數(shù)據(jù)呢?

python中l(wèi)ist最多可以存放多少條數(shù)據(jù)呢?

對于這個問題,有個網(wǎng)友調(diào)研了python的文檔,結(jié)果跟計(jì)算機(jī)的性能相關(guān)

64位機(jī)器:2^63-1=9223372036854775807
32位機(jī)器:2^31-1=2147483647
import sys
print(sys.maxsize)
print(pow(2,63)-1)
9223372036854775807
9223372036854775807

集合set的操作

內(nèi)置函數(shù)作用
add()為集合添加元素
clear()移除集合中的所有元素
copy()拷貝一個集合
difference()返回多個集合的差集
difference_update()移除集合中的元素,該元素在指定的集合也存在。
discard()刪除集合中指定的元素
intersection()返回集合的交集
intersection_update()返回集合的交集。
isdisjoint()判斷兩個集合是否包含相同的元素,如果沒有返回 True,否則返回 False。
issubset()判斷指定集合是否為該方法參數(shù)集合的子集。
issuperset()判斷該方法的參數(shù)集合是否為指定集合的子集
pop()隨機(jī)移除元素
remove()移除指定元素
symmetric_difference()返回兩個集合中不重復(fù)的元素集合。
symmetric_difference_update()移除當(dāng)前集合中在另外一個指定集合相同的元素,并將另外一個指定集合中不同的元素插入到當(dāng)前集合中。
union()返回兩個集合的并集
update()給集合添加元素

關(guān)于使用Python實(shí)現(xiàn)一個快速比較大文件的功能就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI