<li id="cehri"><delect id="cehri"></delect></li>

<rt id="cehri"></rt>

<mark id="cehri"></mark>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python如何處理大數(shù)據(jù)？3個技巧效率提升攻略

發(fā)布時間：2020-08-06 22:26:27 來源：ITPUB博客閱讀：147 作者：博為峰網(wǎng)校欄目：網(wǎng)絡(luò)管理

如果你有個5、6 G 大小的文件，想把文件內(nèi)容讀出來做一些處理然后存到另外的文件去，你會使用什么進行處理呢？不用在線等，給幾個錯誤示范：有人用multiprocessing 處理，但是效率非常低。于是，有人用python處理大文件還是會存在效率上的問題。因為效率只是和預(yù)期的時間有關(guān)，不會報錯，報錯代表程序本身出現(xiàn)問題了~

Python如何處理大數(shù)據(jù)？3個技巧效率提升攻略

所以，為什么用python處理大文件總有效率問題？

如果工作需要，立刻處理一個大文件，你需要注意兩點：

一、大型文件的讀取效率

面對100w行的大型數(shù)據(jù)，經(jīng)過測試各種文件讀取方式，得出結(jié)論：

with open(filename,"rb") as f:

for fLine in f:

pass

方式最快，100w行全遍歷2.7秒。基本滿足中大型文件處理效率需求。如果rb改為r，慢6倍。但是此方式處理文件，fLine為bytes類型。但是python自行斷行，仍舊能很好的以行為單位處理讀取內(nèi)容。

二、文本處理效率問題

這里舉例ascii定長文件,因為這個也并不是分隔符文件，所以打算采用列表操作實現(xiàn)數(shù)據(jù)分割。但是問題是處理20w條數(shù)據(jù)，時間急劇上升到12s。本以為是byte.decode增加了時間。遂去除decode全程bytes處理。但是發(fā)現(xiàn)效率還是很差。

最后用最簡單方式測試，首次運行，最簡單方式也要7.5秒100w次。

那么關(guān)于python處理大文件的技巧，從網(wǎng)絡(luò)整理三點：列表、文件屬性、字典三個點來看看。

1、列表處理

def fun(x):盡量選擇集合、字典數(shù)據(jù)類型，千萬不要選擇列表，列表的查詢速度會超級慢，同樣的，在已經(jīng)使用集合或字典的情況下，不要再轉(zhuǎn)化成列表進行操作，比如：

values_count = 0

# 不要用這種的

if values in dict.values():

values_count += 1

# 盡量用這種的

if keys,values in dict:

values_count += 1

后者的速度會比前者快好多好多。

2、對于文件屬性

如果遇到某個文件，其中有屬性相同的，但又不能進行去重操作，沒有辦法使用集合或字典時，可以增加屬性，比如將原數(shù)據(jù)重新映射出一列計數(shù)屬性，讓每一條屬性具有唯一性，從而可以用字典或集合處理：

return '(' + str(x) + ', 1)'

list(map(fun,[1,2,3]))

使用map函數(shù)將多個相同屬性增加不同項。

3、對于字典

多使用iteritems()少使用items()，iteritems()返回迭代器：

>>> d = {'a':1,'b':2}

>>> for i in d.items() :

.... print i

('a',1)

('b',2)

>>> for k,v in d.iteritems() :

... print k,v

('a',1)

('b',2)

字典的items函數(shù)返回的是鍵值對的元組的列表,而iteritems使用的是鍵值對的generator，items當使用時會調(diào)用整個列表 iteritems當使用時只會調(diào)用值。

除了以下5個python使用模塊，你還有什么技巧解決大文件運行效率的問題嗎？掃一掃來和我們一起交流，深入了解更多Python實用模塊，快速提升工作效率~

1. 讀寫文件技術(shù)，今后會用到測試數(shù)據(jù)的參數(shù)化和測試報告寫作功能中~

2. 數(shù)據(jù)處理技術(shù)，今后測試腳本的測試數(shù)據(jù)處理過程可以用到~

3. 數(shù)據(jù)統(tǒng)計分析技術(shù)，今后會在測試結(jié)果分析中用到

4. 圖表展示技術(shù)，在今后的測試框架中相關(guān)測試報告會用到

5. 程序自動觸發(fā)技術(shù)，可用于測試腳本程序的自動執(zhí)行。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何對網(wǎng)站登錄進行漏洞測試以及漏洞修復(fù)
下一篇新聞：
Angular搭建與分析（一）

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<strike id="0eyud"></strike>