溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python如何讀取大文件的"坑“與內(nèi)存占用檢測(cè)

發(fā)布時(shí)間：2020-10-30 10:46:33 來(lái)源：億速云閱讀：137 作者：小新欄目：編程語(yǔ)言

這篇文章主要介紹Python如何讀取大文件的"坑“與內(nèi)存占用檢測(cè)，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

python讀寫文件的api都很簡(jiǎn)單，一不留神就容易踩”坑“。下面記錄一次踩坑歷程，并且給了一些總結(jié)，希望到大家在使用python的過(guò)程之中，能夠避免一些可能產(chǎn)生隱患的代碼。

1.read()與readlines()

隨手搜索python讀寫文件的教程，很經(jīng)?？吹絩ead()與readlines()這對(duì)函數(shù)。所以我們會(huì)常常看到如下代碼：

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())
or
with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

這對(duì)方法在讀取小文件時(shí)確實(shí)不會(huì)產(chǎn)生什么異常，但是一旦讀取大文件，很容易會(huì)產(chǎn)生MemoryError，也就是內(nèi)存溢出的問(wèn)題。

我們首先來(lái)看看這兩個(gè)方法：

當(dāng)默認(rèn)參數(shù)size=-1時(shí)，read方法會(huì)讀取直到EOF，當(dāng)文件大小大于可用內(nèi)存時(shí)，自然會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤。

read方法

read([size])方法從文件當(dāng)前位置起讀取size個(gè)字節(jié)，若無(wú)參數(shù)size，則表示讀取至文件結(jié)束為止，它范圍為字符串對(duì)象

同樣的，readlines會(huì)構(gòu)造一個(gè)list。list而不是iter，所以所有的內(nèi)容都會(huì)保存在內(nèi)存之上，同樣也會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤。

readlines方法

該方法每次讀出一行內(nèi)容，所以，讀取時(shí)占用內(nèi)存小，比較適合大文件，該方法返回一個(gè)字符串對(duì)象。

2.正確的用法

在實(shí)際運(yùn)行的系統(tǒng)之中如果寫出上述代碼是十分危險(xiǎn)的，這種”坑“十分隱蔽。所以接下來(lái)我們來(lái)了解一下正確用，正確的用法也很簡(jiǎn)單，依照API之中對(duì)函數(shù)的描述來(lái)進(jìn)行對(duì)應(yīng)的編碼就OK了：

如果是二進(jìn)制文件推薦用如下這種寫法，可以自己指定緩沖區(qū)有多少byte。顯然緩沖區(qū)越大，讀取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            sha1Obj.update(buf)
        else:
            break

而如果是文本文件，則可以用readline方法或直接迭代文件（python這里封裝了一個(gè)語(yǔ)法糖，二者的內(nèi)生邏輯一致，不過(guò)顯然迭代文件的寫法更pythonic ）每次讀取一行，效率是比較低的。筆者簡(jiǎn)單測(cè)試了一下，在3G文件之下，大概性能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break
with open(file_path, 'rb') as f:
    for line in f:
        print(line)

3.內(nèi)存檢測(cè)工具的介紹

對(duì)于python代碼的內(nèi)存占用問(wèn)題，對(duì)于代碼進(jìn)行內(nèi)存監(jiān)控十分必要。這里筆者這里推薦兩個(gè)小工具來(lái)檢測(cè)python代碼的內(nèi)存占用。

首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工作的，所以我們需要在進(jìn)行測(cè)試的函數(shù)上添加裝飾器

from hashlib import sha1
import sys
@profile
def my_func():
    sha1Obj = sha1()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                sha1Obj.update(buf)
            else:
                break
    print(sha1Obj.hexdigest())
if __name__ == '__main__':
    my_func()

guppy

依樣畫葫蘆，仍然是通過(guò)pip先安裝guppy

pip install guppy

之后可以在代碼之中利用guppy直接打印出對(duì)應(yīng)各種python類型（list、tuple、dict等）分別創(chuàng)建了多少對(duì)象，占用了多少內(nèi)存。

from guppy import hpy
import sys
def my_func():
    mem = hpy()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                print(mem.heap())
            else:
                break

通過(guò)上述兩種工具guppy與memory_profiler可以很好地來(lái)監(jiān)控python代碼運(yùn)行時(shí)的內(nèi)存占用問(wèn)題。

以上是Python如何讀取大文件的"坑“與內(nèi)存占用檢測(cè)的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
apache spark指的是什么
下一篇新聞：
php中wamp基礎(chǔ)環(huán)境如何搭建

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<big id="bdlz9"></big>