溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

對pandas寫入讀取h5文件的方法詳解

發(fā)布時間:2020-09-15 14:27:42 來源:腳本之家 閱讀:272 作者:hzau_yang 欄目:開發(fā)技術(shù)

1、引言

通過參考相關(guān)博客對hdf5格式簡要介紹。

hdf5在存儲的是支持壓縮,使用的方式是blosc,這個是速度最快的也是pandas默認支持的。 使用壓縮可以提磁盤利用率,節(jié)省空間。 開啟壓縮也沒有什么劣勢,只會慢一點點。 壓縮在小數(shù)據(jù)量的時候優(yōu)勢不明顯,數(shù)據(jù)量大了才有優(yōu)勢。 同時發(fā)現(xiàn)hdf讀取文件的時候只能是一次寫,寫的時候可以append,可以put,但是寫完成了之后關(guān)閉文件,就不能再寫了, 會覆蓋。

另外,為什么單獨說pandas,主要因為本人目前對于h6py這個包的理解不是很深入,不知道如果使用該包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存儲,因此本人只能依賴pandas自帶一些函數(shù)進行處理。

2、寫入文件

使用函數(shù):pd.HDFStore

import numpy as np
import pandas as pd
####生成9000,0000條數(shù)據(jù),9千萬條
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存儲:
h6 = pd.HDFStore('/data/stock/test_s.h6','w')
h6['data'] = b
h6.close()

####壓縮格式存儲
h6 = pd.HDFStore('/data/stock/test_c4.h6','w', complevel=4, complib='blosc')
h6['data'] = b
h6.close()

3、讀取文件

使用函數(shù):pd.read_hdf

參數(shù):文件名,key

data=pd.read_hdf('/data/stock/test_c4.h6',key='data')

以上這篇對pandas寫入讀取h6文件的方法詳解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持億速云。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI