溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python二進(jìn)制文件讀取并轉(zhuǎn)換為浮點數(shù)詳解

發(fā)布時間:2020-09-17 14:17:59 來源:腳本之家 閱讀:308 作者:淡淡博客 欄目:開發(fā)技術(shù)

本文所用環(huán)境:

Python 3.6.5 |Anaconda custom (64-bit)|

引言

由于某些原因,需要用python讀取二進(jìn)制文件,這里主要用到struct包,而這個包里面的方法主要是unpack、pack、calcsize。詳細(xì)介紹可以看:Python Struct 官方文檔。這里主要討論,python二進(jìn)制轉(zhuǎn)浮點數(shù)的操作。

python中一個float類型的數(shù)占4個字節(jié)。

二進(jìn)制數(shù)據(jù)轉(zhuǎn)float,可以用struct.unpack()來實現(xiàn)。

小文件讀取

較小的文件,可以一次讀?。?/p>

首先導(dǎo)入所需的包:

import numpy as np
import struct
Python

例如:我需要讀取一個名為filename,存放著形狀為[100,1025]的浮點數(shù)的文件??梢圆捎靡韵罗k法

# 加載測試數(shù)據(jù)
f = open('filename','rb')
# 102500為文檔中包含的數(shù)字個數(shù),而一個浮點數(shù)占4個字節(jié)
data_raw = struct.unpack('f'*102500,f.read(4*102500))
f.close()
verify_data = np.asarray(verify_data_raw).reshape(-1,1025)

大文件處理方法

我需要處理的文件大小有38.1G,存放著[10000000,1025]大小的向量。

Python二進(jìn)制文件讀取并轉(zhuǎn)換為浮點數(shù)詳解

關(guān)于大文件的處理,我參考了這文章,但是,這個方法不能很好的將二進(jìn)制文件轉(zhuǎn)換成浮點數(shù)。

所以我想到了另外一種辦法:

通過Linux命令切割文件

通過split命令將38.1G的文件按照指定大小切割,

split -b 820000k -a 2 filename data_ 

上述代碼的意思是,指定每塊大小為820000k,-a 2代表2位數(shù)命名,‘data_'代表前綴是'data_'

最終生成49個文件(字典序 aa – bw),前48個文件每個204800行 最后一個文件 169600行

Python二進(jìn)制文件讀取并轉(zhuǎn)換為浮點數(shù)詳解

通過python循環(huán)讀取文件

首先構(gòu)建詞匯表:

voc = ['a','b','c','d','e','f','g','h','i','j','k','l',
'm','n','o','p','q','r','s','t','u','v','w','x',
'y','z']
voc_short = ['a','b','c','d','e','f','g','h','i','j','k','l',
'm','n','o','p','q','r','s','t','u','v']

為了方便讀取,將49個二進(jìn)制文件轉(zhuǎn)換成numpy專用二進(jìn)制格式*.npy

for i in voc:
data_name = 'data_a'+str(i)
f = open(data_name,'rb')
data_raw = struct.unpack('f'*209920000,f.read(4*209920000))
f.close()
data = np.asarray(data_raw).reshape(-1,1025)
np.save(data_name+'.npy',data) # 保存data_a*.npy文件
for i in voc_short:
data_name = 'data_b'+str(i)
f = open(data_name,'rb')
data_raw = struct.unpack('f'*209920000,f.read(4*209920000))
f.close()
data = np.asarray(data_raw).reshape(-1,1025)
np.save(data_name+'.npy',data) # 保存data_b*.npy文件
data_name = 'data_bw'
f = open(data_name,'rb')
data_raw = struct.unpack('f'*173840000,f.read(4*173840000))
np.save(data_name+'.npy',data_raw) # 保存data_bw.npy文件

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持億速云。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI