溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

python讀取mnist數(shù)據(jù)集的方法

發(fā)布時間:2021-09-03 16:14:54 來源:億速云 閱讀:667 作者:chen 欄目:開發(fā)技術(shù)

這篇文章主要講解了“python讀取mnist數(shù)據(jù)集的方法”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“python讀取mnist數(shù)據(jù)集的方法”吧!

數(shù)據(jù)集格式介紹

這部分內(nèi)容網(wǎng)絡(luò)上很常見,這里還是簡明介紹一下。網(wǎng)絡(luò)上下載的mnist數(shù)據(jù)集包含4個文件:

python讀取mnist數(shù)據(jù)集的方法

前兩個分別是測試集的image和label,包含10000個樣本。后兩個是訓(xùn)練集的,包含60000個樣本。.gz表示這個一個壓縮包,如果進行解壓的話,會得到.ubyte格式的二進制文件。

python讀取mnist數(shù)據(jù)集的方法

上圖是訓(xùn)練集的label和image數(shù)據(jù)的存儲格式。兩個文件最開始都有magic number和number of images/items兩個數(shù)據(jù),有用的是第二個,表示文件中存儲的樣本個數(shù)。另外要注意的是數(shù)據(jù)的位數(shù),有32位整型和8位整型兩種。

讀取方法

.gz格式的文件讀取

需要import gzip
讀取訓(xùn)練集的代碼如下:

def load_mnist_train(path, kind='train'): 
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train,代表讀取訓(xùn)練集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
    #使用gzip打開文件
    with gzip.open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法讀取前兩個數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個字節(jié)
	    #這樣讀到的前兩個數(shù)據(jù)分別是magic number和樣本個數(shù)
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromstring讀取剩下的數(shù)據(jù),lbpath.read()表示讀取所有的數(shù)據(jù)
        labels = np.fromstring(lbpath.read(),dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

讀取測試集的代碼類似。

非壓縮文件的讀取

如果在本地對四個文件解壓縮之后,得到的就是.ubyte格式的文件,這時讀取的代碼有所變化。

def load_mnist_train(path, kind='train'): 
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train,代表讀取訓(xùn)練集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
    #不再用gzip打開文件
    with open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法讀取前兩個數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個字節(jié)
	    #這樣讀到的前兩個數(shù)據(jù)分別是magic number和樣本個數(shù)
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromfile讀取剩下的數(shù)據(jù)
        labels = np.fromfile(lbpath,dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

讀取之后可以查看images和labels的長度,確認(rèn)讀取是否正確。

感謝各位的閱讀,以上就是“python讀取mnist數(shù)據(jù)集的方法”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對python讀取mnist數(shù)據(jù)集的方法這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI