python讀取mnist數(shù)據(jù)集的方法

發(fā)布時間：2021-09-03 16:14:54 來源：億速云閱讀：667 作者：chen 欄目：開發(fā)技術(shù)

這篇文章主要講解了“python讀取mnist數(shù)據(jù)集的方法”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“python讀取mnist數(shù)據(jù)集的方法”吧！

數(shù)據(jù)集格式介紹

這部分內(nèi)容網(wǎng)絡(luò)上很常見，這里還是簡明介紹一下。網(wǎng)絡(luò)上下載的mnist數(shù)據(jù)集包含4個文件：

前兩個分別是測試集的image和label，包含10000個樣本。后兩個是訓(xùn)練集的，包含60000個樣本。.gz表示這個一個壓縮包，如果進行解壓的話，會得到.ubyte格式的二進制文件。

python讀取mnist數(shù)據(jù)集的方法

上圖是訓(xùn)練集的label和image數(shù)據(jù)的存儲格式。兩個文件最開始都有magic number和number of images/items兩個數(shù)據(jù)，有用的是第二個，表示文件中存儲的樣本個數(shù)。另外要注意的是數(shù)據(jù)的位數(shù)，有32位整型和8位整型兩種。

讀取方法

.gz格式的文件讀取

需要import gzip
讀取訓(xùn)練集的代碼如下：

def load_mnist_train(path, kind='train'): 
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train，代表讀取訓(xùn)練集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
    #使用gzip打開文件
    with gzip.open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法讀取前兩個數(shù)據(jù)，>代表高位在前，I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個字節(jié)
	    #這樣讀到的前兩個數(shù)據(jù)分別是magic number和樣本個數(shù)
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromstring讀取剩下的數(shù)據(jù)，lbpath.read()表示讀取所有的數(shù)據(jù)
        labels = np.fromstring(lbpath.read(),dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

讀取測試集的代碼類似。

非壓縮文件的讀取

如果在本地對四個文件解壓縮之后，得到的就是.ubyte格式的文件，這時讀取的代碼有所變化。

def load_mnist_train(path, kind='train'): 
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train，代表讀取訓(xùn)練集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
    #不再用gzip打開文件
    with open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法讀取前兩個數(shù)據(jù)，>代表高位在前，I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個字節(jié)
	    #這樣讀到的前兩個數(shù)據(jù)分別是magic number和樣本個數(shù)
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromfile讀取剩下的數(shù)據(jù)
        labels = np.fromfile(lbpath,dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

讀取之后可以查看images和labels的長度，確認(rèn)讀取是否正確。

感謝各位的閱讀，以上就是“python讀取mnist數(shù)據(jù)集的方法”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對python讀取mnist數(shù)據(jù)集的方法這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

向AI問一下細(xì)節(jié)

python讀取mnist數(shù)據(jù)集的方法

數(shù)據(jù)集格式介紹

讀取方法

.gz格式的文件讀取

非壓縮文件的讀取

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽