溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Tensorflow如何實(shí)現(xiàn)分批量讀取數(shù)據(jù)

發(fā)布時(shí)間:2021-05-20 14:24:55 來源:億速云 閱讀:221 作者:小新 欄目:開發(fā)技術(shù)

小編給大家分享一下Tensorflow如何實(shí)現(xiàn)分批量讀取數(shù)據(jù),相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

之前的博客里使用tf讀取數(shù)據(jù)都是每次fetch一條記錄,實(shí)際上大部分時(shí)候需要fetch到一個(gè)batch的小批量數(shù)據(jù),在tf中這一操作的明顯變化就是tensor的rank發(fā)生了變化,我目前使用的人臉數(shù)據(jù)集是灰度圖像,因此大小是92*112的,所以最開始fetch拿到的圖像數(shù)據(jù)集經(jīng)過reshape之后就是一個(gè)rank為2的tensor,大小是92*112的(如果考慮通道,也可以reshape為rank為3的,即92*112*1)。

如果加入batch,比如batch大小為5,那么拿到的tensor的rank就變成了3,大小為5*92*112。

下面規(guī)則化的寫一下讀取數(shù)據(jù)的一般流程,按照官網(wǎng)的實(shí)例,一般把讀取數(shù)據(jù)拆分成兩個(gè)大部分,一個(gè)是函數(shù)專門負(fù)責(zé)讀取數(shù)據(jù)和解碼數(shù)據(jù),一個(gè)函數(shù)則負(fù)責(zé)生產(chǎn)batch。

import tensorflow as tf

def read_data(fileNameQue):

 reader = tf.TFRecordReader()
 key, value = reader.read(fileNameQue)
 features = tf.parse_single_example(value, features={'label': tf.FixedLenFeature([], tf.int64),
              'img': tf.FixedLenFeature([], tf.string),})
 img = tf.decode_raw(features["img"], tf.uint8)
 img = tf.reshape(img, [92,112]) # 恢復(fù)圖像原始大小
 label = tf.cast(features["label"], tf.int32)

 return img, label

def batch_input(filename, batchSize):

 fileNameQue = tf.train.string_input_producer([filename], shuffle=True)
 img, label = read_data(fileNameQue) # fetch圖像和label
 min_after_dequeue = 1000
 capacity = min_after_dequeue+3*batchSize
 # 預(yù)取圖像和label并隨機(jī)打亂,組成batch,此時(shí)tensor rank發(fā)生了變化,多了一個(gè)batch大小的維度
 exampleBatch,labelBatch = tf.train.shuffle_batch([img, label],batch_size=batchSize, capacity=capacity,
              min_after_dequeue=min_after_dequeue)
 return exampleBatch,labelBatch

if __name__ == "__main__":

 init = tf.initialize_all_variables()
 exampleBatch, labelBatch = batch_input("./data/faceTF.tfrecords", batchSize=10)

 with tf.Session() as sess:

  sess.run(init)
  coord = tf.train.Coordinator()
  threads = tf.train.start_queue_runners(coord=coord)

  for i in range(100):
   example, label = sess.run([exampleBatch, labelBatch])
   print(example.shape)

  coord.request_stop()
  coord.join(threads)

讀取數(shù)據(jù)和解碼數(shù)據(jù)與之前基本相同,針對不同格式數(shù)據(jù)集使用不同閱讀器和解碼器即可,后面是產(chǎn)生batch,核心是tf.train.shuffle_batch這個(gè)函數(shù),它相當(dāng)于一個(gè)蓄水池的功能,第一個(gè)參數(shù)代表蓄水池的入水口,也就是逐個(gè)讀取到的記錄,batch_size自然就是batch的大小了,capacity是蓄水池的容量,表示能容納多少個(gè)樣本,min_after_dequeue是指出隊(duì)操作后還可以供隨機(jī)采樣出批量數(shù)據(jù)的樣本池大小,顯然,capacity要大于min_after_dequeue,官網(wǎng)推薦:min_after_dequeue + (num_threads + a small safety margin) * batch_size,還有一個(gè)參數(shù)就是num_threads,表示所用線程數(shù)目。

min_after_dequeue這個(gè)值越大,隨機(jī)采樣的效果越好,但是消耗的內(nèi)存也越大。

以上是“Tensorflow如何實(shí)現(xiàn)分批量讀取數(shù)據(jù)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI