<tfoot id="henso"><acronym id="henso"></acronym></tfoot>

<samp id="henso"></samp>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

如何使用keras進(jìn)行多顯卡訓(xùn)練

發(fā)布時(shí)間：2020-07-17 10:45:01 來源：億速云閱讀：373 作者：小豬欄目：開發(fā)技術(shù)

小編這次要給大家分享的是如何使用keras進(jìn)行多顯卡訓(xùn)練，文章內(nèi)容豐富，感興趣的小伙伴可以來了解一下，希望大家閱讀完這篇文章之后能夠有所收獲。

使用keras進(jìn)行訓(xùn)練，默認(rèn)使用單顯卡，即使設(shè)置了os.environ['CUDA_VISIBLE_DEVICES']為兩張顯卡，也只是占滿了顯存，再設(shè)置tf.GPUOptions(allow_growth=True)之后可以清楚看到，只占用了第一張顯卡，第二張顯卡完全沒用。

要使用多張顯卡，需要按如下步驟：

（1）import multi_gpu_model函數(shù)：from keras.utils import multi_gpu_model

（2）在定義好model之后，使用multi_gpu_model設(shè)置模型由幾張顯卡訓(xùn)練，如下：

model=Model(...) #定義模型結(jié)構(gòu)
model_parallel=multi_gpu_model(model,gpu=n) #使用幾張顯卡n等于幾
model_parallel.compile(...) #注意是model_parallel，不是model

通過以上代碼，model將作為CPU上的原始模型，而model_parallel將作為拷貝模型被復(fù)制到各個(gè)GPU上進(jìn)行梯度計(jì)算。如果batchsize為128，顯卡n=2，則每張顯卡單獨(dú)計(jì)算128/2=64張圖像，然后在CPU上將兩張顯卡計(jì)算得到的梯度進(jìn)行融合更新，并對(duì)模型權(quán)重進(jìn)行更新后再將新模型拷貝到GPU再次訓(xùn)練。

（3）從上面可以看出，進(jìn)行訓(xùn)練時(shí)，仍然在model_parallel上進(jìn)行：

model_parallel.fit(...) #注意是model_parallel

（4）保存模型時(shí)，model_parallel保存了訓(xùn)練時(shí)顯卡數(shù)量的信息，所以如果直接保存model_parallel的話，只能將模型設(shè)置為相同數(shù)量的顯卡調(diào)用，否則訓(xùn)練的模型將不能調(diào)用。因此，為了之后的調(diào)用方便，只保存CPU上的模型，即model:

model.save(...) #注意是model，不是model_parallel

如果用到了callback函數(shù)，則默認(rèn)保存的也是model_parallel（因?yàn)橛?xùn)練函數(shù)是針對(duì)model_parallel的），所以要用回調(diào)函數(shù)保存model的話需要自己對(duì)回調(diào)函數(shù)進(jìn)行定義：

class OwnCheckpoint(keras.callbacks.Callback):
 def __init__(self,model):
  self.model_to_save=model
 def on_epoch_end(self,epoch,logs=None): #這里logs必須寫
  self.model_to_save.save('model_advanced/model_%d.h6' % epoch)

定以后具體使用如下：

checkpoint=OwnCheckpoint(model)
model_parallel.fit_generator(...,callbacks=[checkpoint])

這樣就沒問題了！

補(bǔ)充知識(shí)：keras.fit_generator及多卡訓(xùn)練記錄

1.環(huán)境問題

使用keras，以tensorflow為背景，tensorflow1.14多卡訓(xùn)練會(huì)出錯(cuò) python3.6

2.代碼

2.1

os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ['CUDA_VISIBLE_DEVICES'] = '4,5'

2.2 自定義generator函數(shù)

def img_image_generator(path_img, path_lab, batch_size, data_list):
 while True:
 # 'train_list.csv'
 file_list = pd.read_csv(data_list, sep=',',usecols=[1]).values.tolist()
 file_list = [i[0] for i in file_list]
 cnt = 0
 X = []
 Y1 = []
 for file_i in file_list:
 x = cv2.imread(path_img+'/'+file_i, cv2.IMREAD_GRAYSCALE)
 x = x.astype('float32')
 x /= 255.
 y = cv2.imread(path_lab+'/'+file_i, cv2.IMREAD_GRAYSCALE)
 y = y.astype('float32')
 y /= 255.
 X.append(x.reshape(256, 256, 1))
 Y1.append(y.reshape(256, 256, 1))
 cnt += 1
 if cnt == batch_size:
 cnt = 0
 yield (np.array(X), [np.array(Y1), np.array(Y1)])
 X = []
 Y1 = []

2.3 函數(shù)調(diào)用及訓(xùn)練

 generator_train = img_image_generator(path2, path3, 4, pathcsv_train)
 generator_test= img_image_generator(path2, path3, 4, pathcsv_test)
 model.fit_generator(generator_train, steps_per_epoch=237*2, epochs=50, callbacks=callbacks_list, validation_data=generator_test, validation_steps=60*2)

3. 多卡訓(xùn)練

3.1 復(fù)制model

model_parallel = multi_gpu_model(model, gpus=2)

3.2 checkpoint 定義

class ParallelModelCheckpoint(ModelCheckpoint):
  def __init__(self, model, filepath, monitor='val_out_final_score', verbose=0,\
   save_best_only=False, save_weights_only=False, mode='auto', period=1):
   self.single_model = model 
   super(ParallelModelCheckpoint, self).__init__(filepath, monitor, verbose, save_best_only, save_weights_only, mode, period)
  
  def set_model(self, model):
   super(ParallelModelCheckpoint, self).set_model(self.single_model)

使用

model_checkpoint = ParallelModelCheckpoint(model=model, filepath=filepath, monitor='val_loss',verbose=1, save_best_only=True, mode='min')

3.3 注意的問題

保存模型是時(shí)候需要使用以原來的模型保存，不能使用model_parallel保存

看完這篇關(guān)于如何使用keras進(jìn)行多顯卡訓(xùn)練的文章，如果覺得文章內(nèi)容寫得不錯(cuò)的話，可以把它分享出去給更多人看到。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
PostgreSQL中調(diào)用函數(shù)的方法
下一篇新聞：
python 三元表達(dá)式 if for 構(gòu)建List 進(jìn)階用法

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<big id="vna5p"><strike id="vna5p"></strike></big>

<big id="vna5p"><dfn id="vna5p"><u id="vna5p"></u></dfn></big>