溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Pytorch中net.train 和 net.eval怎么用

發(fā)布時(shí)間:2021-05-23 08:22:16 來源:億速云 閱讀:410 作者:小新 欄目:開發(fā)技術(shù)

這篇文章主要介紹Pytorch中net.train 和 net.eval怎么用,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

在訓(xùn)練模型時(shí)會(huì)在前面加上:

model.train()

在測(cè)試模型時(shí)在前面使用:

model.eval()

同時(shí)發(fā)現(xiàn),如果不寫這兩個(gè)程序也可以運(yùn)行,這是因?yàn)檫@兩個(gè)方法是針對(duì)在網(wǎng)絡(luò)訓(xùn)練和測(cè)試時(shí)采用不同方式的情況,比如Batch Normalization 和 Dropout。

訓(xùn)練時(shí)是正對(duì)每個(gè)min-batch的,但是在測(cè)試中往往是針對(duì)單張圖片,即不存在min-batch的概念。

由于網(wǎng)絡(luò)訓(xùn)練完畢后參數(shù)都是固定的,因此每個(gè)批次的均值和方差都是不變的,因此直接結(jié)算所有batch的均值和方差。

所有Batch Normalization的訓(xùn)練和測(cè)試時(shí)的操作不同

在訓(xùn)練中,每個(gè)隱層的神經(jīng)元先乘概率P,然后在進(jìn)行激活,在測(cè)試中,所有的神經(jīng)元先進(jìn)行激活,然后每個(gè)隱層神經(jīng)元的輸出乘P。

補(bǔ)充:Pytorch踩坑記錄——model.eval()

最近在寫代碼時(shí)遇到一個(gè)問題,原本訓(xùn)練好的模型,加載進(jìn)來進(jìn)行inference準(zhǔn)確率直接掉了5個(gè)點(diǎn),尼瑪,這簡(jiǎn)直不能忍啊~本菜雞下意識(shí)地感知到我肯定又在哪里寫了bug了~~~于是開始到處排查,從model load到data load,最終在一個(gè)被我封裝好的module的犄角旮旯里找到了問題,于是順便就在這里總結(jié)一下,避免以后再犯。

對(duì)于訓(xùn)練好的模型加載進(jìn)來準(zhǔn)確率和原先的不符,比較常見的有兩方面的原因:

1)data

2)model.state_dict()

1) data

數(shù)據(jù)方面,檢查前后兩次加載的data有沒有發(fā)生變化。首先檢查 transforms.Normalize 使用的均值和方差是否和訓(xùn)練時(shí)相同;另外檢查在這個(gè)過程中數(shù)據(jù)是否經(jīng)過了存儲(chǔ)形式的改變,這有可能會(huì)帶來數(shù)據(jù)精度的變化導(dǎo)致一定的信息丟失。

比如我過用的其中一個(gè)數(shù)據(jù)集,原先將圖片存儲(chǔ)成向量形式,但其對(duì)應(yīng)的是“png”格式的數(shù)據(jù)(后來在原始文件中發(fā)現(xiàn)了相應(yīng)的描述。),而我進(jìn)行了一次data-to-img操作,將向量轉(zhuǎn)換成了“jpg”形式,這時(shí)加載進(jìn)來便造成了掉點(diǎn)。

2)model.state_dict()

第一方面造成的掉點(diǎn)一般不會(huì)太嚴(yán)重,第二方面造成的掉點(diǎn)就比較嚴(yán)重了,一旦模型的參數(shù)加載錯(cuò)了,那就誤差大了。

如果是參數(shù)沒有正確加載進(jìn)來則比較容易發(fā)現(xiàn),這時(shí)準(zhǔn)確率非常低,幾乎等于瞎猜。

而我這次遇到的情況是,準(zhǔn)確率并不是特別低,只掉了幾個(gè)點(diǎn),檢查了多次,均顯示模型參數(shù)已經(jīng)成功加載了。后來仔細(xì)查看后發(fā)現(xiàn)在其中一次調(diào)用模型進(jìn)行inference時(shí),忘了寫 ‘model.eval()',造成了模型的參數(shù)發(fā)生變化,再次調(diào)用則出現(xiàn)了掉點(diǎn)。

于是又回顧了一下model.eval()和model.train()的具體作用。如下:

model.train() 和 model.eval() 一般在模型訓(xùn)練和評(píng)價(jià)的時(shí)候會(huì)加上這兩句,主要是針對(duì)由于model 在訓(xùn)練時(shí)和評(píng)價(jià)時(shí) Batch

Normalization 和 Dropout 方法模式不同:

a) model.eval(),不啟用 BatchNormalization 和 Dropout。此時(shí)pytorch會(huì)自動(dòng)把BN和DropOut固定住,不會(huì)取平均,而是用訓(xùn)練好的值。不然的話,一旦test的batch_size過小,很容易就會(huì)因BN層導(dǎo)致模型performance損失較大;

b) model.train() :?jiǎn)⒂?BatchNormalization 和 Dropout。 在模型測(cè)試階段使用model.train() 讓model變成訓(xùn)練模式,此時(shí) dropout和batch normalization的操作在訓(xùn)練q起到防止網(wǎng)絡(luò)過擬合的問題。

因此,在使用PyTorch進(jìn)行訓(xùn)練和測(cè)試時(shí)一定要記得把實(shí)例化的model指定train/eval。

model.eval()   vs   torch.no_grad()

雖然二者都是eval的時(shí)候使用,但其作用并不相同:

model.eval() 負(fù)責(zé)改變batchnorm、dropout的工作方式,如在eval()模式下,dropout是不工作的。 見下方代碼:

  import torch
  import torch.nn as nn
 
  drop = nn.Dropout()
  x = torch.ones(10)
  
  # Train mode   
  drop.train()
  print(drop(x)) # tensor([2., 2., 0., 2., 2., 2., 2., 0., 0., 2.])   
  
  # Eval mode   
  drop.eval()
  print(drop(x)) # tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

torch.no_grad() 負(fù)責(zé)關(guān)掉梯度計(jì)算,節(jié)省eval的時(shí)間。

只進(jìn)行inference時(shí),model.eval()是必須使用的,否則會(huì)影響結(jié)果準(zhǔn)確性。 而torch.no_grad()并不是強(qiáng)制的,只影響運(yùn)行效率。

pytorch的優(yōu)點(diǎn)

1.PyTorch是相當(dāng)簡(jiǎn)潔且高效快速的框架;2.設(shè)計(jì)追求最少的封裝;3.設(shè)計(jì)符合人類思維,它讓用戶盡可能地專注于實(shí)現(xiàn)自己的想法;4.與google的Tensorflow類似,F(xiàn)AIR的支持足以確保PyTorch獲得持續(xù)的開發(fā)更新;5.PyTorch作者親自維護(hù)的論壇 供用戶交流和求教問題6.入門簡(jiǎn)單

以上是“Pytorch中net.train 和 net.eval怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI