Adam被攻擊的泛化問題和收斂問題是什么

發(fā)布時間：2021-12-10 10:47:02 來源：億速云閱讀：393 作者：柒染欄目：大數(shù)據(jù)

Adam被攻擊的泛化問題和收斂問題是什么，針對這個問題，這篇文章詳細介紹了相對應(yīng)的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

最常用的Adam優(yōu)化器，有著收斂速度快、調(diào)參容易等優(yōu)點，但是也存在經(jīng)常被人吐槽的泛化性問題和收斂問題。

因此，在很多大佬的代碼中，依然會使用傳統(tǒng)的SGD+momentum的優(yōu)化器。

下面就隨便的談一談下面的問題，來讓大家擴展一下知識：

對機器學(xué)習有了解的朋友，應(yīng)該對Adam優(yōu)化器不陌生了。大體來說就是Momentum + Adagrad + RMSProp的結(jié)合。

Adam被攻擊的泛化問題和收斂問題是什么

【如果需要的話，之后可以簡單易懂的通俗講講各種類型的優(yōu)化器的算法】

從Adam和SGDM中就可以得知，Momentum是一個很好的設(shè)計。

在討論模型泛化問題的時候，我們會希望模型找到的極小值（收斂位置），是一個比較平緩、不陡峭的位置！，原因看下圖： Adam被攻擊的泛化問題和收斂問題是什么

左邊的那個收斂點是一個比較平緩的點，而右邊的是一個非常陡峭非常sharp的收斂點。而訓(xùn)練集和測試集雖然要求同分布，但是其實還是會有微小的差別。

對于陡峭的收斂點，訓(xùn)練集的損失可能會很小，但是測試集的損失很可能就很大。而平坦的收斂點就不會這樣。這就是泛化問題，有的時候也被看成過擬合現(xiàn)象。

但是我們也是無法直接證明Adam總是找到sharp的極小值。不過很多論文或多或少都只指出了Adam在測試的時候error會較大。

Adam被攻擊的泛化問題和收斂問題是什么

這里有一張圖，可以看到，雖然Adam在訓(xùn)練集中收斂速度最快，但是測試集的效果并不是非常的好。

Adam在某些情況下會出現(xiàn)無法收斂的情況，最著名的關(guān)于這個問題的Adam的吐槽就是這個論文：2018 ICLR的best paper：On the Convergence of Adam and Beyond

但是這個問題其實并不是我們這種人經(jīng)常會遇到的，反而泛化問題是一個真正的困擾。

大佬們經(jīng)常用的一個learning rate scheduling方案就是warn-up+decay。

【warn-up】: 是指不要一開始用高的learning-rate,應(yīng)該要從低的慢慢增大到base-learning rate。學(xué)習率從小到大。

【decay】: 隨著optimization的步數(shù)的增長，逐漸降低learning rate。

Decay的部分其實很常見，所有的人都會用，但是warn-up其實就有點詭異了，在ResNet的論文中其實可以看到這個。

Radam 是在warm up的時候提出了一些有效的策略。

關(guān)于Adam被攻擊的泛化問題和收斂問題是什么問題的解答就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。

向AI問一下細節(jié)

猜你喜歡