<ol id="jvigw"><progress id="jvigw"><meter id="jvigw"></meter></progress></ol>

<label id="jvigw"></label>

<mark id="jvigw"><option id="jvigw"></option></mark>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

用戶(hù)登錄×

賬戶(hù)密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

神經(jīng)網(wǎng)絡(luò)generalization是什么意思

發(fā)布時(shí)間：2021-12-27 10:37:13 來(lái)源：億速云閱讀：154 作者：iii 欄目：大數(shù)據(jù)

這篇文章主要介紹“神經(jīng)網(wǎng)絡(luò)generalization是什么意思”，在日常操作中，相信很多人在神經(jīng)網(wǎng)絡(luò)generalization是什么意思問(wèn)題上存在疑惑，小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”神經(jīng)網(wǎng)絡(luò)generalization是什么意思”的疑惑有所幫助！接下來(lái)，請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧！

每當(dāng)我們訓(xùn)練自己的神經(jīng)網(wǎng)絡(luò)時(shí)，我們都需要注意稱(chēng)為神經(jīng)網(wǎng)絡(luò)的泛化的問(wèn)題。從本質(zhì)上講，這意味著我們的模型在從給定數(shù)據(jù)中學(xué)習(xí)以及將所學(xué)信息應(yīng)用到其他方面有多出色。

在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)，將有一些數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)上進(jìn)行訓(xùn)練， 并且還將保留一些數(shù)據(jù)以檢查神經(jīng)網(wǎng)絡(luò)的性能。如果神經(jīng)網(wǎng)絡(luò)在尚未訓(xùn)練的數(shù)據(jù)上表現(xiàn)良好，那么可以說(shuō)它在給定數(shù)據(jù)上的推理效果很好。讓我們通過(guò)一個(gè)例子來(lái)理解這一點(diǎn)。

假設(shè)我們正在訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)應(yīng)該告訴我們給定圖像是否有狗。假設(shè)我們有幾只狗的圖片，每只狗屬于某個(gè)品種，并且這些圖片中總共有12個(gè)品種。我將保留10個(gè)品種的狗的所有圖像進(jìn)行訓(xùn)練，而這2個(gè)品種的其余圖像將暫時(shí)保留。

神經(jīng)網(wǎng)絡(luò)generalization是什么意思

現(xiàn)在，在進(jìn)入深度學(xué)習(xí)之前，讓我們從人類(lèi)的角度來(lái)看待這一點(diǎn)。讓我們考慮一個(gè)一生中從未見(jiàn)過(guò)狗的人（僅舉一個(gè)例子）?，F(xiàn)在，我們將向人類(lèi)展示10種狗，并告訴他們這是狗。此后，如果我們向他們展示其他2個(gè)品種，他們是否能夠說(shuō)出它們也是狗？希望他們能做到，十個(gè)品種應(yīng)該足以理解和識(shí)別狗的獨(dú)特特征。從某些數(shù)據(jù)學(xué)習(xí)并將獲得的知識(shí)正確應(yīng)用于其他數(shù)據(jù)的這種概念稱(chēng)為generalization（泛化）。

回到深度學(xué)習(xí)，我們的目標(biāo)是使神經(jīng)網(wǎng)絡(luò)從給定的數(shù)據(jù)中盡可能有效地學(xué)習(xí)。如果我們成功地使神經(jīng)網(wǎng)絡(luò)了解到， 其他2個(gè)品種都還狗，那么我們已經(jīng)培養(yǎng)了非常general（一般的）神經(jīng)網(wǎng)絡(luò)，它會(huì)在現(xiàn)實(shí)世界中執(zhí)行得很好。

這實(shí)際上說(shuō)起來(lái)容易做起來(lái)難，而訓(xùn)練通用神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)從業(yè)人員最令人沮喪的任務(wù)之一。這是由于神經(jīng)網(wǎng)絡(luò)中的一種現(xiàn)象，即過(guò)度擬合。如果神經(jīng)網(wǎng)絡(luò)對(duì)10種犬進(jìn)行訓(xùn)練，并且拒絕將其他2種犬歸為狗，那么該神經(jīng)網(wǎng)絡(luò)就過(guò)度適合了訓(xùn)練數(shù)據(jù)。這意味著神經(jīng)網(wǎng)絡(luò)已經(jīng) 記住了 那10種狗，并且只將它們視為狗。因此，它無(wú)法形成對(duì)狗長(zhǎng)什么樣的 普遍了解。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的同時(shí)解決這個(gè)問(wèn)題是我們?cè)诒疚闹幸接懙摹?/p>

現(xiàn)在，我們實(shí)際上沒(méi)有自由在像“繁殖”這樣的基礎(chǔ)上劃分所有數(shù)據(jù)。相反，我們將簡(jiǎn)單地拆分所有數(shù)據(jù)。數(shù)據(jù)的一部分，通常是較大部分（大約80–90％）將用于訓(xùn)練模型，其余部分將用于測(cè)試模型。我們的目標(biāo)是確保測(cè)試數(shù)據(jù)的性能與訓(xùn)練數(shù)據(jù)的性能大致相同。我們使用諸如損失和準(zhǔn)確性之類(lèi)的指標(biāo)來(lái)衡量這一績(jī)效。

我們可以控制神經(jīng)網(wǎng)絡(luò)的某些方面，以防止過(guò)度擬合。讓我們一一介紹。首先是參數(shù)的數(shù)量。

參數(shù)數(shù)量

在神經(jīng)網(wǎng)絡(luò)中，參數(shù)的數(shù)量本質(zhì)上是指權(quán)重的數(shù)量。這將與層數(shù)和每一層中神經(jīng)元的數(shù)目成正比。參數(shù)和過(guò)度擬合的數(shù)量之間的關(guān)系如下：越多的參數(shù)，越容易導(dǎo)致過(guò)擬合。

我們需要根據(jù)復(fù)雜性來(lái)定義問(wèn)題。一個(gè)非常復(fù)雜的數(shù)據(jù)集將需要一個(gè)非常復(fù)雜的函數(shù)來(lái)成功理解和表示它。從數(shù)學(xué)上講，我們可以將復(fù)雜度與非線性相關(guān)聯(lián) 。 讓我們回想一下神經(jīng)網(wǎng)絡(luò)公式。

神經(jīng)網(wǎng)絡(luò)generalization是什么意思

在此，W1，W2和W3是此神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣。現(xiàn)在，我們需要注意的是方程中的激活函數(shù)，該函數(shù)適用于每一層。由于具有這些激活功能，因此每一層都與下一層非線性連接 。

第一層的輸出為f（W_1 * X）（設(shè)L1），第二層的輸出為f（W_2 * L1）。如您所見(jiàn)，由于激活函數(shù)（f），第二層的輸出與第一層具有非線性 關(guān)系。因此，在神經(jīng)網(wǎng)絡(luò)的末端，最終值Y相對(duì)于輸入X具有一定程度的非線性，具體取決于神經(jīng)網(wǎng)絡(luò)中的層數(shù) 。

層的數(shù)量越多，越多的激活函數(shù)擾亂層之間的線性度，并且因此更加非線性。

由于這種關(guān)系，我們可以說(shuō)，如果神經(jīng)網(wǎng)絡(luò) 在每一層中具有更多的層和更多的節(jié)點(diǎn)，它將變得更加復(fù)雜。因此，我們需要根據(jù)數(shù)據(jù)的復(fù)雜性來(lái)調(diào)整參數(shù)。除了重復(fù)實(shí)驗(yàn)和比較結(jié)果外，沒(méi)有確定的方法。

在給定的實(shí)驗(yàn)中，如果測(cè)試指標(biāo)遠(yuǎn)低于訓(xùn)練指標(biāo)，則模型具有過(guò)擬合，這意味著神經(jīng)網(wǎng)絡(luò) 對(duì)于給定的數(shù)據(jù)具有 太多的參數(shù)。這基本上意味著神經(jīng)網(wǎng)絡(luò)對(duì)于給定的數(shù)據(jù)來(lái)說(shuō) 太復(fù)雜 了，需要簡(jiǎn)化。如果測(cè)試分?jǐn)?shù)與訓(xùn)練分?jǐn)?shù)大致相同，則該模型已經(jīng) generalized，但這并不意味著我們已經(jīng)達(dá)到了神經(jīng)網(wǎng)絡(luò)的最大潛力。如果我們?cè)黾訁?shù)，性能將會(huì)提高，但也可能會(huì)過(guò)擬合。因此，我們需要繼續(xù)嘗試通過(guò)平衡性能和泛化來(lái)優(yōu)化參數(shù)數(shù)量 。

我們需要將神經(jīng)網(wǎng)絡(luò)的復(fù)雜度與數(shù)據(jù)復(fù)雜度相匹配。如果神經(jīng)網(wǎng)絡(luò)太復(fù)雜，它將開(kāi)始記憶訓(xùn)練數(shù)據(jù)，而不是對(duì)數(shù)據(jù)有一般的了解，從而導(dǎo)致過(guò)擬合。

通常，深度學(xué)習(xí)從業(yè)人員如何做到這一點(diǎn)是首先訓(xùn)練具有足夠大量參數(shù)的神經(jīng)網(wǎng)絡(luò)，以使模型過(guò)擬合。因此，最初，我們嘗試獲得一個(gè)非常適合訓(xùn)練數(shù)據(jù)的模型。接下來(lái)，我們嘗試迭代地減少參數(shù)的數(shù)量，直到模型停止過(guò)度擬合為止，這可以視為一種 最佳的神經(jīng)網(wǎng)絡(luò)。我們可以用來(lái)防止過(guò)度擬合的另一種技術(shù)是使用dropout神經(jīng)元。

dropout神經(jīng)元

在神經(jīng)網(wǎng)絡(luò)中，添加dropout神經(jīng)元是減少神經(jīng)網(wǎng)絡(luò)過(guò)度擬合的最流行，最有效的方法之一?；旧暇W(wǎng)絡(luò)中的每個(gè)神經(jīng)元都有一定的概率從網(wǎng)絡(luò)中完全退出。這意味著在特定時(shí)刻，某些神經(jīng)元將不會(huì)連接到網(wǎng)絡(luò)中的任何其他神經(jīng)元。這是一個(gè)視覺(jué)示例：

神經(jīng)網(wǎng)絡(luò)generalization是什么意思

在訓(xùn)練過(guò)程中的每一個(gè)瞬間，一組不同的神經(jīng)元將以隨機(jī)的方式掉落。因此，我們可以說(shuō)在每個(gè)時(shí)刻，我們都在有效地訓(xùn)練某個(gè)神經(jīng)網(wǎng)絡(luò)比原始神經(jīng)網(wǎng)絡(luò)少的某個(gè) 子集神經(jīng)網(wǎng)絡(luò)。由于輟學(xué)神經(jīng)元的隨機(jī)性質(zhì)，該子神經(jīng)網(wǎng)絡(luò)每次都會(huì)改變。

實(shí)際上，這里發(fā)生的是，當(dāng)我們訓(xùn)練帶有缺失神經(jīng)元的神經(jīng)網(wǎng)絡(luò)時(shí)，我們基本上是在訓(xùn)練 許多較小的 子集神經(jīng)網(wǎng)絡(luò)，并且由于權(quán)重是原始神經(jīng)網(wǎng)絡(luò)的一部分，因此神經(jīng)網(wǎng)絡(luò)的最終權(quán)重可以視為所有 相應(yīng) 子集神經(jīng)網(wǎng)絡(luò)權(quán)重的平均值 。這是正在發(fā)生的事情的基本可視化：

神經(jīng)網(wǎng)絡(luò)generalization是什么意思

這就是dropout神經(jīng)元在神經(jīng)網(wǎng)絡(luò)中的工作方式，但是為什么dropout會(huì)阻止過(guò)度擬合？這有兩個(gè)主要原因。

第一個(gè)原因是dropout的神經(jīng)元促進(jìn)神經(jīng)元獨(dú)立。 由于在特定瞬間可能存在或不存在圍繞特定神經(jīng)元的神經(jīng)元這一事實(shí)，因此該神經(jīng)元不能依賴(lài)于圍繞其的那些神經(jīng)元。因此，它會(huì)被迫成為更獨(dú)立 ，同時(shí)訓(xùn)練。

第二個(gè)原因是由于dropout，我們實(shí)質(zhì)上是一次訓(xùn)練多個(gè)較小的神經(jīng)網(wǎng)絡(luò)。通常，如果我們訓(xùn)練多個(gè)模型并求平均權(quán)重，則由于每個(gè)神經(jīng)網(wǎng)絡(luò)的獨(dú)立學(xué)習(xí)的積累，性能通常會(huì)提高。但是，這是一個(gè)昂貴的過(guò)程，因?yàn)槲覀冃枰x多個(gè)神經(jīng)網(wǎng)絡(luò)并分別進(jìn)行訓(xùn)練。但是，在輟學(xué)的情況下，這也做同樣的事情， 而我們只需要 一個(gè)神經(jīng)網(wǎng)絡(luò)，就可以從中訓(xùn)練子神經(jīng)網(wǎng)絡(luò)的多種可能配置。

訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)并匯總其學(xué)習(xí)知識(shí)稱(chēng)為“集合”，通常可以提高性能。使用dropout本質(zhì)上是在只有1個(gè)神經(jīng)網(wǎng)絡(luò)的情況下實(shí)現(xiàn)的。

減少過(guò)度擬合的下一種技術(shù)是 權(quán)重正則化。

權(quán)重正則化

在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)，某些權(quán)重的值可能會(huì)變得非常大。發(fā)生這種情況是因?yàn)檫@些權(quán)重集中在訓(xùn)練數(shù)據(jù)中的某些特征上，這導(dǎo)致它們?cè)谡麄€(gè)訓(xùn)練過(guò)程中價(jià)值不斷增加。因此，網(wǎng)絡(luò)過(guò)度適合訓(xùn)練數(shù)據(jù)。

我們不需要不斷增加權(quán)重來(lái)捕獲特定模式。相反，如果它們的值相對(duì)于其他權(quán)重較高，則很好。但是，在訓(xùn)練過(guò)程中，當(dāng)神經(jīng)網(wǎng)絡(luò)通過(guò)多次迭代對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，權(quán)重值可能會(huì)不斷增加，直到權(quán)重變大為止，這是不必要的。

為什么權(quán)重過(guò)大對(duì)神經(jīng)網(wǎng)絡(luò)不利的其他原因之一是由于增加的輸入輸出差異。 基本上，當(dāng)出現(xiàn)網(wǎng)絡(luò)中的巨大權(quán)重，這是非常容易對(duì)小的變化 的輸入，但神經(jīng)網(wǎng)絡(luò)應(yīng)該基本輸出同樣的事情 了類(lèi)似的投入。當(dāng)我們擁有巨大的權(quán)重時(shí)，即使我們保留兩個(gè)非常相似的單獨(dú)的數(shù)據(jù)輸入，它們的輸出也可能有很大的不同。這會(huì)導(dǎo)致在測(cè)試數(shù)據(jù)上發(fā)生許多錯(cuò)誤的預(yù)測(cè)，從而降低了神經(jīng)網(wǎng)絡(luò)的通用性。

神經(jīng)網(wǎng)絡(luò)中權(quán)重的一般規(guī)則是，神經(jīng)網(wǎng)絡(luò)中的權(quán)重越高，神經(jīng)網(wǎng)絡(luò)越復(fù)雜。因此，具有較高權(quán)重的神經(jīng)網(wǎng)絡(luò)通常趨于過(guò)擬合。

因此，基本上，我們需要限制權(quán)重的增長(zhǎng)，以使權(quán)重不會(huì)增長(zhǎng)太多，但是我們到底該如何做呢？神經(jīng)網(wǎng)絡(luò)嘗試將訓(xùn)練時(shí)的損失降到最低，因此我們可以嘗試在該損失函數(shù)中包括權(quán)重的一部分，以便在訓(xùn)練時(shí)權(quán)重也被最小化 ，但是當(dāng)然要優(yōu)先考慮減少損失。

有兩種執(zhí)行此操作的方法，稱(chēng)為L(zhǎng)1和L2正則化。在L1中，我們只占網(wǎng)絡(luò)中所有權(quán)重絕對(duì)值之和的一小部分。在L2中，我們?cè)诰W(wǎng)絡(luò)中權(quán)重的所有平方值的總和中占一小部分。我們只是將此表達(dá)式添加到神經(jīng)網(wǎng)絡(luò)的整體損失函數(shù)中。公式如下：

神經(jīng)網(wǎng)絡(luò)generalization是什么意思

在這里，lambda是一個(gè)允許我們改變權(quán)重變化程度的值。我們基本上只是將L1或L2項(xiàng)添加到神經(jīng)網(wǎng)絡(luò)的損失函數(shù)中，以便網(wǎng)絡(luò)也將嘗試最小化這些項(xiàng)。通過(guò)添加L1或L2正則化，網(wǎng)絡(luò)將限制其權(quán)重的增長(zhǎng)，因?yàn)闄?quán)重的大小是損失函數(shù)的一部分，并且網(wǎng)絡(luò)始終嘗試使損失函數(shù)最小化。讓我們重點(diǎn)介紹L1和L2之間的一些區(qū)別。

使用L1正則化時(shí)，雖然權(quán)重因正則化而減小，但L1嘗試將其完全降低到零。 因此，對(duì)神經(jīng)網(wǎng)絡(luò)貢獻(xiàn)不大的不重要權(quán)重最終將變?yōu)榱?。但是，在L2的情況下，由于平方函數(shù)對(duì)于小于1的值成反比例，因此權(quán)重不會(huì)被推為零，而是被推為 較小的值。 因此，不重要的權(quán)重比其他權(quán)重要低得多。

這涵蓋了防止過(guò)度擬合的重要方法。在深度學(xué)習(xí)中，我們通常混合使用這些方法來(lái)改善神經(jīng)網(wǎng)絡(luò)的性能并改善模型的泛化性。

到此，關(guān)于“神經(jīng)網(wǎng)絡(luò)generalization是什么意思”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章！

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
小程序如何確保每個(gè)頁(yè)面都已登陸
下一篇新聞：
numpy.clip怎么使數(shù)組中的值保持在一定區(qū)間內(nèi)

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專(zhuān)題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢(xún)

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼