溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用

發(fā)布時(shí)間:2021-12-29 17:11:45 來(lái)源:億速云 閱讀:858 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要為大家展示了“L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用”這篇文章吧。

經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)

在機(jī)器學(xué)習(xí)任務(wù)中,常用損失函數(shù)(loss function)來(lái)衡量模型輸出值和真實(shí)值Y之間的差異,如下面定義的損失函數(shù):L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用若數(shù)據(jù)L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用是服從聯(lián)合分布,則其損失函數(shù)的期望值為L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用,也稱(chēng)為模型的真實(shí)風(fēng)險(xiǎn),記作L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用。我們的目標(biāo)即是找到最優(yōu)的模型或者概念來(lái)最小化真實(shí)風(fēng)險(xiǎn),即:L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用由于數(shù)據(jù)的分布是未知的,所以我們我們只能通過(guò)歷史數(shù)據(jù)訓(xùn)練得到的模型在訓(xùn)練集上的平均損失來(lái)代替這個(gè)真實(shí)風(fēng)險(xiǎn),此時(shí)在訓(xùn)練集上的平均損失稱(chēng)為經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk),記作,其中L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用即我們的目標(biāo)是通過(guò)訓(xùn)練集上的數(shù)據(jù)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)以獲取最優(yōu)模型或者最優(yōu)概念:L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用

L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用
三種擬合效果(圖片來(lái)自Andrew Ng Machine Learning公開(kāi)課視頻)

通常情況下,   損失函數(shù)的值越小,就說(shuō)明模型擬合的效果就越好。但在實(shí)際應(yīng)用中,我們的目標(biāo)不僅僅是讓loss function越小越好就可以了,在最極端的境況下,我們訓(xùn)練的模型   擬合出了訓(xùn)練集上所有樣本的值,如上圖中的第三個(gè)模型(圖片來(lái)自Andrew Ng Machine Learning公開(kāi)課視頻),這種現(xiàn)象就是   過(guò)擬合(over-fitting),即模型的泛化能力變?nèi)酰瑹o(wú)法在未見(jiàn)過(guò)的數(shù)據(jù)樣本上產(chǎn)生較好的效果。過(guò)擬合同時(shí)也意味著此時(shí)模型的結(jié)構(gòu)復(fù)雜性特別高,這也即是   結(jié)構(gòu)風(fēng)險(xiǎn)(structural risk) 所帶來(lái)的弊端。因此,除了降低模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)外,還需要降低它的結(jié)構(gòu)風(fēng)險(xiǎn)。而下面介紹的   正則化項(xiàng)的作用就是降低模型的復(fù)雜性,也即是降低它的結(jié)構(gòu)風(fēng)險(xiǎn)。      
正則化項(xiàng)

正則化項(xiàng)(regularization)也稱(chēng)作懲罰項(xiàng),常將其添加到損失函數(shù)中,用于組成我們的目標(biāo)函數(shù)(object function)。正則化項(xiàng)的目的是為了對(duì)模型訓(xùn)練的參數(shù)進(jìn)行一些限制,常用的正則化項(xiàng)包括L1正則化,L2正則化,其分別常表示為和L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用。其中,表示模型訓(xùn)練的參數(shù)或者系數(shù),則是求范數(shù)的計(jì)算操作。通常模型越復(fù)雜,懲罰項(xiàng)越大,模型越簡(jiǎn)單,懲罰項(xiàng)越小
L1和L2的計(jì)算分別對(duì)應(yīng)如下,其中表示調(diào)整的步長(zhǎng)大小,其值越大,越會(huì)使得模型參數(shù)為0時(shí)取得最優(yōu)解

  • L1正則化表示權(quán)重向量中各個(gè)元素的絕對(duì)值之和。

  • L2正則化表示權(quán)重向量中各個(gè)元素的平方之和的平方根。

另外,除了L1和L2正則化項(xiàng)之外,還有L0正則化項(xiàng),它的意義即是求非零參數(shù)的個(gè)數(shù)。

 
L1和L2正則化的作用

首先,關(guān)于L1和L2正則化的作用如下:

  • L1正則化可以產(chǎn)生稀疏解,即會(huì)使得很多參數(shù)的最優(yōu)值變?yōu)?,以此得到的參數(shù)就是一個(gè)稀疏矩陣或者向量了??梢杂糜谔卣鬟x擇。

  • L2正則化可以產(chǎn)生值很小的參數(shù),即會(huì)使得很多參數(shù)的最優(yōu)值很小??梢苑乐鼓P瓦^(guò)擬合。

L1正則化可以得到稀疏解,所以可以用于模型特征選擇。以線(xiàn)性回歸的模型為例,很多特征的參數(shù)為0就意味著它們對(duì)于預(yù)測(cè)結(jié)果的貢獻(xiàn)為零,所以就可以保留不為零的特征,以此進(jìn)行特征選擇。

L2正則化可以防止模型過(guò)擬合,原因是在加入了L2正則化的目標(biāo)函數(shù)中,參數(shù)優(yōu)化的時(shí)會(huì)傾向于使得參數(shù)盡可能小,最后得到一個(gè)參數(shù)都比較小的模型。相比于參數(shù)很大的模型,樣本特征發(fā)生很小的變化就會(huì)導(dǎo)致模型的輸出發(fā)生很大的變化,如前面圖中的第三個(gè)模型,其中含有項(xiàng),可想其對(duì)應(yīng)的參數(shù)很大,其結(jié)果必然會(huì)有很大的變化。而如果參數(shù)很小,參數(shù)變化對(duì)于模型的輸出的影響就會(huì)很小,以此增強(qiáng)模型的泛化能力。

以上是“L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI