L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用

發(fā)布時(shí)間：2021-12-29 17:11:45 來(lái)源：億速云閱讀：858 作者：小新欄目：大數(shù)據(jù)

這篇文章主要為大家展示了“L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用”，內(nèi)容簡(jiǎn)而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用”這篇文章吧。

經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)

在機(jī)器學(xué)習(xí)任務(wù)中，常用損失函數(shù)（loss function）來(lái)衡量模型輸出值和真實(shí)值Y之間的差異，如下面定義的損失函數(shù)： L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用若數(shù)據(jù)是服從聯(lián)合分布，則其損失函數(shù)的期望值為，也稱(chēng)為模型的真實(shí)風(fēng)險(xiǎn)，記作。我們的目標(biāo)即是找到最優(yōu)的模型或者概念來(lái)最小化真實(shí)風(fēng)險(xiǎn)，即： L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用由于數(shù)據(jù)的分布是未知的，所以我們我們只能通過(guò)歷史數(shù)據(jù)訓(xùn)練得到的模型在訓(xùn)練集上的平均損失來(lái)代替這個(gè)真實(shí)風(fēng)險(xiǎn)，此時(shí)在訓(xùn)練集上的平均損失稱(chēng)為經(jīng)驗(yàn)風(fēng)險(xiǎn)（empirical risk），記作，其中 L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用即我們的目標(biāo)是通過(guò)訓(xùn)練集上的數(shù)據(jù)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)以獲取最優(yōu)模型或者最優(yōu)概念：

通常情況下， 損失函數(shù)的值越小，就說(shuō)明模型擬合的效果就越好。但在實(shí)際應(yīng)用中，我們的目標(biāo)不僅僅是讓loss function越小越好就可以了，在最極端的境況下，我們訓(xùn)練的模型擬合出了訓(xùn)練集上所有樣本的值，如上圖中的第三個(gè)模型（圖片來(lái)自Andrew Ng Machine Learning公開(kāi)課視頻），這種現(xiàn)象就是 過(guò)擬合（over-fitting）,即模型的泛化能力變?nèi)酰瑹o(wú)法在未見(jiàn)過(guò)的數(shù)據(jù)樣本上產(chǎn)生較好的效果。過(guò)擬合同時(shí)也意味著此時(shí)模型的結(jié)構(gòu)復(fù)雜性特別高，這也即是 結(jié)構(gòu)風(fēng)險(xiǎn)（structural risk） 所帶來(lái)的弊端。因此，除了降低模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)外，還需要降低它的結(jié)構(gòu)風(fēng)險(xiǎn)。而下面介紹的 正則化項(xiàng)的作用就是降低模型的復(fù)雜性，也即是降低它的結(jié)構(gòu)風(fēng)險(xiǎn)。

正則化項(xiàng)

正則化項(xiàng)（regularization）也稱(chēng)作懲罰項(xiàng)，常將其添加到損失函數(shù)中，用于組成我們的目標(biāo)函數(shù)（object function）。正則化項(xiàng)的目的是為了對(duì)模型訓(xùn)練的參數(shù)進(jìn)行一些限制，常用的正則化項(xiàng)包括L1正則化，L2正則化，其分別常表示為和 L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用。其中，表示模型訓(xùn)練的參數(shù)或者系數(shù)，則是求范數(shù)的計(jì)算操作。通常模型越復(fù)雜，懲罰項(xiàng)越大，模型越簡(jiǎn)單，懲罰項(xiàng)越小。
L1和L2的計(jì)算分別對(duì)應(yīng)如下，其中表示調(diào)整的步長(zhǎng)大小，其值越大，越會(huì)使得模型參數(shù)為0時(shí)取得最優(yōu)解：

L1正則化表示權(quán)重向量中各個(gè)元素的絕對(duì)值之和。
L2正則化表示權(quán)重向量中各個(gè)元素的平方之和的平方根。

另外，除了L1和L2正則化項(xiàng)之外，還有L0正則化項(xiàng)，它的意義即是求非零參數(shù)的個(gè)數(shù)。

L1和L2正則化的作用

首先，關(guān)于L1和L2正則化的作用如下：

L1正則化可以產(chǎn)生稀疏解，即會(huì)使得很多參數(shù)的最優(yōu)值變?yōu)?，以此得到的參數(shù)就是一個(gè)稀疏矩陣或者向量了?？梢杂糜谔卣鬟x擇。
L2正則化可以產(chǎn)生值很小的參數(shù)，即會(huì)使得很多參數(shù)的最優(yōu)值很小?？梢苑乐鼓Ｐ瓦^(guò)擬合。

L1正則化可以得到稀疏解，所以可以用于模型特征選擇。以線(xiàn)性回歸的模型為例，很多特征的參數(shù)為0就意味著它們對(duì)于預(yù)測(cè)結(jié)果的貢獻(xiàn)為零，所以就可以保留不為零的特征，以此進(jìn)行特征選擇。

L2正則化可以防止模型過(guò)擬合，原因是在加入了L2正則化的目標(biāo)函數(shù)中，參數(shù)優(yōu)化的時(shí)會(huì)傾向于使得參數(shù)盡可能小，最后得到一個(gè)參數(shù)都比較小的模型。相比于參數(shù)很大的模型，樣本特征發(fā)生很小的變化就會(huì)導(dǎo)致模型的輸出發(fā)生很大的變化，如前面圖中的第三個(gè)模型，其中含有項(xiàng)，可想其對(duì)應(yīng)的參數(shù)很大，其結(jié)果必然會(huì)有很大的變化。而如果參數(shù)很小，參數(shù)變化對(duì)于模型的輸出的影響就會(huì)很小，以此增強(qiáng)模型的泛化能力。

以上是“L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問(wèn)一下細(xì)節(jié)

L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用

經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)

正則化項(xiàng)

L1和L2正則化的作用

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

L1、L2正則化項(xiàng)及其在機(jī)器學(xué)習(xí)中怎么用