溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

怎么使用PCA去除數(shù)據(jù)集中的多重共線性

發(fā)布時間:2021-12-22 14:11:11 來源:億速云 閱讀:261 作者:柒染 欄目:大數(shù)據(jù)

本篇文章給大家分享的是有關(guān)怎么使用PCA去除數(shù)據(jù)集中的多重共線性,小編覺得挺實用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

多重共線性是指自變量彼此相關(guān)的一種情況。當(dāng)你擬合模型并解釋結(jié)果時,多重共線性可能會導(dǎo)致問題。數(shù)據(jù)集的變量應(yīng)該是相互獨立的,以避免出現(xiàn)多重共線性問題。

為什么多重共線性是一個潛在的問題?

多重共線性高度影響與問題相關(guān)的方差,也會影響模型的解釋,因為它削弱了自變量的統(tǒng)計顯著性。

對于一個數(shù)據(jù)集,如果一些自變量彼此高度獨立,就會導(dǎo)致多重共線性。任何一個特征的微小變化都可能在很大程度上影響模型的性能。換句話說,模型的系數(shù)對自變量的微小變化非常敏感。

如何處理數(shù)據(jù)中的多重共線性?

要處理或去除數(shù)據(jù)集中的多重共線性,首先需要確認(rèn)數(shù)據(jù)集中是否具有多重共線性。有各種各樣的技術(shù)來發(fā)現(xiàn)數(shù)據(jù)中存在多重共線性,其中一些是:

  • 得到非常高的回歸系數(shù)的標(biāo)準(zhǔn)誤差

  • 整體模型顯著,但系數(shù)均不顯著

  • 在添加預(yù)測因子時,系數(shù)有很大變化

  • 高方差膨脹因子(VIF)和低容錯

以上是一些在數(shù)據(jù)中發(fā)現(xiàn)多重共線性的技術(shù)或技巧。

在這篇文章中,我們將看到如何使用相關(guān)矩陣和主成分分析來發(fā)現(xiàn)數(shù)據(jù)中的多重共線性,并使用主成分分析來去除它?;舅枷胧菍λ械念A(yù)測器運行一個主成分分析。如果存在多重共線性,它們的比率(條件指數(shù))將會很高。

數(shù)據(jù)

為了進(jìn)一步分析,使用的數(shù)據(jù)集是從Kaggle下載的Diamonds數(shù)據(jù)集。這個經(jīng)典數(shù)據(jù)集包含近54000顆鉆石的價格(目標(biāo)變量)和其他9個自變量。

數(shù)據(jù)集預(yù)處理

數(shù)據(jù)集有9個獨立的特征和' price '是目標(biāo)類標(biāo)簽。在進(jìn)行統(tǒng)計相關(guān)性分析之前,我們需要對分類變量進(jìn)行編碼,如“cut”、“color”和“clarity”。

怎么使用PCA去除數(shù)據(jù)集中的多重共線性

相關(guān)性分析

要找到數(shù)據(jù)集中所有變量之間的person相關(guān)系數(shù):

data.corr(method='pearson')Method of correlation:
* pearson (default)
* kendall
* spearman

怎么使用PCA去除數(shù)據(jù)集中的多重共線性

從上面的相關(guān)熱圖,我們可以觀察到自變量:' x ', ' y ', ' z ', '克拉'之間高度相關(guān)(人系數(shù)> 0.9),從而得出數(shù)據(jù)中存在多重共線性的結(jié)論。

我們也可以刪除一些高度相關(guān)的特征,去除數(shù)據(jù)中的多重共線性,但這可能會導(dǎo)致信息的丟失,對于高維數(shù)據(jù)也是不可行的技術(shù)。但是可以使用PCA算法來降低數(shù)據(jù)的維數(shù),從而去除低方差的變量。

使用PCA處理多重共線性

主成分分析(PCA)是數(shù)據(jù)科學(xué)中常用的特征提取技術(shù),它利用矩陣分解將數(shù)據(jù)降維到更低的空間。

為了使用主成分分析技術(shù)從數(shù)據(jù)集中提取特征,首先我們需要找到當(dāng)維數(shù)下降時解釋的方差百分比。

怎么使用PCA去除數(shù)據(jù)集中的多重共線性

符號,λ:特征值d:原始數(shù)據(jù)集的維數(shù)k:新特征空間的維數(shù)

怎么使用PCA去除數(shù)據(jù)集中的多重共線性

怎么使用PCA去除數(shù)據(jù)集中的多重共線性

從上圖,np.cumsum(PCA .explained_variance_ratio_),第一主成分分析獲得的數(shù)據(jù)總方差為0.46,對于前兩主成分分析為0.62,前6主成分分析為0.986。

對于捕獲的個體方差,第1個PCA捕獲的數(shù)據(jù)方差為4.21,第2個PCA捕獲的數(shù)據(jù)方差為1.41,第3個PCA捕獲的數(shù)據(jù)方差為1.22,最后一個PCA捕獲的數(shù)據(jù)方差為0.0156。

由于總方差的98.6%是由前6個主成分分析本身捕獲的,我們只取6個主成分分析的組成部分,并計算一個相關(guān)熱圖來克服多重共線性。

從上面的相關(guān)熱圖可以看出,現(xiàn)在沒有一個自變量是不相關(guān)的。

我們可以觀察到自變量“x”,“y”,“z”,“克拉”之間高度相關(guān)(person系數(shù)> 0.9),從而得出數(shù)據(jù)中存在多重共線性的結(jié)論。

因此,利用主成分分析對數(shù)據(jù)進(jìn)行降維,可以使數(shù)據(jù)的方差保持98.6%,并消除數(shù)據(jù)的多重共線性。

以上就是怎么使用PCA去除數(shù)據(jù)集中的多重共線性,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降摹OM隳芡ㄟ^這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

pca
AI