溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)多重共線性問(wèn)題該如何解決

發(fā)布時(shí)間:2021-12-06 15:52:15 來(lái)源:億速云 閱讀:975 作者:柒染 欄目:大數(shù)據(jù)

本篇文章給大家分享的是有關(guān)大數(shù)據(jù)多重共線性問(wèn)題該如何解決,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。

在進(jìn)行線性回歸分析時(shí),容易出現(xiàn)自變量(解釋變量)之間彼此相關(guān),這種情況被稱作多重共線性問(wèn)題。

適度的多重共線性不成問(wèn)題,但當(dāng)出現(xiàn)嚴(yán)重共線性問(wèn)題時(shí),可能導(dǎo)致分析結(jié)果不穩(wěn)定,出現(xiàn)回歸系數(shù)的符號(hào)與實(shí)際情況完全相反的情況。

本應(yīng)該顯著的自變量不顯著,本不顯著的自變量卻呈現(xiàn)出顯著性,這種情況下就需要消除多重共線性的影響。

共線性出現(xiàn)的原因

多重共線性問(wèn)題就是說(shuō)一個(gè)解釋變量的變化引起另一個(gè)解釋變量地變化。

原本自變量應(yīng)該是各自獨(dú)立的變量,這樣根據(jù)檢驗(yàn)結(jié)果,就能得知哪些因素對(duì)因變量Y有顯著影響,哪些沒(méi)有影響。如果各個(gè)自變量x之間有很強(qiáng)的線性關(guān)系,就無(wú)法固定其他變量,也就找不到x和y之間真實(shí)的關(guān)系了。

除此以外,多重共線性的原因還可能包括:

  • 數(shù)據(jù)不足。在某些情況下,收集更多數(shù)據(jù)可以解決問(wèn)題。

  • 錯(cuò)誤地使用虛擬變量。(比如,同時(shí)將男、女兩個(gè)虛擬變量都放入模型,此時(shí)必定出現(xiàn)共線性,稱為完全共線性)

共線性的判別指標(biāo)

1.vif值

有多種方法可以檢測(cè)多重共線性,較常使用的是回歸分析中的VIF值,VIF值越大,多重共線性越嚴(yán)重。一般認(rèn)為VIF大于10時(shí)(嚴(yán)格是5),代表模型存在嚴(yán)重的共線性問(wèn)題。

2.容差值

也有時(shí)候會(huì)以容差值作為標(biāo)準(zhǔn),容差值=1/VIF,所以容差值大于0.1則說(shuō)明沒(méi)有共線性(嚴(yán)格是大于0.2),VIF和容差值有邏輯對(duì)應(yīng)關(guān)系,兩個(gè)指標(biāo)任選其一即可。

3.相關(guān)系數(shù)

除此之外,直接對(duì)自變量進(jìn)行相關(guān)分析,查看相關(guān)系數(shù)和顯著性也是一種判斷方法。如果一個(gè)自變量和其他自變量之間的相關(guān)系數(shù)顯著,則代表可能存在多重共線性問(wèn)題。

多重共線性處理方法

多重共線性是普遍存在的,通常情況下,如果共線性情況不嚴(yán)重(VIF<5),不需要做特別的處理。如存在嚴(yán)重的多重共線性問(wèn)題,可以考慮使用以下幾種方法處理:

1. 手動(dòng)移除出共線性的變量

先做下相關(guān)分析,如果發(fā)現(xiàn)某兩個(gè)自變量X(解釋變量)的相關(guān)系數(shù)值大于0.7,則移除掉一個(gè)自變量(解釋變量),然后再做回歸分析。此方法是最直接的方法,但有的時(shí)候我們不希望把某個(gè)自變量從模型中剔除,這樣就要考慮使用其他方法。

2. 逐步回歸法

讓軟件自動(dòng)進(jìn)行自變量的選擇剔除,逐步回歸會(huì)將共線性的自變量自動(dòng)剔除出去。此種解決辦法有個(gè)問(wèn)題是,可能算法會(huì)剔除掉本不想剔除的自變量,如果有此類(lèi)情況產(chǎn)生,此時(shí)最好是使用嶺回歸進(jìn)行分析。

大數(shù)據(jù)多重共線性問(wèn)題該如何解決

使用路徑:進(jìn)階方法>逐步回歸

3. 增加樣本容量

增加樣本容量是解釋共線性問(wèn)題的一種辦法,但在實(shí)際操作中可能并不太適合,原因是樣本量的收集需要成本時(shí)間等。

4. 嶺回歸

上述第1和第2種解決辦法在實(shí)際研究中使用較多,但問(wèn)題在于,如果實(shí)際研究中并不想剔除掉某些自變量,某些自變量很重要,不能剔除。此時(shí)可能只有嶺回歸最為適合了。嶺回歸是當(dāng)前解決共線性問(wèn)題最有效的解釋辦法。

大數(shù)據(jù)多重共線性問(wèn)題該如何解決

使用路徑:進(jìn)階方法>嶺回歸

其他說(shuō)明

1. 多重共線性是普遍存在的,輕微的多重共線性問(wèn)題可不采取措施,如果VIF值大于10說(shuō)明共線性很?chē)?yán)重,這種情況需要處理,如果VIF值在5以下不需要處理,如果VIF介于5~10之間視情況而定。

2. 如果模型僅用于預(yù)測(cè),則只要擬合程度好,可不處理多重共線性問(wèn)題,存在多重共線性的模型用于預(yù)測(cè)時(shí),往往不影響預(yù)測(cè)結(jié)果。

以上就是大數(shù)據(jù)多重共線性問(wèn)題該如何解決,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI