溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Logistic回歸樣本量計(jì)算方法有哪些

發(fā)布時(shí)間:2021-12-28 13:51:36 來(lái)源:億速云 閱讀:1735 作者:柒染 欄目:大數(shù)據(jù)

Logistic回歸樣本量計(jì)算方法有哪些,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

Logistic 回歸是一種廣泛使用的統(tǒng)計(jì)模型。在實(shí)際應(yīng)用中,有很多研究者往往忽視 Logistic 回歸對(duì)樣本量的要求,或者憑“納入的研究對(duì)象人數(shù)充分”草草帶過(guò)樣本量問(wèn)題,這些做法使主要影響因素與結(jié)局間關(guān)系的探索未能結(jié)合研究設(shè)計(jì)階段對(duì)兩類錯(cuò)誤的設(shè)定。下面介紹三種 Logistic 回歸樣本量計(jì)算方法,并輔以實(shí)例說(shuō)明,幫助研究者合理完成研究的設(shè)計(jì)與實(shí)施。

Logistic 回歸(logistic regression)模型被廣泛應(yīng)用于各學(xué)科領(lǐng)域,如醫(yī)學(xué)、社會(huì)科學(xué)、機(jī)器學(xué)習(xí)等,主要適用于因變量是分類變量的情況,尤其當(dāng)因變量屬于 0?1 變量。該模型采用的參數(shù)估計(jì)方法是 極 大 似 然 估 計(jì)(maximum likelihood estimate,MLE),這就需要足夠的樣本量來(lái)保證參數(shù)估計(jì)的準(zhǔn)確性,而樣本量的估計(jì)又是常常困擾研究者的一個(gè)問(wèn)題,以下將匯總二分類 Logistic 回歸分析中幾種常用的樣本量確定方法。

經(jīng)驗(yàn)方法

目 前 廣 泛 使 用 的 方 法 是 EPV(events pervariable)的方法,即   每個(gè)自變量的事件數(shù),其中事件表示因變量中個(gè)數(shù)較少的那一類   。  
例如調(diào)查胃癌發(fā)病與 3 種生活因素(X1代表不良飲食習(xí)慣,X2 代表喜吃鹵食和鹽漬食物,X3 代表精神狀況)的關(guān)系,若胃癌患者占的比例為20%,那么當(dāng)假EPV=10 時(shí),由于有 3 個(gè)協(xié)變量,所以所需胃癌患者例數(shù)為10×3=30,總共需要的樣本量(胃癌患者和健康對(duì)照)為 30÷20%=150 例。   當(dāng) EPV過(guò)少時(shí),容易出現(xiàn)分離(separation)現(xiàn)象。   此現(xiàn)象出現(xiàn)在自變量若大于某個(gè)常數(shù),變量則僅與一個(gè)自變量相關(guān)聯(lián)。   例如當(dāng) X 為連續(xù)型變量時(shí),若X≤0 時(shí),有 Y 恒為 1,則出現(xiàn)完全分離(complete separation)現(xiàn)象,此時(shí)參數(shù)估計(jì)無(wú)法收斂,得不到回歸系數(shù)的估計(jì)值。   另一情形是,當(dāng)X<0,Y恒為1,但當(dāng)X=0時(shí)Y兼有觀察值0和1,這時(shí)會(huì)出現(xiàn)擬完全分離(quasi? complete separation)現(xiàn)象,此時(shí)極大似然估計(jì)值異常大。   統(tǒng)計(jì)學(xué)模擬研究表明,在 Logistic 回歸中推薦的經(jīng)驗(yàn)準(zhǔn)則是 EPV 至少為 10,才能保證結(jié)果穩(wěn)健。   另外一個(gè)比較常用的經(jīng)驗(yàn)準(zhǔn)則是樣本量為協(xié)變量個(gè)數(shù)的 10~15 倍。   具體應(yīng)用時(shí)可以綜合考慮兩種經(jīng)驗(yàn)準(zhǔn)則。      


公式法

Whittemore 1981    年提出了罕見事件 Logistic 回歸樣本量估算公式,隨后Hsieh 對(duì) Whittemore的公式進(jìn)行了擴(kuò)展,在1998年提出了一個(gè)便于一般應(yīng)用者實(shí)施的簡(jiǎn)單方法。建議借用樣本均值比較和樣本頻率比較的樣本含量計(jì)算公式來(lái)估算單因素Logistic回歸所需的樣本量,再用方差膨脹因子對(duì)其修正便得到多因素Logistic回歸所需的樣本量。單因素 Logistic 回歸中,當(dāng) X 為連續(xù)型變量并且服從正態(tài)分布時(shí),樣本量的計(jì)算公式為:      
 

Logistic回歸樣本量計(jì)算方法有哪些


式(1)中 p1為 X 取均值條件下 Y = 1 發(fā)生的頻率,b 為要度量的效應(yīng)大小,亦即 X 所對(duì)應(yīng)回歸系數(shù)的估計(jì)值。


Logistic回歸樣本量計(jì)算方法有哪些

式(2)中p為總的陽(yáng)性結(jié)局發(fā)生頻率,B為X=1的個(gè)體在總觀察人數(shù)中所占的比例(流行病學(xué)研究中對(duì)應(yīng)于暴露比例),p0和 p1分別為 X=0 和 X=1時(shí)的陽(yáng)性結(jié)局發(fā)生頻率。
多因素Logistic回歸樣本量計(jì)算公式為:


Logistic回歸樣本量計(jì)算方法有哪些


式(3)中的 R12,234…p 就是以最主要的暴露因素X1為因變量,X2,……,Xp為自變量做線性回歸得到的決定系數(shù) R2,n1為單因素 Logistic 回歸所需的樣本量。其實(shí),1/(1 - R12,234…p) 被統(tǒng)計(jì)學(xué)家定義為一個(gè)重要參數(shù) ——方差膨脹因子(variance inflationfactor,VIF),故多因素Logistic回歸的樣本量即為最主要的暴露因素所對(duì)應(yīng)單因素 Logistic 回歸所需的樣本量n1乘以該因素對(duì)應(yīng)的方差膨脹因子VIF。  

 
實(shí)例1 某課題組擬探索非甾體抗炎藥相關(guān)上消化道出血是否與吸煙之間存在關(guān)系,現(xiàn)計(jì)算研究所需樣本量。假設(shè)α=0.05(雙側(cè)),β=0.10(單側(cè))。
 
根據(jù)該課題組的回顧性分析,已知 B=0.48,p0 =0.43,p1=0.58,p=0.50,Z1?α/2 =1.96,Z1?β=1.28,代入公式(2)可得n≈464。  

 
實(shí)例 2 假設(shè)在實(shí)例 1 中除了吸煙因素外,還考慮飲酒、冠心病史、慢性胃炎史等可能影響上消化道出血的因素,在這里我們最關(guān)心的暴露因素為是否吸煙,并且已知吸煙與上述因素(自變量)之 間 的 R2 為 0.07,則 根 據(jù) 公 式(3)可 得 多 因 素Logistic回歸所需樣本量為n ≈499。 


軟件實(shí)現(xiàn)


通過(guò)商業(yè)軟件PASS11完成Logistic 回歸樣本量的估算   


Logistic回歸樣本量計(jì)算方法有哪些


【PASS】

Logistic回歸樣本量計(jì)算方法有哪些


Logistic回歸樣本量計(jì)算方法有哪些

EPV 通常被認(rèn)為是Logistic回歸模型中參數(shù)估計(jì)效果的主要決定因素,在估算樣本量時(shí)往往被格外重視。但是影響Logistic回歸模型中參數(shù)估計(jì)效果的因素有很多,比如因變量與自變量之間關(guān)系的強(qiáng)度、自變量之間的相關(guān)性(即共線性)等,van Smeden等認(rèn)為對(duì)每個(gè)自變量EPV取10作為二分類Logistic回歸樣本量,低估了合理的樣本量水平,建議通過(guò)Firth's校正予以改善。Vittinghoff等也認(rèn)為EPV 取10,會(huì)致所得樣本量偏低。小編建議在采用經(jīng)驗(yàn)法計(jì)算Logistic回歸樣本量時(shí),應(yīng)同時(shí)兼顧所有自變量不同暴露水平下結(jié)局為陽(yáng)性、陰性者的人數(shù)都足夠多。相較于經(jīng)驗(yàn)法,更提倡使用公式法來(lái)估算樣本量,并且建議使用影響面較大的權(quán)威軟件包。上面介紹的兩種軟件各有利弊,比如 R 免費(fèi),而PASS則可提供更為詳盡的輸出。     

關(guān)于Logistic回歸樣本量計(jì)算方法有哪些問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI