溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

采用Logistic回歸分析時(shí)需注意的問題有哪些

發(fā)布時(shí)間:2021-12-28 13:44:45 來源:億速云 閱讀:500 作者:柒染 欄目:大數(shù)據(jù)

采用Logistic回歸分析時(shí)需注意的問題有哪些,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。

Logistic 回歸常用于分析二分類因變量(如存活和死亡、患病和未患病等)與多個(gè)自變量的關(guān)系 。比較常用的情形是分析危險(xiǎn)因素與是否發(fā)生某疾病相關(guān)聯(lián)。例如,若探討胃癌的危險(xiǎn)因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群有不同的臨床表現(xiàn)和生活方式等,因變量就為有或無胃癌,即“是”或“否”,為二分類變量,自變量包括年齡、性別、飲食習(xí)慣、是否幽門螺桿菌感染等。自變量既可以是連續(xù)變量,也可以為分類變量。通過 Logistic 回歸分析,就可以大致了解胃癌的危險(xiǎn)因素。

Logistic 回歸與多元線性回歸有很多相同之處,但最大的區(qū)別就在于他們的因變量不同。多元線性回歸的因變量為連續(xù)變量;Logistic 回歸的因變量為二分類變量或多分類變量,但二分類變量更常用,也更加容易解釋 [1]。盡管 Logistic 回歸在醫(yī)學(xué)研究領(lǐng)域中應(yīng)用廣泛,但在應(yīng)用中存在很多問題。本文將結(jié)合筆者自身的經(jīng)驗(yàn),對(duì)使用 Logistic 回歸常見的問題進(jìn)行討論。


Logistic 回歸的用法

一般而言,Logistic 回歸有兩大用途,首先是尋找危險(xiǎn)因素,如上文的例子,找出與胃癌相關(guān)的危險(xiǎn)因素;其次是用于預(yù)測(cè),我們可以根據(jù)建立的Logistic 回歸模型,預(yù)測(cè)在不同的自變量情況下,發(fā)生某病或某種情況的概率(包括風(fēng)險(xiǎn)評(píng)分的建立)。


用 Logistic 回歸估計(jì)危險(xiǎn)度

所謂相對(duì)危險(xiǎn)度(risk ratio,RR)是用來描述某一因素不同狀態(tài)發(fā)生疾?。ɑ蚱渌Y(jié)局)危險(xiǎn)程度的比值。Logistic 回歸給出的 OR(odds ratio)值與相對(duì)危險(xiǎn)度類似,常用來表示相對(duì)于某一人群,另一人群發(fā)生終點(diǎn)事件的風(fēng)險(xiǎn)超出或減少的程度。如不同性別的胃癌發(fā)生危險(xiǎn)不同,通過 Logistic 回歸可以求出危險(xiǎn)度的具體數(shù)值,例如 1.7,這樣就表示,男性發(fā)生胃癌的風(fēng)險(xiǎn)是女性的 1.7 倍。

這里要注意估計(jì)的方向問題,以女性作為參照,男性患胃癌的 OR 是1.7。如果以男性作為參照,算出的 OR 將會(huì)是 0.588(1/1.7),表示女性發(fā)生胃癌的風(fēng)險(xiǎn)是男性的 0.588 倍,或者說,是男性的 58.8%。撇開了參照組,相對(duì)危險(xiǎn)度就沒有意義了。

Logistic 回歸在醫(yī)學(xué)研究中廣泛使用的原因之一,就是模型直接給出具有臨床實(shí)際意義的 OR 值,很大程度上方便了結(jié)果的解讀與推廣。

樣本量問題

通?;貧w模型都需要建立在大樣本的基礎(chǔ)上。在進(jìn)行 Logistic 回歸前,應(yīng)該考慮當(dāng)前的樣本量是否充足?根據(jù)模擬研究,在使用 Logistic 回歸時(shí),事件(死亡或患病)個(gè)數(shù)至少應(yīng)該是自變量個(gè)數(shù)的 10 倍以上(這一條也適于 Logostic 其他的應(yīng)用情況)。例如,觀察胃癌的危險(xiǎn)因素,比如有性別、年齡和飲食習(xí)慣等 9 個(gè)研究因素,那就至少需要 90 例胃癌。

另一個(gè)比較常見的樣本量原則是,觀測(cè)的數(shù)量應(yīng)該至少是自變量數(shù)的 20~30 倍,同樣如果有 9 個(gè)自變量,那么總體樣本最好能夠達(dá)到 180 例以上。建議在進(jìn)行Logistic 回歸前,結(jié)合上述兩個(gè)原則,從總樣本和事件數(shù)兩個(gè)角度共同對(duì)模型樣本量進(jìn)行考慮。


Logistic 回歸中的自變量形式

Logistic 回歸的自變量既可以是連續(xù)變量,也可為分類變量??傮w原則是盡量從實(shí)際或?qū)I(yè)角度考慮采取何種形式更好。比如年齡,可以取為連續(xù)變量,也可以 5 歲、10 歲作為一組,甚至分為老年人和年輕人兩組。

不同的劃分方式?jīng)Q定了結(jié)果解讀時(shí)的差異,比如,在做出胃癌與年齡的關(guān)系,如果把年齡作為連續(xù)變量分析,得到危險(xiǎn)度為 1.008,其解釋為年齡每增加 1 歲,患胃癌的風(fēng)險(xiǎn)就會(huì)多出 0.008 倍,這個(gè)數(shù)據(jù)會(huì)顯得沒有太大的臨床意義。但如果以 10歲一組,可能得到的危險(xiǎn)度就是 1.6,即年齡每增長10 歲、患胃癌的風(fēng)險(xiǎn)就增加 60%,這樣幅度的相對(duì)風(fēng)險(xiǎn)更具有臨床實(shí)際意義。如何將連續(xù)變量進(jìn)行劃分并沒有固定的標(biāo)準(zhǔn),按照統(tǒng)計(jì)學(xué)的分位數(shù)或具有臨床意義的界值劃分都是常用的方法。建議在分析時(shí)先進(jìn)行趨勢(shì)的描述,觀察特定的自變量和因變量是何種關(guān)系,再結(jié)合臨床專業(yè)角度與統(tǒng)計(jì)學(xué)考慮,以獲得最合理的劃分方式。


Logistic 回歸時(shí)單因素分析

在進(jìn)行 Logistic 回歸分析時(shí),是否必須先進(jìn)行單因素分析,然后才能進(jìn)行多因素分析?

理論上講,如果樣本足夠大,且所有的因素之間沒有關(guān)聯(lián),最好把所有的因素都放到方程中,通過全模型法對(duì)所有可能的混雜因素同時(shí)進(jìn)行分析,在此基礎(chǔ)上進(jìn)一步通過逐步回歸的方法對(duì)有顯著意義的變量進(jìn)行篩選,此種情況下可以不做單因素分析。

如果樣本例數(shù)有限,比如,僅有 80 例患者,但是有 20 個(gè)因素,這種情況下,最好先進(jìn)行單因素分析,剔除既無統(tǒng)計(jì)學(xué)意義,又無臨床意義的變量,只分析有意義的變量。單因素分析時(shí)最好將 P 值放寬,比如 0.1 或 0.15等,避免漏掉一些重要因素(變量間的相互作用可能導(dǎo)致多因素的結(jié)果不同于單因素分析)。當(dāng)然,也要注意仔細(xì)檢查各因素間的關(guān)聯(lián)程度,對(duì)于高度相關(guān)的自變量一般不同時(shí)帶入模型,例如:收縮壓和舒張壓。一旦發(fā)現(xiàn)因素之間有較強(qiáng)的相關(guān)性,建議首先進(jìn)行篩選,選擇最具代表性的變量帶入模型。

看完上述內(nèi)容,你們掌握采用Logistic回歸分析時(shí)需注意的問題有哪些的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI