您好,登錄后才能下訂單哦!
大數(shù)據(jù)負(fù)二項(xiàng)分布在差異分析中的應(yīng)用是怎樣的,針對這個問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
為什么要要基于負(fù)二項(xiàng)分布呢?
從統(tǒng)計(jì)學(xué)的角度出發(fā),進(jìn)行差異分析肯定會需要假設(shè)檢驗(yàn),通常對于分布已知的數(shù)據(jù),運(yùn)用參數(shù)檢驗(yàn)結(jié)果的假陽性率會更低。轉(zhuǎn)錄組數(shù)據(jù)中,raw count值符合什么樣的分布呢?
count值本質(zhì)是reads的數(shù)目,是一個非零整數(shù),而且是離散的,其分布肯定也是離散型分布。對于轉(zhuǎn)錄組數(shù)據(jù),學(xué)術(shù)界常用的分布包括泊松分布和負(fù)二項(xiàng)分布兩種。
在數(shù)據(jù)分析的早期,確實(shí)有學(xué)者采用泊松分布進(jìn)行差異分析,但是發(fā)展到現(xiàn)在,幾乎全部都是基于負(fù)二項(xiàng)分布了,究竟是什么因素導(dǎo)致了這種現(xiàn)象呢?為了解釋這個問題,我們必須提到一個概念overdispersion
。
dispersion
指的是離散程度,研究一個數(shù)據(jù)分布的離散程度,我們常用方差這個指標(biāo)。對于泊松分布而言,其均值和方差是相等的,但是我們的數(shù)據(jù)確不符合這樣的規(guī)律。通過計(jì)算所有基因的均值和方差,可以繪制如下的圖片
橫坐標(biāo)為基因在所有樣本中的均值,縱坐標(biāo)為基因在所有樣本中的方差,直線的斜率為1,代表泊松分布的均值和方差的分布??梢钥吹剑鎸?shí)數(shù)據(jù)的分布是偏離了泊松分布的,方差明顯比均值要大。
上述圖片對應(yīng)的代碼如下
mean <- log10(apply(x, 1, mean)) var <- log10(apply(x, 1, var)) plot(x = mean, y = var, pch = 20) abline(a = 0, b=1)
如果假定總體分布為泊松分布, 根據(jù)我們的定量數(shù)據(jù)是無法估計(jì)出一個合理的參數(shù),能夠符合上圖中所示分布的,這樣的現(xiàn)象就稱之為overdispersion
。
正是由于真實(shí)數(shù)據(jù)與泊松分布之間的overdispersion
, 才會選擇負(fù)二項(xiàng)分布作為總體的分布。
關(guān)于大數(shù)據(jù)負(fù)二項(xiàng)分布在差異分析中的應(yīng)用是怎樣的問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。