大數(shù)據(jù)負(fù)二項(xiàng)分布在差異分析中的應(yīng)用是怎樣的

發(fā)布時間：2021-11-23 15:42:39 來源：億速云閱讀：214 作者：柒染欄目：大數(shù)據(jù)

大數(shù)據(jù)負(fù)二項(xiàng)分布在差異分析中的應(yīng)用是怎樣的，針對這個問題，這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

為什么要要基于負(fù)二項(xiàng)分布呢？

從統(tǒng)計(jì)學(xué)的角度出發(fā)，進(jìn)行差異分析肯定會需要假設(shè)檢驗(yàn)，通常對于分布已知的數(shù)據(jù)，運(yùn)用參數(shù)檢驗(yàn)結(jié)果的假陽性率會更低。轉(zhuǎn)錄組數(shù)據(jù)中，raw count值符合什么樣的分布呢？

count值本質(zhì)是reads的數(shù)目，是一個非零整數(shù)，而且是離散的，其分布肯定也是離散型分布。對于轉(zhuǎn)錄組數(shù)據(jù)，學(xué)術(shù)界常用的分布包括泊松分布和負(fù)二項(xiàng)分布兩種。

在數(shù)據(jù)分析的早期，確實(shí)有學(xué)者采用泊松分布進(jìn)行差異分析，但是發(fā)展到現(xiàn)在，幾乎全部都是基于負(fù)二項(xiàng)分布了，究竟是什么因素導(dǎo)致了這種現(xiàn)象呢？為了解釋這個問題，我們必須提到一個概念overdispersion。

dispersion指的是離散程度，研究一個數(shù)據(jù)分布的離散程度，我們常用方差這個指標(biāo)。對于泊松分布而言，其均值和方差是相等的，但是我們的數(shù)據(jù)確不符合這樣的規(guī)律。通過計(jì)算所有基因的均值和方差，可以繪制如下的圖片

大數(shù)據(jù)負(fù)二項(xiàng)分布在差異分析中的應(yīng)用是怎樣的

橫坐標(biāo)為基因在所有樣本中的均值，縱坐標(biāo)為基因在所有樣本中的方差，直線的斜率為1，代表泊松分布的均值和方差的分布?？梢钥吹剑鎸?shí)數(shù)據(jù)的分布是偏離了泊松分布的，方差明顯比均值要大。

上述圖片對應(yīng)的代碼如下

mean <- log10(apply(x, 1, mean))
var <- log10(apply(x, 1, var))
plot(x = mean, y = var, pch = 20)
abline(a = 0, b=1)

如果假定總體分布為泊松分布，根據(jù)我們的定量數(shù)據(jù)是無法估計(jì)出一個合理的參數(shù)，能夠符合上圖中所示分布的，這樣的現(xiàn)象就稱之為overdispersion。

正是由于真實(shí)數(shù)據(jù)與泊松分布之間的overdispersion，才會選擇負(fù)二項(xiàng)分布作為總體的分布。

關(guān)于大數(shù)據(jù)負(fù)二項(xiàng)分布在差異分析中的應(yīng)用是怎樣的問題的解答就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。

向AI問一下細(xì)節(jié)

大數(shù)據(jù)負(fù)二項(xiàng)分布在差異分析中的應(yīng)用是怎樣的

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽