溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用

發(fā)布時(shí)間:2022-05-27 15:32:03 來源:億速云 閱讀:3005 作者:iii 欄目:大數(shù)據(jù)

這篇“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”文章的知識(shí)點(diǎn)大部分人都不太理解,所以小編給大家總結(jié)了以下內(nèi)容,內(nèi)容詳細(xì),步驟清晰,具有一定的借鑒價(jià)值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”文章吧。

Q:

什么是數(shù)據(jù)標(biāo)準(zhǔn)化?

A:

在微生物組學(xué)數(shù)據(jù)分析之前,我們常常需要根據(jù)數(shù)據(jù)量綱的不同以及分析方法的需要對(duì)數(shù)據(jù)進(jìn)行各種預(yù)處理,也即數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化的目的是使數(shù)據(jù)的總體符合某種要求,例如使數(shù)據(jù)總體符合正態(tài)分布以方便參數(shù)檢驗(yàn)、使數(shù)據(jù)范圍相同以方便比較分析、使數(shù)據(jù)分布均勻以方便作圖展示等。我們必須知道不同標(biāo)準(zhǔn)化方法的內(nèi)涵,從而在實(shí)際研究中可以選擇正確的數(shù)據(jù)標(biāo)準(zhǔn)化方法。

首先我們介紹一下數(shù)據(jù)轉(zhuǎn)換。簡(jiǎn)單數(shù)據(jù)轉(zhuǎn)換也即對(duì)整體數(shù)據(jù)進(jìn)行簡(jiǎn)單運(yùn)算,數(shù)據(jù)轉(zhuǎn)換的目的主要有三個(gè),一是改變數(shù)據(jù)結(jié)構(gòu),例如非線性通過平方根、對(duì)數(shù)轉(zhuǎn)換為線性;二是改變數(shù)據(jù)范圍,便于比較和作圖分析,例如數(shù)據(jù)變化特別大的可以進(jìn)行對(duì)數(shù)轉(zhuǎn)換來縮小屬性范圍;三是改變數(shù)據(jù)分布,使得樣本偏離標(biāo)準(zhǔn)分布太遠(yuǎn)的更加接近標(biāo)準(zhǔn)分布(例如正態(tài)分布)。常見的數(shù)據(jù)轉(zhuǎn)換有以下幾種:

對(duì)數(shù)轉(zhuǎn)換:將數(shù)據(jù)(樣本觀察值)取自然對(duì)數(shù)(或者其他數(shù)為底的對(duì)數(shù)),可以使用log()函數(shù)來實(shí)現(xiàn)(log1p()可以將數(shù)據(jù)加1后取自然對(duì)數(shù))。若是數(shù)據(jù)中有0或負(fù)值,可以全部數(shù)據(jù)加上一個(gè)數(shù)轉(zhuǎn)換為正數(shù)。一般來說自然對(duì)數(shù)轉(zhuǎn)換可以使0~1范圍內(nèi)的數(shù)據(jù)范圍變大,可以使>1范圍內(nèi)數(shù)據(jù)范圍變緊湊。

平方根轉(zhuǎn)換:將數(shù)據(jù)全部取平方根,可以使用sqrt(x)或者x^0.5來實(shí)現(xiàn)。類似的還有立方根轉(zhuǎn)換、四次方根轉(zhuǎn)換,偶數(shù)次方根要求數(shù)據(jù)非負(fù)。如果數(shù)據(jù)結(jié)構(gòu)為二次關(guān)系,平方根轉(zhuǎn)換后平方根轉(zhuǎn)換可以使數(shù)據(jù)范圍變小。

倒數(shù)轉(zhuǎn)換  :將數(shù)據(jù)全部取倒數(shù),也即  1/x  ,倒數(shù)轉(zhuǎn)換使  0~1  范圍內(nèi)的數(shù)據(jù)范圍變大,使  >1  范圍內(nèi)數(shù)據(jù)范圍變緊湊,而且轉(zhuǎn)換后數(shù)據(jù)為倒序。
 
數(shù)據(jù)轉(zhuǎn)換僅僅是對(duì)數(shù)據(jù)中每個(gè)觀察值的獨(dú)立處理,而標(biāo)準(zhǔn)化則涉及到數(shù)值之間的處理。下面我們以生態(tài)學(xué)常用的  vegan  包中的  decostand()  函數(shù)為例,分析不同標(biāo)準(zhǔn)化方法的差別,此函數(shù)使用方法如下:
decostand(x, method, MARGIN, range.global, logbase = 2, na.rm=FALSE, ...)

其中x為向量或矩陣,method為標(biāo)準(zhǔn)化方法,MARGIN=1按行處理,MARGIN=2按列處理,不同標(biāo)準(zhǔn)化方法介紹如下:

①method="pa",將數(shù)據(jù)轉(zhuǎn)換為有-無(1-0)類型,若分析不加權(quán)的情況群結(jié)構(gòu)下可以使用;

②method="max",最大值標(biāo)準(zhǔn)化,將數(shù)據(jù)除以該行或者列的最大值(defaultMARGIN=2)。若數(shù)據(jù)非負(fù),最大值標(biāo)準(zhǔn)化后數(shù)據(jù)全部位于0到1之間。

③method="total",總和標(biāo)準(zhǔn)化,將數(shù)據(jù)除以該行或者列的總和,也即求相對(duì)豐度(default MARGIN=1),總和標(biāo)準(zhǔn)化后數(shù)據(jù)全部位于0到1之間。

④method="range",Min-max標(biāo)準(zhǔn)化,將數(shù)據(jù)減去該行或者列的最小值,并比上最大值與最小值之差(defaultMARGIN=2),Min-max標(biāo)準(zhǔn)化后的數(shù)據(jù)全部位于0到1之間。

⑤method="normalize",模標(biāo)準(zhǔn)化,將數(shù)據(jù)除以每行或者每列的平方和的平方根(default MARGIN=1),模標(biāo)準(zhǔn)化后每行、列的平方和為1(向量的模為1),也即在笛卡爾坐標(biāo)系中到原點(diǎn)的歐氏距離為1,樣品分布在一個(gè)圓弧上,彼此之間的距離為弦長(zhǎng),因此也稱為弦轉(zhuǎn)化。在基于歐氏距離的PCARDA中分析群落數(shù)據(jù)可以將每個(gè)樣方弦轉(zhuǎn)化可以彌補(bǔ)歐氏距離的缺陷。弦轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到弦距離矩陣。

⑥method="hellinger",hellinger轉(zhuǎn)化,就是總和標(biāo)準(zhǔn)化數(shù)據(jù)的平方根(default MARGIN=1),hellinger轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到hellinger距離矩陣。

⑦method="chi.square",卡方轉(zhuǎn)化,在默認(rèn)(defaultMARGIN=1)的情況下是數(shù)據(jù)除以行的和再除以列的和的平方根,卡方轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到卡方距離矩陣

⑧Wisconsin轉(zhuǎn)化,這個(gè)是使用伴隨的函數(shù)wisconsin(),將數(shù)據(jù)除以該列最大值再除以該行總和,是最大值標(biāo)準(zhǔn)化和總和標(biāo)準(zhǔn)化的結(jié)合。

⑨  method="standardize"  ,  z-score  標(biāo)準(zhǔn)化  ,  最常用的標(biāo)準(zhǔn)化方法之一,將數(shù)據(jù)減去均值比上標(biāo)準(zhǔn)差  (default MARGIN=2)  ,  z-score  標(biāo)準(zhǔn)化后數(shù)據(jù)均值為  0  ,方差為  1  ,服從正態(tài)總體的數(shù)據(jù)標(biāo)準(zhǔn)化后服從標(biāo)準(zhǔn)正態(tài)分布。  z-score  標(biāo)準(zhǔn)化  可以去除不同環(huán)境因子量綱的影響。

一般情況下,上面方法中默認(rèn)MARGIN=1是默認(rèn)對(duì)樣品進(jìn)行處理,默認(rèn)MARGIN=2是默認(rèn)對(duì)物種或者環(huán)境變量進(jìn)行處理。

為了比較不同標(biāo)準(zhǔn)化方法對(duì)群落數(shù)據(jù)的影響,我們使用只有兩個(gè)物種的虛擬群落進(jìn)行處理,然后在笛卡爾坐標(biāo)系進(jìn)行展示(彼此之間是歐氏距離):
#假設(shè)虛擬數(shù)據(jù):2個(gè)物種在5個(gè)樣方的分布spe1=c(0.1,0.2,0.3,0.4,0.5)spe2=c(0.6,0.7,0.8,0.9,1)ab=cbind(spe1,spe2)rownames(ab)=LETTERS[1:5]#各種標(biāo)準(zhǔn)化ab1=decostand(ab, MARGIN=1, "total")ab2=decostand(ab, MARGIN=1, "normalize")ab3=decostand(ab, MARGIN=1, "hellinger")ab4=decostand(ab, MARGIN=1, "chi.square")ab5=wisconsin(ab)#作圖觀察不同標(biāo)準(zhǔn)化方法距離差異par(mfrow=c(2,3))plot(ab[,1], ab[,2], xlim=0:1, ylim=0:1, main="Raw data")text(ab[,1], ab[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab1[,1], ab1[,2], xlim=0:1, ylim=0:1, main="Total")text(ab1[,1], ab1[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab2[,1], ab2[,2], xlim=0:1, ylim=0:1, main="Normalize")text(ab2[,1], ab2[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab3[,1], ab3[,2], xlim=0:1, ylim=0:1, main="Hellinger")text(ab3[,1], ab3[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab4[,1], ab4[,2], xlim=0:1, ylim=0:1, main="Chi.square")text(ab4[,1], ab4[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab5[,1], ab5[,2], xlim=0:1, ylim=0:1, main="Wisconsin")text(ab5[,1], ab5[,2]-0.05, labels=rownames(ab), cex=1.2)

結(jié)果如下所示:

R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用

在沒有處理的情況下,群落之間的歐氏距離相等,然而在生態(tài)學(xué)方面我們不這么看,因?yàn)锽中物種1的數(shù)量是A的兩倍,其群落差異顯然比D、E更大,五種處理方法標(biāo)準(zhǔn)化數(shù)據(jù)后的結(jié)果都比較好的證實(shí)了上面的猜想,尤其是最后兩種。然而在微生物生態(tài)中,我們傾向于認(rèn)為微生物群落是一個(gè)整體,不同樣品之間物種的相對(duì)豐度是有可比較的實(shí)際意義的,因此最常用的就是總和標(biāo)準(zhǔn)化(當(dāng)然在不涉及豐度比較的聚類和排序分析中各種標(biāo)準(zhǔn)化方法都可以嘗試,在傳統(tǒng)群落研究里,雖然經(jīng)常使用中心化等方法,但是需要使用蓋度等對(duì)不同物種進(jìn)行加權(quán),因此直接進(jìn)行總和標(biāo)準(zhǔn)化從某種意義上是使用相對(duì)豐度進(jìn)行加權(quán))。

對(duì)于物理、化學(xué)變量而言,則完全不同,因?yàn)榄h(huán)境變量的值具有絕對(duì)性,例如溫度  1-2  ℃和  21-22  ℃其差異是一樣的。環(huán)境變量由于量綱不同,在計(jì)算距離矩陣(歐氏距離)、根據(jù)特征根提取的主成分分析、比較系數(shù)的回歸分析之前,均需要進(jìn)行  z-score標(biāo)準(zhǔn)化。

以上就是關(guān)于“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對(duì)大家有幫助,若想了解更多相關(guān)的知識(shí)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI