<mark id="zwlgz"></mark>

<noscript id="zwlgz"><tbody id="zwlgz"></tbody></noscript>

<pre id="zwlgz"><track id="zwlgz"></track></pre>

<source id="zwlgz"><optgroup id="zwlgz"></optgroup></source>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用

發(fā)布時(shí)間：2022-05-27 15:32:03 來源：億速云閱讀：3005 作者：iii 欄目：大數(shù)據(jù)

這篇“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”文章的知識(shí)點(diǎn)大部分人都不太理解，所以小編給大家總結(jié)了以下內(nèi)容，內(nèi)容詳細(xì)，步驟清晰，具有一定的借鑒價(jià)值，希望大家閱讀完這篇文章能有所收獲，下面我們一起來看看這篇“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”文章吧。

Q:

什么是數(shù)據(jù)標(biāo)準(zhǔn)化？

A:

在微生物組學(xué)數(shù)據(jù)分析之前，我們常常需要根據(jù)數(shù)據(jù)量綱的不同以及分析方法的需要對(duì)數(shù)據(jù)進(jìn)行各種預(yù)處理，也即數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化的目的是使數(shù)據(jù)的總體符合某種要求，例如使數(shù)據(jù)總體符合正態(tài)分布以方便參數(shù)檢驗(yàn)、使數(shù)據(jù)范圍相同以方便比較分析、使數(shù)據(jù)分布均勻以方便作圖展示等。我們必須知道不同標(biāo)準(zhǔn)化方法的內(nèi)涵，從而在實(shí)際研究中可以選擇正確的數(shù)據(jù)標(biāo)準(zhǔn)化方法。

首先我們介紹一下數(shù)據(jù)轉(zhuǎn)換。簡(jiǎn)單數(shù)據(jù)轉(zhuǎn)換也即對(duì)整體數(shù)據(jù)進(jìn)行簡(jiǎn)單運(yùn)算，數(shù)據(jù)轉(zhuǎn)換的目的主要有三個(gè)，一是改變數(shù)據(jù)結(jié)構(gòu)，例如非線性通過平方根、對(duì)數(shù)轉(zhuǎn)換為線性；二是改變數(shù)據(jù)范圍，便于比較和作圖分析，例如數(shù)據(jù)變化特別大的可以進(jìn)行對(duì)數(shù)轉(zhuǎn)換來縮小屬性范圍；三是改變數(shù)據(jù)分布，使得樣本偏離標(biāo)準(zhǔn)分布太遠(yuǎn)的更加接近標(biāo)準(zhǔn)分布（例如正態(tài)分布）。常見的數(shù)據(jù)轉(zhuǎn)換有以下幾種：

對(duì)數(shù)轉(zhuǎn)換：將數(shù)據(jù)（樣本觀察值）取自然對(duì)數(shù)（或者其他數(shù)為底的對(duì)數(shù)），可以使用log()函數(shù)來實(shí)現(xiàn)（log1p()可以將數(shù)據(jù)加1后取自然對(duì)數(shù)）。若是數(shù)據(jù)中有0或負(fù)值，可以全部數(shù)據(jù)加上一個(gè)數(shù)轉(zhuǎn)換為正數(shù)。一般來說自然對(duì)數(shù)轉(zhuǎn)換可以使0~1范圍內(nèi)的數(shù)據(jù)范圍變大，可以使>1范圍內(nèi)數(shù)據(jù)范圍變緊湊。

平方根轉(zhuǎn)換：將數(shù)據(jù)全部取平方根，可以使用sqrt(x)或者x^0.5來實(shí)現(xiàn)。類似的還有立方根轉(zhuǎn)換、四次方根轉(zhuǎn)換，偶數(shù)次方根要求數(shù)據(jù)非負(fù)。如果數(shù)據(jù)結(jié)構(gòu)為二次關(guān)系，平方根轉(zhuǎn)換后平方根轉(zhuǎn)換可以使數(shù)據(jù)范圍變小。

倒數(shù)轉(zhuǎn)換 ：將數(shù)據(jù)全部取倒數(shù)，也即 1/x ，倒數(shù)轉(zhuǎn)換使 0~1 范圍內(nèi)的數(shù)據(jù)范圍變大，使 >1 范圍內(nèi)數(shù)據(jù)范圍變緊湊，而且轉(zhuǎn)換后數(shù)據(jù)為倒序。

數(shù)據(jù)轉(zhuǎn)換僅僅是對(duì)數(shù)據(jù)中每個(gè)觀察值的獨(dú)立處理，而標(biāo)準(zhǔn)化則涉及到數(shù)值之間的處理。下面我們以生態(tài)學(xué)常用的 vegan 包中的 decostand() 函數(shù)為例，分析不同標(biāo)準(zhǔn)化方法的差別，此函數(shù)使用方法如下：

decostand(x, method, MARGIN, range.global, logbase = 2, na.rm=FALSE, ...)

其中x為向量或矩陣，method為標(biāo)準(zhǔn)化方法，MARGIN=1按行處理，MARGIN=2按列處理，不同標(biāo)準(zhǔn)化方法介紹如下：

①method="pa"，將數(shù)據(jù)轉(zhuǎn)換為有-無（1-0）類型，若分析不加權(quán)的情況群結(jié)構(gòu)下可以使用；

②method="max"，最大值標(biāo)準(zhǔn)化，將數(shù)據(jù)除以該行或者列的最大值(defaultMARGIN=2)。若數(shù)據(jù)非負(fù)，最大值標(biāo)準(zhǔn)化后數(shù)據(jù)全部位于0到1之間。

③method="total"，總和標(biāo)準(zhǔn)化，將數(shù)據(jù)除以該行或者列的總和，也即求相對(duì)豐度(default MARGIN=1)，總和標(biāo)準(zhǔn)化后數(shù)據(jù)全部位于0到1之間。

④method="range"，Min-max標(biāo)準(zhǔn)化，將數(shù)據(jù)減去該行或者列的最小值，并比上最大值與最小值之差(defaultMARGIN=2)，Min-max標(biāo)準(zhǔn)化后的數(shù)據(jù)全部位于0到1之間。

⑤method="normalize"，模標(biāo)準(zhǔn)化，將數(shù)據(jù)除以每行或者每列的平方和的平方根(default MARGIN=1)，模標(biāo)準(zhǔn)化后每行、列的平方和為1（向量的模為1），也即在笛卡爾坐標(biāo)系中到原點(diǎn)的歐氏距離為1，樣品分布在一個(gè)圓弧上，彼此之間的距離為弦長(zhǎng)，因此也稱為弦轉(zhuǎn)化。在基于歐氏距離的PCA、RDA中分析群落數(shù)據(jù)可以將每個(gè)樣方弦轉(zhuǎn)化可以彌補(bǔ)歐氏距離的缺陷。弦轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到弦距離矩陣。

⑥method="hellinger"，hellinger轉(zhuǎn)化，就是總和標(biāo)準(zhǔn)化數(shù)據(jù)的平方根(default MARGIN=1)，hellinger轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到hellinger距離矩陣。

⑦method="chi.square"，卡方轉(zhuǎn)化，在默認(rèn)(defaultMARGIN=1)的情況下是數(shù)據(jù)除以行的和再除以列的和的平方根，卡方轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到卡方距離矩陣。

⑧Wisconsin轉(zhuǎn)化，這個(gè)是使用伴隨的函數(shù)wisconsin()，將數(shù)據(jù)除以該列最大值再除以該行總和，是最大值標(biāo)準(zhǔn)化和總和標(biāo)準(zhǔn)化的結(jié)合。

⑨ method="standardize" ， z-score 標(biāo)準(zhǔn)化，最常用的標(biāo)準(zhǔn)化方法之一，將數(shù)據(jù)減去均值比上標(biāo)準(zhǔn)差 (default MARGIN=2) ， z-score 標(biāo)準(zhǔn)化后數(shù)據(jù)均值為 0 ，方差為 1 ，服從正態(tài)總體的數(shù)據(jù)標(biāo)準(zhǔn)化后服從標(biāo)準(zhǔn)正態(tài)分布。 z-score 標(biāo)準(zhǔn)化可以去除不同環(huán)境因子量綱的影響。

一般情況下，上面方法中默認(rèn)MARGIN=1是默認(rèn)對(duì)樣品進(jìn)行處理，默認(rèn)MARGIN=2是默認(rèn)對(duì)物種或者環(huán)境變量進(jìn)行處理。

為了比較不同標(biāo)準(zhǔn)化方法對(duì)群落數(shù)據(jù)的影響，我們使用只有兩個(gè)物種的虛擬群落進(jìn)行處理，然后在笛卡爾坐標(biāo)系進(jìn)行展示（彼此之間是歐氏距離）：

#假設(shè)虛擬數(shù)據(jù)：2個(gè)物種在5個(gè)樣方的分布spe1=c(0.1,0.2,0.3,0.4,0.5)spe2=c(0.6,0.7,0.8,0.9,1)ab=cbind(spe1,spe2)rownames(ab)=LETTERS[1:5]#各種標(biāo)準(zhǔn)化ab1=decostand(ab, MARGIN=1, "total")ab2=decostand(ab, MARGIN=1, "normalize")ab3=decostand(ab, MARGIN=1, "hellinger")ab4=decostand(ab, MARGIN=1, "chi.square")ab5=wisconsin(ab)#作圖觀察不同標(biāo)準(zhǔn)化方法距離差異par(mfrow=c(2,3))plot(ab[,1], ab[,2], xlim=0:1, ylim=0:1, main="Raw data")text(ab[,1], ab[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab1[,1], ab1[,2], xlim=0:1, ylim=0:1, main="Total")text(ab1[,1], ab1[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab2[,1], ab2[,2], xlim=0:1, ylim=0:1, main="Normalize")text(ab2[,1], ab2[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab3[,1], ab3[,2], xlim=0:1, ylim=0:1, main="Hellinger")text(ab3[,1], ab3[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab4[,1], ab4[,2], xlim=0:1, ylim=0:1, main="Chi.square")text(ab4[,1], ab4[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab5[,1], ab5[,2], xlim=0:1, ylim=0:1, main="Wisconsin")text(ab5[,1], ab5[,2]-0.05, labels=rownames(ab), cex=1.2)

結(jié)果如下所示：

R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用

在沒有處理的情況下，群落之間的歐氏距離相等，然而在生態(tài)學(xué)方面我們不這么看，因?yàn)锽中物種1的數(shù)量是A的兩倍，其群落差異顯然比D、E更大，五種處理方法標(biāo)準(zhǔn)化數(shù)據(jù)后的結(jié)果都比較好的證實(shí)了上面的猜想，尤其是最后兩種。然而在微生物生態(tài)中，我們傾向于認(rèn)為微生物群落是一個(gè)整體，不同樣品之間物種的相對(duì)豐度是有可比較的實(shí)際意義的，因此最常用的就是總和標(biāo)準(zhǔn)化（當(dāng)然在不涉及豐度比較的聚類和排序分析中各種標(biāo)準(zhǔn)化方法都可以嘗試，在傳統(tǒng)群落研究里，雖然經(jīng)常使用中心化等方法，但是需要使用蓋度等對(duì)不同物種進(jìn)行加權(quán)，因此直接進(jìn)行總和標(biāo)準(zhǔn)化從某種意義上是使用相對(duì)豐度進(jìn)行加權(quán)）。

對(duì)于物理、化學(xué)變量而言，則完全不同，因?yàn)榄h(huán)境變量的值具有絕對(duì)性，例如溫度 1-2 ℃和 21-22 ℃其差異是一樣的。環(huán)境變量由于量綱不同，在計(jì)算距離矩陣（歐氏距離）、根據(jù)特征根提取的主成分分析、比較系數(shù)的回歸分析之前，均需要進(jìn)行 z-score標(biāo)準(zhǔn)化。

以上就是關(guān)于“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”這篇文章的內(nèi)容，相信大家都有了一定的了解，希望小編分享的內(nèi)容對(duì)大家有幫助，若想了解更多相關(guān)的知識(shí)內(nèi)容，請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
python的A*算法怎么使用
下一篇新聞：
R語言層次聚類與聚類樹怎么使用

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<s id="ujyjo"><tbody id="ujyjo"></tbody></s>

<noscript id="ujyjo"></noscript>