溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

R語(yǔ)言進(jìn)化樹(shù)構(gòu)建方法及原理是什么

發(fā)布時(shí)間:2022-03-21 10:44:26 來(lái)源:億速云 閱讀:680 作者:iii 欄目:開(kāi)發(fā)技術(shù)

本文小編為大家詳細(xì)介紹“R語(yǔ)言進(jìn)化樹(shù)構(gòu)建方法及原理是什么”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“R語(yǔ)言進(jìn)化樹(shù)構(gòu)建方法及原理是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。

進(jìn)化樹(shù)構(gòu)建方法及原理

進(jìn)化樹(shù)的構(gòu)建

(1)數(shù)據(jù)準(zhǔn)備
在進(jìn)行系統(tǒng)發(fā)育分析時(shí)需要通過(guò)構(gòu)建系統(tǒng)發(fā)育樹(shù)來(lái)描述不同物種或者基因之間的進(jìn)化關(guān)系,通過(guò)同源DNA的核苷酸序列或者同源蛋白質(zhì)分子的氨基酸序列可以實(shí)現(xiàn)構(gòu)建進(jìn)化樹(shù)的構(gòu)建。
(3)序列比對(duì)
為了保證序列的同源性和所得系統(tǒng)發(fā)育關(guān)系的可靠性,需要對(duì)原始序列進(jìn)行比對(duì)和校正。自動(dòng)比對(duì)序列的軟件包括Clustalw 、MAFFT、MUSCLE等。
(4)保守區(qū)用于構(gòu)建進(jìn)化樹(shù)
保守區(qū)選擇是系統(tǒng)發(fā)育分析過(guò)程中一個(gè)重要的步驟。分析時(shí)可以選擇保守位點(diǎn),也可以選擇基因全長(zhǎng)序列,但是當(dāng)序列差異大時(shí),建議保留保守序列用于進(jìn)化樹(shù)構(gòu)建。常用的保留序列保守區(qū)的軟件有Gblock、MEME等。

進(jìn)化樹(shù)構(gòu)建方法的選擇

ML,Maximum likelihood最大似然法
NJ,Neighbor-Joining鄰接法
MP,Maximum parsimony最大簡(jiǎn)約法
ME,Minimum Evolution最小進(jìn)化法
Bayesian貝葉斯推斷
UPGMA不常用

第一種:UPGMA法(非加權(quán)配對(duì)算術(shù)平均法)

前提條件:在進(jìn)化過(guò)程中,每一代發(fā)生趨異的次數(shù)相同,即堿基或氨基酸的替換速率是均等且恒等的。

UPGMA法計(jì)算原理和過(guò)程:

①以已求得的距離系數(shù),所有比較的分類(lèi)單元的成對(duì)距離構(gòu)成一個(gè)t×t方陣,即建立一個(gè)距離矩陣M。

②對(duì)于一個(gè)給定的距離矩陣,尋求最小距離值Dpq。

③定義類(lèi)群p和q之間的分支深度Lpq=Dpq/2。

④若p和q是最后一個(gè)類(lèi)群,側(cè)聚類(lèi)過(guò)程完成,否側(cè)合并p和q成一個(gè)新類(lèi)群r。

⑤定義并計(jì)算新類(lèi)群r到其他各類(lèi)群i(i≠p和q)的距離Dir=(Dpi+Dqi)/2。

⑥回到第一步,在矩陣中消除p和q,加入新類(lèi)群r,矩陣減少一階,重復(fù)進(jìn)行直至達(dá)到最后歸群。

UPGMA法比較直觀和簡(jiǎn)單,運(yùn)算速度快,應(yīng)用很廣。它的缺點(diǎn)在于當(dāng)分子進(jìn)化速率較大時(shí),在建樹(shù)過(guò)程會(huì)引入系統(tǒng)誤差。

第二種:鄰接法NJ法(neighbor joining method)

是一種推論疊加樹(shù)的方法。在概念上與UPGMA法相同,但是有四點(diǎn)區(qū)別

a. NJ法不要求距離符合超度量特性,但要求數(shù)據(jù)應(yīng)非常接近或符合疊加性條件,即該方法要求對(duì)距離進(jìn)行校正。

b. 鄰接法在成聚過(guò)程中連接的是分類(lèi)單元之間的節(jié)點(diǎn)(node),而不是分類(lèi)單元本身。

c. NJ法中原始距離數(shù)據(jù)用于估算系統(tǒng)樹(shù)上所有端結(jié)分類(lèi)單元之間的距離矩陣,校正后的距離用于確定節(jié)點(diǎn)之間的連接順序。

d. 在重建系統(tǒng)發(fā)育樹(shù)時(shí),NJ法取消了UPGMA法所做的假定,認(rèn)為在此進(jìn)化分支上,發(fā)生趨異的次數(shù)可以不同。

① 對(duì)于給定距離矩陣中的每一端結(jié)i,用下式計(jì)算與其它分類(lèi)單元之間的凈趨異量(Ri) (t:矩陣中的分類(lèi)單元數(shù))

② 建立一個(gè)速率校正距離矩陣M,其元素由下式確定:

③ 定義一個(gè)新節(jié)點(diǎn)u,u的三個(gè)分支分別與節(jié)點(diǎn)i,j和樹(shù)的其余部分相連,并且Dij為矩陣中距離最小者,u到節(jié)點(diǎn)i和j的分支長(zhǎng)度定義為

④ 定義u到樹(shù)的其它節(jié)點(diǎn)k(k≠i和j外的所有節(jié)點(diǎn))的距離:

⑤ 從距離矩陣中刪除i和j的距離,矩陣減少一階。

⑥ 如果矩陣仍然多于兩個(gè)的節(jié)點(diǎn),重復(fù)第①-⑤步,否測(cè)除最外兩個(gè)節(jié)點(diǎn)的分支長(zhǎng)度來(lái)確定外,樹(shù)上其余節(jié)點(diǎn)都確定,最后是剩余的2個(gè)的分支長(zhǎng)度Sy=Dij

第三種:最大簡(jiǎn)約法(Maximum Parsimony Method)

依據(jù) 基于奧卡姆(Ockham)哲學(xué)原則,這個(gè)原則認(rèn)為:解釋一個(gè)過(guò)程的最好理論是所需假設(shè)數(shù)目最少的那一個(gè)。

方法 計(jì)算所有可能的拓?fù)浣Y(jié)構(gòu) ,計(jì)算出所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹(shù)。

特點(diǎn) 用于分析如插入、缺失等序列。在分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候,最大簡(jiǎn)約法可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹(shù)推導(dǎo)結(jié)果。

第四種:最大似然法

依據(jù):這個(gè)方法最早是遺傳學(xué)家以及統(tǒng)計(jì)學(xué)家羅納德·費(fèi)雪爵士在 1912 年至1922 年間開(kāi)始使用的 ?;舅枷胧牵寒?dāng)從模型總體隨機(jī)抽取n組樣本觀測(cè)值后,最合理的參數(shù)估計(jì)量應(yīng)該使得從模型中抽取該n組樣本觀測(cè)值的概率最大,而不是像最小二乘估計(jì)法旨在得到使得模型能最好地?cái)M合樣本數(shù)據(jù)的參數(shù)估計(jì)量。

方法:選取一個(gè)特定的替代模型來(lái)分析給定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹(shù)(所以分析時(shí)間比較長(zhǎng))

特點(diǎn):最大似然法具有很好的統(tǒng)計(jì)學(xué)理論基礎(chǔ),是一個(gè)比較成熟的統(tǒng)計(jì)學(xué)方法。選擇合理的模型后,最大似然法可以推導(dǎo)出一個(gè)效果很好的進(jìn)化樹(shù)結(jié)果。但是對(duì)于相似度很低的序列,NJ往往出現(xiàn)Long-branch attraction(LBA,長(zhǎng)枝吸引現(xiàn)象),有時(shí)嚴(yán)重干擾進(jìn)化樹(shù)的構(gòu)建。

讀到這里,這篇“R語(yǔ)言進(jìn)化樹(shù)構(gòu)建方法及原理是什么”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI