您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關(guān)COG數(shù)據(jù)庫有什么用的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
為了研究不同物種間保守的蛋白功能,進一步揭示其進化關(guān)系,1997年的時候科學(xué)家選取了七個完整基因組的蛋白序列,根據(jù)序列和功能相似性,將這些蛋白進行了分類。這個分類叫做cluster of orthologous group,簡稱COG。每個COG是一組同源蛋白的集合,具有相同的生物學(xué)功能。 官網(wǎng)如下
https://www.ncbi.nlm.nih.gov/COG/
構(gòu)建原始的COG使用的蛋白序列來自以下7個物種
E.coli
H.influenzae
M. genitalium
M. pneumoniae
Synechocystis sp.
M. jannaschii
S. cerevisiae
可以發(fā)現(xiàn),這些物種都是細菌。所以COG這個概念指的是細菌中的同源蛋白。
隨著測序技術(shù)的發(fā)展,越來越多的物種擁有了完整的基因組序列。2003年的時候,又根據(jù)66個細菌物種的蛋白序列,對之前的COG結(jié)果進行了補充和拓展。
同時將orthologous group 的概念推廣到了真核生物中,根據(jù)7個真核生物的蛋白序列構(gòu)建了真核生物中的同源蛋白簇, 全稱為eukaryotic orthologous groups, 簡稱KOG。
之后又陸續(xù)在不同類型的物種中建立起相關(guān)的同源蛋白簇。古菌中的同源蛋白簇簡稱為arCOG, 噬菌體中的同源蛋白簇簡稱為POG,感染真核生物的病毒中的同源蛋白簇簡稱為NCVOG,巨型病毒的同源蛋白簇簡稱為mimiCOG。
在官網(wǎng)上,提供了下載功能。這里以COG
為例進行說明。FTP地址如下
ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data
fun2003-2014.tab 保存了COG的分類信息,將所有的COG的功能分為了以下26個類別,每個類別用一個字母表示
# Code Name J Translation, ribosomal structure and biogenesis A RNA processing and modification K Transcription L Replication, recombination and repair B Chromatin structure and dynamics D Cell cycle control, cell division, chromosome partitioning Y Nuclear structure V Defense mechanisms T Signal transduction mechanisms M Cell wall/membrane/envelope biogenesis N Cell motility Z Cytoskeleton W Extracellular structures U Intracellular trafficking, secretion, and vesicular transport O Posttranslational modification, protein turnover, chaperones X Mobilome: prophages, transposons C Energy production and conversion G Carbohydrate transport and metabolism E Amino acid transport and metabolism F Nucleotide transport and metabolism H Coenzyme transport and metabolism I Lipid transport and metabolism P Inorganic ion transport and metabolism Q Secondary metabolites biosynthesis, transport and catabolism R General function prediction only S Function unknown
cognames2003-2014.tab 文件保存了COG的詳細信息,包括編號,對應(yīng)的分類,功能描述等信息。示例如下
# COG func name COG0001 H Glutamate-1-semialdehyde aminotransferase COG0002 E N-acetyl-gamma-glutamylphosphate reductase COG0003 P Anion-transporting ATPase, ArsA/GET3 family COG0004 P Ammonia channel protein AmtB
cog2003-2014.csv 文件保存了蛋白和COG的對應(yīng)關(guān)系,示例如下
333894695,Alteromonas_SN2_uid67349,333894695,427,1,427,COG0001,0,
第一列編號為蛋白質(zhì)的GI號。
prot2003-2014.fa.gz 保存了fasta格式的蛋白序列,示例如下
>gi|118430838|ref|NP_146899.2| putative mercury ion binding protein[Aeropyrum pernix K1] MIIFKRHSQAILFSHNKQEKALLGIEGMHCEGCAIAIETALKNVKGIIDTKVNYSRGSAI VTFDDTLVSINDILEHYIFKVPSNYRAKLVSFIS
通過比對COG數(shù)據(jù)庫,可以確定蛋白質(zhì)的功能。
感謝各位的閱讀!關(guān)于“COG數(shù)據(jù)庫有什么用”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。