溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

COG數(shù)據(jù)庫有什么用

發(fā)布時間:2022-01-17 09:40:53 來源:億速云 閱讀:502 作者:小新 欄目:大數(shù)據(jù)

這篇文章給大家分享的是有關(guān)COG數(shù)據(jù)庫有什么用的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。

為了研究不同物種間保守的蛋白功能,進一步揭示其進化關(guān)系,1997年的時候科學(xué)家選取了七個完整基因組的蛋白序列,根據(jù)序列和功能相似性,將這些蛋白進行了分類。這個分類叫做cluster of orthologous group,簡稱COG。每個COG是一組同源蛋白的集合,具有相同的生物學(xué)功能。 官網(wǎng)如下

https://www.ncbi.nlm.nih.gov/COG/

構(gòu)建原始的COG使用的蛋白序列來自以下7個物種

  1. E.coli

  2. H.influenzae

  3. M. genitalium

  4. M. pneumoniae

  5. Synechocystis sp.

  6. M. jannaschii

  7. S. cerevisiae


可以發(fā)現(xiàn),這些物種都是細菌。所以COG這個概念指的是細菌中的同源蛋白。

隨著測序技術(shù)的發(fā)展,越來越多的物種擁有了完整的基因組序列。2003年的時候,又根據(jù)66個細菌物種的蛋白序列,對之前的COG結(jié)果進行了補充和拓展。

同時將orthologous group 的概念推廣到了真核生物中,根據(jù)7個真核生物的蛋白序列構(gòu)建了真核生物中的同源蛋白簇, 全稱為eukaryotic orthologous groups, 簡稱KOG。

之后又陸續(xù)在不同類型的物種中建立起相關(guān)的同源蛋白簇。古菌中的同源蛋白簇簡稱為arCOG, 噬菌體中的同源蛋白簇簡稱為POG,感染真核生物的病毒中的同源蛋白簇簡稱為NCVOG,巨型病毒的同源蛋白簇簡稱為mimiCOG。

在官網(wǎng)上,提供了下載功能。這里以COG為例進行說明。FTP地址如下

ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data

fun2003-2014.tab 保存了COG的分類信息,將所有的COG的功能分為了以下26個類別,每個類別用一個字母表示

# Code    Name
J    Translation, ribosomal structure and biogenesis
A    RNA processing and modification
K    Transcription
L    Replication, recombination and repair
B    Chromatin structure and dynamics
D    Cell cycle control, cell division, chromosome partitioning
Y    Nuclear structure
V    Defense mechanisms
T    Signal transduction mechanisms
M    Cell wall/membrane/envelope biogenesis
N    Cell motility
Z    Cytoskeleton
W    Extracellular structures
U    Intracellular trafficking, secretion, and vesicular transport
O    Posttranslational modification, protein turnover, chaperones
X    Mobilome: prophages, transposons
C    Energy production and conversion
G    Carbohydrate transport and metabolism
E    Amino acid transport and metabolism
F    Nucleotide transport and metabolism
H    Coenzyme transport and metabolism
I    Lipid transport and metabolism
P    Inorganic ion transport and metabolism
Q    Secondary metabolites biosynthesis, transport and catabolism
R    General function prediction only
S    Function unknown

cognames2003-2014.tab 文件保存了COG的詳細信息,包括編號,對應(yīng)的分類,功能描述等信息。示例如下

# COG    func    name
COG0001    H    Glutamate-1-semialdehyde aminotransferase
COG0002    E    N-acetyl-gamma-glutamylphosphate reductase
COG0003    P    Anion-transporting ATPase, ArsA/GET3 family
COG0004    P    Ammonia channel protein AmtB

cog2003-2014.csv 文件保存了蛋白和COG的對應(yīng)關(guān)系,示例如下

333894695,Alteromonas_SN2_uid67349,333894695,427,1,427,COG0001,0,

第一列編號為蛋白質(zhì)的GI號。

prot2003-2014.fa.gz 保存了fasta格式的蛋白序列,示例如下

>gi|118430838|ref|NP_146899.2| putative mercury ion binding protein[Aeropyrum pernix K1]
MIIFKRHSQAILFSHNKQEKALLGIEGMHCEGCAIAIETALKNVKGIIDTKVNYSRGSAI
VTFDDTLVSINDILEHYIFKVPSNYRAKLVSFIS

通過比對COG數(shù)據(jù)庫,可以確定蛋白質(zhì)的功能。


感謝各位的閱讀!關(guān)于“COG數(shù)據(jù)庫有什么用”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI