溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

GFF3格式是什么

發(fā)布時間:2022-03-10 11:11:55 來源:億速云 閱讀:475 作者:小新 欄目:開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)GFF3格式是什么,小編覺得挺實(shí)用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

GFF3格式說明

GFF3每一行代表一個序列元件(以#為開頭的注釋行除外),每一行有且只有9列(也就是每個序列元件有9個屬性),列與列只能必須使用tab鍵來分割,如果某個序列元件的某個屬性為空那么必須使用“.”來代替,格式如下:

2L      FlyBase transcript      7529    9484    .       +       .       ID=FBtr0300690;Parent=FBgn0031208;Name=CG11023-RC;biotype=protein_coding;transcript_id=FBtr0300690
2L      FlyBase five_prime_UTR  7529    7679    .       +       .       Parent=FBtr0300690
2L      FlyBase exon    7529    8116    .       +       .       Parent=FBtr0300690;Name=FBtr0300690-1;constitutive=1;ensembl_end_phase=2;ensembl_phase=-1;exon_id=FBtr0300690-E1;rank=1
2L      FlyBase CDS     7680    8116    .       +       0       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L      FlyBase exon    8193    8589    .       +       .       Parent=FBtr0300690;Name=FBtr0300690-2;constitutive=0;ensembl_end_phase=0;ensembl_phase=2;exon_id=FBtr0300690-E2;rank=2
2L      FlyBase CDS     8193    8589    .       +       1       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L      FlyBase CDS     8668    9276    .       +       0       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914

這9列從左到右分別是:

1. seqid - scaffold或者chromosome的名稱說明
2. source - 產(chǎn)生一個序列元件的軟件的名稱或者數(shù)據(jù)源(數(shù)據(jù)庫名稱或者項(xiàng)目名稱)
3. type - 序列元件的類型,例如:mRNA、CDS等等
4. start - 序列元件在scaffold或者chromosome上的起始位置,從1開始計(jì)數(shù)
5. end - 序列元件在scaffold或者chromosome上面的終止位置,從1開始計(jì)數(shù)
6. score - 該序列元件的打分,一般為該序列元件做比對時的E-value和ab initio gene prediction features時的P-value
7. strand - “+”代表該序列元件在scaffold或者chromosome的正鏈,反之亦反
8. phase - 可以為“0”、“1”、“2”,“0”代表該序列元件的第一個堿基為第一個密碼子的第一個剪輯,“1”代表該序列元件的第二個堿基是第一個密碼子 的第一個堿基,依次類推。
9. attributes - 該序列元件的一些其他屬性,可以有多個每個屬性之間必須以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,請注意這個Parent屬性,由于序列元件是很復(fù)雜的,一個序列元件(例如:exon)可能屬于另外一個序列元件(例如:gene),這個Parent屬性的意思就是該序列元件在哪個序列元件上面,如果一個序列元件沒有Parent屬性,說明他的父元件就是scaffold或者chromosome

關(guān)于“GFF3格式是什么”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

gff
AI