您好,登錄后才能下訂單哦!
這篇文章主要介紹“如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”,在日常操作中,相信很多人在如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對(duì)大家解答”如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!
HiCUP是一款經(jīng)典的Hi-C數(shù)據(jù)預(yù)處理軟件,官網(wǎng)如下
https://www.bioinformatics.babraham.ac.uk/projects/hicup/
數(shù)據(jù)處理的流程示意如下
首先通過hicup_truncater
識(shí)別原始序列中的junction reads, 最典型的Hi-C的reads如下所示
R1和R2來自兩個(gè)不同的fragments, 當(dāng)然這取決于插入偏度長度和讀長的關(guān)系,當(dāng)連接點(diǎn)與fragment兩端的距離小于測序讀長是,會(huì)發(fā)生下圖所示的情況
其中一端的序列是一個(gè)嵌合體序列,這樣的序列在后續(xù)比對(duì)時(shí)會(huì)被過濾掉。為了保留這部分有效reads,hicup_truncater
根據(jù)酶切位點(diǎn)的特征來識(shí)別所有reads上的連接位點(diǎn),從而識(shí)別上圖中的嵌合體序列,并對(duì)這樣的序列末端進(jìn)行切割,切除多余的嵌合體序列。切割完之后,這樣的序列和普通的R1,R2就一樣了,可以進(jìn)行后續(xù)的mapping。
hicup_mapper
將雙端reads與參考基因組比對(duì),由于Hi-C文庫的R1和R2來源于空間結(jié)構(gòu)近的染色質(zhì),其線性距離比傳統(tǒng)的雙端測序插入片段的長度大的多,如果直接進(jìn)行雙端比對(duì),覺得部分reads都比對(duì)不上參考基因組,所以這里是對(duì)每一端的序列分別比對(duì),然后再進(jìn)行合并。
hicup_filter
對(duì)比對(duì)上的序列進(jìn)行過濾,如下圖所示
只保留valid di-tags, 其他諸如selft-ligation
, Re-ligation
等片段都會(huì)被過濾掉。
hicup_deduplicator
用來去除PCR重復(fù),因?yàn)関alid reads的多少用來表征染色質(zhì)互作的頻率,PCR重復(fù)的reads數(shù)量會(huì)對(duì)這個(gè)信息造成干擾,如果不去除PCR重復(fù),junction reads的數(shù)目多可能是PCR重復(fù)多,不一定是因?yàn)槿旧|(zhì)交互頻率強(qiáng)而導(dǎo)致的reads多。
軟件的安裝也很方便,直接下載解壓縮即可。使用步驟如下
所有的參考基因組比對(duì)軟件都需要事先對(duì)基因組建立索引,HiCUP支持使用bowtie或bowtie2進(jìn)行比對(duì),以bowtie2
為例,建立基因組索引的方式如下
bowite2-build hg19.fa hg19
第一個(gè)參數(shù)是基因組的fasta文件,第二個(gè)參數(shù)是輸出的索引文件的名稱。
采用hicup_digester
這個(gè)腳本來創(chuàng)建基因組的酶切圖譜,基本用法如下
hicup_digester \
--re1 A^AGCTT,HindIII \
--genome hg19_digester_db \
hg19.fa
根據(jù)限制性內(nèi)切酶識(shí)別的位點(diǎn),將基因組序列進(jìn)行模擬酶切,得到所有可能的酶切片段。--re1
指定切割位點(diǎn)的序列和內(nèi)切酶的名字,--genome
指定輸出文件的名稱。最終輸出的文件名示例如下
Digest_hg19_digester_db_HindIII_None_09-46-07_17-05-2019.txt
首先通過如下命令生成一個(gè)配置文件的模板
hicup --example
該命令會(huì)生成一個(gè)名為hicup_example.conf
的文件,在此基礎(chǔ)上進(jìn)行編輯就可以了。在配置中對(duì)每個(gè)選項(xiàng)都體用了詳細(xì)的注釋,根據(jù)需求修改即可。常用的修改的選項(xiàng)如下
#Path to the reference genome indices
#Remember to include the basename of the genome indices
Index: /bi/scratch/Genomes/Human/GRCh48/Homo_sapiens.GRCh48
#Path to the genome digest file produced by hicup_digester
Digest: /bi/scratch/Genomes/Human/GRCh48/Digest_Homo_sapiens_GRCh48_HindIII_None_14-43-31_10-02-2016.txt.gz
#FASTQ files to be analysed, placing paired files on adjacent lines
s_1_1_sequence.fastq.gz
s_1_2_sequence.fastq.gz
包括基因組索引和酶切圖譜的路徑,以及需要處理的Hi-C原始fastq文件的路徑。
準(zhǔn)備好配置文件之后,就可以運(yùn)行了,用法如下
hicup --config hicup.conf
在輸出結(jié)果的目錄會(huì)生成一個(gè)html文件,展示了質(zhì)控的各項(xiàng)指標(biāo),內(nèi)容如下所示
示意如下,可以看到valid pairs的比例在50%左右
除此之外,輸出目錄還有很多的文件,其中后綴為hicup_bam
的文件包含了最終的de-duplication之后的reads的比對(duì)結(jié)果,可以用于下游的分析。
到此,關(guān)于“如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。