溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

發(fā)布時(shí)間:2021-07-24 10:52:59 來源:億速云 閱讀:352 作者:chen 欄目:大數(shù)據(jù)

這篇文章主要介紹“如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”,在日常操作中,相信很多人在如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對(duì)大家解答”如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!

HiCUP是一款經(jīng)典的Hi-C數(shù)據(jù)預(yù)處理軟件,官網(wǎng)如下

https://www.bioinformatics.babraham.ac.uk/projects/hicup/

數(shù)據(jù)處理的流程示意如下

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

首先通過hicup_truncater識(shí)別原始序列中的junction reads, 最典型的Hi-C的reads如下所示
如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

R1和R2來自兩個(gè)不同的fragments, 當(dāng)然這取決于插入偏度長度和讀長的關(guān)系,當(dāng)連接點(diǎn)與fragment兩端的距離小于測序讀長是,會(huì)發(fā)生下圖所示的情況

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理
其中一端的序列是一個(gè)嵌合體序列,這樣的序列在后續(xù)比對(duì)時(shí)會(huì)被過濾掉。為了保留這部分有效reads,hicup_truncater根據(jù)酶切位點(diǎn)的特征來識(shí)別所有reads上的連接位點(diǎn),從而識(shí)別上圖中的嵌合體序列,并對(duì)這樣的序列末端進(jìn)行切割,切除多余的嵌合體序列。切割完之后,這樣的序列和普通的R1,R2就一樣了,可以進(jìn)行后續(xù)的mapping。

hicup_mapper將雙端reads與參考基因組比對(duì),由于Hi-C文庫的R1和R2來源于空間結(jié)構(gòu)近的染色質(zhì),其線性距離比傳統(tǒng)的雙端測序插入片段的長度大的多,如果直接進(jìn)行雙端比對(duì),覺得部分reads都比對(duì)不上參考基因組,所以這里是對(duì)每一端的序列分別比對(duì),然后再進(jìn)行合并。

hicup_filter對(duì)比對(duì)上的序列進(jìn)行過濾,如下圖所示

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

只保留valid di-tags, 其他諸如selft-ligation, Re-ligation等片段都會(huì)被過濾掉。

hicup_deduplicator用來去除PCR重復(fù),因?yàn)関alid reads的多少用來表征染色質(zhì)互作的頻率,PCR重復(fù)的reads數(shù)量會(huì)對(duì)這個(gè)信息造成干擾,如果不去除PCR重復(fù),junction reads的數(shù)目多可能是PCR重復(fù)多,不一定是因?yàn)槿旧|(zhì)交互頻率強(qiáng)而導(dǎo)致的reads多。

軟件的安裝也很方便,直接下載解壓縮即可。使用步驟如下

1. 準(zhǔn)備參考基因組的索引文件

所有的參考基因組比對(duì)軟件都需要事先對(duì)基因組建立索引,HiCUP支持使用bowtie或bowtie2進(jìn)行比對(duì),以bowtie2為例,建立基因組索引的方式如下

bowite2-build hg19.fa hg19

第一個(gè)參數(shù)是基因組的fasta文件,第二個(gè)參數(shù)是輸出的索引文件的名稱。

2. 準(zhǔn)備參考基因組酶切位點(diǎn)圖譜

采用hicup_digester這個(gè)腳本來創(chuàng)建基因組的酶切圖譜,基本用法如下

hicup_digester \
--re1 A^AGCTT,HindIII \
--genome hg19_digester_db \
hg19.fa

根據(jù)限制性內(nèi)切酶識(shí)別的位點(diǎn),將基因組序列進(jìn)行模擬酶切,得到所有可能的酶切片段。--re1指定切割位點(diǎn)的序列和內(nèi)切酶的名字,--genome指定輸出文件的名稱。最終輸出的文件名示例如下

Digest_hg19_digester_db_HindIII_None_09-46-07_17-05-2019.txt
3. 編輯配置文件

首先通過如下命令生成一個(gè)配置文件的模板

hicup --example

該命令會(huì)生成一個(gè)名為hicup_example.conf的文件,在此基礎(chǔ)上進(jìn)行編輯就可以了。在配置中對(duì)每個(gè)選項(xiàng)都體用了詳細(xì)的注釋,根據(jù)需求修改即可。常用的修改的選項(xiàng)如下

#Path to the reference genome indices
#Remember to include the basename of the genome indices
Index: /bi/scratch/Genomes/Human/GRCh48/Homo_sapiens.GRCh48
#Path to the genome digest file produced by hicup_digester
Digest: /bi/scratch/Genomes/Human/GRCh48/Digest_Homo_sapiens_GRCh48_HindIII_None_14-43-31_10-02-2016.txt.gz
#FASTQ files to be analysed, placing paired files on adjacent lines
s_1_1_sequence.fastq.gz
s_1_2_sequence.fastq.gz

包括基因組索引和酶切圖譜的路徑,以及需要處理的Hi-C原始fastq文件的路徑。

4. 運(yùn)行

準(zhǔn)備好配置文件之后,就可以運(yùn)行了,用法如下

hicup --config hicup.conf

在輸出結(jié)果的目錄會(huì)生成一個(gè)html文件,展示了質(zhì)控的各項(xiàng)指標(biāo),內(nèi)容如下所示

1. Truncating and Mapping

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

2.  Filtering

示意如下,可以看到valid  pairs的比例在50%左右

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

3. Length Distribution

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

4.  De-dupliation

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

除此之外,輸出目錄還有很多的文件,其中后綴為hicup_bam的文件包含了最終的de-duplication之后的reads的比對(duì)結(jié)果,可以用于下游的分析。

到此,關(guān)于“如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI